编者按:自然语言不仅仅是英语。然而,在当前的NLP研究中,人们往往认为英语是一种足够代表性的语言。这导致了对其他语言的忽视,尤其是在审稿和会议发表方面。最近,华盛顿大学的Emily M. Bender撰写了一篇文章《The Bender Rule: On Naming the Languages We Study and Why It Matters》,揭示了这一问题,并提出了一个方案来命名和标记学习的语言。AI科技评论对此进行了深化编译。
一、资源差异与NLP进展
在NLP领域,一切都依赖于可用的资源。一旦这些资源被标注或注解,就可以用于训练机器学习模型,无论是监督式、弱监督、半监督还是远程监督技术。在数据需求量巨大的机器学习任务中,即使使用这些先进方法,也仍然需要大量未标记数据作为支持。
这种需求造成了数字鸿沟,使得高资源语言(如英语、汉语、阿拉伯语和法语)成为主要研究对象,而低资源语言则被边缘化。截至2019年8月,LRE Map列出了超过960个英语资源,这些包括美式英语等多种变体,以及德语、葡萄牙语西班牙语等其他几个拥有大量可用文本和音频资料以及部分注释资料库(treebank)的语言。而世界上剩余大约7000种其他语言则缺乏足够数量的可用资料甚至没有任何资料。
二、高度集中与不成比例
虽然全球范围内有很多人使用英语或汉语,但这并不意味着NLP研究应该只限于这两种语言。不过现实情况是,大部分重要的NLP会议上的研究工作集中在高资源语言上,其中尤以英文为主。
审稿人常常错误地将某项任务上的最先进水平与该任务在英文上的最先进水平相提并论。如果一篇论文无法与之比较,他们便觉得它无价值。此外,由于人们潜意识认为英语代表所有自然言行,因此即便是在“特殊”名称下讨论非英文字母时,也助长了这种误解。
三、“雨滴窗户”的比喻
我曾在Widening NLP 2019大会上提出过这样一个比喻,将NLP视作一扇带有不同形状雨滴模式的窗户,每一种独特而又丰富多彩,不同领域的人从不同的角度观察,从事信息提取的人关注数字化编码,从事语言学的人关心结构模式及交际意图。这就像每个窗户都有自己独特的风格,我们不能因为自己所处的是风景优美的一面,而忽略周围更多未被发现的小径探索。
四、一系列不可替代性因素
英语是一门口头而非符号系统,它错失了一类重要类型。
拼写系统基于发音,但许多其他系统更透明,如西班牙语。
拼写提供单独字词概念,但不是所有书面形式都如此,如泰国日耳曼诸多方言。
大多数书面内容仅限ASCII字符集,不需担忧字符编码或Unicode符号。
形态变化较少,使得某些技术难以适应变化快如韩文假名系统中的词汇。
话序固定,对灵活性较强但规律性较弱如俄罗斯波斯尼亚克罗地亚等文化更为挑战性。
表单匹配数据库字段名,本体条目,有些可能会发生“意外”匹配,但是这样的可能性很小且局限于具体应用场景而非普遍适用;
8.,Bert基于3亿token训练,并专用于英文,如果我们将精力全部投入到依赖大量数据方法上,那么我们如何构建适合其他大多数人类交流使用的大量低成本数据?
综上所述,我们必须认识到自然言行不止有英文字母,还存在众多其它文化背景下的珍贵宝藏。当我们的努力全力以赴追求高度精准处理那些已知且广泛接受的一类通用中文拼音输入法时,我们似乎忘记了一般用户对于实际操作效率感兴趣,这才是真正让计算机科学家能够理解并利用他们设计出来的大型程序复杂算法功能的心理状态。但现在我们正处在一个转折点,是时候重新评估我们的目标是否还能满足整个世界各地不同地区人民对于自动翻译工具希望实现的事务,以达到真正有效沟通目的吗?