编者按:自然语言并不仅限于英语,但在现有的自然语言处理(NLP)研究中,人们往往认为英语是一种代表性的语言。除了英语以外的其他语言通常被视为“特殊”的,且在审稿时其重要性不如英语研究。在华盛顿大学的一位语言学家Emily M. Bender撰写了一篇文章《The Bender Rule: On Naming the Languages We Study and Why It Matters》,指出这一问题,并提出对学习和标记各种语言的方案。以下是对其文章的深化编译。
NLP领域的发展与资源丰富程度紧密相关。这些资源需要标准化标签或注释,以反映系统对于特定任务的预期输出。尽管无监督、弱监督、半监督或远程监督机器学习技术减少了对标记数据依赖,但仍需大量数据评估系统性能。此需求造成了NLP领域中的高资源和低资源数字鸿沟。
高资源语言只有几种,如英语、汉语、阿拉伯语及法语,以及德语、葡萄牙语、西班牙语和芬兰语。这类语言拥有大量可访问文本和音频资料,以及一些注释资料如树型库(treebank)和评估集。而截至2019年8月,LRE Map记录了961项英语 资源,另外还有美式英语121项、德语216项等。此外,还有超过50个大规模使用者的其他50多种主要及次要国家官方使用的人口母語,只有葡萄牙語有103个大规模使用者资源,其余则极少或者没有任何可用。
此外,在主要NLP会议上发表的大部分研究都集中在高资源语言上,不成比例地集中在英文上。然而,这并非应该只做这两种之上的研究,而是应当更广泛地涵盖所有人所说的世界各地言谈之声。但不幸的是,由于除英文以外其他任何一种作为“特殊”类型进行考虑,因此它们被认为同等情况下不如英文研究重要。
此一误解加剧了一个恶性循环:由于潜意识里将某些任务最先进水平等同于该任务在英文上的最先进水平,如果一篇论文不能与之比较,那么审稿人就无法判断这个研究是否具有价值。而当我们潜意识中将某一项目作为了“代表性”时,我们忽略了每一种独特风格窗户,每一种独特雨滴模式,即每一种独特文化传承背景下的不同表达方式,从而陷入错误理解——以为只要掌握英文,就能掌握全部自然言谈。
总结来说,没有哪门单一文字可以代表所有天下言谈;即便是广泛应用但仍然有限制范围内功能结构安排的一般文字也不应成为唯一探索对象;从信息提取到知识挖掘再到跨越人类交流,无论如何提升我们的工具,都必须超越以往狭隘认知,将多样化视野融合,一起探讨科技与文化之间交错的地方——让我们的窗户敞开,让更多雨滴沾湿我们的心灵世界,为全人类提供更宽广更多样的交流空间。在这样全球化趋势下,更应认识到不同民族间通过不同的方式互相理解,从而推动技术向前迈进,使得它既服务人类,又促进彼此尊重与理解。这正是未来科技界应该朝向的一个方向,是我们共同努力实现的一个目标。