编者按:自然语言不仅仅是英语。然而,在当前的NLP研究中,人们往往认为英语是一种足够代表性的语言。除了英语以外的其他语言通常被视为“特殊”语言,且在审稿人的眼中,它们同等情况下的研究成果并不如英语研究重要。这实际上是在对语言进行“以偏概全”。最近,有一位华盛顿大学的语言学家Emily M. Bender撰写了一篇文章《The Bender Rule: On Naming the Languages We Study and Why It Matters》,指出了这些问题,并提出了一个关于如何命名和标记学习的方案。AI科技评论对其文章进行了重新编译,以保持原意而非改变。
首先,NLP领域中的进展取决于可用的资源。在使用机器学习技术之前,这些资源需要有标准化的标签或注释来反映系统对于特定任务的预期输出。即使采用无监督、弱监督、半监督或远程监督等技术,也依然需要大量标记数据来评估性能。此外,对于数据需求量极大的机器学习技术,通常还需要大量未标记数据支持。
这种需求导致了NLP领域出现高资源与低资源之间数字鸿沟。在此,我们可以将高资源类别限制为几种,如英语、汉语、阿拉伯语和法语,以及德语、葡萄牙语和西班牙语等。此外,还有少数超过50个项目以上拥有丰富资源的其他语言,比如葡萄牙语、意大利语和荷兰语。但是,大约7000多种世界上的其他语言则只有极少或没有任何可用资源。
值得强调的是,在主要NLP会议上发表的大部分工作都集中在高资源类别上,其中大多数论文集中在英语上。虽然这是因为很多人都是第二语言习惯者,但这并不意味着我们应该只专注于这两种主要性质的人们所说的第一或第二言。但遗憾的是,由于缺乏对于除English之外其他所有情形的情况下相同水平优先级的问题,我们陷入了一个恶性循环:除English之外所有其他情形,都被看作是不重要的情形。
审稿人经常错误地认为某项任务上的最先进水平与该任务在English中的最先进水平相似,如果不能与之比较,他们就无法判断这个研究是否具有价值。而人们潜意识里认为English是一个充分代表性的自然语言。当他们学习到的是English时,他们不会去显示它是哪一种方言,这更加深了这一误解。但事实是,England既不是自然语言代名词也不是代表自然言体二。
接下来,我要讲述一些为什么英文字母不能代表全部情景的事例:
它是一种口头交流方式,而非符号交流方式。如果我们只做英文字母方面的研究,我们就会错过一种非常重要的情境。
它有一套完善长久以来广泛使用的大致基于发音拼写系统(phone-based orthographic system)。
英文书写法近似这个原理,其它西班牙字母等基于发音拼写法系统更加透明化,一些古老希伯来及阿拉伯字母仅象征辅音或者通过逻辑系统(例如中文)形成日文假名形式,或借鉴汉字形成日文;参见Handel 2019)。当然,还有许多没有书面格式或者书面格式历史较短尚未发展出标准拼写格式的一些民族。
英文字母提供了一个成为“word”的概念,每个单独单元之间会留下空白隔开。
然而并不是每一种文化都遵守这样的规则,比如汉字及泰国,一旦开始处理它们,就必须从分词开始考虑。
大部分英文作品通常只使用计算机普遍能找到的小ASCII字符集,不担心不寻常字符编码以及不支持Unicode符号问题。
英文学术结构相对简单,因此每个词汇形式有限。
许多跨学科技术存在稀缺信息的问题,只当同一词汇以不同的形式出现于高度变化环境中时才显著增加复杂度。(基于n-gram深度学习模型解决了一定的但仍旧不同文化间的一个区别)
7.,,,
8.,
因此,要实现适用于全球大多数国家的跨文化通信工具,我们必须超越目前狭隘观念,将我们的注意力转向那些难以获得训练材料的地方。我提出Bender Rule,是为了确保我们能够公平地评价所有类型的人工智能应用,而不只是那些使用特定类型输入数据的人工智能应用。如果我们继续忽略这样做,那么未来可能很难实现真正意义上的跨文化通讯能力。