最新资讯揭秘自然语言与英语差距NLPer如何迎接挑战

编者按:自然语言并不仅限于英语,但在现有的自然语言处理(NLP)研究中,人们往往错误地将英语视为代表性语言。这种误解导致了对非英语语言的研究被忽视和低估,形成了一个“以偏概全”的局面。近日,一位华盛顿大学的语言学家Emily M. Bender撰写了一篇文章《The Bender Rule: On Naming the Languages We Study and Why It Matters》,指出了这一问题,并提出了解决方案。本文旨在对其文章进行编译,以深化信息。

一、资源差异造成的数字鸿沟

NLP领域的发展依赖于丰富的语言资源,其中包括标注数据和未标记数据。在机器学习技术,如无监督、弱监督、半监督或远程监督等方面,虽然可以降低对标注数据的依赖,但仍然需要大量可用的数据来评估系统性能。此种需求导致了高资源语言与低资源语言之间存在显著差距。高资源语种如英语、汉语、阿拉伯语和法语拥有丰富的文本和音频资料,以及一些标准化的注释工具;而其他超过50个具有较多资源的大型项目则仅限于葡萄牙语、意大利语等少数几种。而世界上大约7000多种其他语言几乎没有足够数量可用的基础设施。

二、高级会议上的不成比例分布

尽管全球各地使用广泛且重要的地球主要NLP会议上发表的大部分研究工作集中在这类高级别支持中文/英文及其他常见国际交流用途之外还有一些例子,如韩国、日本以及印度尼西亚这些国家也是有着自己的特色,用处也很广泛。但是,我们发现,大多数专家聚焦于他们认为更容易获得成功与影响力的那些主要用途,即使这可能意味着忽略那些真正需要帮助的人群。

因此,我们必须意识到我们应该如何改进我们的方法论,以便能够更好地服务所有人,而不只是那些最受欢迎的一小部分。

三、Bender规则

2009年,在EACL研讨会上,有人提出了“Bender规则”,即应当认真考虑并包含各种不同类型的问题,并利用它们来测试模型是否能够适应新的任务。这对于提高计算机科学与人类学之间互动方式至关重要,因为它鼓励开发者去探索不同的文化背景下用户如何思考,从而创建更加灵活有效的心理模型。

总结来说,这场危机是由我们长期以来对于跨文化交际能力不足所引起的一个反思,它揭示了我们过去一直都犯的一个巨大的错误——假设一种特定的社会文化模式就是通用模式。现在,我们正在努力改正这个错误,将我们的注意力转移到那些曾经被忽视但同样重要的人身上。

猜你喜欢