在这篇文章中,作者蒋宝尚和编辑贾伟深入探讨了全球约6900种语言中的数据规模问题,以及这种限制对自然语言处理(NLP)研究的影响。他们指出,大多数现有的NLP基准测试仅限于英语,这严重阻碍了跨语言自然语言处理技术的发展。
为了克服这一挑战,谷歌、卡耐基梅隆大学(CMU)和DeepMind合作推出了《XTREME:评估跨语言泛化的大规模、多语言、多任务基准》(XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization),这是一个包含40种不同类型的语言以及9项需要共同进行句法或语义推理任务的基准测试。这些任务旨在评估机器学习模型在不同的层次上传递意义能力,如分类任务需要句子级别意义转移,而序列标记任务则需要词级别意义转移能力。
XNLI是一个新的自然语言推断数据集,由FAIR和纽约大学合作开发,它将MultiNLI测试集和开发集扩展到15种不同的低资源语言。PAWS-X是基于PAWS数据集扩展的一个释义识别对抗性数据集,支持六种不同类型的解释性翻译包括法语、西班牙语、德语、日本汉语和韩语。此外,还有POS标签数据集中使用通用依存关系数据库,并且使用英语训练数据进行训练并在目标语言的测试集中进行评估。
NER利用Wikiann数据集来自动注释维基百科中的命名实体,并且通过知识库属性、跨文化链接等方法进行训练。在此之上还有XQuAD、大型问答系统MLQA以及TyDiQA-GoldP等其他功能性的基础设施以提供更多样化的评测标准。
综上所述,该文章详细介绍了谷歌发布的一套用于评价机器学习模型跨越各种不同背景下的性能的新工具,即XTREME。这套工具涵盖了40种不同的文本输入格式,并且可以帮助研究者更好地理解如何设计能够适应任何一种人类可读写方言的人工智能系统。