谷歌新NLP基准测试XTREME40种语言9项推理任务解锁影视秘密

在这篇文章中,作者蒋宝尚和编辑贾伟深入探讨了全球约6900种语言中的数据规模问题,以及这种限制对自然语言处理(NLP)研究的影响。他们指出,大多数现有的NLP基准测试仅限于英语,这严重阻碍了跨语言自然语言处理技术的发展。

为了克服这一挑战,谷歌、卡耐基梅隆大学(CMU)和DeepMind合作推出了《XTREME:评估跨语言泛化的大规模、多语言、多任务基准》(XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization),这是一个包含40种不同类型的语言以及9项需要共同进行句法或语义推理任务的基准测试。这些任务旨在评估机器学习模型在不同的层次上传递意义能力,如分类任务需要句子级别意义转移,而序列标记任务则要求词级别意义转移。

XTREME设计原则强调了难度、多样性、训练效率以及充足单语数据等关键因素。通过这个新发布的工具,研究人员能够更全面地评估跨语言迁移学习模型,并为解决当前NLP领域面临的问题提供了一大步进展。

文章还介绍了九个具体任务,其中包括XNLI用于扩展到15种不同的低资源和高资源语言;PAWS-X是基于释义识别对抗性数据集扩展,以支持6种不同类型的非英语解释;POS用于依存关系分析;NER用于命名实体识别;XQuAD和MLQA用于问答系统性能评测;TyDiQA-GoldP为问答系统提供11种不同类型的低资源及高资源翻译品质检查标准;BUCC为分词提供训练和测试集,并采用余弦相似度计算相似度;Tatoeba利用余弦相似度来找到近邻并计算错误率。

实验结果显示,使用零shot设置,即预先在所有文本上进行预训练,然后只微调一次,在指定英语数据上,对于某些模型来说可以获得较好的性能。但对于有标注目标语言训练数据的情况下,使用这些目标数据进行微调可以进一步提高性能。在一些结构化预测任务中,只需1000个复杂问题即可达到与完整标注数据集相同水平。此外,在translate-train或in-language设置上的多任务学习通常比单一源设置有所改善。

总之,《XTREME》不仅开辟了新的研究方向,而且为未来跨文化交流带来了前所未有的可能性,使得我们能够更加精确地理解每一种独特而丰富的人类表达方式,从而促进全球范围内的人工智能技术发展。

猜你喜欢