当前位置：首页 > 技术 > 谷歌新NLP基准测试XTREME40种语言9项推理任务解锁影视秘密

谷歌新NLP基准测试XTREME40种语言9项推理任务解锁影视秘密

技术
2025-01-26 15:39
0

在这篇文章中，作者蒋宝尚和编辑贾伟深入探讨了全球约6900种语言中的数据规模问题，以及这种限制对自然语言处理（NLP）研究的影响。他们指出，大多数现有的NLP基准测试仅限于英语，这严重阻碍了跨语言自然语言处理技术的发展。

为了克服这一挑战，谷歌、卡耐基梅隆大学（CMU）和DeepMind合作推出了《XTREME：评估跨语言泛化的大规模、多语言、多任务基准》（XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization），这是一个包含40种不同类型的语言以及9项需要共同进行句法或语义推理任务的基准测试。这些任务旨在评估机器学习模型在不同的层次上传递意义能力，如分类任务需要句子级别意义转移，而序列标记任务则要求词级别意义转移。

XTREME设计原则强调了难度、多样性、训练效率以及充足单语数据等关键因素。通过这个新发布的工具，研究人员能够更全面地评估跨语言迁移学习模型，并为解决当前NLP领域面临的问题提供了一大步进展。

文章还介绍了九个具体任务，其中包括XNLI用于扩展到15种不同的低资源和高资源语言；PAWS-X是基于释义识别对抗性数据集扩展，以支持6种不同类型的非英语解释；POS用于依存关系分析；NER用于命名实体识别；XQuAD和MLQA用于问答系统性能评测；TyDiQA-GoldP为问答系统提供11种不同类型的低资源及高资源翻译品质检查标准；BUCC为分词提供训练和测试集，并采用余弦相似度计算相似度；Tatoeba利用余弦相似度来找到近邻并计算错误率。

实验结果显示，使用零shot设置，即预先在所有文本上进行预训练，然后只微调一次，在指定英语数据上，对于某些模型来说可以获得较好的性能。但对于有标注目标语言训练数据的情况下，使用这些目标数据进行微调可以进一步提高性能。在一些结构化预测任务中，只需1000个复杂问题即可达到与完整标注数据集相同水平。此外，在translate-train或in-language设置上的多任务学习通常比单一源设置有所改善。