当前位置：首页 > 技术 > 谷歌发布新NLP基准测试XTREME40种语言挑战9项推理任务娱乐圈人物如何应对

谷歌发布新NLP基准测试XTREME40种语言挑战9项推理任务娱乐圈人物如何应对

技术
2025-01-26 13:52
0

谷歌联合CMU、DeepMind发布《XTREME：评估跨语言泛化的大规模、多语言、多任务基准》（XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization），这项研究涵盖了40种类型的语言，包括12种语系，并包含9项需要共同对不同级别的句法或语义进行推理的任务。这个基准测试旨在评估跨语言迁移学习的性能，设计原则是使得模型在不同的层次上传递不同的意义，同时考虑到资源有限和训练效率。

XTREME中包含9个任务，可以在不同的意义层次上进行推理，包括XNLI、PAWS-X、POS、NER、XQuAD、MLQA等。这些任务涵盖了一系列范式，如句子分类，结构化预测，句子检索和问题解答。在评估设置上采用英语作为源语言的zero-shot跨语言迁移，因为英语是目前实践中最常用的评估设置。

为了使用XTREME评估模型性能，首先需要使用目标语言在多语言文本上对模型进行预训练，然后在指定任务的英语数据上对模型进行微调。最后，在目标语言上通过zero-shot方式进行评估。这一过程可以提升计算效率，因为只需针对每个任务在英语数据上进行微调，便可以直接评价其他语言上的表现。

实验结果表明，大型多-language机器翻译模型M4（MMTE）在大多数任务上的性能与mBERT相当，而XLMR显示出显著改进，但结构化预测中的改进较小。在有语内训练数据的情况下，用语内数据训练的多-language模型通常优于零热启动迁移，但只要有更多英文样本，零热启动迁移就能超越仅用1000个复杂QA示例来训练同一language-models的情况。此外，在Translate-train和In-language设置下的多task学习通常比单一language-training有所改善。

对于一些具有代表性的model作者还研究了跨language转换差距，即英文字面理解集上的表现与所有其他languages之间差异。在挑战性的tasks如XQuAD和MLQA等方面，不同强大的model如XLM-R能够显著缩小差距，但其影响并不相同，这说明虽然机器翻译能缩小差距，但仍存在很大的空间来提高performance。