谷歌联合CMU、DeepMind发布《XTREME:评估跨语言泛化的大规模、多语言、多任务基准》(XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization),这项研究涵盖了40种类型的语言,包括12种语系,并包含9项需要共同对不同级别的句法或语义进行推理的任务。这个基准测试旨在评估跨语言迁移学习的性能,设计原则是使得模型在不同的层次上传递不同的意义,同时考虑到资源有限和训练效率。
XTREME中包含9个任务,可以在不同的意义层次上进行推理,包括XNLI、PAWS-X、POS、NER、XQuAD、MLQA等。这些任务涵盖了一系列范式,如句子分类,结构化预测,句子检索和问题解答。在评估设置上采用英语作为源语言的zero-shot跨语言迁移,因为英语是目前实践中最常用的评估设置。
为了使用XTREME评估模型性能,首先需要使用目标语言在多语言文本上对模型进行预训练,然后在指定任务的英语数据上对模型进行微调。最后,在目标语言上通过zero-shot方式进行评估。这一过程可以提升计算效率,因为只需针对每个任务在英语数据上进行微调,便可以直接评价其他语言上的表现。
实验结果表明,大型多-language机器翻译模型M4(MMTE)在大多数任务上的性能与mBERT相当,而XLMR显示出显著改进,但结构化预测中的改进较小。在有语内训练数据的情况下,用语内数据训练的多-language模型通常优于零热启动迁移,但只要有更多英文样本,零热启动迁移就能超越仅用1000个复杂QA示例来训练同一language-models的情况。此外,在Translate-train和In-language设置下的多task学习通常比单一language-training有所改善。
对于一些具有代表性的model作者还研究了跨language转换差距,即英文字面理解集上的表现与所有其他languages之间差异。在挑战性的tasks如XQuAD和MLQA等方面,不同强大的model如XLM-R能够显著缩小差距,但其影响并不相同,这说明虽然机器翻译能缩小差距,但仍存在很大的空间来提高performance。