谷歌发布新NLP基准测试XTREME40种语言9项推理任务引人关注

谷歌联合CMU和DeepMind发布新NLP基准测试XTREME,覆盖40种语言9项推理任务引人注目。该基准测试旨在评估跨语言迁移学习的性能,涵盖了多样化的语言系统和具有代表性的任务。 XTREME设计考虑了任务难度、多样性、训练效率以及充足的单语数据等因素,以确保其广泛适用性。

XTREME包含9个不同类别的推理任务,如XNLI、PAWS-X、POS、NER等,以及TyDiQA-GoldP、BUCC和Tatoeba等其他挑战性任务。这些建议允许研究者评估自然语言处理模型在各种复杂情景下的跨语言泛化能力。

为了使用XTREME进行评估,模型首先需要通过预训练在多语言文本上,然后对英语数据进行微调,并最终在目标语言上的零售迁移性能进行评估。实验结果显示,即使是没有特定目标语言训练数据的情况下,零售迁移模型也能达到较好的表现,但对于有标注数据可用的任务来说,在这些目标语言上微调后的模型表现更佳。

此外,对于一些强大的多语种模型,如mBERT,XLM-R和M4,它们能够显著缩小跨语言转移差距,但结构化预测任务中的影响并不相同。在分类任务中,转移学习差距最小,这表明这些任务上的进步空间可能相对较小。此外,由于机器翻译技术的发展,全面的差距都得到了缩减,为进一步提升跨语通用能力提供了新的方向。

猜你喜欢