当前位置：首页 > 技术 > 谷歌发布新NLP基准测试XTREMEQQ最新资讯显示人物广泛参与9项推理任务

谷歌发布新NLP基准测试XTREMEQQ最新资讯显示人物广泛参与9项推理任务

技术
2025-01-26 06:16
0

谷歌联合CMU、DeepMind发布《XTREME：评估跨语言泛化的大规模、多语言、多任务基准》（XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization），这是一个全新的NLP基准测试，旨在推动自然语言处理技术的多语言发展。该基准测试涵盖了40种类型的不同语言（包括12种语系），并包含9项需要共同对不同级别的句法或语义进行推理的任务。

这项研究鼓励了多语言研究，并为评估跨语言迁移学习提供了一套标准方法。它不仅关注于单一特定任务，还涉及到广泛的应用场景，如分类、序列标记和问题解答等。通过这种方式，开发者能够更好地理解模型在不同的环境和任务中的表现，并针对性地改进它们。

此外，该基准测试还包括XNLI（扩展版MultiNLI）、PAWS-X（基于PAWS数据集扩展）、POS（通用依存关系中数据库中的POS标签数据）、NER（使用Wikiann数据集进行命名实体识别）、XQuAD（由专业翻译人员翻译成十种语言的240段和1190对问题回答）、MLQA（类似于XQuAD，但用于评估跨语言问答性能）以及TyDiQA-GoldP、BUCC 和 Tatoeba 等其他多样化任务。

为了使用XTREME评估模型性能，首先需要使用目标语言在多语言文本上对模型进行预训练，然后在指定任务的英语数据上对模型进行微调。在最后一步，XTREME 在目标语言上评估模型零shot 跨language 迁移性能。这有助于提升计算效率，因为预训练后的模型只需针对每个任务在英语数据上微调，便可直接应用到其他任何一种支持该基准测试的非英语语种中。

实验结果显示，在结构化预测方面，有些强大的机器学习算法如 XLMR 比 mBERT 有明显改进，而 MMTE 在大部分情况下与 mBERT 相同甚至优越。在有大量英文样本的情况下，即使没有额外训练，也能取得很好的效果。但对于具有代表性的模型来说，它们之间存在着跨language 转移差距，即它们在某些挑战性高的问题上的表现相差较大。