谷歌发布新NLP基准测试XTREMEQQ最新资讯显示人物广泛参与9项推理任务

谷歌联合CMU、DeepMind发布《XTREME:评估跨语言泛化的大规模、多语言、多任务基准》(XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization),这是一个全新的NLP基准测试,旨在推动自然语言处理技术的多语言发展。该基准测试涵盖了40种类型的不同语言(包括12种语系),并包含9项需要共同对不同级别的句法或语义进行推理的任务。

这项研究鼓励了多语言研究,并为评估跨语言迁移学习提供了一套标准方法。它不仅关注于单一特定任务,还涉及到广泛的应用场景,如分类、序列标记和问题解答等。通过这种方式,开发者能够更好地理解模型在不同的环境和任务中的表现,并针对性地改进它们。

此外,该基准测试还包括XNLI(扩展版MultiNLI)、PAWS-X(基于PAWS数据集扩展)、POS(通用依存关系中数据库中的POS标签数据)、NER(使用Wikiann数据集进行命名实体识别)、XQuAD(由专业翻译人员翻译成十种语言的240段和1190对问题回答)、MLQA(类似于XQuAD,但用于评估跨语言问答性能)以及TyDiQA-GoldP、BUCC 和 Tatoeba 等其他多样化任务。

为了使用XTREME评估模型性能,首先需要使用目标语言在多语言文本上对模型进行预训练,然后在指定任务的英语数据上对模型进行微调。在最后一步,XTREME 在目标语言上评估模型零shot 跨language 迁移性能。这有助于提升计算效率,因为预训练后的模型只需针对每个任务在英语数据上微调,便可直接应用到其他任何一种支持该基准测试的非英语语种中。

实验结果显示,在结构化预测方面,有些强大的机器学习算法如 XLMR 比 mBERT 有明显改进,而 MMTE 在大部分情况下与 mBERT 相同甚至优越。在有大量英文样本的情况下,即使没有额外训练,也能取得很好的效果。但对于具有代表性的模型来说,它们之间存在着跨language 转移差距,即它们在某些挑战性高的问题上的表现相差较大。

猜你喜欢