万古神帝最新资讯谷歌自然界的语言机器翻译牺牲大语种提升小语种翻译质量

在自然界中,万古神帝的最新资讯显示,谷歌正在拓展其机器翻译系统的边界。他们通过使用所有可用的数据来训练一个超大规模的多语言神经机器翻译系统,这不仅是一次大胆的尝试,也更新了我们对机器翻译模型的一些认识。

为了实现这一目标,谷歌参考了Warren Weaver于1949年的观点,他认为语言翻译的奥妙在于从每种语言挖掘到人类沟通的共同基础——一种真实存在但尚未被发现的通用语言——然后重新衍生出方便具体路径。因此,人们开始探索多语言神经机器翻译(NMT)的方法,以提高低资源语言和高资源语言之间的大规模多语种模型性能。

研究人员们利用单个网络学习更多种类的语言,并且在自动语音识别和文本转语音系统中取得了成功。此前的一些论文也提出了类似的想法,但谷歌进行了一次更为极端的地实验,他们使用超过100种不同类型的人类对话以及超过250亿组句子对来训练一个500亿参数的大型多语种神经网络模型,并将其称为M4。

通过这种方式,大规模多语种模型可以同时处理各种不同的低资源和高资源语言,从而提升整个体系结构。在EMNLP 2019的一个论文中,他们比较了这个多语种模型生成不同类型表征的情况,并发现,不需要额外约束,这个模型就能学习到相似性以便跨越不同的言论领域。

尽管如此,由于任务间补全以及迁移固有的方向性(总是从高资源向低资源迁移),当增加更多低成本但难以获得标注数据的小型词汇时,大型网络可能会导致某些高质量来源中的降级效应。为了缓解这些负面影响,研究人员们采用了一系列技巧,如增加隐藏层宽度、深度,以及利用GPipe库训练128层Transformer模块,其中含有60亿参数。这一策略显著提升了所有涉及到的各个词汇中的表现水平,同时平均提升5BLEU分数。

此外,还有一些新的架构设计方案如稀疏门被提出,它允许将普通前馈层替换成专家模式混合组合,使得容量更大的网络能够更加有效地利用“任务”特性,从而进一步提高性能至上限值。而对于实际应用方面,则提供了一些方法使M4模块适应特定任务或迁移,比如容量可调节层等技术手段,以确保其广泛适用性与灵活性。

随着全球范围内绝大部分人工智能技术发展至今,我们已经见证了它们如何改变我们的生活方式,而对于未来是否还有更多潜力去拯救那些即将消失的大约7000余只剩下半数的话语?虽然还没有明确答案,但这项突破性的工作为我们提供了解决方案,为那些即将消失的声音带来了希望。

猜你喜欢