当前位置：首页 > 技术 > ICLR 2019 遗珠加大号变形金刚Transformer-XL真的能打败所有的对手吗

ICLR 2019 遗珠加大号变形金刚Transformer-XL真的能打败所有的对手吗

技术
2025-01-17 17:49
0

在这篇引人注目的论文中，我们将探索一个全新的 Transformer 模型，它不仅能够处理可变长度序列，而且在多个任务中刷新了当前的最好性能。这个模型被称为「Transformer-XL」，它是 Transformer 模型的第三代升级。

Transformer 的前两代分别是由谷歌大脑在 2017 年提出的原始 Transformer，以及一年后的 Universal Transformer。这两者都取得了巨大的成功，在机器翻译和文本理解等领域成为了基准模型。然而，原来的 Transformer 只能处理固定长度的输入，而 Universal Transformers 在效率上有所提升，但并未解决长期依赖问题。

Transformer-XL 正是在这样的背景下诞生的，它通过引入小节级别的循环机制和一种新设计的位置编码器模式，使得模型能够学习到更长期依赖关系，同时保持时空一致性。在实验中，Transformer-XL 学到的依赖要比 RNN 学到的长 80%，比最初的 Transformer 网络长 450%，且在推理时速度提高超过了 1800 倍。此外，这种方法还刷新了多项任务中的最好成绩，如 text8、WikiText-103、One Billion Word 和 Penn Treebank 数据集上的表现。