ICLR 2019 遗珠加大号变形金刚Transformer-XL化妆品界的新宠儿是不是早就轮到它了

在 ICLR 2019 的拒稿背后,有一篇关于 Transformer-XL 的论文引起了研究人员的注意。这不仅是一个能够处理可变长度序列的模型,在多个任务中刷新了当前的最好性能,而且它还是 Transformer 模型的第三代升级。

Transformer 从提出以来,就已经成为了机器翻译和许多文本理解任务中的重要基准模型。前两代 Transformer 在谷歌大脑提出的 Attention Is All You Need 中首次亮相,而在 Universal Transformer 中,它得到了拓展,让它具有通用计算能力,这样的设计让它比 RNN 更快,更强大。

现在,新的 Transformer-XL 在继续这条路线上,它通过一种新的、注重效率的时间并行循环结构,不仅比 RNN 中使用的串行循环速度更快,也让 Transformer-XL 比标准的前馈 Transformer 更强大。在多项任务中取得了有力的结果,并且在长、短序列上都取得了更好的性能。

尽管这篇论文投稿到 ICLR 2019 并被拒,但包括 David Ha 在内的许多学者还是认为这是一篇优秀的论文。David Ha 的评价是:它非常有用,在论文的补充材料中提供的一些代码可以在语言建模之外的一些任务中发挥作用。

感兴趣的话,可以详细阅读这个 papers,并自己尝试作者们提供的一些预训练模型。

标签: 智能装备方案

猜你喜欢