西安疫情最新资讯:GPT-3的注意力与MLP块相比,少于两层、仅有注意力的Transformer能否达标?作者 Mordechai Rorvig 编译 bluemin 编辑 陈彩娴
在过去的两年里,基于Transformer架构的大型语言模型取得了令人瞩目的性能提升。然而,Transformer是如何处理单词信息,以及它是否真的能够同时关注多个单词,这仍然是一个谜团。
为了揭开这个秘密,一家名为Anthropic AI的研究机构进行了深入研究,他们发现,即使是简单的Transformer结构,也能达到复杂模型效果,并且提供了一种理解其工作机制的途径。
他们发布了两篇论文,一篇是在12月份公布的简化版本分析,一篇是在3月8日发表的应用简化模型到更大规模模型中的研究。在这两个研究中,Anthropic AI展示了一个只有少量attention head和一层或两层神经元结构,但却能实现高效文本生成和理解能力。
这些发现让学术界对Transformer有新的认识。传统程序遵循明确过程,而Transformer则通过数学运算来学习最佳输出,但具体学习内容仍不清楚。此外,它们包含一种称为“attention head”的特殊元素,这些head允许程序记住输入中的多个单词。但实际上,这只是冰山一角。
为了更好地理解这些机制,Anthropic AI简化了Transformer结构,只保留了一层或两层神经元和少数attention head。这让他们发现了复杂模型与简单模型之间共通之处。例如,他们证明具有一个attention head的transformer也可以再现所记忆内容,就像二元语言模式一样。
不过,当考虑虚构名字时,如“Gigamuru”,这种方法就无法工作,因为训练期间没有识别出这种名字,所以不会记住它与其他词之间关系,也不能生成它。而引入归纳头(induction heads)后,可以解决这个问题,它们不仅可以移动信息,还可以做一些看起来像是抽象推理或算法实现的事务。
尽管如此,对于全尺度transformer拥有数百个协同工作的人工智能来说,这些发现尚未完全解释清楚。不过,在最复杂、多层结构行为中,归纳头似乎起到了关键作用,如算术能力测试,其中只接受完成文本训练的情况下,比如48+7的问题答案会被正确给出。