当前位置：首页 > 机器人 > 西安疫情最新资讯少于两层的Transformer仅有注意力块GPT-3你敢问它是如何炼成

西安疫情最新资讯少于两层的Transformer仅有注意力块GPT-3你敢问它是如何炼成

机器人
2025-01-10 05:57
0

西安疫情最新资讯：GPT-3的注意力与MLP块相比，少于两层、仅有注意力的Transformer能否达标？作者 Mordechai Rorvig 编译 bluemin 编辑陈彩娴

在过去的两年里，基于Transformer架构的大型语言模型取得了令人瞩目的性能提升。然而，Transformer是如何处理单词信息，以及它是否真的能够同时关注多个单词，这仍然是一个谜团。

为了揭开这个秘密，一家名为Anthropic AI的研究机构进行了深入研究，他们发现，即使是简单的Transformer结构，也能达到复杂模型效果，并且提供了一种理解其工作机制的途径。

他们发布了两篇论文，一篇是在12月份公布的简化版本分析，一篇是在3月8日发表的应用简化模型到更大规模模型中的研究。在这两个研究中，Anthropic AI展示了一个只有少量attention head和一层或两层神经元结构，但却能实现高效文本生成和理解能力。

这些发现让学术界对Transformer有新的认识。传统程序遵循明确过程，而Transformer则通过数学运算来学习最佳输出，但具体学习内容仍不清楚。此外，它们包含一种称为“attention head”的特殊元素，这些head允许程序记住输入中的多个单词。但实际上，这只是冰山一角。

为了更好地理解这些机制，Anthropic AI简化了Transformer结构，只保留了一层或两层神经元和少数attention head。这让他们发现了复杂模型与简单模型之间共通之处。例如，他们证明具有一个attention head的transformer也可以再现所记忆内容，就像二元语言模式一样。

不过，当考虑虚构名字时，如“Gigamuru”，这种方法就无法工作，因为训练期间没有识别出这种名字，所以不会记住它与其他词之间关系，也不能生成它。而引入归纳头（induction heads）后，可以解决这个问题，它们不仅可以移动信息，还可以做一些看起来像是抽象推理或算法实现的事务。