在自然的环境下,QQ最新资讯披露了有关GPT-4的预测信息。这一版本预计将比GPT-3略大,但纯文本格式,更注重最优计算与对齐。据分析师Alberto Romero推测,这可能是因为OpenAI致力于让较小规模的模型发挥更大的潜能,而非简单地追求模型规模。
Romero基于OpenAI首席执行官Sam Altman去年的一次表述,对GPT-4进行了特征的预测。Altman指出,GPT-4不会有100T参数,这使得其规模可能介于GPT-3和某些其他模型之间,比如175B到280B参数的大型语言模型。
Romero提供了他的理由:最近发布的大型语言模型,如Megatron-Turing NLG(MT-NLG),拥有530B参数,是目前最大密集神经网络之一,其大小超过了GPT-3,但后来出现了一些小型化但性能更好的模型。这些发现表明,更大的并不一定意味着更好的表现。
此外,公司开始反思“越大越好”的教条,因为增加参数虽然简单,但也带来了额外负担,如碳足迹、计算成本和进入问题。因此,即便可以获得类似或更好的结果,也会在构建庞大模型之前三思而后行。
相比之下,OpenAI将重点转移到数据、算法、参数化以及对齐等其他因素上,这些因素可以显著改进模型性能。此外,由DeepMind和微软证明,如果使用最优超参数训练,可以通过改进现有的13B版GPT-3达到与最初版本相当甚至更高的水平。这种方法称为μP,使得小型化后的最佳超参数也适用于同类大型模式,并且只需很少培训成本就可实现。
最后,考虑到未来版本将稍微扩展一些,以及需要更多计算资源来达到最低训练损失点,因此这个新版本预计会更加注重优化过程,以确保最高效率。在这样的背景下,我们期待看到未来的实际表现如何,以及它是否能够达成所有理论上的潜力提升。