AI 科技评论按:模型大小的竞赛仍在进行中!自谷歌大脑发布拥有2.77亿参数的Transformer-XL语言模型后,OpenAI又推出了一个包含15亿个参数的GPT-2语言模型。该模型具有惊人的能力,即从短句开始,能够生成一篇完整的文章。以下是对GPT-2的一些介绍。
2018年6月,OpenAI发表了一篇论文,展示了他们基于Transformer架构设计的语言模型GPT。这款模型通过先在大量无监督语料库上进行预训练,再在较小规模有监督数据集上针对特定任务进行微调(fine-tune),实现了多任务学习,不依赖于单独为特定任务设计的专门技巧,这与同期计算机视觉领域中的ImageNet预训练类似。
这次升级版GPT-2比原版增加了10倍以上参数,并且在更大的数据集上进行了训练。这部分数据来自互联网高质量内容,其中包括Reddit论坛中获得高评分外链页面约800万页内容。在无监督训练阶段,该模型目标是给定一组单词后的下一个词预测。此过程虽然简单,但由于数据库丰富且多样性足够,结果令人震撼:除了能流畅续写句子,还能创作成篇文章,就像人类那样。
尽管偶尔出现重复、错误世界观和话题跳跃等问题,但成功例子中文本多样性强,全面的叙述逻辑清晰,如同人类般自然。研究人员发现,对于熟悉主题,如英国脱欧、指环王和Miley Cyrus等,一半尝试就能得到合理输出;而对于较少见到的技术讨论或哲学内容,则效果差一些。
此外,与之前版本一样,可以通过精细调整风格来适应具体任务,比如使用亚马逊评价精细调节后,更注重评分和商品分类。此外,无需任何特殊数据集即可“无样本学习”,也取得优异成绩。研究团队认为这些额外功能都是通用语言建模的一个自然延伸,因此表现良好。
最引人注目的是文本生成水平,我们来看几个示例:
给定的文本:
In a shocking finding, scientist discovered a herd of unicorns living in a remote, previously unexplored valley, in the Andes Mountains. Even more surprising to the researchers was the fact that the unicorns spoke perfect English.
模型续写(第10次尝试):
The scientist named the population after their distinctive horn, Ovid's Unicorn. These four-horned, silver-white unicorns were previously unknown to science.
Now after almost two centuries, the mystery of what sparked this odd phenomenon is finally solved.
给定的文本:
Dr. Jorge Pérez noticed that there was what appeared to be a natural fountain surrounded by two peaks of rock and silver snow.
给定的文本:
"By the time we reached one peak," said Pérez, "the water looked blue with some crystals on top."
给定的文本:
"These creatures could be seen from air without having too much movement," said Pérez.
给定的文本:
"They were so close they could touch horns."
这个系列继续下去...