雷锋网 AI 科技评论按:模型大小的比拼还在继续!自谷歌大脑的2.77 亿参数的语言模型 Transformer-XL 之后,OpenAI 也完成了自己具有15 亿个参数的语言模型 GPT-2,而且这个模型还有一项惊人的能力,就是从短句续写成篇的文章。雷锋网 AI 科技评论简单介绍如下。
GPT-2 的技术升级版本,有多 10 倍的模型参数,多达 15 亿个,并在多 10 倍的数据上进行训练。训练数据是来自互联网高质量语料,内容丰富且多样化,这使得模型有很高容量,即便这样简单的训练目标也得出了惊人的结果:可以流畅地续写句子,甚至形成成篇文章,就像人类一样。
虽然有时会出现失败,如文字重复、错误世界常识,但成功例子中生成文本对事件描述全面,对话风格接近人类。此外,由于对内容熟悉程度不同,一次尝试可能不成功,但几次尝试后通常能得到较好的生成结果。预训练结束后的模型可以进一步精细调节,对文本风格得到更好控制。
除了这些,GPT-2 也能够在各种任务中做「无样本学习」,即不经过任何任务专用数据集训练就进行测试,也取得了优秀效果。OpenAI 研究人员猜想这些任务都是通用语言建模的一个子集,因此自然表现良好。
最引人注目的是文本生成水平,我们来看几个 OpenAI 提供给我们的文本生成示例。在翻译过程中,我们感觉到,该模型描写和叙事逻辑虽然仍然有些混乱,但是它不仅能找到适合文字风格,还补充了许多细节,其上下文联系和层层递进,以及几乎没有语法错误,可以说非常真实可信。
我们一起感受一下那样的文风:
人类给定文本
In a shocking finding, scientist discovered a herd of unicorns living in a remote, previously unexplored valley, in the Andes Mountains. Even more surprising to the researchers was the fact that the unicorns spoke perfect English.
(在一项令人震惊的发现中,科学家们在安第斯山脉中偏远、未曾探索过的小山谷里发现了一群独角兽。更令研究人员们感到意外的是,这些独角兽竟然能说一口流利英语)
模式续写(第十次尝试结果)
The scientist named the population after their distinctive horn Ovid's Unicorn. These four-horned silver-white unicorns were previously unknown to science. Now after almost two centuries, the mystery of what sparked this odd phenomenon is finally solved.
(科学家以它们独特角色的名字命名这一人口为 Ovid 独角兽。这四只银白色独角兽之前是科学界未知的事物。而如今,在接近两百年的时间之后,这种古老现象是如何发生的问题终于找到了答案)