当前位置：首页 > 智能装备方案 > 最新资讯人物故事续写系统达成人类水平GPT-2大规模无监督语言模型成功应用

最新资讯人物故事续写系统达成人类水平GPT-2大规模无监督语言模型成功应用

智能装备方案
2024-11-29 01:58
0

AI 科技评论按：模型大小的竞赛仍在进行中！自谷歌大脑发布拥有2.77亿参数的Transformer-XL语言模型后，OpenAI又推出了一个包含15亿个参数的GPT-2语言模型。该模型具有惊人的能力，即从短句开始，能够生成一篇完整的文章。以下是对GPT-2的一些介绍。

2018年6月，OpenAI发表了一篇论文，展示了他们基于Transformer架构设计的语言模型GPT。这款模型通过先在大量无监督语料库上进行预训练，再在较小规模有监督数据集上针对特定任务进行微调（fine-tune），实现了多任务学习，不依赖于单独为特定任务设计的专门技巧，这与同期计算机视觉领域中的ImageNet预训练类似。

这次升级版GPT-2比原版增加了10倍以上参数，并且在更大的数据集上进行了训练。这部分数据来自互联网高质量内容，其中包括Reddit论坛中获得高评分外链页面约800万页内容。在无监督训练阶段，该模型目标是给定一组单词后的下一个词预测。此过程虽然简单，但由于数据库丰富且多样性足够，结果令人震撼：除了能流畅续写句子，还能创作成篇文章，就像人类那样。

尽管偶尔出现重复、错误世界观和话题跳跃等问题，但成功例子中文本多样性强，全面的叙述逻辑清晰，如同人类般自然。研究人员发现，对于熟悉主题，如英国脱欧、指环王和Miley Cyrus等，一半尝试就能得到合理输出；而对于较少见到的技术讨论或哲学内容，则效果差一些。

此外，与之前版本一样，可以通过精细调整风格来适应具体任务，比如使用亚马逊评价精细调节后，更注重评分和商品分类。此外，无需任何特殊数据集即可“无样本学习”，也取得优异成绩。研究团队认为这些额外功能都是通用语言建模的一个自然延伸，因此表现良好。

最引人注目的是文本生成水平，我们来看几个示例：

给定的文本：

In a shocking finding, scientist discovered a herd of unicorns living in a remote, previously unexplored valley, in the Andes Mountains. Even more surprising to the researchers was the fact that the unicorns spoke perfect English.

模型续写（第10次尝试）：

The scientist named the population after their distinctive horn, Ovid's Unicorn. These four-horned, silver-white unicorns were previously unknown to science.

Now after almost two centuries, the mystery of what sparked this odd phenomenon is finally solved.

给定的文本：

Dr. Jorge Pérez noticed that there was what appeared to be a natural fountain surrounded by two peaks of rock and silver snow.

给定的文本：

"By the time we reached one peak," said Pérez, "the water looked blue with some crystals on top."

给定的文本：

"These creatures could be seen from air without having too much movement," said Pérez.

给定的文本：

"They were so close they could touch horns."

这个系列继续下去...

标签：智能装备方案

上一篇：如何确保长期后续维护不再需要频繁重做场面铺设和修复工作