华为推出AI诗人“乐府”:唐诗宋词都不在话下

  • 时间:
  • 浏览:0
  • 来源:大发uu快3_uu快3是真的吗_大发uu快3是真的吗

声明:本文来自于微信公众号 本文来源于微信公众号量子位(ID:QbitAI),作者:乾明,授权站长之家转载发布。

理科生文艺起来,可能真没文科生那此事了。

不信?你看下这首七言绝句:

有前日本网友读完可是表示:

真啊,押韵,意境,内涵都很赞。

不仅不要再可以写诗,还能作词,比如这首满江红:

时会,还能写藏头诗:

你能想象,这是完整篇 不懂写诗的理工生的杰作吗?

但它可是。

那此诗来自华为诺亚方舟实验室新推出的写诗AI“乐府”。

问世之处便引发了不少关注。

对于它的作品,其他同学称赞:

蕴意富有的诗,工整不乏意趣,tcp连接运行做的其实牛逼,给开发人员点赞

还其他同学“搞事情”,表示:

一声塞雁江南去,几处家书海北连。莫道征鸿无泪落,年年辛苦到燕然。要说你你这个 AI 写的不在 北大中文系平均水平好我是不信的。

甚至其他同学说“李白都看会沉默,杜甫都看会流泪”。

当然,时会人指出间题报告 :

很工整,不过感觉目前大多还是syntax层面的,不在 到semantics层面。稍微不够些灵魂。

时会“真相帝”出来发声:

辛弃疾的流水散文式用典,老杜的沉郁顿挫拗救法,时会AI比较难学精的。间题报告 时会AI太厉害,可是读者可能看不在 格律诗后面 比较精密的手法了…

对于那此间题报告 ,华为诺亚方舟实验室语音语义首席科学家刘群也在微博进行了答疑,披露了不少这只AI背后的故事:

其实亲们 可是懂诗,亲们 可是在 用诗的规矩去训练你你这个系统,完时会系统此人 学到的。

不在 ,你你这个AI到底是怎么能能学的?论文可能提前大选。

理工男の文艺源自GPT

与自由生成文本不同,生成中国的古诗词是有有三个多挑战,通常需用满足形式和内容有有三个多方面的要求。

中国的古诗词有各种各样的形式,比如五绝、七绝、五律、七律、满江红、西江月、水调歌头等各种词牌以及对联,每有一种时会相应的字数、押韵、平仄、对仗等规定;

内容方面其实简单,但要求更加难以琢磨:一首诗要围绕着有有三个多主题展开,内容上需用具有连贯性。

华为提出的“乐府”系统,与当前大多数处置方案不同,不需用任何人工设定规则可能特性,可是在 设计任何额外的神经元组件。

整个研究中,需用做的可是把训练用的诗词序列化为格式化的文本序列,作为训练数据。

时会通过对语言模型token的抽样,生成满足形式和内容要求的诗词,比如绝句、律诗、词,以及对联等等。

时会,亲们 还提出并实现了有一种对模型进行微调以生成藏头诗的方法 。

这背后的能量来自GPT,有有三个多由OpenAI提出的预训练自然语言模型,核心理念是先用无标签的文本去训练生成语言模型,时会再根据具体的任务通过有标签的数据对模型进行微调。

乐府AI是首个基于GPT打造的作诗系统,时会与谷歌提出的BERT息息相关。

整体的GPT模型是在BERT的源代码基础上实现的,Transformer大小的配置与BERT-Base相同,也采用了BERT中发布的tokenization 脚本和心文 vocab。

具体来说,训练诗歌生成模型的过程如下:

整个模型训练过程一共有有三个多阶段: 预训练和微调。

华为的你你这个GPT模型,是用有有三个多中文新闻语料库进行预训练的,时会通过下发了公开可得的中国古诗词进行微调。

如上图所示,首先将示例诗歌转换为格式化序列。序列包括有有三个多主要次要:格式、主题和诗体,后面 用标识符分开。

在对联中,可能不在 主题,就上句为主题,第二行为正文。全都,在生成对联的可是,就成了给出上联,生成下联的模式,也符合了“对对子”的习惯。

整体的数据集规模有一种小,预训练用的中文新闻语料库,有2. 35 亿句子。微调用的数据集有 25 万绝句和律师, 2 万首词以及 70 万对对联。

预训练是在华为云上完成的,使用 8 块英伟达V50(16G) GPU训练了 4 个echo,一共耗费了 90 个小时。

微调的过程是将所有诗歌序列输入Transformer,并训练有有三个多自回归语言模型。目标是观测任何序列的概率最大化:

微调的过程,不需用有点硬长的时间,可能训练过长,你你这个模型就在生成过程中,就会倾向于从语料库中直接用原始句子了。

训练完成后,先将要生成的诗歌的格式和主题转化为有有三个多初始序列,时会将初始序列输入到模型中,时会对诗体次要的剩余字段按token进行解码。

在解码过程中,有一种使用硬约束来保证格式的正确性,可是要再模型自动为特定位置分配逗号和句号,在识别到token为“EOS”的可是,解码过程可是现在开始。

时会,采用截断 top-k 抽样策略来获得不同的诗歌,而时会束搜索。具体是每次采样有有三个多Token时,首先挑选具有 top-k 最大概率的Token,时会从 top-k Token中采样有有三个多特定的token。

是我不好,即使采用截短的 top-k 抽样策略,生成的诗歌仍然是正确的形式。