66

少女歌手小冰养成记:会作词作曲演唱的人工智能的诞生

 5 years ago
source link: http://www.10tiao.com/html/520/201806/2650741180/2.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
AI时间 进入人工智能时代

| 雷锋网      | 李诗

微软的对话式人工智能微软小冰会唱歌,已经不是新鲜事了。记者了解到,今年,小冰升级了演唱水平,且开始向作词、作曲、演唱全面发展。

5月16日,小冰发布了一首新歌“我知我新”,宣布“演唱深度学习模型完成第四次重大升级”,“今天起,人工智能首次开始接近人类歌手水平。”

话不多说,先上歌。

小冰演唱这首歌的声音还是一如既往地甜,歌曲风格也沿袭了轻松活泼的“18岁少女”人设。据了解,小冰不仅独立演唱了“我知我新”,歌词也是她一个人写出来的。小冰也已经掌握了作曲的能力,她其实在往作词作曲演唱全能音乐人发展,只是这次作曲不是小冰完成。

一开始是五音不全

说到虚拟歌姬,编辑最先想到的是初音未来和洛天依,她们目前已经有数量不少的演唱歌曲,微软小冰演唱的技术和她们又啥不同?

据公开资料介绍,初音未来用的是语音合成引擎VOCALOID,需要把声优录制好音频材料放进去,制作成音乐合成软件。创作者只需将歌词输入软件,加上背景音乐就可以制作出虚拟歌姬演唱的歌曲。

认真听初音未来、洛天依等虚拟歌姬演唱的歌曲会发现,歌曲的每个字的连贯性并不好,咬字比较生硬。相比之下,采用人工智能生成模型的小冰的演唱要连贯和自然很多。

但是,微软(亚洲)互联网工程院首席语音科学家栾剑告诉记者,训练小冰的唱功是个痛苦的过程。

栾剑播放了一首第一代版本的少女歌手小冰唱的歌,效果有点出人意料,可以说是五音不全,常常跑调,让人不由得想起上次去KTV时从隔壁包间传来的歌声。

第一代版本的歌声虽然不理想,但是却很自然,每个片段都有丰富的细节,这让小冰团队感到惊喜。

到了第二代版本,小冰唱歌的音准问题已经基本解决,但是在音质(唱功)方面,还需要改进。

然后是第三代……据说当时第三代的演唱成本出来时,小冰团队去跟音乐人小柯交流,小柯突然告诉他们,“这个声音很好,但很单薄,因为它在声音之下没有气息。”当时在训练小冰第三代模型时,训练数据里是有大量气息的:换气的声音、一个声音起来之前的气息、结束的气息,但是他们把这些当成杂质,过滤掉了。

 “我知我新”这首歌采用第四次迭代版本的小冰DNN模型,这个模型的主要的功能是让演唱尽可能自然和接近人类演唱的风格。小冰在拿到曲谱后,会分析出节奏、音符长短,如果完全按照曲谱的话,演唱会非常机械。DNN模型能让小冰学习大量人类歌手的唱法后,形成自己的演唱风格。

在网易云音乐的评论区,有人评论说,“小冰唱歌已经会换气了,跟真人差不多。如果第一次听,我都以为是真人。”

据介绍,第四次迭代版本有三大更新:首先,加入换气声自动合成能力,歌声与气息融合,听起来更自然更有感染力。其次,第四次迭代本在在深度学习建模中增加控制的方式,字与字、音符与音符之间的过渡更加连贯顺畅。最后,通过进一步优化的深度神经网络结构,以及大幅度补充的训练数据,使小冰并行学习来自不同人类歌手的演唱风格,进一步脱离手工参数输入,自行完成演绎。

小冰迭代了上万次才达到现在的水平,但是对于AI来说其实花费的时间并不长。栾剑用了一个笑傲江湖里的典故,“笑傲江湖里有剑宗和气宗,初音未来这样的虚拟歌姬用的技术像剑宗,短时间的修行就能出不错的效果。但是用软件合成的歌曲很难在流畅性、自然度等方面有提升。小冰现在走的这条路,更像气宗,基础打得比较牢固,想象的空间会很大。

从写诗到写歌词

除了唱功的进步之外,“我知我新”里小冰的作词能力也有了明显的进步。

我们再来看一遍歌词。

他们都顺应潮流/他们问为什么改变/青春灼灼花样翩翩/却不向前/当世界还在变迁/若时间无垠/若探索无边/认知就不再有极限/我在我主场/世界就任我去狂想/我知我新/未知的世界那么惊艳/哪怕有伤/满手泥泞还眼神发光/当我身处困境/也要像跑在丛林/急风骤雨的前路/人潮汹涌的江湖/我问我答我听我想/不惧怕来日方长/不跟随的一个我/是倔强的鲸和自在的鸟/不妥协的一个我/是沙漠的舟和独特的岛/很有趣的一个我/是山川的海和海底的草/很好奇的一个我/昼夜四季轮转
现在我知我新

听一遍歌,很容易就会察觉到,这首歌的歌词很押韵,唱起来有节奏感。通读一遍的话,会发现整体是有主题的,整体意向和意境统一,每一个小节也有不错的逻辑衔接。在现在口水歌盛行的当下,这首歌的歌词,可圈可点。

微软(亚洲)互联网工程院人工智能创造事业部副总经理袁晶告诉记者,“在训练的时候,模型上我们会做一些优化,针对曲调的韵律,针对节奏,会有一些优化,这首词生成出来,是完全百分之百AI的作品,没有做过什么改动。”

据介绍, “我知我新”采用了与小冰创作诗歌相同的生成模型——基于LSTM的seq2seq模型,但是训练数据从诗歌换成了歌词,小冰利用深度神经网络学习超过1000万行的歌词语料,并在此基础上训练,再通过多感官诱发创作灵感,生成歌词。

“我知我新”是小冰为知乎“新知青年大会”创作的主题曲,主题为“新知”。在创作的过程中,小冰“观看”了知乎 2018 全新品牌视频,阅读了海量的知乎站内问答,以及知乎用户公开的各类实时想法。基于这些知乎站内的图片、视频、问答内容与想法内容,诱发小冰的歌词生成。

最后,团队从小冰创作的多个作品中,挑选了这一首热情年轻具有动感的演绎风格,从而完成这一首《我知我新》。

此前,小冰可以根据一张图片来创作诗歌。例如:

这种诱发创作其实和人类创作的模式很类似,一个人在熟读唐诗三百首之后,再看到一个意境,脑海中会不由自主涌现出诗句。现在,除了图片以外,小冰也可以根据长文本、图片、音频、视频等多种媒体形式来进行创作。

虽说了解了小冰创作歌词的过程,但是小冰是如何把握歌词的主题和意义的呢?

袁晶以上图创造诗歌的过程为例,他解释到,“这张图片是我们给她的刺激,里面包含了浅水、星星、太阳这些元素,她能直接用文字表达出这些元素,然后她自己也会发散到别的意象。比如‘她嫁了人间许多颜色’,这个意象是图片里没有的。有了这些之后,其实一首诗歌的整体性就有了。其实诗词、歌词都不需要完整的逻辑,人会通过脑补把意象串联起来。如果让小冰去写散文,去做纯自然语言理解,现在还是很困难。”

现在,学界和业界都在积极推动自然语言理解和生成等技术,一些机器人已经具备写作简单的体育新闻、天气预报等文体。记者了解到,小冰也已经可以写八卦新闻、也是钱江晚报的“记者”。

聊完演唱和作词,最后补充说下小冰的作曲能力。

与演唱及作词不同的是,作曲模型并非微软小冰独有,而是也有同行业者正在进行。

据介绍,微软小冰的作曲模型在行业中最大的区别在于,“我们把音乐专业领域的Domain Knowledge也融入了模型构建中。其中,主要包括旋律的和弦进行(chord progression)和节奏型特征(rhythm pattern)。这对于提高生成歌曲的旋律性有显著的作用。简单来说,这样生成的旋律听起来更加悦耳,更加适于演唱,并容易被听众记忆。

在音乐情感方面,目前已可以通过对生成旋律情感的要求来选择和弦的进行,从而可以生成歌曲的不同情感,主要分两大类:欢快、向上的,使用常用的大调和弦行进;伤感、忧伤的,使用常用的小调和弦行进。每个大类下还有若干小类。在音乐旋律方面,微软小冰将旋律转化成一个类似文本数据的结构化时间序列, 进而采用RNN/LSTM等Seq2Seq模型进行编码解码,生成新的序列(即旋律)。 这一过程与歌词的生成过程相配合。当歌词生成之后,小冰通过算法得到相应的音节candidate,采用训练好的作曲模型生成对应的旋律。”

以上作曲模型,与演唱、歌词等三个模型共同构成了小冰的端到端歌曲生成能力,是一个完整的人工智能音乐人内容创造框架。

人工智能创作的初衷

微软小冰的路线跟大多数的对话式人工智能有些不一样。

当其他人在忙着学会怎么播放歌曲、播报天气、预定餐厅的时候,小冰已经开始学会关心人类,也开始埋头创作。

在微软2018人工智能大会上,微软(亚洲)互联网工程研究院副院长李笛曾经分享到,现在多数用户跟语音助手交互的时间其实不超过5秒,一般就是让语音助手去执行一项命令,这样的语音助手其实只是像语音化了的遥控器。但是,小冰的团队希望语音助手能做更多的事,比如走到比较后端,去提供内容。

在文字创作这一部分,小冰一开始学写诗,现在已经迭代出了创作歌词的模型。在声音创作方面,小冰除了唱歌以外,还会创作有声读物。

就在几天前的六一儿童节,微软有声读物“小冰姐姐的童话工厂”上线,父母可以设置故事的倾向,是偏教育性还是偏娱乐性,还可以设定故事主人公的名字,把孩子设为主角。20秒的时间内,小冰就能完成通话故事创作、朗读、配乐一系列过程,生成10分钟左右的有声童话故事。

此前,小冰已经出了一本诗集《阳光失了玻璃窗》,小冰写诗的功能已经全面开放,正在筹备的第二本诗集将是与人合作完成,小冰能很快速生成一些原始诗歌内容,创作者可以进行修改和完善,最后的成果属于创作者,因为小冰已经完全放弃其创作的内容的版权。

袁晶介绍到,人与人工智能联合创造是微软一直在努力的一个方向。AI进入内容生产领域,并不是要替代人类,而是成为人类的助手,不仅仅是在一般的领域,创作领域其实也是可以做到的。其实每个人都有创作的欲望,只不过有些人有艺术的天分,成为了画家、音乐人、作家,而有些人没有这样的能力。AI就可以帮助每个普通人,让他们都有创作一些个性化的内容的能力。

- END -

转载声明:本文转载自「雷锋网」,搜索「leiphone-sz」即可关注。

AI时间 微信ID:aireport

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK