18

「会演戏」的AI主播!番茄小说落地情感配音技术

 3 years ago
source link: https://mp.weixin.qq.com/s?__biz=MzU4MTA0NDE5NQ%3D%3D&%3Bmid=2247492312&%3Bidx=2&%3Bsn=a16ee77a3020a5eae055fa7eaec09d5c
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

「会演戏」的AI主播!番茄小说落地情感配音技术

语音杂谈 2021-12-03 11:00

字节跳动AI Lab 智能语音与音频团队(Speech & Audio Team,后文简称 SA 团队 ),最新升级的「情感配音」技术在番茄免费小说平台落地,它不仅可以朗读小说,还可以化身「戏精」表演出人物的「喜怒哀乐」。

来源丨新智元

这一新功能借助自然语言理解(Natural language processing,NLP)将网文转换成剧本,自动区分旁白对话和对应的情感,采用情感化语音合成(Text-to-Speech,TTS)技术,合成出单人多风格情感的有声书,能以抑扬顿挫的韵律赋予旁白故事感,以丰富充沛的情感演绎角色对话,从而让听众获得真人播讲般的沉浸式听感。

准确、平淡的合成语音被广泛应用在语音助手、新闻朗读等领域,但如果你想在小说阅读场景使用「毫无感情」的合成声音,让霸道总裁、俏皮黄蓉用平直冷冰的机械音讲故事,那就行不通了。

为了让AI主播能「哭」会「笑」,像专业配音演员一样传达「深刻的人类情感」,字节跳动 AI Lab SA 团队最新升级了「情感配音」技术,并为番茄免费小说提供 AI 朗读支持。

点击下方音频,你能听得出这居然是 AI 演播的作品嘛?

如何打磨出这样令人惊艳的效果?这期间经历了怎样的思考和抉择,本文将为您揭秘该技术诞生和演进的历程。

解决「两大难」,「情感配音」技术的抉择

番茄免费小说是中国最活跃的免费小说移动阅读平台之一,致力于打造网络文学多元发展产品矩阵。随着 5G 和智能设备的普及,声音内容的消费场景不断被拓展,「听书」功能将成为各阅读 APP 拓展其使用场景的利器。AI 语音合成技术能减少内容有声化的时间和财务成本但在小说阅读场景中,常规机器合成语音的「机械」听感,难以增强文本生动性和感染力,用户也较难营造身入其境的沉浸感。

AI 能否进行情感化配音,通过情感演绎小说文本,展现小说人物性格特征和情感变化?

面对不同的情节(例如当霸道总裁自负的笑出来时),角色能否做出诸如哭泣、大笑等「高浓度」的情感演绎?

AI 能否像配音演员一样理解文本,并支持业务规模化生产的需求?

面对来自业务的「灵魂三问」,字节跳动 AI Lab 语音合成相关负责人表示,有声阅读 AI 技术需要突破以下两个难点:

  1. 「贴近真人的 AI 合成音色」:训练具有情感能力、多种副语言(笑声、哭腔、疑问、叹词、语气词)表达能力的 AI 音色,实现更精彩的演绎;
  2. 「自动精准的 AI 文本理解」:通过文本理解,自动区分旁白和对话,自动判定情感、重音、句间停顿时长;
针对 AI 阅读场景,目前在业界没有完整的技术方案,甚至没有太多相关的学术论文。为了解决「两大难」,字节跳动 AI Lab SA 团队将技术路线定为:通过语音合成技术(TTS)积累数量丰富的 AI 音色矩阵,生产具有丰富情感演绎效果的单播有声书,覆盖番茄各类题材,攻克难点「1」。同时通过自然语言理解技术(NLP)实现自动化的文本语意理解,识别出不同角色的情感、重音、停顿表达,攻克难点「2」。下文将以番茄免费小说为例,展示字节SA 团队如何从「情感表达」、「副语言」、「文本理解」三个维度,打造质量堪比付费广播剧的AI朗读效果。

「能说」「会演」,AI 主播为番茄小说「听书」注入情感

为了让 AI 配音更像真人,能够理解剧本中的关键词及情感,字节跳动 AI Lab SA 团队在满足发音清晰、韵律连贯、语调起伏的基础上,研发了基于半监督学习的端到端风格控制声学模型(Cross-speaker Emotion Transfer Based on Speaker Condition Layer Normalization and Semi-Supervised Training in Text-To-Speech, P-F Wu, etc, submitted to ICASSP 2022),使得 AI 模型不仅「能说」,而且「会演」

640?wx_fmt=png

字节跳动 AI Lab SA 团队相关负责人介绍,他们会按照普鲁契克情感色轮(Plutchik's Wheel of Emotions)设计情感类型,可以提供开心、悲伤、惊讶、恐惧等多种情感色彩,再通过情感迁移的方式,让原本没有情感的发音人获得多情感合成效果。

相比于传统技术,上述新技术对于录制语音库的限制更少,可以允许发音人在更大范围内自由发挥。同时,专门加入的一些情绪脚本,可以更好地收集情感语音,帮助声学模型使用半监督学习 Global Style Tokens(GSTs)对情感表征进行建模,实现说话人音色与情感的解耦。

开心 音频: 00:00 / 00:03 厌恶 音频: 00:00 / 00:03 生气 音频: 00:00 / 00:03 惊讶 音频: 00:00 / 00:03

能「哭」会「笑」,7 种笑声模型以声传情

但仅仅实现情感表达还远远不够,通过与真人主播的详细对比分析,字节跳动SA 团队发现人类语言是以声传情的,因此「副语言」是口语表达不可或缺的重要因素。「副语言」也称「类语言」,指伴随话语的某些声音现象,包括的语音要素特征如停顿、重音、语速、语调等,以及言语的功能性发声如笑声、哭声、叹息声、叫喊声等。于是,团队针对「副语言」现象进行了精细化的建模还原,实现了在有声书中常见的重音停顿、疑问反问、笑声哭腔、以及各类叹息、叫喊声等。值得一提的是,在每一类「副语言」现象中,字节跳动 AI Lab SA 团队都进行了十分细致的建模,单单一个笑声就有多达 5~7 种,适用于不同情境下的不同语意表达。

坏笑 音频: 00:00 / 00:02 自负笑 音频: 00:00 / 00:02 尴尬笑 音频: 00:00 / 00:02 傻笑 音频: 00:00 / 00:01 委屈哭 音频: 00:00 / 00:03

另外,针对小说场景,字节跳动 AI Lab SA 团队还对风格适配度、情感连续性、情感区分性、段落疲劳度进行更加细分的测评,保证合成的效果足够接近真人且具有沉浸感。

突破小说理解技术,AI 文本理解效率远超人工

对于有声小说而言,仅仅在声学层面实现高表现力的合成还远远不够,如何能够实现小说文本的语意理解自动制作话本,才是贴近真人朗读和批量化生产的关键。

在精品 AI 有声书制作中,往往需要人工对小说文本进行标识:划分出对话与旁白的文本,并标识出每个角色的台词及其所要表达出的情感。这一过程往往十分的耗时耗力,导致了精品 AI 有声书无法大规模地扩量生产。

针对这一痛点,字节跳动 AI Lab SA 团队提出了「AI 文本理解」模型 - 一套多任务的长文本理解 AI 系统(A Chapter-Wise Understanding System for Text-To-Speech in Chinese Novels, J-J Pan, etc, ICASSP 2021)。

「AI 文本理解」通过对于上万本的小说学习,能够自动化地从小说文本中区分出对话的角色、判别出对话中所想要表达出的情感、预测出合理的句间停顿,极大地提升了精品 AI 有声书的制作效率,使得标注人力不再成为 AI 有声书生产的瓶颈。

640?wx_fmt=png

关于字节跳动 AI Lab 智能语音与音频团队

字节跳动 AI Lab 智能语音与音频团队(AI-Lab Speech & Audio Team),致力于为公司各个业务提供音频理解、音频合成、对话交互、音乐检索和智能教学等多种 AI 能力与方案。自 2017 年成立以来,团队专注于研发行业领先的 AI 智能语音技术,不断探索 AI 与业务场景的结合,以实现更大的用户价值。我们为今日头条、抖音、剪映、西瓜视频、番茄小说、飞书办公套件、大力智能教育台灯等字节跳动旗下的明星级产品提供了各类 AI 解决方案。截至目前,已服务了上百个业务合作伙伴。伴随字节跳动业务的飞速发展,我们的语音识别和语音合成覆盖了多种语言和方言。未来,我们希望发展 70+ 语言和 20+ 方言,用于满足内容创作与交流平台的需求。团队已有 15 篇论文入选 AI 顶级会议,其中音频生成方向接受了 7 篇论文。

640?wx_fmt=gif
640?wx_fmt=png

永久福利 直投简历

(简历投递):[email protected]

语音杂谈内推助力,leader直收简历

企业招聘旺季,推荐机会不容错过

0?wx_fmt=png
语音之家
助力AI语音开发者的社区
12篇原创内容
Official Account
0?wx_fmt=png
VJoinU
关注AI语音技术的人才招聘
3篇原创内容
Official Account
640?wx_fmt=gif

觉得本篇文章不错?

① 点击右下角“在看”,让更多的人看到这篇文章;② 分享给你的朋友圈;③ 关注语音杂谈公众号。640?wx_fmt=gif640?wx_fmt=jpeg

扫码关注我们

语音人的技术客栈

专注于语音技术分享与干货推送

640?wx_fmt=png

Recommend

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK