30

论文推介丨MsEmoTTS—面向高表现力语音合成的多尺度情感迁移、预测和控制

 2 years ago
source link: https://mp.weixin.qq.com/s?__biz=MzU4MTA0NDE5NQ%3D%3D&%3Bmid=2247493177&%3Bidx=1&%3Bsn=9586090c9629d0daf7de68f6c3146321
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

论文推介丨MsEmoTTS—面向高表现力语音合成的多尺度情感迁移、预测和控制

语音杂谈 2022-01-24 10:00

The following article is from 音频语音与语言处理研究组 Author 雷怡

语音合成又称文语转换技术 (Text-to-speech, TTS),是将文本转换为自然语音的一类技术,是服务于语音交互、信息播报、有声朗读等任务的核心技术。在深度学习的推动下,语音合成的自然度和音质得到了巨大的提升。然而,仅仅合成听起来自然的语音已经不足以满足沉浸式人机交互等应用的要求,在众多应用中,生成富有情感的语音必不可少。

640?wx_fmt=jpeg
事实上,人类语言在情感表达上具有着天然的多尺度(Multi-scale)性质。具体来讲,从粗粒度的角度看,我们可以将整个语音的情感类别(比如“高兴”或“生气”)作为全局的情感表征,所有属于同一情感类别的句子共享同一个情感类别表征;从细粒度的角度看,每个发音单元都有着不同情感强度、音高和能量等特性。除了上述粒度外,一些韵律表达,如语调的波动,也反映在发音单元之间的关系中。这种在韵律上多尺度的性质导致了人类语音有着丰富且细微的情感表现力变化。因此,从单一粒度建模语音的情感表达是不够充分的。西工大音频语音与语言处理研究组(ASLP@NPU)近年来致力于高表现力语音合成相关研究。针对情感语音合成,实验室去年提出了细粒度情感语音合成方案[1],对细粒度情感表征进行建模。近期,实验室发表的论文“MsEmoTTS: Multi-scale emotion transfer, prediction, and control for emotional speech synthesis”被语音研究领域顶级期刊IEEE/ACM Transactions on Audio, Speech and Language Processing (TASLP)接收。该论文基于人类情感表达多尺度的现象,提出了一种基于多尺度情感表征建模的情感语音合成方案,即MsEmoTTS。在主流端到端语音合成框架下,通过三个子模块,对不同层级的语音情感表征进行显式建模,在一个模型框架下,实现情感语音合成任务中的多尺度情感迁移(transfer)预测(prediction)控制(control)。现对该论文进行简要的解读和分享。
  • 论文题目:MsEmoTTS: Multi-scale emotion transfer, prediction, and control for emotional speech synthesis
  • 作者列表:雷怡,阳珊,王新升,谢磊
  • 论文原文:https://arxiv.org/abs/2201.06460
640?wx_fmt=png
640?wx_fmt=png

扫码直接看论文

1. 背景动机近年来,随着深度学习的发展,基于神经网络的语音合成系统能够生成与人类语音非常接近的语音。然而,在越来越多的语音交互场景中,不仅需要合成听起来自然的语音,更需要合成高表现力的语音。因此在本文中,我们关注于情感语音合成(emotional speech synthesis)。对于情感语音合成,一个直接的方法就是利用显式的风格标签,作为TTS系统的条件(condition),比如情感类别标签(如Big Six),来指导系统生成相应情感的语音[2][3]。然而这些方案只能学到一个“平均”的情感表达,不能传递语音中细微的风格变化。为了解决这个问题,风格迁移(style transfer)方案是一种解决思路。基于风格迁移的表现力语音合成方案[4][5][6]从参考音频中学习到目标风格表达,用学习到的风格来指导TTS系统合成相应风格的语音。尽管基于参考音频的表现力语音合成比基于标签的方案能够生成更丰富的表现力,但该种方法仍然只能从单一粒度上对语音的风格进行迁移。考虑到人类语音韵律的多尺度(multi-scale)特性,从单一粒度对语音情感进行建模是不充分的。因此本文提出了一个多尺度情感语音合成架构,即MsEmoTTS,从多个层级对语音的情感表现力进行建模。MsEmoTTS是一个基于注意力(attention)机制的序列到序列的TTS框架,结合三个提出的子模块,分别对全局层级(Global-level emotion presenting module, GM)、句子层级(Utterance-level emotion presenting module, UM)和局部层级(local-level emotion presenting module, LM)的情感表征进行建模。具体来讲,GM对全局的情感类别进行建模,所有属于同一类别的句子共享同一个情感嵌入;UM关注于每个句子特有的韵律形式,比如句内语调的变化;LM则用来提供每个发音单元,如音节或音素的情感强度。在上述的三个模块中,情感信息可以从参考音频中提取,也可以从文本自动预测。同时,GM中的情感类别和LM中的情感强度也可以进行手动控制。

2. 方案介绍图1为MsEmoTTS的整体方案,采用基于注意力机制的序列到序列TTS框架,结合了本文提出的三个情感子模块,全局模块GM句级模块UM局部模块LM。每个模块中都有一个特征提取器和特征预测器,提取器以音频作为输入,预测器以文本作为输入,在训练过程中预测器以提取器的输出作为目标进行学习。这三个子模块的输出,同时作为TTS的condition来约束合成语音的情感表现力。
640?wx_fmt=png

图1 MsEmoTTS框架图

2.1 全局情感模块GM

特征提取器:本文的全局情感特征提取器采用的是一个情感嵌入向量(embedding),利用训练数据中真实的情感类别标签训练一个查找表(look-up table),所有属于同一情感类别的数据共享同一个情感嵌入向量。特征预测器:GM特征预测器的目标就是以文本为输入,预测该语句应该属于的情感类别。为了提升预测器的准确性并防止该预测器在TTS数据上过拟合,本文使用一个预训练(pre-trained)的情感分类器,该分类器基于BERT[7]预训练模型,再结合大量的文本情感分类数据,对BERT模型进行微调(fine-tune)。在推理时,相较于传统的使用分类器预测出的情感类别作为TTS的全局情感表征的“硬标签”,本文使用一种预测的“软标签”来避免由于预测错误导致的不和谐的情感表达,“软标签”的计算方法如下,是分类概率与各情感嵌入的加权和:
640?wx_fmt=png

2.2 句级情感模块UM

与GM类似,UM同样包含特征提取器和预测器。特征提取器以音频特征为输入,提取出一个定长的向量,用来建模句内的整体情感变化趋势。而预测器则以提取器的输出为目标,与整个TTS系统进行联合训练,并采用L2 loss来对UM预测器进行优化。

2.3 局部情感模块LM

局部情感强度提取器:本文使用相对属性算法[8],来学习一个排序函数,使用学习好的排序函数计算出每个发音单元(音节)的情感强度。该算法将情感强度看作语音中的一个属性,利用中性与情感数据的差异,学习一个权重向量。计算方法如下。

640?wx_fmt=png

640?wx_fmt=png
640?wx_fmt=png
在计算出每个音节的情感强度之后,将所有强度归一化至[0, 1]区间内。本文将归一化后的音节级别的强度作为输入标签与文本一起送入TTS系统,以此达到情感语音合成中细粒度的情感强度建模。局部情感强度预测器:该预测器同样与TTS系统进行联合训练,以文本为输入,对每个音节的情感强度进行预测。该预测器以提取器计算出的强度作为目标,使用L2 loss进行约束。

2.4 推理阶段

在推理阶段,该系统可以在一个统一框架下进行。1)以参考音频为输入的多尺度情感迁移,2)仅从文本输入来预测情感表达,生成符合文本语意的情感语音,3)对合成语音的情感表达进行灵活的控制。

3. 实验验证

3.1 实验数据

情感语音合成数据:训练和情感迁移时使用一个单人多情感的语音数据库,有中性和6种不同情感的数据,分别是高兴、生气、悲伤、惊讶、害怕、厌恶。预测推理时使用另一个情感语音数据库的文本(验证训练数据集外的范化能力),情感类别与训练数据一致。情感分类数据:在GM中,本文使用NLPCC2013和NLPCC2014两个数据对BERT-Base模型进行微调,该数据中情感与TTS情感数据类别一致。

3.2 对比实验

本文从情感迁移、情感预测和情感控制三个方面来分别对系统进行评估,使用GST[5]作为基线系统,与本文对比评估情感迁移效果,使用TPSE-GST[9]作为基线系统,与本文对比评估情感预测效果,情感控制通过分析F0进行评估。情感迁移效果评估:对情感迁移采用计算MCD分数、CMOS和ABTest打分的方式对情感相似性进行评估。从MCD、CMOS和ABTest结果中,能够看出MsEMoTTS的效果在整体上优于基线系统,在大部分情感类别中都获得了明显更优的结果。该实验结果说明提出的方法能够更充分地对语音情感进行建模,从而获得与参考音频更接近的语音情感,证明了该方法的有效性。

表1 情感迁移合成语音与参考音频的MCD分数

640?wx_fmt=png

表2 情感迁移主观实验结果

640?wx_fmt=png
情感预测效果评估:在该任务中采用MOS打分,对预测的情感表现力进行评估。从表3中能够看出,提出的方法在所有情感类别中,都明显优于基线系统,从而证明该方法能够预测出符合文本语义的情感表达,仅从文本就能自动生成具有合适情感表现力的语音。

表3 情感预测主观实验结果

640?wx_fmt=png
情感控制效果评估:图2显示了手动指定不同情感类别,不同LM情感强度时,生成语音的音高情况。句子中所有音节的情感强度从0到1逐渐递增或者从1到0逐渐递减。结果显示,音节级别的情感强度可以有效的控制合成音频的细粒度的情感表达,音高和时长等与情感相关的特征均会随着情感强度的变化而变化,从而证明了多尺度情感控制方法的有效性。
640?wx_fmt=png

图2 情感控制中生成语音的F0曲线

3.3 组件分析实验

全局情感表征GM:如表4所示,采用基于BERT的文本情感分类器,可以有效提升情感预测的准确性。如表5所示,使用本文提出的软嵌入加权和的方式作为预测GM来指导TTS合成的情感表达,在所有情感类别中效果均优于使用传统的预测出情感直接输入TTS。提出的方法可以更有效地避免预测错误造成的情感表达与文本内容不和谐的问题,从而生成更加自然且与文本更相符的情感语音。

表4 情感预测准确性评估

640?wx_fmt=png

表5 情感预测中软嵌入与硬嵌入MOS结果

640?wx_fmt=png
句级情感表征UM:表6结果表明,在所有情感类别中,使用UM的多尺度情感迁移效果明显优于不使用UM的系统,证明了UM在多尺度情感建模中的重要作用。为了进一步分析UM学习到的内容,如图3所示,本文对比了在相同文本、GM、LM,但不同UM时,合成音频的结果。从图中能够看出合成语音的音高变化趋势与UM的参考音频输入一致,case 2比case 1的输入UM音频具有更高的平均音高和更大的语调波动,case 2的结果也同样比1的结果具有更高的平均音高和更大的语调波动。以上结果说明UM能够学到句子内部的整体韵律模式或者语调的变化趋势。

表6 UM模块消融实验结果

640?wx_fmt=png
640?wx_fmt=png

图3 相同文本、GM和LM,不同UM,合成语音梅尔谱与F0

局部情感表征LM:为对比不同粒度的情感强度作为LM的情感建模效果,本文对比了音素级别、音节级别以及句子级别的情感强度,在情感迁移时的MCD分数。结果显示,使用本文的数据时,采用音节级别强度的结果最优。

表7 不同粒度情感强度MCD结果

640?wx_fmt=png
4. 样例展示情感控制:人工指定GM情感类别和LM情感强度
  • 音节级情感强度从0逐渐升高至1

高兴(从弱到强) 音频: 00:00 / 00:02
  • 音节级情感强度从1逐渐降低至0

高兴(从强到弱) 音频: 00:00 / 00:02

情感预测:从文本自动预测合成语音的情感表现力

高兴 音频: 00:00 / 00:01 悲伤 音频: 00:00 / 00:02 生气 音频: 00:00 / 00:03 情感迁移:学习并模仿参考音频中的情感表达(并行迁移,非并行迁移样例请移步论文Demo网页) 厌恶(参考音频) 音频: 00:00 / 00:02 厌恶(迁移结果) 音频: 00:00 / 00:02 高兴(参考音频) 音频: 00:00 / 00:02 高兴(迁移结果) 音频: 00:00 / 00:02

具有不同情感表达的小说朗读样例

小说片段 音频: 00:00 / 00:53

附:小说片段原文

顾芳华一行来到坤宁宫,意外发现燕祈喧也还没有出宫。

“见过母后。”

“见过皇后舅母。”

姜皇后笑得慈爱,忙道。

“快起来,小九一直等着你们,你们一起出去玩,记得要互相照顾。”

顾芳华一脸不屑的样子,说道。

“皇后舅母,九表哥怕是不想和我们一路。姜小姐她们也要去,到时候还是让九表哥称心如意的好。”

燕祈喧昨夜一直辗转难眠,就是在想以后该如何对待姜雅萱。

现在被顾芳华一下子揭穿,恼羞成怒道。

“我就喜欢和萱表妹一起不行啊?谁稀罕和你顾明珠在一起!”

“我还不想和你一起呢!”

更多样例敬请访问:

https://leiyi420.github.io/MsEmoTTS/

5. 参考文献[1] Y. Lei, S. Yang, and L. Xie, "Fine-grained emotion strength transfer, control and prediction for emotional speech synthesis," in 2021 IEEE Spoken Language Technology Workshop (SLT). IEEE, 2021, pp. 423– 430.[2] Y. Lee, S.-Y. Lee, and A. Rabiee, "Emotional end-to-end neural speech synthesizer," in NIPS2017. Neural Information Processing Systems Foundation, 2017.[3] J. Lorenzo-Trueba, G. E. Henter, S. Takaki, J. Yamagishi, Y. Morino, and Y. Ochiai, "Investigating different representations for modeling and controlling multiple emotions in dnn-based speech synthesis," Speech Communication, vol. 99, pp. 135–143, 2018.[4] R. Skerry-Ryan, E. Battenberg, Y. Xiao, Y. Wang, D. Stanton, J. Shor, R. Weiss, R. Clark, and R. A. Saurous, "Towards end-to-end prosody transfer for expressive speech synthesis with tacotron," in international conference on machine learning. PMLR, 2018, pp. 4693–4702.[5] Y. Wang, D. Stanton, Y. Zhang, R.-S. Ryan, E. Battenberg, J. Shor, Y. Xiao, Y. Jia, F. Ren, and R. A. Saurous, "Style tokens: Unsupervised style modeling, control and transfer in end-to-end speech synthesis," in International Conference on Machine Learning. PMLR, 2018, pp. 5180–5189.[6] T.-Y. Hu, A. Shrivastava, O. Tuzel, and C. Dhir, "Unsupervised style and content separation by minimizing mutual information for speech synthesis," in ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2020, pp. 3267–3271.[7] J. D. M.-W. C. Kenton and L. K. Toutanova, "Bert: Pre-training of deep bidirectional transformers for language understanding," in Proceedings of NAACL-HLT, 2019, pp. 4171–4186.[8] D. Parikh and K. Grauman, "Relative attributes," in 2011 International Conference on Computer Vision. IEEE, 2011, pp. 503–510.[9] D. Stanton, Y. Wang, and R. Skerry-Ryan, "Predicting expressive speaking style from text in end-to-end speech synthesis," in 2018 IEEE Spoken Language Technology Workshop (SLT). IEEE, 2018, pp. 595–602.

640?wx_fmt=gif
640?wx_fmt=png

永久福利 直投简历

(简历投递):[email protected]

语音杂谈内推助力,leader直收简历

企业招聘旺季,推荐机会不容错过

0?wx_fmt=png
语音之家
助力AI语音开发者的社区
12篇原创内容
Official Account
0?wx_fmt=png
VJoinU
关注AI语音技术的人才招聘
3篇原创内容
Official Account
640?wx_fmt=gif

觉得本篇文章不错?

① 点击右下角“在看”,让更多的人看到这篇文章;② 分享给你的朋友圈;③ 关注语音杂谈公众号。640?wx_fmt=gif640?wx_fmt=jpeg

扫码关注我们

语音人的技术客栈

专注于语音技术分享与干货推送

640?wx_fmt=png

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK