18

阿里公布新语音合成技术 录音10分钟定制AI语音

 4 years ago
source link: https://www.tuicool.com/articles/nQ7bauV
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

阿里巴巴发布新一代语音合成技术KAN-TTS,称可大幅提高合成语音与真人发声的相似度,并将语音合成定制成本降低10倍以上。该技术由达摩院机器智能实验室自主研发。 阿里方面称,当前业界商用系统的合成语音与原始音频录音的接近程度通常在85%到90%之间,而基于KAN-TTS技术的合成语音可将该数据提高到97%以上。

vm6jM3q.jpg!web

KAN-TTS的基本框图

EfmUBfR.png!web

构建多发音人语音合成系统的方式

ee6ZFvA.jpg!web

多发音人模型实际训练过程

UfiQRnU.png!web

VVjEnyQ.png!web

maMzeiB.jpg!web

据悉,KAN-TTS由达摩院机器智能实验室自主研发,深度融合了目前主流的端到端TTS技术和传统TTS技术,从多个方面改进了语音合成。传统语音合成定制需要10小时以上的数据录制和标注,对录音人和录音环境要求很高。从启动定制到最终交付,项目周期长成本高。

阿里利用Multi-Speaker Model与Speaker-aware Advanced Transfer Learning相结合的方法,将语音合成定制成本降低10倍以上,周期压缩3倍以上。也就是说,用1小时有效录音数据和不到两个月制作周期,就能完成一次标准TTS定制。

此外,这使得普通用户定制“AI声音”的门槛更低。只需 手机 录音十分钟,就能获得与录制声音高度相似的合成语音。

ZBjUNzY.jpg!web

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK