23

用Transformer模型让川普体面!

 3 years ago
source link: https://zhuanlan.zhihu.com/p/267421949
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

美国总统选举辩论的第一场,被广泛批评为混乱,两位候选人经常打断对方。为了解决这个问题,组织者宣布如果 川普 或者 拜登 违规 插话,则允许主持人切断他的麦克风。然而主持人华莱士表示:

“事实上,即使总统的麦克风被关闭了,他仍然可以继续打断,因为他的声音很可能传到拜登的麦克风上,这仍然会扰乱辩论的程序。”

这时候,搞技术的我决定试试我们最近刚刚研发的语音分离模型,该模型可以在两个人一起说话的时候,分离两个人的声音,变成两个音频输出。 这项技术本身是为了解决复杂语音环境多说话人问题,然而我们发现当川普辩论,一个单说话人的场景也变成了多说话人

如视频所示:

知乎视频 www.zhihu.com

从视频中我们可以看到,两个说话人虽然一起说话了,但是分离后,川普和华莱士的声音干干净净。川普终于体面,不再抢话,我们可以用语音模型让他静音,闭嘴,不要插话。

该模型的技术缘自我们最近的一篇论文,Continuous Speech Separation with Conformer

Continuous Speech Separation with Conformer arxiv.org 22Ebau.jpg!mobile

在语音领域,Transformer模型对local信息的建模并不充分,于是我们采取CNN和Transformer一起用的Conformer解决方案,如下图所示。给定语音信号,输出三个mask矩阵,前两个代表speaker的,第三个代表噪音的。我们如果使用原始wav和输出的mask矩阵做点乘就可以得到分离后的语音信号。

V77Rzer.jpg!mobile

其中,训练数据为人工模拟的带overlap的语音,并用permutation invariant training 作为目标函数对网络进行优化。实验结果表示,无论是普通麦克(单通道)或者麦克阵列(7通道),该模型都可以非常好的处理多说话人一起说话的问题 (cross-talking)


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK