用Transformer模型让川普体面！

美国总统选举辩论的第一场，被广泛批评为混乱，两位候选人经常打断对方。为了解决这个问题，组织者宣布如果川普或者拜登违规插话，则允许主持人切断他的麦克风。然而主持人华莱士表示：

“事实上，即使总统的麦克风被关闭了，他仍然可以继续打断，因为他的声音很可能传到拜登的麦克风上，这仍然会扰乱辩论的程序。”

这时候，搞技术的我决定试试我们最近刚刚研发的语音分离模型，该模型可以在两个人一起说话的时候，分离两个人的声音，变成两个音频输出。 这项技术本身是为了解决复杂语音环境多说话人问题，然而我们发现当川普辩论，一个单说话人的场景也变成了多说话人

如视频所示：

知乎视频 www.zhihu.com

从视频中我们可以看到，两个说话人虽然一起说话了，但是分离后，川普和华莱士的声音干干净净。川普终于体面，不再抢话，我们可以用语音模型让他静音，闭嘴，不要插话。

该模型的技术缘自我们最近的一篇论文，Continuous Speech Separation with Conformer

Continuous Speech Separation with Conformer arxiv.org

在语音领域，Transformer模型对local信息的建模并不充分，于是我们采取CNN和Transformer一起用的Conformer解决方案，如下图所示。给定语音信号，输出三个mask矩阵，前两个代表speaker的，第三个代表噪音的。我们如果使用原始wav和输出的mask矩阵做点乘就可以得到分离后的语音信号。

其中，训练数据为人工模拟的带overlap的语音，并用permutation invariant training 作为目标函数对网络进行优化。实验结果表示，无论是普通麦克（单通道）或者麦克阵列（7通道），该模型都可以非常好的处理多说话人一起说话的问题 (cross-talking)

Recommend

eclipse和idea的快捷键比较及idea如何调节eclipse的快捷键-马跃的随笔

Linux内核5.9的最重要功能及安装方法

京东零售图计算平台Galileo即将开源瞄准大规模图算法在工业级场景落地

面试官：说说CountDownLatch，CyclicBarrier，Semaphore的原理？

最火的HTAP数据库京东智联云新一代分布式数据库TiDB架构揭秘

go-zero的业务中的内存缓存神器collection.Cache

系统性学习前端

干货 | 以太坊上的数字签名

奇客基因疗法修复遗传性视网膜疾病致盲

奇客摩根士丹利解雇使用 WhatsApp 的交易员

About Joyk