小米和西工大联手,三篇论文被Interspeech接收
source link: http://www.10tiao.com/html/782/201806/2247495453/3.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
翻译 | 林椿眄
编辑 | 阿司匹林
出品 | 人工智能头条(公众号ID:AI_Thinker)
小米和西北工业大学的“交情”不浅。
去年 7 月,小米和西工大计算机学院的谢磊教授合作,在 arXiv 上提交了一篇端对端的语音识别论文。(详见文章《小米首次公开发表论文:基于注意力机制的端对端语音识别》)
如今,小米和谢磊教授的合作更进一步,在今年 3 月一口气发表了三篇论文,都是智能语音方向的热门题目,可见小米对语音的重视。
谢磊教授表示,目前这三篇论文均已被语音领域的顶会 Interspeech 接收。下面我们就来看看这三篇论文都涉及哪些研究方向。
▌一、基于注意力机制的语音关键词检出
作者:Changhao Shan, Junbo Zhang, Yujun Wang, Lei Xie
在本文中,我们提出了一种基注意力机制的端到端神经网络模型,用于检出小资源关键字(Keyword Spotting,简称 KWS),以便简化构建一套“产品--质量”的 KWS 系统流程。我们的模型用到了编码器和注意力机制。利用循环神经网络结构 (RNN), 我们的编码器能将输入信号转换为高级的表示。然后,利用注意力机制对编码器的特征进行加权,并生成一个固定长度的矢量。该矢量经线性变换和 softmax 函数处理,最终输出用于关键字检测的得分。我们还评估了不同编码器结构的性能,包括 LSTM,GRU 和 CRNN。我们采用现实世界的数据来评估我们的方法,实验结果表明,我们的方法大大优于近期提出的深度 KWS 方法,而采用 CRNN 结构的编码器能够取得最佳检测性能。 更具体地说,在每小时 1.0 次误警报 (FA) 的设置下,我们的注意力模型能够实现 1.02% 的漏检率 (false rejection rate FRR),而模型参数量仅为84K。
链接:https://arxiv.org/abs/1803.10916
▌二、用于鲁棒语音识别的基于生成对抗网络的语音去混响
作者:Ke Wang, Junbo Zhang, Sining Sun, Yujun Wang, Fei Xiang, Lei Xie
我们研究了生成对抗网络 (GAN) 在语音去混响中的应用,以便提高语音识别的鲁棒性。近期的许多工作已将 GAN 应用于语音增强的研究,以便消除额外的噪声。然而,这些工作缺乏对语音去混响能力的探究,而且 GAN 结构的优势也未能得到充分发挥。在本文,我们基于 GAN 结构,对 ASR 前端的去混响能力进行了深入的研究。首先,我们研究不同的去混响网络的有效性 (GAN 中的生成器),并发现与我们在这个数据集上研究的前馈 DNN 和 CNN 相比,LSTM 结构能够显著地改善模型的性能。接着,我们进一步发现在深层 LSTM 结构中增加残差连接能够进一步提高模型的性能。最后,我们还发现在网络训练期间使用相同的小批量数据来更新生成器和判别器,对于 GAN 结构的成功是非常重要的。此外,正如先前的研究所提到的,使用混响频谱图作为判别器的条件可能会降低模型的表现。总之,在多状态的声学模型上测试时,我们提出的基于 GAN 结构的去混响网络与基准的 DNN 去混响网络相比,其相对 CER 减少了14%-19%。
链接:https://arxiv.org/abs/1803.10132
▌三、基于深度学习的语音识别说话人自适应技术
作者:Ke Wang, Junbo Zhang, Yujun Wang, Lei Xie
说话者自适应技术旨在不依赖说话人的情况下,能够估计说话者特定的声学模型,以便最小化不同说话者在训练和测试条件下的不匹配。自从深度学习模型成为主流的研究方向,大量的神经网络自适应方法相继被提出,但是不同方法之间的对比实验依旧缺乏,特别是在基于 DNN 的声学模型得到很大改进的情况。在本文,我们旨在通过对三种典型的说话者自适应方法 (LIN, LHUC 和 KLD) 的评估实验来解决这个问题。我们的自适应评估实验,采用不同大小的自适应数据,并在强大的 TDNN-LSTM 声学模型上进行实验。更具挑战的是,我们所关注的说话源和目标分别对应标准普通话的说话者和有口音的普通话的说话者模型,我们比较了不同方法及不用组合下的表现性能,而说话者的自适应性能也能由说话者的口音程度来检验。
链接:https://arxiv.org/abs/1803.10146
精彩预告
◆
最新消息
◆
时间:6月21日 20:00-21:00
扫描海报二维码,免费报名
添加微信csdnai,备注:公开课,加入课程交流群
点击 | 阅读原文 | 免费报名
Recommend
-
32
Google at Interspeech 2019 2019-09-16adminGoogleDevFeeds
-
33
神经网络压缩方向是目前深度学习研究的一个热门的方向,其主要的研究方向是压缩,蒸馏,网络架构搜索,量化等。在 ICCV2019 中,不少的研究单位和学者都发表了神经网络压缩方向的论文。本文主要以其中三篇论文来研究神经网络压缩的目前发...
-
4
Meta AI连发三篇Textless NLP论文:语音生成的终极答案?-51CTO.COM Meta AI连发三篇Textless NLP论文:语音生成的终极答案? 作者:新智元 2022-04-08 14:58:22 AI语音生成的特点就是呆板,没有...
-
7
三篇论文入选国际顶会SIGMOD,厉害了腾讯云数据库 好...
-
3
腾讯云数据库三篇论文入选行业顶会SIGMOD,产学研结合助力国产数据库生态建设
-
3
钉钉会议两篇论文入选国际语音顶会INTERSPEECH 2022-品玩 钉钉会议两篇论文入选国际语音顶会INTERSPEECH 2022 10小时前 利用深度学习来提升语音增强效果和鲁棒性,已成为实时音视频通信领域研究的热点之一...
-
2
火山语音7篇论文入选国际顶会Interspeech-品玩 火山语音7篇论文入选国际顶会Interspeech 2小时前 日前,火山语音团队七篇论文成功入选国际顶会Interspeech2022,内容涵盖音频合成、音频理解等多个技术方向的创新突破...
-
2
奇富科技语音论文入选国际顶会INTERSPEECH 2023 近日,奇富科技机器人团队论文《Eden-TTS:一种简单高效的非自回归“端到端可微分”神经网络的语音合成架构》(Eden-TTS...
-
2
OPPO小布助手5篇论文入选国际语音顶会Interspeech 2023-品玩
-
3
三篇论文解决“语义分割的优化和评估”难题,鲁汶/清华/牛津等联合提出全新方法新智元·2024-02-06 08:43神经网络结构和JDT损失对优化细粒度指标的重要作用...
About Joyk
Aggregate valuable and interesting links.
Joyk means Joy of geeK