9

EMNLP'20最佳论文揭晓!八块肌肉=能打电话?!

 3 years ago
source link: https://mp.weixin.qq.com/s?__biz=MzIwNzc2NTk0NQ%3D%3D&%3Bmid=2247500675&%3Bidx=1&%3Bsn=bc316da58109fb3b6377910c2d9ef3c3
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
7zAVb2V.png!mobile

文 | 小轶(yì)

背景

今天上午十点刚刚颁布的EMNLP 2020最佳论文,获奖者是来自UCBerkeley团队的这篇Digital Voicing of Silent Speech。 Zv2qqeq.png!mobile

刷了那么多NLP论文,各种pretraining、BERT、XXX-former...是不是都快刷出审美疲劳了?今年的EMNLP best paper绝对耳目一新!!工作研究了一个极具潜在社会影响力的新任务:Silent Speech Voicing—— 通过肌电传感器,把无声的说话动作转化为电子语音 。如果该技术得以实现,即使不发生声带振动,只要做出相应的发声动作,即迅速转换为语音。想象一下,或许未来有一天,只要动动嘴,都不用发出声音,就能和人打电话了!

quuiyeY.jpg!mobile

该技术可能的应用场景非常广泛,包括:

  • 过分嘈杂的环境(普通的有声电话难以识别清楚)

  • 必须要保持安静的严肃场合 ( 开会摸鱼新思路

  • 最最重要的是,那些不幸丧失发声能力的人们也将能够与身边人流畅地交流啦!

这个任务显然具有非常大的前景和潜在社会影响。其实近十年也有一些少量工作尝试做类似的事情,但效果都非常不好,让人觉得这事儿可能目前的技术一时半会还实现不了。但emnlp这篇大大提升了实验效果——在一组主要实验中,和之前最强的baseline相比,误差率直降94%。总之,很大程度上证明这个方向还是achievable,大家努努力说不定能成的那种!并且,他们也同时发布了一个针对该任务的大规模数据集。鉴于其深远的应用前景,可以想见之后应该会有大量工作继续follow。而这篇best paper也将成为该任务的开山之作。

论文题目:

Digital Voicing of Silent Speech

论文链接:

https://arxiv.org/pdf/2010.02960.pdf

开源代码:

https://github.com/dgaddy/silent_speech

Arxiv访问慢的小伙伴也可以在 【 夕小瑶的卖萌屋 】订阅号后台回复关键词 【 1119 】 下载论文PDF~

方法

接下来,我们简单看一下实现过程~首先第一步是传感器信号采集,需要在嘴和颈脖周围贴上八个传感器,像这样: ya67FnB.png!mobile

然后就会得到八串肌电图信号,像这样: UJFRBbU.png!mobile

接下来的任务,就是如何 基于肌电图信号,识别出具体的语言信息 了。信号转文字的相关研究其实已经有很多了,emnlp这篇的主要贡献其实并不在这一部分,而在于他们发现、并解决了之前研究中的一个问题:前人采用的训练数据都是 人在“出声”说话时的肌电信号 。但这篇工作则证明,要实现silent speech voicing,必须要用 人在“不发声”说话时的肌电信号 ,因为这两种场景下人的肌肉运作方式是不一样的。motivation很显然,但事实上实现起来是有困难的。因为对于无声的信号来说,是没有对应的语音信号的,很难直接标记出某一段信号对应了哪个单词。他们的解决方法是:对同一段文字,先采集一遍人们说这段话时的有声信号,再采集一遍无声信号。然后让模型在两种信号上都进行训练。两种数据在时间上并不是完全对齐的,所以该模型最核心的一个模块,就是实现两种信号的对齐。 MrmQfyJ.png!mobile

实验

实验中,评测的方式就是请志愿者(或者用语音识别模型)听写转换出来的电子语音。评测指标是word error rate (WER),直观来说就是 和原文的最短编辑距离 除以文本长度:

(向右滑动查看完整公式)

主要测试了两种设定下的性能表现(两者主要区别其实就是前者包含的词汇量少很多):

  • Closed Vocabulary Condition

  • Open Vocabulary Condition

测试结果如下表。可以看到,在Closed Vocabulary场景下,WER仅有3.6%,比baseline的误差率减少了94%。在Open Vocabulary场景下,也比baseline降低了20%左右的WER。 buE3iaR.png!mobile

小结

今年emnlp的best paper颁给了一个非典型的NLP任务。但确实是很酷的工作!是那种会真正产生社会影响的一类研究~所以说,NLP不止是“万物皆可BERT”,NLP的未来也不只有疯狂pretraining。还有很多有意义的方向值得我们去探索呢!

P.S 从今天起,小轶我笔名改做“小轶(yì)”啦。不是小秩(zhì)。也不是小铁(tiě)哦! rQv6NzZ.png!mobile

mQVVveR.png!mobile萌屋作者:小轶(yì)

刚刚本科毕业于北大计算机系的美少女学霸!目前在腾讯天衍实验室做NLP研究实习生。原计划是要赴美国就读CMU的王牌硕士项目MCDS,不过因为疫情正处于gap year,于是就来和小夕愉快地玩耍啦~文风温柔优雅,偶尔暴露呆萌属性,文如其人哦!知乎ID:小轶。

作品推荐:

4. Attention模型:我的注意力跟你们人类不一样

YJRvmub.jpg!mobile 后台回复关键词【 入群

加入卖萌屋NLP/IR/Rec与求职讨论群

有顶会审稿人、大厂研究员、知乎大V和妹纸

等你来撩哦~

juayEbe.gif!mobile

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK