就算是戴上口罩，AI也知道你在说什么丨EMNLP 2020最佳论文

萧箫发自凹非寺

量子位报道 | 公众号 QbitAI

吃饭的时候，想要和对面聊聊天，然而周遭嘈杂的声音，让你根本不知道ta在说什么？

又或者，想与听障人士交流，然而对方听不见你的声音？

现在，检测面部肌肉变化的AI来了，只要你动了嘴，哪怕没出声，它也能知道你在说什么。

这是EMNLP 2020的最佳论文，来自UC伯克利的两位作者，用AI和电极做了个“沉默语音”的检测模型，可以检测到你想说、但没说出声的话。

1000

其中的原理究竟是什么，我们来一探究竟。

用电极收集你小声哔哔的证据

“无声语音”的本质，是人在说话时面部、颈部肌肉的变化。

说白了，你在对口型时虽然没有出声，但你的脸和脖子“出卖”了你。

而能够检测“无声语音”的AI，也正是这么被做出来的。

在收集数据时，研究者会先在实验者的脸上等部位贴8个贴片，每个贴片都是一个“监视肌肉变化”的传感器，像这样：

1000

在这之后，需要录制一段实验者的有声语音，并与肌电图进行对应，如下图（会录制两种语音数据，一种每句话4个词左右，另一种每句话16个词左右）：

1000

这种方法能够将肌肉的变化情况、和语音的类型对应起来。

在记录数据的过程中，还要再录制一段“对口型”的肌电图，但不需要发声，也就是“沉默语音”。

1000

之所以要收集两份肌电图，是因为人在无声说话时，肌肉的变化与发声说话时的变化有些区别，例如部分发音部位的肌肉震颤幅度会变小，语速也有所变化。

但如果要在无声环境下，根据肌肉变化识别出想说的语音，就只能用对口型时的无声肌电图。

显然，这些原因使得AI的训练变得非常困难。

为了尽可能将识别准确率放大，研究人员额外采用了一种结构来降低模型损失。

1000

不到20小时的语音集，效果还不错

那么，经由这种方法训练出来的模型，效果怎么样？

研究人员分别在封闭词集（Closed Vocabulary Condition）和开放词集（Open Vocabulary Condition）上，对这种模型进行了测试。

其中，封闭词集主要指介词、限定词、连词等词汇（如of、and），这种词汇集合少，容易训练，AI也容易形成“肌肉记忆”。

1000

而开放词集的范围，就要广泛得多了，包含名词、形容词等等词汇，目前的词语可以说是不计其数，想要让AI会认这些词汇，难度就要高得多。

判定的方式，是WER，具体的计算方式是这样的（原理类似于计算原句的出错率）：

1000

目前，这个AI在封闭词集上的训练水平已经达到了3.6%的WER（越小越好）：

1000

至于开放词集的检测，AI经过训练后，WER也从高达88%的水平下降到了68%。

1000

虽然在开放词集上的检测，看起来效果并不完美，但别忘了，这个模型所用的数据集并不大。

封闭检测数据集，一共只有不到1小时的语音数据；开放检测数据集，也只有18.6个小时的语音集。

而且，这些语音集还是无声、有声数据的合集。

1000

不到20个小时的语音数据，训练效果就已经达到了这种水平。

如果能获得更大的数据样本，模型的效果还会进一步提升。

作者介绍

1000

一作David Gaddy，来自UC伯克利的NLP组。平时的研究方向是无监督学习、语法分析和无声演讲。

Daniel Klein，一作的导师，研究方向主要是无监督学习、语法分析、信息提取和机器翻译。

One More Thing

这届EMNLP的各种NLP研究，简直不留活路：

来自北京中科院、北京信息工程学院的研究者，还发明了一种讽刺检测模型。

这种AI模型会通过同时检测文本和图像，进行多模态语义理解，从而检测出一个人在社交媒体上发出的动态，是否有讽刺的意思。

就像这句话：“这可真是场座无虚席的比赛，而且我们居然还抢到了位置。”

表面上，这是句再正常不过的话，然而在配上图片后，画风顿时变得诡异了起来：

1000

又例如这句话：“看起来就好吃极了。”

然而当看到散落在盒子边缘的芝士和馅料时，显然这又是一句充满讽刺意味的语句。

1000

现在，这些语义信息都已经被拿来喂给了AI，并训练出了一个“懂得听讽刺话”的模型。

1000

目前这个模型，已经在推特这样的社交媒体上进行了验证，取得了84.33%的好效果。

看了这个AI模型，你还敢偷偷说老板坏话吗？

Recommend

女性形象图鉴：2020年，大众媒介如何建构我们眼中的“她”？

“完美日记”背后的“天使投资日记”

小米高管言出不逊称“得屌丝者得天下”，为何互联网大佬们屡屡失言？

html2sketch：一名设计工程师的 C2D 探索之路

汉服畅销榜与背后的创业公司

互联网巨头赶着去卖菜

收购蛋壳，看中的是“蛋”还是“壳”？

2020中国SD-WAN峰会 | 上元信安SD-WAN演进之路：安全、智能、高效

奇客「带货主播」现形记

想给老妈买个洗碗机，有必要么？

About Joyk