10

就算是戴上口罩,AI也知道你在说什么丨EMNLP 2020最佳论文

 3 years ago
source link: https://new.qq.com/omn/20201126/20201126A07ROA00.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

萧箫 发自 凹非寺

量子位 报道 | 公众号 QbitAI

吃饭的时候,想要和对面聊聊天,然而周遭嘈杂的声音,让你根本不知道ta在说什么?

0

又或者,想与听障人士交流,然而对方听不见你的声音?

现在,检测面部肌肉变化的AI来了,只要你动了嘴,哪怕没出声,它也能知道你在说什么。

这是EMNLP 2020的最佳论文,来自UC伯克利的两位作者,用AI和电极做了个“沉默语音”的检测模型,可以检测到你想说、但没说出声的话。

1000

其中的原理究竟是什么,我们来一探究竟。

用电极收集你小声哔哔的证据

“无声语音”的本质,是人在说话时面部、颈部肌肉的变化。

说白了,你在对口型时虽然没有出声,但你的脸和脖子“出卖”了你。

而能够检测“无声语音”的AI,也正是这么被做出来的。

在收集数据时,研究者会先在实验者的脸上等部位贴8个贴片,每个贴片都是一个“监视肌肉变化”的传感器,像这样:

1000

在这之后,需要录制一段实验者的有声语音,并与肌电图进行对应,如下图(会录制两种语音数据,一种每句话4个词左右,另一种每句话16个词左右):

1000

这种方法能够将肌肉的变化情况、和语音的类型对应起来。

在记录数据的过程中,还要再录制一段“对口型”的肌电图,但不需要发声,也就是“沉默语音”。

1000

之所以要收集两份肌电图,是因为人在无声说话时,肌肉的变化与发声说话时的变化有些区别,例如部分发音部位的肌肉震颤幅度会变小,语速也有所变化。

但如果要在无声环境下,根据肌肉变化识别出想说的语音,就只能用对口型时的无声肌电图。

显然,这些原因使得AI的训练变得非常困难。

为了尽可能将识别准确率放大,研究人员额外采用了一种结构来降低模型损失。

1000

不到20小时的语音集,效果还不错

那么,经由这种方法训练出来的模型,效果怎么样?

研究人员分别在封闭词集 (Closed Vocabulary Condition)和开放词集 (Open Vocabulary Condition)上,对这种模型进行了测试。

其中,封闭词集主要指介词、限定词、连词等词汇(如of、and),这种词汇集合少,容易训练,AI也容易形成“肌肉记忆”。

1000

而开放词集的范围,就要广泛得多了,包含名词、形容词等等词汇,目前的词语可以说是不计其数,想要让AI会认这些词汇,难度就要高得多。

判定的方式,是WER,具体的计算方式是这样的(原理类似于计算原句的出错率):

1000

目前,这个AI在封闭词集上的训练水平已经达到了3.6%的WER(越小越好):

1000

至于开放词集的检测,AI经过训练后,WER也从高达88%的水平下降到了68%。

1000

虽然在开放词集上的检测,看起来效果并不完美,但别忘了,这个模型所用的数据集并不大。

封闭检测数据集,一共只有不到1小时的语音数据;开放检测数据集,也只有18.6个小时的语音集。

而且,这些语音集还是无声、有声数据的合集。

1000

不到20个小时的语音数据,训练效果就已经达到了这种水平。

如果能获得更大的数据样本,模型的效果还会进一步提升。

作者介绍

1000

一作David Gaddy,来自UC伯克利的NLP组。平时的研究方向是无监督学习、语法分析和无声演讲。

Daniel Klein,一作的导师,研究方向主要是无监督学习、语法分析、信息提取和机器翻译。

One More Thing

这届EMNLP的各种NLP研究,简直不留活路:

来自北京中科院、北京信息工程学院的研究者,还发明了一种讽刺检测模型。

这种AI模型会通过同时检测文本和图像,进行多模态语义理解,从而检测出一个人在社交媒体上发出的动态,是否有讽刺的意思。

0

就像这句话:“这可真是场座无虚席的比赛,而且我们居然还抢到了位置。”

表面上,这是句再正常不过的话,然而在配上图片后,画风顿时变得诡异了起来:

1000

又例如这句话:“看起来就好吃极了。”

然而当看到散落在盒子边缘的芝士和馅料时,显然这又是一句充满讽刺意味的语句。

1000

现在,这些语义信息都已经被拿来喂给了AI,并训练出了一个“懂得听讽刺话”的模型。

1000

目前这个模型,已经在推特这样的社交媒体上进行了验证,取得了84.33%的好效果。

看了这个AI模型,你还敢偷偷说老板坏话吗?


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK