人类读不懂唇语？交给深度学习，精度可达 84.41%

读懂唇语，这是摆在我们面前的一道难题，大多数人平均只能读对一句唇语的十分之一。那么 AI 能做到吗？

早在 2016 年，牛津大学人工智能实验室、谷歌 DeepMind 和加拿大高等研究院（CIFAR）就联合开发了结合深度学习技术的唇读程序 LipNet。随后，提高计算机唇读精度，便成为了该领域的一项重要挑战。

近日，来自浙江工业大学、中科院计算技术研究所智能信息处理重点实验室、中国科学院大学的研究团队更是共同提出了在局部特征层和全局序列层上引入互信息约束，增强口型特征与语音内容的关系，将计算机唇读精度提升至 84.41%。

当地时间 2020 年 3 月 13 日，相关论文 Mutual Information Maximization for Effective Lip Reading（有效唇读的互信息最大化）发表于预印本网站 arXiv。

aueAZvY.png!web

解决词汇级唇读的“固有”问题

唇读（lip-reading/speech-reading），简单来讲就是观察说话者的口型变化，“读出”其表达的内容。实际上，唇读的过程是利用视觉信道信息补充听觉信道信息，这对听力较弱的群体、嘈杂环境中的工作者以及执法机构具有实际应用意义。

而在计算机视觉领域的语境下，唇读作为一种基于深度学习的模型，更多地被用来推断视频中的语音内容，可对基于音频的语音识别、生物认证等进行辅助。

在论文中，研究团队提到了「词汇级唇读」（word-level lip reading）的概念。实际上，词汇级唇读是唇读的一个分支，也是研究团队此次研究的主要关注方向，它存在一些“固有”问题。

第一，即使在同一视频中存在其他单词，每个输入视频都用单个词标签来注释。例如下图中包括总共 29 个帧的视频样本被注释为“ABOUT”，但是“ABOUT”一词的实际帧仅包括在时间步 T＝12∼19 处的帧，即红框中的部分，而红框前后的帧对应的词汇分别为“JUST”和“TEN”。

ARNRJjn.png!web

上面这个例子反映出词汇级唇读的一个问题—— 模型无法完全关注有效的关键帧，因此词汇边界划分不准确。

第二， 同一词汇标签下的视频样本画面经常存在变化 。例如下图中的画面都属于以“ABOUT”为标签的视频。

FFvm63N.png!web

上述 2 个词汇级唇读的特性要求唇读模型能够抵抗序列中的噪声，从而在各种语音环境下捕获一致的潜在模式。

此外， 准确捕捉口型的变化也并不容易 ——发音相似的词汇口型相似，同音词的识别也更是使难度升级。

实际上，确保计算机唇读性能良好，很大程度上正是取决于 2 点：

是否能有效地捕获口型变化；
是否能有效地抵抗由姿态、光线、扬声器外观等变化引起的噪声。

引入不同层级的「互信息最大化」

雷锋网 (公众号：雷锋网) 了解到，互信息（mutual information，MI）是用于测量两个随机变量之间的关系的基本量，当给定一个随机变量时，它总是用来计算另一个随机变量所拥有的信息量。基于此，两个随机变量的互信息总是被用来衡量两变量间的相互依赖性。

为解决上述问题，此次研究团队主要从两方面着手，引入了不同层级的「互信息最大化」（mutual information maximization，MIM），旨在使得模型同时具备较好的鉴别能力及鲁棒性，保证唇读更为有效。

AJBniya.png!web

【雷锋网注：基本架构】

一方面，研究团队施加「局部互信息最大化」（local mutual information maximization，LMIM）约束，限制每个时间步生成的特征，以使它们能够与语音内容具有强关系，从而提高模型发现精细的口型变化及发音类似的词之间的差异（例如“spend”和“spending”）的能力。

bYv6juE.png!web

【雷锋网注：LMIM 训练基础网络】

另一方面，研究团队引入「全局互信息最大化」（global mutual information maximization，GMIM）约束，使得模型更多地关注对与语音内容相关的关键帧的识别，同时更少地关注各种可能出现的噪声。

rIjyuiq.png!web

【GMIM 训练基础网络】

利用 LRW 和 LRW-1000 评估

为验证这一方法，研究团队利用 2 个大规模词汇水平的数据集对其进行评估，将其与其他主流的唇语识别模型方法进行了详细的几方面分析、比较，包括 LMIM 和 GMIM 与基线的比较、深度学习可视化等。

以下是 2 个数据集的具体信息：

LRW：于 2016 年发布，总样本量为 488766，包括 500 个词汇等级，涉及讲者超 1000名，讲话环境差异很大。该数据集被主流唇读方法广泛使用，具有挑战性的数据集；
LRW-1000：总样本量为 70000，总时长约 57 小时，包括 1000 个词汇等级。该数据集旨在覆盖不同的语音模式和画面条件，从而结合在实际应用中遇到的挑战。

经评估，研究团队发现 GMIM 可 将精度提高到 84.41% ，这主要得益于它对不同帧关注不同的特性。与其他除视觉信息外务额外输入的唇读方法相比，研究团队在 LRW 数据集上得到了迄今为止最佳的性能（如下图）。

fey6fm7.png!web