解放原画师！Wav2Lip 用 AI 听音同步人物口型

By 超神经

内容提要：「眼见为实」在 AI 技术面前已经失效了，换脸、对口型的技术层出不穷，效果越来越逼真。今天要介绍的 Wav2Lip 模型，只需一段原始视频与目标音频，就可将其合二为一。

关键词：唇形同步语音信号

近几年，好莱坞动画屡屡拿下超过 10 亿美元的票房，《疯狂动物城》、《冰雪奇缘》等等，它们个个品质过硬，单拿口型这一点来说，就非常严谨，动画人物口型与真人口型几乎一致。

而实现这样的效果，其实需要经历非常复杂的过程，需要耗费巨大的人力物力。所以，很多动画制作方为了节省成本，只采用比较简单的口型示意。

现在，AI 正在努力减轻原画师的工作。来自印度海德拉巴大学和英国巴斯大学的团队，今年发表在 ACM MM2020 的一篇论文《A Lip Sync Expert Is All You Need for Speech to Lip Generation In The Wild 》，提出一个叫做 Wav2Lip 的 AI 模型，只需一段人物视频和一段目标语音，就能让其合二为一，配合得天衣无缝。

对口型大法 Wav2Lip，效果如此突出

要说对口型的技术，此前其实已经有很多，甚至在基于深度学习的技术出现之前，就有一些技术使角色的嘴唇形状与实际的语音信号相匹配。

但这个 Wav2Lip 在一众方法中，显示出了绝对优势。现有的其它方法，主要是基于静态图像，来输出与目标语音匹配的唇形同步视频，但对于动态的、在讲话的人物，唇形同步往往效果不佳。

而 Wav2Lip 则可以直接将动态的视频，进行唇形转换，输出与目标语音相匹配的视频结果。

此外，不仅是视频，还能给动图对口型，从此以后表情包又丰富了！

作者选取部分动图匹配口型

人工评估表明，与现有方法相比，Wav2Lip 生成的视频，在 90％以上的时间中优于现有方法。

模型实际效果究竟如何？超神经进行了一番测试。以下视频展现了官方 demo 的运行效果，输入素材分别选取了官方提供的测试素材，以及超神经选取的中、英文测试素材。

输入的原视频中人物均未讲话

经过 AI 模型操作，实现了人物口型与输入语音同步

我们看到，官方 demo 的动画视频中，效果堪称完美。在超神经真人测试中，除了嘴唇稍有变形和抖动之外，整体唇形同步效果还是比较准确的。

教程已出，三分钟学会

看到这里，你是不是也跃跃欲试了呢？如果你已经有了一个大胆的想法，那么不如从现在就开始动手吧。

目前，该项目已在 GitHub 开源，作者提供了交互演示、Colab notebook 以及完整的训练代码，推断代码和预训练模型以及教程。

项目具体信息如下：

项目名称：Wav2Lip

GitHub 地址：

https://github.com/Rudrabha/Wav2Lip

项目运行环境：

语言：Python 3.6+
视频处理程序：ffmpeg

人脸检测预训练模型下载：

https://www.adrianbulat.com/downloads/python-fan/s3fd-619a316812.pth

除了准备以上环境，还需要下载安装以下软件包：

librosa==0.7.0
numpy==1.17.1
opencv-contrib-python>=4.2.0.34
opencv-python==4.1.0.25
tensorflow==1.12.0
torch==1.1.0
torchvision==0.3.0
tqdm==4.45.0
numba==0.48

不过，你也可以不用准备这些繁琐的程序，仅需准备一张图片/一段人物视频（CGI 人物亦可） + 一段音频（合成音频亦可），就可在国内的机器学习算力容器服务平台，直接一键运行。

传送门：https://openbayes.com/console/openbayes/containers/EiBlCZyh7k7

目前，该平台还能薅羊毛，每周都赠送 vGPU 的使用时长，人人都可轻松完成教程。

完成整个教程仅需要 5 分钟

该模型有 Wav2Lip，Wav2Lip+GAN，以及 Expert Discriminator 三种权重。其中，后两者的效果都明显优于单独使用 Wav2Lip 模型，本教程中使用的权重即 Wav2Lip+GAN。

该模型作者强调，其开放源代码的所有结果仅应用于研究/学术/个人目的，模型基于 LRS2（Lip Reading Sentences 2）数据集训练，因此严禁任何形式的商业用途。

为了避免技术被滥用，研究者还强烈建议，使用 Wav2Lip 的代码和模型创建的任何内容都必须标明是合成的。

背后关键技术：唇形同步辨别器

Wav2Lip 是如何听音频对口型这件事，做到了如此精确？

据介绍，实现突破的关键在于，研究者采用了唇形同步判别器，以强制生成器持续产生准确而逼真的唇部运动。

此外，该研究通过在鉴别器中，使用多个连续帧而不是单个帧，并使用视觉质量损失（而不仅仅是对比损失）来考虑时间相关性，从而改善了视觉质量。

作者使用一个预先训练的鉴别器

及时准确地检测唇形同步错误

研究者表示，他们的 Wav2Lip 模型几乎是万能的，适用于任何人脸、任何语音、任何语言，对任意视频都能达到很高的准确率，可以无缝地与原始视频融合，还可以用于转换动画人脸，并且导入合成语音也是可行的。

可以想象，这个神器可能又会造就一波鬼畜视频了……

论文地址：

https://arxiv.org/pdf/2008.10010.pdf

Demo 地址：

https://bhaasha.iiit.ac.in/lipsync/

—— 完 ——

解放原画师！Wav2Lip 用 AI 听音同步人物口型

解放原画师！Wav2Lip 用 AI 听音同步人物口型

Recommend

由于不知道Java线程池的bug,某程序员叕被祭天

微服务的隐性收益

4 种最令人讨厌的编程语言：Java、C++ 上榜

常见的拖垮中小公司技术团队的10宗罪

暗黑色系，讨论专区，Universe 2020 带来GitHub 全新体验

【社区榜单】TensorFlow 社区双周问答贡献光荣榜（第一期）

垂垂老矣，一代人的回忆，Adobe Flash 寿命将尽

中国编程第一人，一人抵一城！

商汤科技一员工健身后猝死，给我带来的思考，所有人都应该警惕

Linux soft lockup时远程调试的可能性

About Joyk