9

解放原画师!Wav2Lip 用 AI 听音同步人物口型

 3 years ago
source link: https://blog.csdn.net/HyperAI/article/details/111306227
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

解放原画师!Wav2Lip 用 AI 听音同步人物口型

By 超神经

内容提要:「眼见为实」在 AI 技术面前已经失效了,换脸、对口型的技术层出不穷,效果越来越逼真。今天要介绍的 Wav2Lip 模型,只需一段原始视频与目标音频,就可将其合二为一。

关键词:唇形同步 语音信号

近几年,好莱坞动画屡屡拿下超过 10 亿美元的票房,《疯狂动物城》、《冰雪奇缘》等等,它们个个品质过硬,单拿口型这一点来说,就非常严谨,动画人物口型与真人口型几乎一致。

而实现这样的效果,其实需要经历非常复杂的过程,需要耗费巨大的人力物力。所以,很多动画制作方为了节省成本,只采用比较简单的口型示意。

现在,AI 正在努力减轻原画师的工作。来自印度海德拉巴大学和英国巴斯大学的团队,今年发表在 ACM MM2020 的一篇论文《A Lip Sync Expert Is All You Need for Speech to Lip Generation In The Wild 》提出一个叫做 Wav2Lip 的 AI 模型,只需一段人物视频和一段目标语音,就能让其合二为一,配合得天衣无缝。

 对口型大法 Wav2Lip,效果如此突出

要说对口型的技术,此前其实已经有很多,甚至在基于深度学习的技术出现之前,就有一些技术使角色的嘴唇形状与实际的语音信号相匹配。

但这个 Wav2Lip 在一众方法中,显示出了绝对优势。现有的其它方法,主要是基于静态图像,来输出与目标语音匹配的唇形同步视频,但对于动态的、在讲话的人物,唇形同步往往效果不佳。

而 Wav2Lip 则可以直接将动态的视频,进行唇形转换,输出与目标语音相匹配的视频结果。

此外,不仅是视频,还能给动图对口型,从此以后表情包又丰富了!

作者选取部分动图匹配口型

人工评估表明,与现有方法相比,Wav2Lip 生成的视频,在 90% 以上的时间中优于现有方法。

模型实际效果究竟如何?超神经进行了一番测试。以下视频展现了官方 demo 的运行效果,输入素材分别选取了官方提供的测试素材,以及超神经选取的中、英文测试素材。

输入的原视频中人物均未讲话

经过 AI 模型操作,实现了人物口型与输入语音同步

我们看到,官方 demo 的动画视频中,效果堪称完美。在超神经真人测试中,除了嘴唇稍有变形和抖动之外,整体唇形同步效果还是比较准确的。

 教程已出,三分钟学会

看到这里,你是不是也跃跃欲试了呢?如果你已经有了一个大胆的想法,那么不如从现在就开始动手吧。

目前,该项目已在 GitHub 开源,作者提供了交互演示、Colab notebook 以及完整的训练代码,推断代码和预训练模型以及教程。

项目具体信息如下:

项目名称:Wav2Lip

GitHub 地址:

https://github.com/Rudrabha/Wav2Lip

项目运行环境:

  • 语言:Python 3.6+

  • 视频处理程序:ffmpeg

人脸检测预训练模型下载:

https://www.adrianbulat.com/downloads/python-fan/s3fd-619a316812.pth

除了准备以上环境,还需要下载安装以下软件包:

  • librosa==0.7.0

  • numpy==1.17.1

  • opencv-contrib-python>=4.2.0.34

  • opencv-python==4.1.0.25

  • tensorflow==1.12.0

  • torch==1.1.0

  • torchvision==0.3.0

  • tqdm==4.45.0

  • numba==0.48

不过,你也可以不用准备这些繁琐的程序,仅需准备一张图片/一段人物视频(CGI 人物亦可) + 一段音频(合成音频亦可),就可在国内的机器学习算力容器服务平台,直接一键运行。

传送门:https://openbayes.com/console/openbayes/containers/EiBlCZyh7k7 

目前,该平台还能薅羊毛,每周都赠送 vGPU 的使用时长,人人都可轻松完成教程。

完成整个教程仅需要 5 分钟

该模型有 Wav2Lip,Wav2Lip+GAN,以及 Expert Discriminator 三种权重。其中,后两者的效果都明显优于单独使用 Wav2Lip 模型,本教程中使用的权重即 Wav2Lip+GAN。

该模型作者强调,其开放源代码的所有结果仅应用于研究/学术/个人目的,模型基于 LRS2(Lip Reading Sentences 2)数据集训练,因此严禁任何形式的商业用途。

为了避免技术被滥用,研究者还强烈建议,使用 Wav2Lip 的代码和模型创建的任何内容都必须标明是合成的。

 背后关键技术:唇形同步辨别器

Wav2Lip 是如何听音频对口型这件事,做到了如此精确?

据介绍,实现突破的关键在于,研究者采用了唇形同步判别器,以强制生成器持续产生准确而逼真的唇部运动。

此外,该研究通过在鉴别器中,使用多个连续帧而不是单个帧,并使用视觉质量损失(而不仅仅是对比损失)来考虑时间相关性,从而改善了视觉质量。

作者使用一个预先训练的鉴别器

及时准确地检测唇形同步错误

研究者表示,他们的 Wav2Lip 模型几乎是万能的,适用于任何人脸、任何语音、任何语言,对任意视频都能达到很高的准确率,可以无缝地与原始视频融合,还可以用于转换动画人脸,并且导入合成语音也是可行的。

可以想象,这个神器可能又会造就一波鬼畜视频了……

论文地址:

https://arxiv.org/pdf/2008.10010.pdf

Demo 地址:

https://bhaasha.iiit.ac.in/lipsync/

—— 完 ——


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK