6

AI视频抠图有多强?无需「绿幕」,也可达影视级效果!

 3 years ago
source link: https://www.leiphone.com/news/202011/3FwHEdI6amZAtz3g.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

今天一大早就被网友们安利了一个热门AI项目。

听说,它可以带你周游世界,还能让AngelaBaby多拍几部电视剧。

3IRF7br.png!mobile

VZzuUfe.png!mobile

这是啥情况??

仔细一了解,原来是一款AI视频抠图神器,一大早就冲上了GitHub热榜。

官方介绍说,这个AI神器可以让视频处理变得非常简单且专业,不用「绿幕」,也能达到逼真、毫无违和感的合成效果。

果然,打工人的“周游世界”只有AI能实现了[泪目]。

其实,视频抠图AI已经出现过不少,但这一款确实让人觉得很惊艳。先来看下它演示Demo。

你能看出公路背景和大海背景的视频,哪一个是AI合成的吗?

6jM3QrV.gif!mobile

连撩起的头发都看不出一点破绽。

而且就算疯狂跳舞也没有影响合成效果。

iiQbIrj.gif!mobile

再来看下它背后的抠图细节,不仅精确到了头发,甚至还包括浮起的碎发......

AnqUR3Y.png!mobile

动态效果也是如此,疯狂甩头也能实时捕捉细节。

FrABRzr.gif!mobile

这项超强AI抠图神器来自香港城市大学和商汤科技联合研究团队,论文一作还是一位在读博士生张汉科。

接下来,我们来看下它背后的技术原理。

目标分解网络MODNet

关键在于,这个AI采用了一种轻量级的目标分解网络MODNet( Matting Objective Decomposition Network),它可以从不同背景的单个输入图像中平滑地处理动态人像。

简单的说,其功能就是视频人像抠图。

我们知道,一些影视作品尤其是古装剧,必须要对人物的背景进行后期处理。为了达到逼真的合成效果,拍摄时一般都会采用「绿幕」做背景。因为绿色屏幕可以使高质量的Alpha 蒙版实时提取图像或视频中的人物。

另外,如果没有绿屏的话,通常采用的技术手段是光照处理法,即使预定义的Trimap作为自然光照算法输入。这种方法会粗略地生成三位图:确定的(不透明)前景,确定的(透明)背景以及介于两者之间的未知(不透明)区域。

如果使用人工注释三位图不仅昂贵,而且深度相机可能会导致精度下降。因此,针对以上不足,研究人员提出了目标分解网络MODNet。

bA3miy7.png!mobile

如图所示,MODNet由三个相互依赖的分支S、D和F构成。它们分别通过一个低分辨率分支来预测人类语义(SP)、一个高分辨率分支来聚焦纵向的边界细节(DP),最后一个融合分支来预测Alpha Matte (αp)。

具体如下:

  • 语义估计(Semantic Estimation):采用MobileNetV2[35]架构,通过编码器(即MODNet的低分辨率分支)来提取高层语义。

  • 细节预测(Detail Prediction):处理前景肖像周围的过渡区域,以I,S(I)和S的低层特征作为输入。同时对它的卷积层数、信道数、输入分辨率三个方面进行了优化。

  • 语义细节融合(Semantic-Detail Fusion):一个融合了语义和细节的CNN模块,它向上采样S(I)以使其形状与D(I,S(I))相之相匹配,再将S(I)和D(I,S(I))连接起来预测最终αp。

另外,基于以上底层框架,该研究还提出了一种自监督策略SOC(Sub-Objectives Consistency)和帧延迟处理方法OFD(One-Frame Delay )。

其中,SOC策略可以保证MODNet架构在处理未标注数据时,让输出的子目标之间具有一致性;OFD方法在执行人像抠像视频任务时,可以在平滑视频序列中预测Alpha遮罩。如下图:

z6zeqar.png!mobile

实验评估

在开展实验评估之前,研究人员创建了一个摄影人像基准数据集PPM-100(Photographic Portrait Matting)。

它包含了100幅不同背景的已精细注释的肖像图像。为了保证样本的多样性,PPM-100还被定义了几个分类规则来平衡样本类型,比如是否包括整个人体;图像背景是否模糊;是否持有其他物体。如图:

ZJniU3j.png!mobile

PPM-100中的样图具有丰富的背景和人物姿势。因此可以被看做一个较为全面的基准。

那么我们来看下实验结果:

z6J7j2F.png!mobile

图中显示,MODNet在MSE(均方误差)和MAD(平均值)上都优于其他无Trimap的方法。虽然它的性能不如采用Trimap的DIM,但如果将MODNet修改为基于Trimap的方法—即以Trimap作为输入,它的性能会优于基于Trimap的DIM,这也再次表明显示MODNet的结构体系具有优越性。

此外,研究人员还进一步证明了MODNet在模型大小和执行效率方面的优势。

其中,模型大小通过参数总数来衡量,执行效率通过NVIDIA GTX1080 Ti GPU上超过PPM-100的平均参考时间来反映(输入图像被裁剪为512×512)。结果如图:

iyqqUj.png!mobile

上图显示,MODNet的推理时间为15.8ms(63fps),是FDMPA(31fps)的两倍。虽然MODNet的参数量比FDMPA稍多,但性能明显更好。

需要注意的是,较少的参数并不意味着更快的推理速度,因为模型可能有较大的特征映射或耗时机制,比如,注意力机制(Attention Mechanisms)。

总之,MODNet提出了一个简单、快速且有效实时人像抠图处理方法。该方法仅以RGB图像为输入,实现了场景变化下Alpha 蒙版预测。此外,由于所提出的SOC和OFD,MODNet在实际应用中受到的域转移问题影响也较小。

不过遗憾的是,该方法不能处理复杂的服装和模糊的运动视频,因为这些内容不涵盖在训练数据集内。下一阶段,研究人员会尝试通过附加子目标(例如光流估计)的方法来解决运动模糊下的视频抠图问题。

更多论文内容可参见:https://arxiv.org/pdf/2011.11961.pdf

引用链接:

https://www.youtube.com/watch?v=PqJ3BRHX3Lc&feature=youtu.be

https://github.com/ZHKKKe/MODNet

https://syncedreview.com/2020/11/26/do-we-really-need-green-screens-for-high-quality-real-time-human-matting/

https://www.reddit.com/r/MachineLearning/comments/k1sttd/r_do_we_really_need_green_screens_for_highquality/

雷锋网雷锋网 (公众号:雷锋网) 雷锋网

雷锋网原创文章,未经授权禁止转载。详情见 转载须知

rAze22y.jpg!mobile


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK