让视频里的你完全消失，Adobe最新SOTA模型实现无痕修图，无需先验知识

用各种修图技术 P 掉图片里的指定内容往往很难不着痕迹，抹掉视频里的流动内容就更难了。但近日，Adobe 提出了一种基于 Deep Image Prior 的新型视频修图算法，可以同时修复缺失图像和移动（光流）信息，增强视频的时间和空间连贯性，使得去掉某些内容之后的视频依然自然、流畅，毫无修图痕迹。而且，该方法无需外部数据库，仅通过视频内部学习即可实现。

Adobe 提出的这种新型视频修图算法可以同时修复缺失图像和移动（光流）信息，基于 Deep Image Prior（DIP）提出。DIP 利用卷积网络架构来修复静止图像中的纹理。

论文链接：https://arxiv.org/abs/1909.07957v1

Adobe 的研究人员将 DIP 从静止图像扩展到视频领域，在此过程中他们做出了以下两大重要贡献：

在没有先验训练的情况下，可以实现连贯的视频修复。研究人员采用生成方法进行视频修复，它基于内部（视频内数据）学习而不依赖外部视觉数据语料库，从而训练出适用于大量视频的通用模型；
研究人员证明，此类框架可以同时生成图像外观和光流，同时利用这些互补模态保证彼此的连贯性。

研究者证明，利用每个视频的外观数据可以获得视觉合理的修复结果，同时还能处理长期连贯性这一难题。

研究贡献

该研究受 Deep Image Prior 的启发，提出一种基于内部学习的视频修复方法。DIP 最惊人的结果是：自然图像的「知识」可以通过卷积神经网络（CNN）进行编码，即 CNN 网络架构，而非实际的滤波器权重。

CNN 的平移不变性使得 DIP 能够利用图像中视觉图案的内部循环（internal recurrence），该方式与基于图像块的经典方法 [19] 类似，但表达性更强。此外，DIP 无需外部数据集，因而其遭遇指数级数据问题的概率较小。研究者尝试将 DIP 方法扩展至视频修复领域，作为从外部数据集学习先验知识的替代方法。

该研究的核心贡献是：提出了首个基于内部学习的视频修复框架。该研究证明，基于视频内数据训练的逐帧生成式 CNN 也有可能输出高质量的视频修复结果。研究者研究了不同内部学习策略对解决视频修复时间连贯性问题的效果，开发出基于联合图像和光流预测的训练策略，该策略可以感知到视频连贯性。这一方法不仅使网络捕捉到短期运动连贯性，还能将该信息传播到不同帧，从而高效解决长期连贯性问题。

研究表明，该方法可以实现当前最优的视频修复结果。作为基于网络的框架，该方法可以纳入 CNN 学得的自然图像先验，以避免基于图像块方法中常出现的变形现象（见下图 1）。

eiEvmmz.jpg!web

图 1： 「跑酷」场景的视频修复结果。

相比于基于帧的基线方法（第 2 行），Adobe 提出的内部学习视频修复框架的修复结果连贯性更强，即使是对于多个帧中看不到的内容（橙色框）。作为基于网络的合成框架，Adobe 提出的方法可以利用自然图像先验避免变形，而这在基于图像块的方法（如 [16]，第 3 行）中经常出现（红色框）。

从 DIP 到基于内部学习的视频修复方法，经历了什么？

将 DIP 扩展至视频领域的一项重要挑战是确保时间连贯性：内容不应该出现视觉伪影，相邻帧之间应该展现出平滑的运动（光流）。这对视频修复而言难度尤其高，因为像素具备时间对应性才能生成缺失内容，而这种对应也可实现内容的时间流畅度。

Adobe 通过同时合成外观和运动打破了这个循环，它通过编码器-解码器网络生成内容，该网络不仅在视觉领域利用 DIP，同时也在运动方面利用了 DIP。这就可以同时解决外观修复和光流修复问题，保持二者之间的一致性。研究证明，同时预测外观和运动信息不仅能够提升空间-时间连贯性，还能更好地在较大空洞区域传播结构信息，从而提升视觉合理性。