学习一帧，为整段黑白视频上色：谷歌提出自监督视觉追踪模型

2018/06/30 AM 11:20

参与刘晓坤路雪

追踪视频中的物体一直是计算机视觉领域中的基本问题，对于动作识别、对象交互或视频风格化等应用非常重要。然而，教会机器视觉追踪物体是一个具有挑战性的任务，因为它需要大量经过标注的追踪数据集用于训练，而大规模的标注通常是不切实际的。

在谷歌最近提交的论文《Tracking Emerges by Colorizing Videos》中，研究人员引入了一种为灰度视频着色的卷积神经网络，但它只需要参考单帧已着色的参考图像，并复制参考帧的颜色。在新方法中，神经网络可以自动无监督地对物体进行视觉追踪。更重要的是，尽管模型并未明确地为目标追踪进行训练，但它仍然可以追踪多个目标、追踪被遮挡的目标、并适应目标的变形保持稳定追踪——这并不需要任何经过标注的训练数据。

Unq2min.png!web

在公开学术数据集 DAVIS 2017 上的追踪预测示例。在学习对视频着色之后，在无监督的情况下涌现了一种自动追踪对象的机制。研究人员在第一帧中指定感兴趣的区域（用不同颜色表明），模型无需任何额外学习或监督即可自动进行追踪。

学习为视频重新上色

谷歌研究人员假设颜色的时间一致性为教机器追踪视频区域提供了优秀的大规模训练数据。很明显，总有例外，即颜色不具备时间一致性（如突然开灯）的情况，但是通常颜色不会随着时间而改变。此外，大部分视频都包含颜色，这提供了可扩展自监督学习信号。谷歌研究人员先去掉视频的颜色，然后再着色，因为视频中可能有多个对象颜色相同，而通过着色我们可以教机器追踪特定的对象或区域。

为了训练系统，谷歌研究人员利用 Kinetics 数据集中的视频，该数据集是一个日常活动视频的大型开放集合。谷歌研究人员将所有视频帧转换成灰度图像（除了第一帧），然后训练一个卷积网络预测后续帧的原始颜色。研究人员期望模型学会追踪视频区域，以准确恢复原始颜色。其主要观测结果是追踪着色对象的需求使我们得到自动学习追踪对象的模型。

Y3I3uyb.png!web

研究者使用 DAVIS 2017 数据集中的视频来展示视频重着色任务的实现。该模型接收一个彩色帧和一个灰度视频作为输入，然后预测视频其他帧的颜色。该模型能使用在没有人类监督的条件下学习到的追踪机制，学会复制参考帧中的颜色。

学习复制单个参考帧的颜色需要模型学会内在地指向正确的区域以复制正确的颜色。这迫使模型学习一种特定的用于追踪的机制。为了了解该视频着色模型如何工作，下方展示了一些对 Kinetics 数据集中的视频进行着色预测的示例。

ARvMBzV.png!web

使用公开数据集 Kinetics，将着色参考帧应用到输入视频后的预测颜色示例。

虽然没有使用真值标识训练，该模型也能学会追踪视频第一帧指定的任何视觉区域。我们可以追踪视频中的对象轮廓或一个点。唯一做出的改变是在视频中传播表示感兴趣区域的标记，以取代传播颜色。

分析追踪器

由于该模型是在大量未标注视频上训练的，研究者希望深入了解模型的学习过程。下方的视频展示了一个标准的追踪过程：通过 PCA 将模型学得的嵌入投影到三维空间进行可视化，并做成 RGB 影片的形式。结果表明学习到的嵌入空间的最近邻倾向于对应目标标识（object identity），即使经过变形或视角改变。

Vb6jy23.png!web

上行：来自 DAVIS 2017 数据集的视频。下行：可视化着色模型的内部嵌入。相似的嵌入在这个可视化中有相似的颜色。这表明学习到的嵌入通过目标标识对像素进行了分组。

追踪姿态

研究者发现该模型也可以在给定初始帧关键点时追踪人类姿态。他们在公开学术数据集 JHMDB 上展示了结果，其中模型追踪的是人类关节骨架。

AbayAnE.png!web

使用模型追踪人类骨架运动的示例。在这个案例中输入是第一帧的人类姿态，之后的运动被自动追踪。即使模型从来没有在这个任务上进行训练，它也能够追踪人类姿态。

虽然这个着色模型并没有超越强监督模型，但它可以学习追踪视频分割和人类姿态，且超越了最近出现的基于光流的方法 FlowNet 2.0。打破运动类型达到的高性能表明该模型在很多自然复杂度场景（例如动态背景、快速运动和遮挡）下比光流方法更加鲁棒。

未来工作

研究结果表明视频着色提供的信号可以用于学习追踪视频中的对象，且无需监督。此外，研究者发现该系统中出现的失败和视频着色失败相关，这表明进一步优化视频着色可以改善自监督追踪。

论文：Tracking Emerges by Colorizing Videos

Uza67b3.png!web

论文链接：https://arxiv.org/abs/1806.09594

摘要：我们使用大量未标注视频在没有人类监督的条件下学习视觉追踪模型。我们利用颜色的自然时间一致性来创建模型，该模型能学习通过从一个参考帧复制颜色来对灰度视频着色。定量和定性实验表明这个任务能让模型自动学会追踪视觉区域。虽然该模型没有用任何真值标签训练，但我们的方法能够很好地实现追踪并超越基于光流的方法。最后，我们的结果表明追踪失败的原因和着色失败相关，这意味着改进视频着色也许能进一步提升自监督视觉追踪。

原文链接：https://ai.googleblog.com/2018/06/self-supervised-tracking-via-video.html

理论

相关数据

神经网络技术

Neural Network

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

卷积神经网络技术

Convolutional neural network

卷积神经网路（Convolutional Neural Network, CNN）是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层（对应经典的神经网路）组成，同时也包括关联权重和池化层（pooling layer）。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比，卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路，卷积神经网路需要考量的参数更少，使之成为一种颇具吸引力的深度学习结构。卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据，它可以被认为是以一定时间间隔采样的一维网格，又如图像数据，其可以被认为是二维像素网格。

来源：Goodfellow, I.; Bengio Y.; Courville A. (2016). Deep Learning. MIT Press. 维基百科

监督学习技术

Supervised learning

监督式学习（Supervised learning），是机器学习中的一个方法，可以由标记好的训练集中学到或建立一个模式（函数 / learning model），并依此模式推测新的实例。训练集是由一系列的训练范例组成，每个训练范例则由输入对象（通常是向量）和预期输出所组成。函数的输出可以是一个连续的值（称为回归分析），或是预测一个分类标签（称作分类）。

来源： Wikipedia

刘晓坤

机器之心编辑