11

无需任何标记数据,几张照片就能还原出3D物体结构,自监督学习还能这样用

 3 years ago
source link: https://new.qq.com/omn/20201205/20201205A06BS000.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

萧箫 发自 凹非寺

量子位 报道 | 公众号 QbitAI

只给你几张物体的照片,你能准确还原出它在各种刁钻视角下的模样吗?

现在,AI可能比你还原得还要准确。

只给几个3D球的正脸照片:

jQV7V3v.jpg!mobile

AI立刻就能将不同视角的球形照片还原出来,大小颜色都接近真实的照片。

yeMRVf6.jpg!mobile

稍微复杂一点的结构,如这堆椅子:

zQJn63n.jpg!mobile

AI在经过思考后,也能立即给出椅子在另一视角下的照片,结构大小与真实场景相比,几乎没有跑偏。

JZBZzyE.jpg!mobile

这还是在完全没有给出物体深度、边界框的情况下,AI模型纯粹靠自己预测出来的3D效果。

那么,这样的模型到底是怎么做出来的呢?

给模型安排一个“批评家”

这是一个由CNN和MLP(多层感知器)组成的模型,其目的在于通过一组2D图片(不带任何标签),从中还原出物体的3D关系来。

相比于单个3D物体,这个模型能够在整个场景上进行3D训练,并将它还原出来。

例如,根据下图的几张兔子照片,还原出3D兔子模型在俯视角度下拍摄的照片。

EvAbm2a.jpg!mobile

但从2D照片中还原出物体的3D关系,并不如看起来这么简单。

在还原过程中,模型不仅要准确推断每个3D物体的位置、深度、大小,还要能还原出它的光照颜色。

通常训练神经网络的第一想法是,将这几个变量直接设为参数,并采用梯度下降算法对模型进行收敛。

但这样效果会很差,因为模型在想办法“偷懒”。

MVBBbaJ.gif!mobile

将损失降低到一定程度后,它就不再寻找更好的解决方案。

例如,下图真实目标(蓝色)与当前目标(红色)有差异,然而在进行梯度下降时,尝试移动一定距离,误差没有降低;但在改变大小时,误差却降低了,就对网络模型形成了误导。

mYFJju6.jpg!mobile

对此,研究者利用强化学习中的好奇心驱动,额外给模型加了一个“批评家”(critic)网络,它会利用数据分布中随机提取的有效样本,来褒贬模型的结果。

yyQrMnN.jpg!mobile

这样,模型作为“表演者”(actor),为了获得更好的评价,就会再试图去寻找更好的方法,以生成更优的结果。

如下图所示,左边是没有利用好奇心驱动的模型,右边则是加入了好奇心驱动。在“批评家”的驱使下,模型逐渐推导出了正确的参数。

eeYziuu.jpg!mobile

这一“批评家”网络,迫使模型在优化过程中,不能只依赖于同一种(错误的)答案,而是必须在已有数据下寻找更好的解决方案。

事实证明,加了“批评家”网络的模型,不仅收敛下降到了一个新的高度(如上图蓝色线条),而且评论家最终给出的评分也不错。

那么,相比于其他3D关系生成模型,这一结构的优势在哪里呢?

无需任何外部标记,2D还原3D关系

作者与其他模型进行了详细对比,这些模型涵盖不同的3D还原方法,包括深度图、CNN、立体像素、网格等。

在监督学习所用到的参数上,可用的包括深度、关键点、边界框、多视图4类;而在测试部分,则包括2D转3D、语义和场景3种方式。

baYFvqm.jpg!mobile

可以看见,绝大多数网络都没办法同时实现2D转3D、在还原场景的同时还能包含清晰的语义。

即使有两个网络也实现了3种方法,他们也采用了深度和边界框两种参数进行监督,而非完全通过自监督进行模型学习。

这一方法,让模型在不同的数据集上都取得了不错的效果。

无论是椅子、球体数据集,还是字母、光影数据集上,模型训练后生成的各视角照片都挺能打。

NZr67vV.jpg!mobile

甚至自监督的方式,还比加入5%监督(Super5)和10%监督(Super10)的效果都要更好,误差基本更低。

MZ7Njy.jpg!mobile

而在真实场景上,模型也能还原出照片中的3D物体形状。

例如给出一只兔子的照片,在进行自监督训练后,相比于真实照片,模型基本还原出了兔子的形状和颜色。

bUrQNna.jpg!mobile

不仅单个物体,场景中的多个3D物体也都能同时被还原出来。

fqEniuM.jpg!mobile

当然,这也离不开“好奇心驱动”这种方法的帮助。

事实上,仅仅是增加“好奇心驱动”这一部分,就能降低不少参数错误率,原模型(NonCur)与加入好奇心驱动的模型(Our)在不同数据集上相比,错误率平均要高出10%以上。

n26Bzqm.jpg!mobile

不需要任何外部标记,这一模型利用几张照片,就能生成3D关系、还原场景。

作者介绍

3位作者都来自伦敦大学学院。

V7Rj2aQ.jpg!mobile

一作David Griffiths,目前在UCL读博,研究着眼于开发深度学习模型以了解3D场景,兴趣方向是计算机视觉、机器学习和摄影测量,以及这几个学科的交叉点。

BfQJNj.jpg!mobile

Jan Boehm,UCL副教授,主要研究方向是摄影测量、图像理解和机器人技术。

Tobias Ritschel,UCL计算机图形学教授,研究方向主要是图像感知、非物理图形学、数据驱动图形学,以及交互式全局光照明算法。

有了这篇论文,设计师出门拍照的话,还能顺便完成3D作业?


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK