ECCV 2020 | 基于分割一致性的单目自监督三维重建 - JOYK Joy of Geek, Geek News, Link all geek

ECCV 2020 | 基于分割一致性的单目自监督三维重建

Original Longway 计算机视觉工坊 1 week ago

计算机视觉工坊

专注于计算机视觉、VSLAM、目标检测、语义分割、自动驾驶、深度学习、AI芯片、产品落地等技术干货及前沿paper分享。这是一个由多个大厂算法研究人员和知名高校博士创立的平台，我们坚持工坊精神，做最有价值的事~

129篇原创内容

Official Account

论文地址：在公众号「计算机视觉工坊」，后台回复「单目自监督」，即可直接下载。

概述本文主要从二维图像及其轮廓的集合中，学习一个自监督的、单视图的三维重建模型，预测目标物体的3D网格形状、纹理和相机位姿。提出的方法不需要3D监督、注释的关键点、物体的多视图或者一个先验的网格模板。关键之处在于，物体可以表示为可形变部分的集合，在同一类别的不同实例中，每个部分在语义上是一致的。利用这一点，可以有效地增强重构网格与原始图像之间的语义一致性，这大大减少了在预测物体的形状、相机位姿以及纹理时的模糊性。实验结果表明，这是第一个尝试解决单视图三维重建问题、没有使用特定类别的网格模型或者语义关键点的方法。简介同时从2D图像中恢复3D形状、纹理和相机位姿是一个高度不适定的问题，因为其固有的歧义。现存有很多方法解决这个问题，但是这些监督信息需要大量工作，因此将其泛化到许多缺乏此类注释的对象类别时非常具有挑战性。另一方面，只使用特定类别的单视图图像集合，而不使用其他监督信号学习重建仍然存在挑战。原因在于，没有监督信号将导致错误的三维重建，一个典型的故障案例是由“相机-形状歧义”引起的。错误预测的相机位姿和形状导致渲染图像和物体边界与输入的2D图像和其轮廓非常匹配，如下图(c)和(d)所示。

有趣的是，人类可以通过联合部分来重建整体，例如鸟有两条腿、两只翅膀和一个头。通过观察物体的一部分，人类就可以粗略地推断出任何物体的相机位姿和3D形状。在计算机视觉中，相似的思想是通过变形模型的部分表达的，物体被表示为一组可以变形的零件。受到这个idea的启发，作者实现了从图像和轮廓的集合中学习单视图的重建模型。利用二维和三维空间中的语义部分，以及它们的一致性来正确估计形状和相机姿态。

上图展示了语义一致性的自监督，(a)是相同类别的不同物体，(b)是通过自监督对每个部分进行语义分割，(c)是特定类别的规范语义UV映射，(d)是网格上的语义分割，后面表示单视图的3D网格重建和不同视角的重建结果。总的来说，本文的主要贡献之处在于：进行单视图重建而不需要其他形式的监督信号；利用特定类别实例对象的语义部分不变性属性作为可变形的部件模型；通过迭代学习从头开始学习一个类别级的3D形状模板。相关工作3D形状表示：对于3D模型有很多表示方法，例如点云、隐式曲面、三角网格和体素。其中，尽管体素和点云更适合深度学习框架，但是它们存在内存受限或者不能够渲染等问题。因此，本文选择三角网格作为3D模型的表示方法。单视图三维重建：单视图三维重建旨在通过给定的单张输入图像重建3D模型，有很多工作在不同监督的程度下探讨这一问题。例如利用图像和真实3D网格作为监督，或者使用可微渲染器和综合分析的方法。为了进一步减少监督的限制，Kanazawa等[1]探索了从不同实例的图像集合中进行3D重建，但是他们的方法仍然需要标注的2D关键点来正确的推断相机位姿。其他方法中也使用了类似的方法，但是受限于刚体或者结构化的物体，不能泛化到其他模型。自监督对应学习：本文的工作还涉及到自监督的学习，利用自监督的协同部分分割来加强语义一致性，这最初是纯粹针对2D图像提出的。[2]学习一个映射函数，该函数以自监督的方式将2D图像中的像素映射到预定义的类别级的模板，但是没有学习对应的三维重建。方法为了从单张图像中完全重建物体实例的三维网格，网络应该能够同时预测物体的形状、纹理和图像的相机位姿。用现有网络(CMR)[1]作为初始的重建网络。输入一张图片，CMR使用编码器E提取出图像特征，使用三个解码器Dshape、Dcamera和Dtexture分别预测网格模型、相机位姿和网格纹理。CMR方法效果比较好的关键原因之一是利用了标注的关键语义点精确地估计了每个实例的相机位姿，并且有模板网格作为先验知识。但是，注释关键点非常繁琐，对于新的类别不适用。因此，作者提出了一种更容易扩展、更具有挑战性的自监督方法，如下图所示。

其中，(1)绿色的框表示重建网络，和[1]中的架构相同。(2)红色的框表示语义一致性约束，它规范了模块(1)的学习，并在很大程度上解决了上述问题中提到的“相机-形状歧义”。(3)蓝色的框表示从头开始学习规范语义UV图和类别级模板，使用模板(1)迭代训练。3.1 通过语义一致性解决相机-形状歧义解决“相机-形状歧义”的关键是在3D和2D中充分利用物体实例的语义部分。具体来说，在二维空间中，自监督即可实现大多数物体的正确分割，即使是那些形状变化很大的实例。在三维空间中，语义部分对于网格变形是不变的，网格表面上特定点的语义部分标签在一个类别的所有重构实例中是一致的。使用这种语义部分不变性可以建立一个类别级的语义UV映射，即规范语义UV映射，它由所有的实例共享，反过来又允许为网格上的每个点分配语义部分标签。通过在二维空间中加强规范语义映射与实例部分分割的一致性，可以在很大程度上解决“相机-形状歧义”问题。首先在二维图像中通过SCOPS[3]获得实体分割，然后通过规范语义UV映射获得三维模型中的分割后，利用2D和3D之间的分割一致性，得到正确的模型。如下图所示，(i)表示错误的重建，其中没有用到语义一致性；(ii)表示使用一致性后的表现。

3.2 循序渐进的训练逐渐训练网络出于两个方面的考虑：第一，构建规范语义UV图需要可靠的纹理流将SCOPS从2D图像映射到UV空间。因此，只有当重建网络能够很好地预测纹理流时，才能得到规范的语义UV映射。第二，一个规范的三维形状模板是可取的，因为它加快了网络的收敛速度，也避免了退化的解决方案。但是，同时学习类别级三维形状模板和实例级重建网络会得到不希望的平凡解。因此，作者将网络分成两部分，E步骤使用固定的模板和规范语义UV映射训练重建网络，M步骤使用前面训练好的网络不断更新模板和UV映射。其中，模型的更新方法如下所示。Vt和Vt-1是更新的和当前的模板，I表示输入的图像，传递到图像编码器和形状解码器中，Q是一组具有一致网格预测的选定样本。

3.3 纹理循环一致性约束如下图所示，学习到的纹理流的一个问题是，具有相似颜色（例如黑色）的3D网格面的纹理可能从图像的单个像素位置错误地采样。因此，作者引入了一个纹理循环一致性目标使预测的纹理流和摄像机投影的一致。

考虑输入图像上黄色的点，可以通过纹理流和预定义的函数φ将其映射到网格表面。同时，可以通过渲染器将网格上的点重新投影到图像中，如输入图像上的绿色点。如果预测的纹理流与预测的相机姿态一致，黄色和绿色的点重叠，形成2D-3D-2D的循环。3.4 通过重建实现更好的部分分割提出的三维重建模型可用于改进自监督分割的学习，关键点在于类别级的规范语义UV映射在很大程度上减少了基于实例的语义UV映射中的噪声。结合实例网格重建和相机位姿，为SCOPS方法提供了可靠的监督。通过将标准UV映射到每个重建网格的表面，并用预测的相机位姿进行渲染，就可以得到“真实”的分割图作为SCOPS训练的监督。使用语义一致性约束作为度量，选择具有高语义一致性的可靠重建来训练SCOPS。改进的SCOPS反过来可以为网格重建网络提供更好的正则化，形成一个迭代和协作的学习循环。实验效果

参考文献：

Kanazawa, A., Tulsiani, S., Efros, A.A., Malik, J.: Learning category-specific mesh reconstruction from image collections. In: ECCV (2018)
Kulkarni, N., Gupta, A., Tulsiani, S.: Canonical surface mapping via geometric cycle consistency. In: ICCV (2019)
Hung, W.C., Jampani, V., Liu, S., Molchanov, P., Yang, M.H., Kautz, J.: Scops: Self-supervised co-part segmentation. In: CVPR (2019)

备注：作者也是我们「3D视觉从入门到精通」特邀嘉宾：一个超干货的3D视觉学习社区本文仅做学术分享，如有侵权，请联系删文。下载1在「计算机视觉工坊」公众号后台回复：深度学习，即可下载深度学习算法、3D深度学习、深度学习框架、目标检测、GAN等相关内容近30本pdf书籍。下载2在「计算机视觉工坊」公众号后台回复：计算机视觉，即可下载计算机视觉相关17本pdf书籍，包含计算机视觉算法、Python视觉实战、Opencv3.0学习等。下载3在「计算机视觉工坊」公众号后台回复：SLAM，即可下载独家SLAM相关视频课程，包含视觉SLAM、激光SLAM精品课程。

重磅！计算机视觉工坊-学习交流群已成立

扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群，目前主要有ORB-SLAM系列源码学习、3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、深度估计、学术交流、求职交流等微信群，请扫描下面微信号加群，备注：”研究方向+学校/公司+昵称“，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。

▲长按加微信群或投稿

640?wx_fmt=jpeg

▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的视频课程（三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、orb-slam3等视频课程）、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近2000星球成员为创造更好的AI世界共同进步，知识星球入口：

学习3D视觉核心技术，扫描查看介绍，3天内无条件退款

ECCV 2020 | 基于分割一致性的单目自监督三维重建

ECCV 2020 | 基于分割一致性的单目自监督三维重建

圈里有高质量教程资料、可答疑解惑、助你高效解决问题觉得有用，麻烦给个赞和在看~

Recommend

2021百度智能计算峰会召开，百度AI原生云全新升级，加速产业创新

评论：整顿共享单车“叠罗汉”！把路权还给行人

两部联合印发《关于加快推动区块链技术应用和产业发展的指导意见》

快递困于体验，这个问题菜鸟能解决得了吗？

Firebase/GCP: save money by cleaning up your artifacts

逃离北上广、跳出996、讨厌PUA，95后说我的“躺平”不是丧

疯狂的新酒饮大战：成本1元起同一家酒厂代工

从计算机视觉(slam)和摄影测量两个维度进行BA算法原理推导

考生将高考数学题拍照上传至小猿搜题App！湖北教育考试院通报来了

“文和友”的走红逻辑，可异地复制吗？

About Joyk