单图像三维重建、2D到3D风格迁移和3D DeepDream

项目网址： http://hiroharu-kato.com/projects_en/neural_renderer.html

代码网址：https://github.com/hiroharu-kato/neural_renderer

论文名称：Neural 3D Mesh Renderer(CVPR2018)

概述

对于二维图像背后的三维世界建模，哪一种三维表示最合适?现在常见的表示方法有点云、体素和网格，其中多边形网格具有良好的紧致性和几何性质。但是使用神经网络直接由多边形网格生成图像比较困难，因为光栅化的过程阻止了反向传播。因此，作者提出了一个近似的梯度栅格化，使渲染集成到神经网络。使用这个渲染器，可以执行带有轮廓图像监督的单图像三维网格重建，并且该系统比现有的基于体素的方法更好。此外，作者还首次在2D监督下执行基于梯度的3D网格编辑操作，如2D到3D风格迁移和3D DeepDream。

简介

从二维图像理解三维世界是计算机视觉的基本问题之一。人类在大脑中使用视网膜上的图像来模拟3D世界，机器也可以通过在2D图像背后显式地建模3D世界来更智能地工作。从3D世界生成图像的过程叫做渲染，这在计算机视觉里面非常重要。哪种3D表示方法是最适合建模3D世界？通常有体素、点云和多边形网格。体素难以生成高质量的体素，因为他们是在三维空间有规律地进行采样，并且记忆效率比较低。点云存在纹理和照明难以应用的问题，因为点云没有表面。多边形网格由一系列顶点和表面组成，因此它们是可伸缩的，并且有面，进而作者采用了这种方式。

使用网格这种表示方式有两个好处，第一个是表示三维模型时，需要的参数少，模型和数据集也相应比较小。第二个就是它适合几何变换。对象的旋转、平移和缩放由顶点上的简单操作表示。这篇文章提出了两个应用，如下图所示。第一个是单图像三维网格重建，第二个是基于梯度的3D网格编辑，包括风格迁移和DeepDream。

b6RFbyQ.png!web