8

英伟达馋哭建模师!投喂随意视频,直出3D模型

 1 year ago
source link: https://awtmt.com/articles/3690259
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

英伟达馋哭建模师!投喂随意视频,直出3D模型

量子位 发表于 2023年06月02日 13:16
摘要:一个名叫Neuralangelo新AI横空出世,无需深度数据,两步直出3D结构,先基于神经渲染重建方法,计算出视频中3D结构的“粗糙表面”。随后,逐渐减小数值梯度的步长、采用分辨率更高的哈希表,一步一步提升模型的精细度,还原建筑的细节。

英伟达一出手,3D建模师都馋哭了。

现在,制作一个纹理超细致的大卫3D模型,需要几步?

图片

刚刚靠着AI,市值一度飚破万亿美元的英伟达给出最新答案:

给AI投喂一段普通视频,它就能自动搞定。

图片

不仅雕塑的每一个褶皱都能拿捏住,更为复杂的建筑场景3D重建,同样靠一个视频就能解决:

图片

连深度都能直接估算出来。

这个新AI名叫Neuralangelo,来自英伟达研究院和约翰霍普金斯大学。

论文刚一发表就吸引了全场网友的目光,让人直呼:这是直接创造新世界的节奏。

图片
图片

甚至再一次拉动了显卡销量【狗头】:

图片

目前,相关论文已经入选CVPR 2023。更多技术细节,我们一起接着往下看~

无需深度数据,直出3D结构

这篇论文采用的架构名叫Neuralangelo,一个听起来有点像著名雕塑家米开朗基罗(Michelangelo)的名字。

具体来说,Neuralangelo核心采用了两个技术。

一个是基于SDF的神经渲染重建。

其中,SDF即符号距离函数(Signed Distance Function),它的本质就是将3D模型划出一个表面,然后用数值表示每个点距离模型的实际距离,负数指点在表面内侧,正数指点在表面外侧:

图源chriscummingshrg

29f00ed4-6e6d-4761-a748-cfe3e5c57d00.png

基于SDF的神经渲染技术,则是采用神经网络(如MLP)对SDF进行编码,来对物体表面进行一个近似还原。

另一个则是多分辨率哈希编码,用于降低计算量。

多分辨率哈希编码是一种特殊的编码方式,能用很小的网络降低计算量,同时确保生成的质量不降低。

其中,多分辨率哈希表的value,对应由随机梯度下降优化得到特征向量。

操作流程上,则分为两步。

首先,基于神经渲染重建方法,计算出视频中3D结构的“粗糙表面”。

值得注意的是,这里采用了数值梯度而不是解析梯度,这样基于SDF生成算法做出来的3D模型表面更加平滑,不会出现凹凸不平的状态:

论文还额外对比了一下解析梯度和数值梯度的状态,从图中来看,数值梯度整体上能取得更平滑的建筑效果:

图片

随后,就是逐渐减小数值梯度的步长(step size)、采用分辨率更高的哈希表,一步一步提升模型的精细度,还原建筑的细节:

图片

最后再对生成的效果进行优化,就得到了还原出来的图像。

包含MLP和哈希编码在内,整个网络采用端到端的方式进行训练。

测试效果如何?

研究人员采用了DTU和Tanks and Temples两个数据集对Neuralangelo进行测试。

DTU数据集包含128个场景,这篇论文具体采用了其中的15个场景,每个场景包含49~64张由机器人拍摄的RGB图像。

图片

随后,还采用了Tanks and Temples中6个场景的263~1107张RGB相机拍摄图像,真实数据则由LiDAR传感器获得。

Tanks and Temples包含中级和高级两类数据集。

其中,中级数据集包含雕塑、大型车辆和住宅规模的建筑;高级数据集则包含从内部成像的大型室内场景、以及具有复杂几何布局和相机轨迹的大型室外场景:

72ace2e6-1d2b-4a3d-a78a-2f9b471681c0.png

具体到生成细节上,Neuralangelo相比NeuS和NeuralWarp等“前SOTA”模型,在DTU数据集上展现出了非常准确的3D细节生成:

5059ee35-ce3b-42ae-9e3e-c794817d544d.png

而在Tanks and Temples数据集上,Neuralangelo也同样展现出了不错的还原效果:

图片

在F1-Score评估和图像质量PSNR评估中,Neuralangelo基本上全部取得了最好的效果:

图片

这篇研究的作者来自英伟达和约翰霍普金斯大学(Johns Hopkins University)。

图片

论文一作李赵硕(Zhaoshuo Li),本科毕业于不列颠哥伦比亚大学,目前是约翰霍普金斯大学的博士生,师从Mathias Unberath和Russell Taylor。

Russell Taylor是医疗机器人领域泰斗,曾主持研发全球首台骨科手术机器人ROBDOC。

而李赵硕本人,本科专业也是机器人工程,如今算是小小跨界,研究重点在图像重建3D结构上。

Neuralangelo是李赵硕在英伟达实习期间的工作。此前,他还曾在Meta的Reality Labs实习(就是小扎All in 元宇宙的核心部门)。

本文作者:鱼羊 萧箫 发自 凹非寺,来源:量子位,原文标题:《英伟达馋哭建模师!投喂随意视频,直出3D模型,华人一作登CVPR 2023》

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK