1

OPPO联合清华发布INS-Conv技术,7篇论文入选CVPR,更快、更准确地重构实物模型

 1 year ago
source link: https://www.mittrchina.com/news/detail/10837
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

麻省理工科技评论-OPPO联合清华发布INS-Conv技术,7篇论文入选CVPR,更快、更准确地重构实物模型

OPPO联合清华发布INS-Conv技术,7篇论文入选CVPR,更快、更准确地重构实物模型
在 2022 年国际计算机视觉与模式识别大会(Conference on Computer Vision and Pattern Recognition,CVPR)上,OPPO 研究院提交的 7 篇论
280
1f1c7ebac0ea4f2583ca519c203bb126

在 2022 年国际计算机视觉与模式识别大会(Conference on Computer Vision and Pattern Recognition,CVPR)上,OPPO 研究院提交的 7 篇论文入选大会演讲论文。其内容涵盖多模态信息交互、人体 3D 重建、个性化美学鉴赏等多个领域。

在 7 篇论文中,该公司与清华大学合作开发的 INS-Conv(INcremental Sparse Convolution,增量稀疏卷积网络)技术,不仅使在线 3D 语义和实例分割更精确,而且速度提升了很多。更重要的是,这项技术将可以使执行环境识别所需的计算能力明显减少,可以有效地降低自动驾驶和 VR 等领域的负担,在这些领域有着广泛的应用前景。

相关论文题为《INS-Conv:一种用于进行在线 3D 分割的增量稀疏卷积方法》(INS-Conv: Incremental Sparse Convolution for Online 3D Segmentation)。

c946e851f6824d42b90e39ca9a420730
▲图|INS-Conv 技术演示效果(来源:CVPR)

3D 场景的语义分割和实例分割是计算机视觉中的重要主题,也是机器人技术、自动驾驶以及 AR/VR 等领域的一项重要的基础技术。其主要目的在于对 3D 场景的各个对象进行实时检测,并对检测到的每个点进行“识别”——即提供其语义预测。

其中在离线场景中,最近针对离线 3D 分割任务,基于深度学习的主要方法可以按照卷积的类型分成基于点和基于体素这两种类型。而在该论文中,研究人员主要将重点放在了基于体素的方法上。具体来说,先处理得到体素化的点云,然后将其作为输入,并在体素网格上进行 3D 卷积运算。

在之前的此类工作中,所采用的往往是密集的 3D 卷积。而使用这种方法的一个重要问题是,对高维数据进行处理要消耗极高的计算成本,而且有时甚至无法对大规模的体素网格进行处理。

为解决该问题,研究人员提出的稀疏卷积网络方法,利用 3D 点云的固有稀疏性来提取 3D 特征的骨干,有效突破了之前的限制,而且分割精度也进一步提高。之后,将 2D 和 3D 网络联合训练方法的提出使得性能进一步提升。

尽管以上这些方法都将离线 3D 分割任务的性能进行了提升,但是对于自动驾驶、AR/VR 等需要将其结果作为输入,并进一步进行在线 3D 分割的应用场景来说,这些方法仍在存在速度不够快的问题。尽管其准确性已经不断提升,但是由于这些方法中,骨干网络的提取通常都首先要获得全局的几何,然后以此进行处理作为输入,通常需要几秒才能更新一次,远远不能达到自动驾驶等场景中的速度要求。

而在 INS-Conv 方法中也提取了离线 3D 分割的经验,采用了类似于聚类的方法,使用稀疏卷积网络对提取的每点的特征进行聚类,并添加了一个阶段来将对多个帧的预测进行融合。

相比离线 3D 分割,在 AR/VR 和机器人领域被广泛应用的在线 3D 分割任务的主要目的,则是进行实时的语义预测、实例标记,以及 3D 系统的重建等。对于在线 3D 分割任务,此前常用的方法之一是 2D-3D 方法,也就是先使用 2D CNN 方法对每个 RGB-D 帧执行 2D 卷积并预测其 2D 语义概率,然后将 2D 预测投影回 3D 空间,再通过概率模型与之前的结果进行融合。

afef1edb13cb4803bc882a093e7c6b5e
(来源:CVPR)

由于这种方法仅利用 2D 信息,其分割精度较低。为了解决精度这一问题,有人提出使用 3D 卷积来处理局部邻域来融合 2D 特征的方法,但是这种方法要想保持在线速度,所能处理点数十分有限。

此后,在超体素上进行 3D 卷积来融合 2D 特征的方法,尽管实现了速度的提升,并实现了更高的在线语义分割精度。但整体来讲,这些方法仍然存在着严重依赖 2D 特征,无法对全局的 3D 信息进行捕获这一根本问题,这导致离线和在线方法得到的结果之间存在差距。

682073db164d4d789094ff43980acac2
(来源:CVPR)

在该研究中,研究人员通过延用离线分割方法中基于体素的方法,以执行增量推理的方法来进行在线 3D 分割,并保持其分割精度与速度。

总之,结合对之前离线 3D 分割与在线 3D 分割中不同方法的经验与改进,研究人员开发出 INS-Conv 方法,通过采用一种改进后的增量稀疏卷积网络,可以实现准确、快速的 3D 语义和实例分割。

具体来讲,由于在线 RGB-D 重建中得到的重建场景,按时间排列呈现出递增式的 3D 几何序列,尤其是其中两个连续 3D 帧之间的残差通常是稀疏的。这样不难推断出,如果针对连续帧之间的残差推行增量推理,那么这将避免许多冗余计算。

也就是说,在进行层设计时,对为稀疏卷积操作制定新的残差传播策略,从而以最小的精度损失实现更高效的增量推理。而在网络体系结构中,该方法通过提出一个不确定性参数,来对需要更新的残差进行自适应。

研究人员基于 INS-CONV 方法,还执行了在线 3D 联合语义以及实例的分段管道,它在 GPU 上的推理速度达到了 15FPS,在 CPU 的推理速度则实现了 10FPS。此外,研究人员通过在 ScannETV2 和 ScenENN 数据集上进行实验后发现,这种在线方法已经实现了与离线方法相当的最先进的分割精度。

参考资料:

1.https://openaccess.thecvf.com/content/CVPR2022/papers/Liu_INS-Conv_Incremental_Sparse_Convolution_for_Online_3D_Segmentation_CVPR_2022_paper.pdf

607153f665d44b5cb116817f5bef5e02
431a053dff174d01b413125721828a0f
a704f6b7e23542ee84e3e2075c05abf6

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK