

李飞飞团队最新论文:基于anchor关键点的类别级物体6D位姿跟踪
source link: https://mp.weixin.qq.com/s/KoG7rP1FJ9C1uzgSnz1lIw
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

李飞飞团队最新论文:基于anchor关键点的类别级物体6D位姿跟踪
点击上方“3D视觉工坊”,选择“星标”
干货第一时间送达
简介
作者提出了一种基于RGB-D的深度学习方法6PACK,能够实时的跟踪已知类别物体。通过学习用少量的3D关键点来简洁地表示一个物体,基于这些关键点,通过关键点匹配来估计物体在帧与帧之间的运动。这些关键点使用无监督端到端学习来实现有效的跟踪。实验表明该方法显著优于现有方法,并支持机器人执行简单的基于视觉的闭环操作任务。问题的提出
在机器人抓取任务中,实时跟踪物体6D位姿的能力影响抓取任务的实施。现有的6D跟踪方法大部分是基于物体的三维模型进行的,有较高的准确性和鲁棒性。然而在现实环境中,很难获得物体的三维模型,所以作者提出开发一种类别级模型,能够跟踪特定类别从未见过的物体。创新点
1、这种方法不需要已知物体的三维模型。相反,它通过新的anchor机制,类似于2D对象检测中使用的proposals方法,来避免定义和估计绝对6D位姿。2、这些anchor为生成3D关键点提供了基础。与以往需要手动标注关键点的方法不同,提出了一种无监督学习方法,该方法可以发现最优的3D关键点集进行跟踪。3、这些关键点用于简洁的表示物体,可以有效地估计相邻两帧之间位姿的差异。这种基于关键点的表示方法可以实现鲁棒的实时6D姿态跟踪。核心思想
作者提出的模型使用RGB-D图像,基于之前位姿周围采样的anchors(红点),来鲁棒地检测和跟踪一组基于3D类别的关键点(黄色)。然后利用连续两帧中预测的关键点,通过最小二乘优化求解点集对齐的问题,计算出6D物体的位姿变化:
问题的定义
将类别级物体6D位姿跟踪定义为:物体在连续时间t−1和t之间的位姿变化问题。初始位姿是针对相同类别的所有目标物体定义的标准框架相对于相机框架的平移和旋转。例如,对于类别“相机”,将框架放置在物体的质心处,x轴指向相机物镜的方向,y轴指向上方。将3D关键点定义为:在整个时间序列中几何和语义上一致的点。给定两个连续的输入帧,需要从两帧中预测匹配的关键点列表。基于刚体假设的基础,利用最小二乘优化来解决点集对齐问题,从而得到位姿的变化∆p。模型
首先在预测物体实例的周围剪裁一个放大的体积,将其归一化为一个单元;在体积块上生成anchor网格;之后使用DenseFusion计算M个点的几何与颜色融合特征;根据距离将它们平均池化成N个anchor特征;注意力机制网络使用anchor特征来选择最接近质心的点;用质心生成一组有序的关键点。将这种关键点生成方法应用在前一帧和当前帧,得到两组有序的关键点来计算帧间的位姿变化。实验与结果
作者采用的数据集是NOCS-REAL275,包含六个类别。通过对比三个模型的baseline来评估作者的方法。NOCS:类别级物体6D位姿估计sota。ICP:Open3D中中实现的标准点对面ICP算法。KeypointNet:直接在三维空间中生成3D关键点。论文地址:https://arxiv.org/abs/1910.10750v1
代码链接:https://sites.google.com/view/6PACKtracking上述内容,如有侵犯版权,请联系作者,会自行删文。
Recommend
-
50
编译 | 马卓奇 编辑 | Natalie、Debra AI 前线导读:提取缺失属性值是指从自由文本输入中找到描述兴趣属性的值。过去大多数关于提取缺失属性值的工作都是在封闭的假设下进行,即...
-
34
按:本文译自CornellUniversityLibrary,作者为AlbertHaque, MichelleGuo, AdamSMiner和LiFei-Fei。文章主要介绍了李飞飞团队的最新研究成果:一种基于机器学习的抑郁症症状严重程度测量方法,该方法使用了视频、音频和文本数
-
45
这篇论文的海报 摘要 早期频繁的患者移动大大降低了 ICU 后综合征(post-intensive care syndrome)和长...
-
27
在自然语言理解中,Word2Vec、EMLo 和 BERT 对各项语言理解任务的提升效果非常明显。而在语音识别和情感识别中,基于字符、音素等的编码识别则面临着很多的挑战。近日,李飞飞团队与斯坦福大学音乐与声学计算机研究中心联合提出了基于时间...
-
48
视觉信息库,例如 Visual Genome 数据库,在计算机视觉方面驱动了着大量的应用发展,包括视觉问答和图像标注等。但同时,视觉知识库也具有稀疏、欠完备等缺点。使用人工标注是非常昂贵的,而基于纹理知识的补全方法则无法与视觉数据兼容...
-
36
加入极市 专业CV交流群,与 6000+来自腾讯,华为,百度,北大,清华,中科院 等名企名校视觉开发者互动交流!更有机会与 李开复老师 等大牛群内...
-
18
加入极市 专业CV交流群,与1 0000+来自腾讯,华为,百度,北大,清华,中科院 等名企名校视觉开发者互动交流! 同时提供每月大咖直播分享、真实项目需求对接、干货资讯汇总,行业技术交流。...
-
10
论文推荐 | 李飞飞、吴恩达新论文;Adobe 用 GAN 生成动画 1年前 ⋅...
-
5
斯坦福李飞飞团队新研究登 Nature 子刊:实现可信 AI,数据的设计、完善、评估是关键 作者:我在思考中 2022-08-29 14:43:24 人工智能 最近,...
-
3
2024-01-04 06:06 李飞飞团队新作:AI透视眼,穿越障碍看清你,渲染遮挡人体有新突破了 原文来源:机器之心
About Joyk
Aggregate valuable and interesting links.
Joyk means Joy of geeK