12

深度学习人体姿态估计:2014-2020 全面调研

 3 years ago
source link: https://mp.weixin.qq.com/s/P4FxL2jAXaJYZ0ZTY8xtzg
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

a2Ejmye.gif!mobile

今天分享一篇人体姿态估计综述。

If2QVnn.png!mobile

来自北卡夏洛特, 戴顿大学, 德州大学达拉斯分校,中佛罗里达大学的研究人员对该领域的研究发展进行了 综述 。基于输入数据和推理程序的系统分析和比较,作者对基于深度学习的 2D 和 3D 姿态估计解决方案进行全面回顾,其中涵盖了自2014 年以来 240 余篇相关研究论文。同时还提供了定期更新的 github 项目。

  • 论文链接:https://arxiv.org/pdf/2012.13392.pdf

  • 项目链接:https://github.com/zczcwh/DL-HPE

      01        

摘要

人体姿势估计的研究目标是根据图像和视频等输入数据来定位人体部位并建立人体表现形式(例如人体骨骼)。在过去的十年中,它引起了越来越多的关注,并已被广泛用于包括人机交互,运动分析,增强现实和虚拟现实的应用中。

尽管最近基于深度学习的人体姿势估计研究已经取得了很好的效果,但是训练数据不足,深度模糊和遮挡等挑战依旧存在。本调查论文的目的是通过基于输入数据和推理程序的系统分析和比较,对基于深度学习的2D和3D姿态估计解决方案进行全面回顾。

该调查涵盖了自2014年以来240余篇研究论文。此外,论文还包括2D和3D人类姿势估计数据集和评估指标。总结并讨论了在大众化数据集上所审查方法的定量性能比较。最后,总结了所涉及的挑战,应用和未来的研究方向

      02        

与之前的综述论文对比

uUva6rq.png!mobile

该综述提供了更系统更全面的2D和3D人体姿态估计的归纳和讨论,数据集汇总和结果对比,人体姿态估计的应用总结,以及未来研究方向的讨论。

本调研 主要贡献 有以下几点:

  • 根据单眼图像/视频或其他来源的 2D 或 3D 场景,对单视图或多视图HPE方法进行分类并提供了最新的基于深度学习的 2D 和 3D HPE 方法的全面回顾(直至 2020 年)。

  • 2D 和 3D HPE 方法的广泛性能评估。我们根据不同方法类别对常用数据集上算法性能进行了总结和比较。并讲解了不同方法的优势和劣势,揭示了 HPE的研究趋势和未来研究方向。

  • 详尽介绍了各种HPE的应用场景,例如游戏,监视,AR / VR和医疗保健。

  • 就 2D 和 3D HPE 的主要挑战提出了有见地的讨论,指出了潜在的研究方向以提高算法性能。

      03        

技术分类

本文按照 2D/3D, 单人/多人,单视角/多视角,输入数据形式等进行了全面的技术分类:

nMzqIvR.png!mobile

人体模型介绍:

qQZBzyV.png!mobile

作者重点介绍了 Kinematic 模型和 Volumetric 模型下的 SMPL, DYNA, Frankenstein & Adam 等常用 3D 模型。

      04        

2D和3D人体姿态估计回顾

针对不同类型的技术,作者概括了该类型下的常用框架以及详细介绍了每类方法。

2D 人体姿态估计:

qaYZZzQ.png!mobile

Fig. 3: 单人2D HPE框架。(a)回归方法(通过深度神经网络)学习从原始图像到人体模型的映射,并生成关键点坐标。(b)身体部位检测方法利用热图的监督来预测人体关节的位置。

RbiUVfI.png!mobile

Fig. 4: 多人2D HPE框架。(a)自上而下的方法有两个子任务:(1)人的检测(2)单人区域内的姿态估计;(b)自下而上的方法也有两个子任务:(1)检测身体部位的所有关键点候选者;(2)将不同人体的身体部位关联起来,并将它们组合成单独的姿势表示形式。

3D 单视角人体姿态估计:

yMjEFr.png!mobile

Fig 5:3D单人姿态估计框架(a)直接从2D图片预测 (b)从已预测的2D人体姿态再估计3D人体姿态 (c)基于人体模型的方法,最终重建出human mesh

i6V7fqn.png!mobile

Fig 6:3D多人姿态估计框架 (a)自上而下法,先检测出图片中所有单人区域,针对每个单人区域做单人人体估计,最后把所有的单人姿态校准到世界坐标系。(b)自下而上法,先估计出所有的人体关键点和深度图,再对属于同一人的关键点进行分组连接。

同时作者也归纳了 3D 人体姿态下的多视角的姿态预测和其他输入形式(比如Depth and point cloud sensors,IMUs,Radio frequency device 等 )的姿态预测方法。

      05        

数据集和结果对比

2D 数据集:

Zz6vYrr.png!mobile

2D 人体姿态估计在不同分类下的不同数据集的结果比较:

IBnANf2.png!mobileE3yQjqM.png!mobileFVFbmy7.png!mobile

3D 数据集:

AJzE3uq.png!mobile

3D 人体姿态估计在不同分类下的不同数据集的结果比较:

U322IzA.png!mobile

JFnuuaU.png!mobile

人体姿态估计的应用:

Ffm6v2.png!mobile

      06        

总结和未来研究方向

  • Domain adaptation for HPE

  • Human body models

  • Temporal consistency and motion smoothness frame-level evaluation metrics

  • Resolution-aware HPE networks

  • Adversarial attack for HPE

  • Neural Architecture Search for HPE

更多近期综述推荐

深度学习行人重识别综述与展望,TPAMI 2021 最新文章

华为联合北大、悉尼大学对 Visual Transformer 的最新综述

推荐几篇近期必看的视觉综述,含GAN、Transformer、人脸超分辨、遥感等

jMnymmm.png!mobile

备注:姿态

FRVfuiv.jpg!mobile

姿态估计交流群

人体姿态估计、手势识别等更多新鲜资讯, 若已为CV君其他账号好友请直接私信。

我爱计算机视觉

微信号:aicvml

QQ群:805388940

微博知乎:@我爱计算机视觉

投稿:[email protected]

网站:www.52cv.net

byA7ju3.jpg!mobile

在看,让更多人看到   fUJvIbe.gif!mobile


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK