4

用于人体姿态估计的有用数据集

 2 years ago
source link: https://panchuang.net/2021/06/23/%e7%94%a8%e4%ba%8e%e4%ba%ba%e4%bd%93%e5%a7%bf%e6%80%81%e4%bc%b0%e8%ae%a1%e7%9a%84%e6%9c%89%e7%94%a8%e6%95%b0%e6%8d%ae%e9%9b%86-2/
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

用于人体姿态估计的有用数据集

fendouai • 2021年6月23日 am5:12 • Medium

人工智能是每个部门使用最多的技术,因为它可以方便地出色地完成工作。其中,数据集在任何推荐系统中都起着至关重要的作用。因此,我提出了基于人体姿势的、经过验证的、可信的数据集的简要总结。人体姿势估计,这是每个计算机视觉研究员都愿意做出贡献的领域。希望你喜欢我的文章!

MPII是马克斯·普朗克信息研究所(Max Planck Institute Informatik)的缩写。Mykhaylo、Leonid、Peter和Bernt表示MPII人体姿势数据集。它是用于评估相干人体姿势估计的最先进的基准。它由多人二维位姿估计组成,灌输约25K张图像,其中约有40K人的身体关节被标注在上面。它包含410项有相应标签的定期执行的人类活动。所有图像都是从YouTube视频中提取的,没有注释的帧。该算法在三维位姿测试集上取得了很好的效果,特别是头部和躯干的方向,以及遮挡图像部分,实现了正确的关键点标注。

COCO是Context中Common Objects的缩写。这个二维位姿估计数据集是由宗伊琳等人合作准备的。来自Google Brain、MSR、加州理工、TTI-Chicago、WAVEONE、康奈尔科技、Facebook AI Research、佐治亚理工学院和CMU研究员的数据从Flickr收集数据。它高度集中在基于对象检测、字幕和分割的数据特征上。它具有上下文识别、超像素填充和目标分割等诱人的特性。它由300K的图像组成,其中超过200K的图像被标记为图像。它有80个对象类别和91个物品类别。更令人兴奋的功能是,在每一张图片上,它都有5个标题,25万人的图片都有关键点注释。该算法在密集姿态、语义分割、全景分割、检测、关键点标注和图像字幕任务等方面都取得了较好的效果。

这个数据集是由马克斯·普朗克智能系统感知系统研究所准备的。它由两个数据集组成,这两个数据集分别是

人类伊娃-I

该数据集使用软件进行同步,一次保留七个摄像机。摄像机分为两种类型:3台彩色摄像机和4台灰度摄像机,其中6台摄像机为运动捕捉摄像机。它有训练、验证和测试数据集。

人类EVA-II

通过一次保留四个摄像机,使用硬件同步该数据集。共有4台彩色摄像机,其中8台为运动捕捉摄像机。它只有测试数据集。

它是由视频序列组成的单人三维姿态估计,如在两种类型的数据集中讨论的那样。基于标记的运动捕捉相机用于准备3D姿势地面真实图像。它由4个受试者组成,分别执行6个共同的动作。提供了2D和3D姿势的误差度量。

Human3.6M

根据数据集的名称,它拥有360万张3D人体姿势图像,其中11名职业演员,其中6名男性和5名女性参加了17个不同的活动。使用高度校准和基于飞行时间的4个摄像机捕获了频率为50 Hz和高分辨率的视频帧。测量每个配置和像素级的24个身体部位标签。利用了演员的3D激光扫描。它具有适当的背景差分和人物边界框。

超现实主义

超现实是合成人的缩写,意为真正的任务。它灌输照片级真实感渲染,这些渲染在纹理、形状、视点和姿势上都有巨大的变化。在提供RGB视频输入的情况下,对生成人体部位、光流、二维和三维姿态、曲面法线和深度都有很好的效果。有600万个人造人类的框架。合成体是使用SMPL(A Skin Multi-Person Line Model,蒙皮多人线性模型)身体模型生成的,其参数与原始3D MOCAP标记数据提供的MOSH方法相关。

FLIC是在Cinema中标注的帧的缩写。它由5003张取自好莱坞电影场景的图片组成。它是在30部电影中每连续10帧使用正规人检测器收集的。总体而言,考虑了20000人的置信度地图,这些地图被送到人口稠密的亚马逊土耳其人手中,以获得地面事实标签。利用Turkers图像进行上半身关节标注,并考虑5个标记点的中位数进行离群点标注。测试数据由1016个数据图像组成。不能将FLIC用作培训和测试,这是强制性的。因此,如果我们使用它在不同的数据集上测试和训练机器,因为它是训练数据的超集,这可能会导致过度拟合。它也有FLIC-FULL数据集,其中有大量的帧集合,这些帧来自大量的电影,这些电影的手关节注释是由机械土耳其人制作的。

LSP是Leads运动姿势数据集的缩写。它由2000张带注释的姿势图像组成,仅与8项不同的体育活动有关。他们是从Flickr收集的。所有图像都缩小到大约150像素长度。所有的运动图像都能够检测到14个关键点关节位置。训练和测试数据按50%的比例划分。

最后,我试图总结几个数据集的细节。我希望它可能会被证明是有用的。在评论区分享你的观点,以便在下一篇文章中我可以改进它。

原创文章,作者:fendouai,如若转载,请注明出处:https://panchuang.net/2021/06/23/%e7%94%a8%e4%ba%8e%e4%ba%ba%e4%bd%93%e5%a7%bf%e6%80%81%e4%bc%b0%e8%ae%a1%e7%9a%84%e6%9c%89%e7%94%a8%e6%95%b0%e6%8d%ae%e9%9b%86-2/


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK