电子科大提出 “姿态蒸馏” 算法-实现快速人体姿态估计

3 years ago

source link: https://bbs.cvmart.net/articles/100
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

电子科大提出 “姿态蒸馏” 算法-实现快速人体姿态估计

2年前 ⋅ 2921 ⋅ 0 ⋅ 0

来源：我爱计算机视觉
转载自我爱计算机视觉，未经允许不得二次转载
今天要跟大家分享的文章《Fast Human Pose Estimation》希望用知识蒸馏的方法获得“模型小计算复杂度低”的易于在边缘设备部署的模型，作者分别来自电子科技大学和Vision Semantics公司。

一、姿态估计的任务

人体姿态估计即在含有人体图像中定位出人体的关节点。如下图所示：

姿态估计对于人体行为分析具有重要价值，目前该问题已经成为学术界研究热点，但大部分著述往往关注在设计网络学习更加适合的特征使得定位精度更高，较少研究模型实际部署时面临的模型较大和计算复杂度高的问题。

该文研究的问题即希望保持精度不受太大影响，但大幅度减小模型size，降低模型复杂度，使之更加适合实际应用。

二、算法思想

作者通过两种方式实现上述目标：设计更加轻量级的Hourglass网络和知识蒸馏。

知识蒸馏，包括Teacher 网络和Student网络，一般的做法是使用已经训练好的精度高复杂度高的Teacher网络的输出结果（预测的标签或者最后一层特征层结果）作为Student网络的监督信息训练Student网络。

“知识蒸馏”的名字很有意思，好像知识被浓缩了^_^

请看下图：

图中（a）子图中作者展示了目前姿态估计中使用较多的Hourglass网络，从两个方面对其进行了改进。

轻量级网络架构将原始网络中使用8个Hourglass单元减小为使用4个，同时输入Hourglass网络前的特征图由256个减小为128个。

图中（b）子图作者展示使用原始网络训练Teacher网络。

图中（c）子图展示使用知识蒸馏，在训练student网络时其监督信息不仅来自Teacher网络，还有数据库上的原始标签。

值得一提的是此处“姿态知识蒸馏”的损失函数。

file

其由两部分组成，Lmse为姿态估计数据集上的标签与Student网络预测结果的均方误差，Lpd为Teacher网络输出结果与Student网络预测结果的均方误差。

通过Teacher网络的监督信息的加入，弥补了每一步训练“局部数据集”上标签错误、部分遮挡等问题，也有利于学习到Teacher网络已经从大量样本学到的关于人体姿态的先验信息。

下图列举了Teacher网络可作为监督标签有力补充的例子。

仔细想想这个损失函数其实是很自然的，就像教与学的过程，不仅需要老师传授知识，学生也要在真实问题中一步步练习。

三、实验结果

作者在MPII和LSP数据集上进行了实现，所提出的方法“快速姿态蒸馏”FPD都取得了与该库中最好结果可比较的精度，但模型size只有3M，计算复杂度只有1/6到1/7。

结果还是蛮吸引人的！

FPD姿态估计的图片示例：

论文地址：

https://arxiv.org/abs/1811.05419v1

虽然该文没有开源代码，但其使用的Teacher网络Stacked_Hourglass_Network在Github上有多个实现，Student网络可以很方便地在其基础上修改出来。
Torch7版
https://github.com/princeton-vl/pose-hg-train
TensorFlow版
https://github.com/wbenbihi/hourglasstensorlfow
Keras版
https://github.com/yuanyuanli85/Stacked_Hourglass_Network_Keras
PyTorch版
https://github.com/Naman-ntc/Pytorch-Human-Pose-Estimation

推荐阅读
【论文整理】CVPR2018 人体姿态相关

本文章首发在极市计算机视觉技术社区

微信公众号: 极市平台（ID: extrememart ）
每天推送最新CV干货

Recommend

114

www.jiqizhixin.com 6 years ago
Cache

学界 | 电子科大提出BT-RNN：替代全连接操作而大幅度提升LSTM效率

找不到您请求的页面抱歉，我们找不到您请求的页面。您可以选择掉头返回上一页或者回到网站首页

www.jiqizhixin.com 5 years ago
Cache

ECCV 2018 | 国防科大&普林斯顿提出共面性检测网络：助力三维场景重建

共面性检测网络为解决这一问题提供了新的思路，并能够显著提升三维场景重建的质量。目前这项研究工作已被欧洲计算机视觉大会 (ECCV 2018) 收录，并被邀请赴会进行口头报告 (Oral Presentation)。这项研究工作的完成者包括：国...

www.tuicool.com 4 years ago
Cache

CVPR 2019 | 国防科大提出双目超分辨算法，效果优异代码已开源

我爱计算机视觉标星，更快获取CVML新技术近年来，双摄像头成像系统在智能手机、自动驾驶等领域取得了广泛的应用。近日，来自国防科技大学等单位的学者提出了新型双目超分辨算法，充分利...

新浪科技 tech.sina.com.cn 4 years ago
Cache

电子科大教授李少谦：面向6G的研究已经开始

封面新闻记者申梦芸“什么是5G？实际上它的挑战更多。”6月16日，在电子科技大学举办的2019创新创业发展论坛中，来自学界、行业一线实践者共聚电子科大，聚焦双创热点话题，探讨5G运用。国家新一代移动通信重大专项总体组专家、电子科技大学教授、

bbs.cvmart.net 3 years ago
Cache

国防科大提出基于可变形三维卷积的视频超分辨，代码已开源

视频是具有时间连续性的图像集合，其中每帧图像的上下文信息（空域信息）与不同帧之间的互补信息（时域信息）都有助于提升视频超分辨的性能。近日，来自国防科技大学的学者提出基于可变形三维卷积的视频超分辨网络（D3Dnet），通过将可变形卷积（Deformable Con...

news.51cto.com 2 years ago
Cache

华人女博士提出高效NAS算法：AutoML一次「训练」适配亿万硬件

华人女博士提出高效NAS算法：AutoML一次「训练」适配亿万硬件为了在各种各样的目标设备上高效运行神经网络推理，硬件适配的神经架构搜索（NAS）至关重要。 ...

www.mittrchina.com 1 year ago
Cache

上科大学者研发软电子皮肤人机界面，具有强大理化传感能力，并可大规模生产和重构

麻省理工科技评论-上科大学者研发软电子皮肤人机界面，具有强大理化传感能力，并可大规模生产和重构上科大学者研发软电子皮肤人机界面，具有强大理化传感能力，并可大规模生产和重构开发有类似人体感知能力的自主机器人系统，...

www.qbitai.com 1 year ago
Cache

电子科大高材生突破固态电池：能量密度5倍于刀片电池，3分钟充满，已获融资3000万

www.qbitai.com 1 year ago
Cache

玩不起RLHF？港科大开源高效对齐算法RAFT「木筏」，GPT扩散模型都能用

finance.sina.com.cn 1 month ago
Cache

佳驰科技借电子科大"下蛋"?实控人为上市辞去党政干部头衔卷入刘逖落马案风...

佳驰科技借电子科大"下蛋"?实控人为上市辞去党政干部头衔卷入刘逖落马案风波的"毅达系"持股_新浪财经_新浪网...

电子科大提出 “姿态蒸馏” 算法-实现快速人体姿态估计

电子科大提出 “姿态蒸馏” 算法-实现快速人体姿态估计

一、姿态估计的任务

二、算法思想

三、实验结果

Recommend

About Joyk