30

腾讯开源视频动作检测算法DBG,打破两项世界纪录!

 4 years ago
source link: http://mp.weixin.qq.com/s?__biz=MzIwMTE1NjQxMQ%3D%3D&%3Bmid=2247489420&%3Bidx=3&%3Bsn=a8c68170b2e84c7be32848b436918212
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

点击 我爱计算机视觉 标星,更快获取CVML新技术

本文转自腾讯优图。

近日,腾讯优图实验室提出一种新的视频动作检测算法DBG并开源,这是继今年4月人脸检测算法DSFD开源后,优图的又一次开源动作。

目前, DBG算法在全球两大权威视频动作数据集ActivityNet-1.3和THUMOS14上均取得了第一。 相关论文《Fast Learning of Temporal Action Proposal via Dense Boundary Generator》 已被国际人工智能顶级会议AAAI2020接收 ,与此同时,算法代码 已在优图研究官方Github上开源

Github开源地址:

https://github.com/TencentYoutuResearch/ActionDetection-DBG

论文公开地址:

https://arxiv.org/pdf/1911.04127.pdf

三点创新, 探索视频动作检测最优方案

视频动作检测技术是精彩视频集锦、视频字幕生成、动作识别等任务的基础,随着互联网的飞速发展,在产业界中得到越来越广泛地应用。视频动作检测算法需要在给出视频中找到动作发生的位置(起点和终点)和置信度。如下图所示,我们需要在一段体育视频场景中,找到“跳高”这个动作发生的起点时刻和终点时刻。

JfI3meb.jpg!web

与现有的视频动作检测算法相比,DBG算法有3点创新:

(1)提出一种快速的、端到端的稠密边界动作生成器(Dense Boundary Generator,DBG)。该生成器能够对所有的动作提名(proposal)估计出稠密的边界置信度图。

(2)引入额外的时序上的动作分类损失函数来监督动作概率特征,该特征能够有利于回归动作的完整度。

(3)设计一种高效的动作提名特征生成层,该层能够有效捕获动作的全局特征,便于后面的分类和回归模块。

据了解,DBG算法在全球两大权威视频动作数据集ActivityNet-1.3和THUMOS14上均取得了第一。算法的整体框架主要包括三个部分:视频特征抽取(Video Representation),稠密边界动作检测器(DBG),后处理(Post-processing)。

qQFzIb2.png!web

DBG算法框架图

从评估结果来看,DBG无论在召回率还是耗时上都优于现有其他开源算法。其中,ActivityNet1.3数据集分为Validation和Test两个评估集,DBG单模型(表中Ours)在Validation和Test的两种评估模式上均取得了Top 1,通过使用多种特征提取网络和多尺度特征等策略,DBG算法的融合结果是73.05%,达到ActivityNet榜单的第一名。

bYV3M3b.png!web

目前THUMOS14数据集测试集标注已经公开,通过将DBG与现有的开源方法进行对比,DBG在不同指标下的召回率均有显著提升。

aYvUNnN.png!web

此外,DBG算法的耗时要明显少于BSN和BMN等其他经典方法。

2EnmE3E.png!web

突破痛点 ,DBG算法为产业发展助力

随着互联网时代发展,视频内容越来越多,预计到2021年,80%左右的互联网流量将会来自于视频。视频内容的爆发也催生了对动作检测算法的巨大需求。互联网场景视频内容的多样性对技术提出了很多的挑战,如视频场景复杂、动作长度差异较大、边界模糊、相机运动带来背景变化等。针对这些挑战,优图DBG动作检测算法应运而生,在实际业务中取得了很好的精度与速度的提升。

zERJ7zR.jpg!web

目前,动作检测技术已经应用于公司内外的多个业务中,覆盖教育、社交、娱乐、视频等多个场景。 以社交娱乐场景为例,短视频APP用户拍摄上传一段原始视频后,基于DBG算法的功能接口,可实现对视频中“跳舞”动作的检测和识别并智能剪辑,帮助用户自动生成更加专业的短视频。

自2017年,腾讯开始加快对外开源节奏,主要覆盖AI、云、游戏、安全、小程序等相关领域,其中计算机视觉技术的开源也是其重要一环。 2017年7月,腾讯优图首个AI开源项目NCNN开源,2019年至今已有人脸检测、属性等5项技术开源。 腾讯优图将不断研究和探索,通过开源更多新技术为产业发展提供助力。

人体动作检测识别学习群

扫码添加CV君拉你入群,如已为CV君其他账号好友请直接私信,

请务必注明:动作 ):

ENvu6rZ.jpg!web

喜欢在QQ交流的童鞋可以加52CV官方QQ群: 805388940

(不会时时在线,如果没能及时通过还请见谅)

UbiEbaU.png!web

长按关注 我爱计算机视觉


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK