CVPR 2018视频行为识别挑战赛结果出炉：前三名均由国内团队包揽

6 月 18 号，CVPR 2018 将在犹他州盐湖城开幕。作为计算机视觉领域的全球顶会，吸引了国内外众多学界、产业界的研究人员参与。而华人力量在 CVPR 上影响力愈为凸显：无论是论文接收，还是在各种挑战赛中取得的成绩。今日，MIT-IBM Watson 人工智能实验室主持的 Moments in Time 挑战赛结果出炉，而无论是 Full Track 还是 Mini Track 的前三名，都由国内团队获得。

比赛介绍

Moment 是由 MIT-IBM Watson AI Lab 开发的研究项目。该项目致力于构建超大规模数据集来帮助 AI 系统识别和理解视频中的动作和事件。

如今，该数据集已包含了一百万部标记的 3 秒视频，涉及人物、动物、物体或自然现象，捕捉了动态场景的要点。

此挑战赛分为两个 Track，分别如下：

Full Track

在完整 Moments in Time 数据集上的分类任务：

339 个类别；
802264 个训练视频；
33900 个验证视频；
67800 个测试视频。

Mini Track

在 Moments in Time 数据集的子集上的分类任务（面向学生）：

200 个类别；
100000 个训练视频；
10000 个验证视频；
20000 个测试视频。

在两个 Track 中，总共有来自 24 个注册团队的 123 名参赛者，并提交了 151 个有效结果。每个团队每天可以提交一次，在整个比赛中一共可以提交 10 次。排名基于最佳的提交结果。最终分数按 top-1准确率和 top-5准确率的平均值计算。

结果出炉

今日，该挑战赛的结果出炉，Full Track 与 Mini Track 前三名都为中国团队所得：

在 Full Track 类别中，来自海康威视的 DEEP-HRI 获得了第一名，旷视科技第二，七牛云团队第三名。在 Mini Track 中，来自中山大学的 SYSU_isee 团队获得第一名，北航与台湾大学的团队分别是二三名。

在 CVPR 期间，获胜团队将受邀在 workshop 上做展示。

此外，这些获胜团队的技术报告大部分已经放出，感兴趣的同学可从以下链接查阅、学习：

海康威视：http://moments.csail.mit.edu/challenge2018/DEEP_HRI.pdf
旷视科技：http://moments.csail.mit.edu/challenge2018/Megvii.pdf
七牛云：http://moments.csail.mit.edu/challenge2018/Qiniu.pdf
中山大学：http://moments.csail.mit.edu/challenge2018/SYSU_isee.pdf
台湾大学：http://moments.csail.mit.edu/challenge2018/MIRA.pdf

小结

计算机视觉作为重点 AI 研究领域，华人在其中做出的贡献愈来愈大。CVPR 作为计算机视觉领域的顶级会议，一直受到国内研究者的重视，积极贡献论文，参与竞赛。

仅据机器之心不完全了解，有商汤科技参与的论文被 CVPR 2018 接收了 44 篇论文（商汤科技、香港中文大学 -商汤科技联合实验室以及其他商汤科技联合实验室），腾讯 AI Lab 21 篇论文入选，阿里巴巴 18 篇，腾讯优图 10 篇。

除了来自产业界的论文，机器之心也断断续续报道了众多来自国内大学的 CVPR 2018 论文，例如上海交通大学电子系人工智能实验室倪冰冰教授课题组的 6 篇论文、清华大学的 CartoonGAN 等。想要了解更多 CVPR 2018 论文，读者们可参阅以下内容，也可从机器之心公众号后台「文章搜索」处搜索「CVPR 2018」：

参考内容：http://moments.csail.mit.edu/results2018.html

产业

相关数据

神经网络技术

Neural Network

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

计算机视觉技术

Computer Vision

计算机视觉（CV）是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

来源：机器之心

人脸识别技术

Facial recognition

广义的人脸识别实际包括构建人脸识别系统的一系列相关技术，包括人脸图像采集、人脸定位、人脸识别预处理、身份确认以及身份查找等；而狭义的人脸识别特指通过人脸进行身份确认或者身份查找的技术或系统。人脸识别是一项热门的计算机技术研究领域，它属于生物特征识别技术，是对生物体（一般特指人）本身的生物特征来区分生物体个体。

来源：维基百科

机器学习技术

Machine Learning

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

损失函数技术

Loss function

在数学优化，统计学，计量经济学，决策理论，机器学习和计算神经科学等领域，损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

来源： Wikipedia

Mask R-CNN 技术

Mask R-CNN

Mask R-CNN是一个概念上简单，灵活和通用的对象实例分割框架。该方法能够高效地检测图像中的对象，同时为每个实例生成高质量的分割蒙版。这种方法通过添加一个用于预测对象蒙版的分支来扩展R-CNN使之更快，该分支与现有的用于边界框识别的分支并行。

来源： He, K., Gkioxari, G., Dollár, P., & Girshick, R. (2017, October). Mask r-cnn. In Computer Vision (ICCV), 2017 IEEE International Conference on (pp. 2980-2988). IEEE.

零样本学习技术

One shot learning

从仅仅一个或一小撮样本中学习一个新的概念，而普通的机器学习标准算法通常需要几十或几百个表现类似的样本。

来源：机器之心

感知技术

perception

知觉或感知是外界刺激作用于感官时，脑对外界的整体的看法和理解，为我们对外界的感官信息进行组织和解释。在认知科学中，也可看作一组程序，包括获取信息、理解信息、筛选信息、组织信息。与感觉不同，知觉反映的是由对象的各样属性及关系构成的整体。

来源：维基百科

监督学习技术

Supervised learning

监督式学习（Supervised learning），是机器学习中的一个方法，可以由标记好的训练集中学到或建立一个模式（函数 / learning model），并依此模式推测新的实例。训练集是由一系列的训练范例组成，每个训练范例则由输入对象（通常是向量）和预期输出所组成。函数的输出可以是一个连续的值（称为回归分析），或是预测一个分类标签（称作分类）。

来源： Wikipedia

迁移学习技术

Transfer learning

迁移学习是一种机器学习方法，就是把为任务 A 开发的模型作为初始点，重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务，虽然大多数机器学习算法都是为了解决单个任务而设计的，但是促进迁移学习的算法的开发是机器学习社区持续关注的话题。迁移学习对人类来说很常见，例如，我们可能会发现学习识别苹果可能有助于识别梨，或者学习弹奏电子琴可能有助于学习钢琴。

来源：机器之心Pan, S. J., & Yang, Q. (2010). A survey on transfer learning. IEEE Transactions on Knowledge and Data Engineering, 22(10), 1345–1359.

准确率技术

Accuracy

分类模型的正确预测所占的比例。在多类别分类中，准确率的定义为：正确的预测数/样本总数。在二元分类中，准确率的定义为：(真正例数+真负例数)/样本总数

来源： Google ML Glossary

商汤机构

SenseTime

旷视机构

Face++

涉及领域

李亚洲

机器之心编辑

比赛介绍

Full Track

Mini Track

结果出炉

小结

Recommend

Deep-learning-free Text and Sentence Embedding, Part 1

Big open data... or is it?

AsyncResolver.js: Resolve async subscribed decisions

Log-based transactional graph engine

很想知道中华老字号五芳斋决定拍这个短片时，究竟经历了怎么样的心路历程

螃蟹：I'll Kill You

Chrome 扩展收纳盒

在Linux上通过可写文件获取root权限的多种方式

“抢人”、补贴战、新的困境，6·18新零售大战已被开启

单品页统一服务系统架构未公开细节

About Joyk