1

论文推荐 | 微软亚研 AI「Suphx」技术细节;港中文、商汤动作识别时序金字塔网络

 3 years ago
source link: https://bbs.cvmart.net/articles/1778
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

论文推荐 | 微软亚研 AI「Suphx」技术细节;港中文、商汤动作识别时序金字塔网络

11个月前 ⋅ 1515 ⋅ 0 ⋅ 0

文章来源:机器之心@微信公众号

本周的重要论文有微软麻将 AI 研究团队公布 Suphx 所有技术细节,以及港中文联合商汤科技推出的特征级通用时序金字塔网络。

1. Background Matting: The World is Your Green Screen

2. Suphx: Mastering Mahjong with Deep Reinforcement Learning

3. A mountable toilet system for personalized health monitoring via the analysis of excreta

4. Weakly-Supervised Reinforcement Learning for Controllable Behavior

5. Evolving Normalization-Activation Layers

6. Temporal Pyramid Network for Action Recognition

7. Tracking Objects as Points

8. ArXiv Weekly Radiostation:CV更多精选论文

论文 1:Background Matting: The World is Your Green Screen**

摘要:绿幕是影视剧中抠图、换背景的利器,但如果不在绿幕前拍摄,我们还能完美地转换背景吗?华盛顿大学的研究者最近就上传了这样一份论文,不在绿幕前拍摄也能完美转换视频背景,让整个世界都变成你的绿幕。

在论文中,研究者提出了一种创建蒙版(matting)的新方法。多数现有的蒙版方法都需要以绿幕为背景,或者手工创建一个三元图(trimap)。当然,也有些自动方法不需要三元图,但效果会很差。本文提出的这个蒙版方法也不需要三元图,但抠图、换背景效果要更好。当然,达到这么好的效果是有条件的。除了原始图像/视频之外,研究者还要求拍摄者多拍一张不带人物的背景图。这一过程要比创建三元图节省很多时间。

研究者用对抗损失训练了一个深度网络,用来预测蒙版。他们首先利用带有 ground truth 的合成数据训练了一个具有监督损失的蒙版网络。为了在不加标记的情况下缩小合成图像与真实图像的差距,他们在第一个网络的指导下训练了另一个蒙版网络,并通过一个判别器来判断合成图像的质量。研究者在诸多图像和视频上测试了他们提出的新方法,发现这一方法显著优于之前的 SOTA

file

文中方法概览。

file
表 2:在 10 个真实世界视频中的用户研究结果(固定摄像机)。

file

表 3:在 10 个真实世界视频上的用户研究(手持相机)。

推荐:从作者给出的 demo 可以看出,他们的方法效果非常惊艳,即使视频中的人疯狂甩头发也没有影响合成效果。本文已被 CVPR 2020 大会接收

论文 2:Suphx: Mastering Mahjong with Deep Reinforcement Learning**

摘要:在去年 8 月底的世界人工智能大会上,时任微软全球执行副总裁的沈向洋正式对外宣布了微软亚洲研究院研发的 AI「Suphx」。近日,关于 Suphx 的所有技术细节已经正式公布。继围棋、ma jiang、Dota、星际争霸之后,微软亚洲研究院的「Suphx」创造了 ma jiang AI 在游戏领域的另一跨越性突破。Suphx 代表着 AI 系统在ma jiang领域取得的最好成绩,它也是首个在国际知名专业ma jiang平台「天凤」上荣升十段的 AI 系统,其实力超越了该平台与之对战过的 99.9% 的人类选手。

不久前,微软麻将 AI 研究团队在 arXiv 上首次公开发布了 Suphx 的论文,而 Suphx 背后的更多技术细节也随之公开。

file

Suphx 的决策流程图。

file
表 4:Suphx 与其他 AI/人类玩家的对比。

file

Suphx 保留了一张安全牌来平衡攻与守。一般来说,人类玩家可能会把红框里的那张牌打出去,但 Suphx 却留它在手,打了蓝框里的那张牌。这样可能会和牌慢一些,但可以为之后的出牌提供更大的灵活性。

推荐:读者可进一步了解 Suphx 背后的技术细节以及工作流程。

论文 3:A mountable toilet system for personalized health monitoring via the analysis of excreta**

摘要:世界上没有两片相同的雪花,「菊花」亦然。至少,斯坦福大学的一篇论文是这么说的。在这篇论文中,研究者发明了一种「菊纹识别」智能马桶,可以利用深度学习技术识别你的「菊纹」和便便,从而达到健康监测的目的。目前,该论文已经在《Nature Biomedical Engineering》期刊上发表。

这个马桶圈里安装了四个摄像头:一个粪便摄像头(stool camera)、一个「菊花」摄像头(anus camera)和两个尿流摄像头(uroflow camera)。顾名思义,这些摄像头分别用来监测排便者的粪便、「菊花」和尿液。除此之外,马桶圈上还安装有一系列传感器和试纸,可以记录人坐在马桶上的时间、分析尿液里的成分。该马桶的工作原理可以概括为:尿液和粪便样本都通过视频采集,然后通过一组算法进行处理,这些算法可以区分正常的尿液(流速、时间、流量)、粪便特征和不正常的特征。试纸则用于测量某些分子特征,包括白细胞计数、血液污染、特定水平的蛋白质等,这些指标可以反映一系列疾病,从感染到膀胱癌再到肾衰竭。论文作者表示,该马桶目前已经可以测量 10 种不同的生物标记。

file
基于计算机视觉的小便监测与流量测量。

file

使用 CNN 进行粪便分析(为避免引起读者不适,此处仅截取了部分图片,内容详见论文)。

推荐:深度学习三巨头之一、图灵奖获得者 Yann LeCun 看完之后一脸认真地说,「卷积网络正在马桶上落地,为人类谋福祉。」

论文 4:Weakly-Supervised Reinforcement Learning for Controllable Behavior**

摘要:在本文中,来自卡内基梅隆大学、谷歌大脑和斯坦福大学的研究者展示了弱监督如何以最小负担为智能体提供有用信息,以及智能体在环境中学习时是如何利用这些监督的。他们探索一种在目标条件(goal-conditioned)RL 设置中使用弱监督的方法。研究者提出的弱监督智能体不需要通过探索和学习来达到每个目标状态,而只需学会沿着有意义的变化轴达到相应状态,忽略那些与解决人为设定任务无关的状态维度。重要的是,研究者提出通过弱监督来处理此类约束,而不是列举目标或任务及其相应奖赏值。

这项研究的主要贡献是弱监督控制(weakly-supervised control,WSC),这是一个将弱监督引入 RL 的简单框架。研究者的方法学习了一个有语义意义的表示空间,智能体可以使用该表示空间生成自己的目标、获取距离函数并执行定向的探索。实验结果表明,学习非纠缠表示可以加快强化学习在多种操作任务上的学习速度,并提高其相应泛化能力。研究者同时也验证了 WSC 能够产生可解释的潜在策略,其中潜在目标直接与环境的可控特征保持一致。

file

弱监督控制框架,分为两个阶段,第一阶段式基于智能体观察结果的弱监督表示学习;第二阶段是在解纠缠空间(disentangled space)中的自监督控制。

file
在视觉目标条件任务上,WSC、RIG、HER 和 SkewFit+pred 四种目标条件 RL 方法的性能随迭代次数的变化情况。可以看到,研究者提出的弱监督控制较 HER、RIG 和 SkewFit 三种 SOTA 目标条件 RL 方法学习得更快,在环境复杂度增加的情况下尤为如此。

推荐:这篇论文通过弱监督学习生成有语义意义的表征空间,加快 RL 的学习速度与泛化性能

论文 5:Evolving Normalization-Activation Layers**

摘要:批归一化和激活函数是深度神经网络的重要组成部分,二者的位置常常重合。以往的神经网络设计中通常对二者分别进行设计,而最近谷歌大脑和 DeepMind 研究人员合作提出了一种新方案:将二者统一为一个计算图,从低级原语开始进行结构进化。研究者利用层搜索算法发现了一组全新的归一化-激活层 EvoNorms。这些层中的一部分独立于批统计量(batch statistics)。

实验证明,EvoNorms 不仅在包括 ResNets、MobileNets 和 EfficientNets 在内的多个图像分类模型上效果显著,它还能很好地迁移到 Mask R-CNN 模型(进行实例分割)和 BigGAN(用于图像合成)。

file
搜索空间的原语。

file

推荐:值得关注的是,在多种情况下,EvoNorms 的性能显著优于基于 BatchNorm 和 GroupNorm 的层

论文 6:Temporal Pyramid Network for Action Recognition**

摘要:在这篇论文中,来自港中文和商汤科技的研究者提出了一个特征级的通用时序金字塔网络(Temporal Pyramid Network,TPN),其中 TPN 有两个基本组件,即特征来源和融合,它们形成了骨干网络的特征层级(feature hierarchy),因此可以捕获不同速度下的动作实例。与其他具有挑战性的基准相比,TPN 在几个动作识别数据集上也显示出了更高的持续改进。

具体来说,当配备 TPN 时,具有密集采样的 3D ResNet-50 在 Kinetics-400 验证集上获得 2% 的增益。进一步的分析还表明,TPN 在视觉节奏呈现较大差异的动作类别中获得了大部分改进,从而验证其有效性。
file

file
TPN 在 Kinetics-400 验证集上与当前 SOTA 方法的对比。

推荐:该网络的亮点在于,它能够以即插即用的方式灵活地集成到 2D 或 3D 骨干网络中

论文 7:Tracking Objects as Points**

摘要:传统的跟踪是在时空中跟随兴趣点。随着强大深度网络的兴起,情况发生了变化。如今,跟踪的主流方式是先执行目标检测再进行时序关联,也叫做检测-跟踪法(tracking-by-detection)。但是这种方法也有缺点,近日来自德克萨斯奥斯汀分校和英特尔研究院的研究人员提出一种同时检测与跟踪的方法,并将其跟踪器命名为 CenterTrack

具体而言,该方法对一对图像应用检测模型,并利用前一帧的检测结果。给定最小输入,CenterTrack 可以定位目标,并预测它们和前一帧的关联。CenterTrack 就是这么简单、在线(不窥探未来)、实时。从效果上来看,CenterTrack 在 MOT17 数据集上以 22 FPS 运行,达到了 67.3% 的 MOTA 值,在 KITTI 跟踪基准上以 15 FPS 运行,取得了 89.4% 的 MOTA 值,在这两个数据集上均取得了新的当前最优结果。

file

推荐:与当前 SOTA 方法相比,文中提出的方法更加简单、快速和准确。

ArXiv Weekly Radiostation

机器之心联合由楚航、罗若天发起的ArXiv Weekly Radiostation,在 7 Papers 的基础上,精选本周更多重要论文,包括CV领域各10篇精选,并提供音频形式的论文摘要简介,详情如下:

本周 10 篇 CV 精选论文是:

1. Fingerprint Presentation Attack Detection: A Sensor and Material Agnostic Approach. (from Steven A. Grosz, Tarang Chugh, Anil K. Jain)

2. It Is Not the Journey but the Destination: Endpoint Conditioned Trajectory Prediction. (from Karttikeya Mangalam, Harshayu Girase, Shreyas Agarwal, Kuan-Hui Lee, Ehsan Adeli, Jitendra Malik, Adrien Gaidon)

3. Multimodal Image Synthesis with Conditional Implicit Maximum Likelihood Estimation. (from Ke Li, Shichong Peng, Tianhao Zhang, Jitendra Malik)

4. Inclusive GAN: Improving Data and Minority Coverage in Generative Models. (from Ning Yu, Ke Li, Peng Zhou, Jitendra Malik, Larry Davis, Mario Fritz)

5. Attentive Normalization for Conditional Image Generation. (from Yi Wang, Ying-Cong Chen, Xiangyu Zhang, Jian Sun, Jiaya Jia)

6. Differential 3D Facial Recognition: Adding 3D to Your State-of-the-Art 2D Method. (from J. Matias Di Martino, Fernando Suzacq, Mauricio Delbracio, Qiang Qiu, Guillermo Sapiro)

7. Deformation-Aware 3D Model Embedding and Retrieval. (from Mikaela Angelina Uy, Jingwei Huang, Minhyuk Sung, Tolga Birdal, Leonidas Guibas)

8. End-to-End Pseudo-LiDAR for Image-Based 3D Object Detection. (from Rui Qian, Divyansh Garg, Yan Wang, Yurong You, Serge Belongie, Bharath Hariharan, Mark Campbell, Kilian Q. Weinberger, Wei-Lun Chao)

9. LUVLi Face Alignment: Estimating Landmarks' Location, Uncertainty, and Visibility Likelihood. (from Abhinav Kumar, Tim K. Marks, Wenxuan Mou, Ye Wang, Michael Jones, Anoop Cherian, Toshiaki Koike-Akino, Xiaoming Liu, Chen Feng)

10. Context-Aware Group Captioning via Self-Attention and Contrastive Features. (from Zhuowan Li, Quan Tran, Long Mai, Zhe Lin, Alan Yuille)

微信公众号: 极市平台(ID: extrememart )
每天推送最新CV干货

版权声明:自由转载-非商用-非衍生-保持署名(创意共享3.0许可证


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK