44

NIPS 2018 强化学习比赛结果出炉,百度赢得NIPS 2018 AI 假肢挑战赛

 5 years ago
source link: https://www.jiqizhixin.com/articles/2018-11-13-4?amp%3Butm_medium=referral
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

距 NIPS 2018 召开还有不到一个月的时间,NIPS 2018 的各种技术挑战赛也接近尾声。在上周结束的 2018人工智能假肢挑战赛(AI for Prosthetics Challenge) 中,来自中国百度的技术团队一举击败全球的 400 多个参赛团队,以 9980 分的成绩夺得冠军,领先第二名高达 30 多分。

3EbQZzv.png!web

人工智能假肢挑战赛是由斯坦福大学神经生物实验室与 EPFL 联合举办,旨在通过将强化学习应用到人体腿部骨骼仿真模拟模型的训练,从而加快人体假肢领域的相关研究,并开创该领域的研究的新方法。

自今年 7 月份启动以来,来自全球 400 多技术团队都参与其中。其中既有上届冠军、由 “RNN之父”Juergen Schmidhuber 创立的 NNAISENSE,也有阿里巴巴、Yandex 等巨头。百度今年首次参加强化学习领域比赛,就在强手如云的团队里脱颖而出,一举夺得冠军,并领先第二名30多分。第二到五名分别被NNAISENSE,Yandex,阿里巴巴等获得。显而易见,百度在强化学习领域占据了明显的优势,冠军含金量颇高。

今年的比赛中,赛会组织者提供了一个人体骨骼-高仿模型,该模型是斯坦福国家医学康复研究中心研发的 Opensim 高仿模型,拥有人类腿部绝大多数真实骨骼、关节和肌肉的精细仿真。参赛者需要根据该模型中多达 100 个以上的状态,来决定模型肌肉的信号,然后控制该模型的肌体行走。

在去年的第一次挑战赛上,比赛规则围绕谁能让模型肌体行走速度最快。而今年则引入带有假肢的模型,同时模型的假肢不可控制,模型肌体行走的速度也有要求,并且还需要在第二轮比赛中按照事先未知的指定速度进行切换。

相较而下,今年的比赛难度再次增加。比如对模型肌体有效信息的判断上,由于实际状态空间和动作空间稠密并且非常大,导致基于强化学习的算法无法准确把握模型肌体的行走姿势;更进一步,由于规则要求不断切换速度,更增加了模型控制难度。

在此次比赛中,百度首先通过上千台机器的 CPU 集群来加速模拟环境,利用 ZMQ 机制进行通信,从而能够在 P40 上进行高效的模型训练。其次,利用Target Driven Deep Deterministic Policy Gradient (Target Driven DDPG)(DDPG),使得模型能够应对较大空间和连续动作空间的挑战,最终也使得一个单一模型能够学习多种速度和姿态。第三,在算法层面,通过 multi-head bootstrapping,能够更高效的对巨大的解空间进行探索(Exploration),同时还将旋转不变性等各类特征处理方式,以及不断实验累计的各类 reward shaping 方法应用其中。正是这些关键技术的综合应用,让百度能以 9980 的高分一举夺冠,有参赛者表示,这是一个他们难以相信的分数。

Nn2Ejy7.png!web

事实上,早在本次比赛以前,百度已经将强化学习技术应用于信息流推荐、广告展现、搜索排序等大规模工业级场景。而本次比赛中所展现出的技术实力,再次证明了百度在强化学习相关技术上的积累,也能够进一步推广到复杂机器人控制、自动驾驶等更多工业领域。

与此同时,百度会这种能力通过 PaddlePaddle 开源平台赋能更多开发者。基于 PaddlePaddle 的强化学习框架 PARL 将在今年四季度正式发布,届时将为更多深度学习领域开发者提供强而有力的技术支撑,也进一步深化百度构建AI完成生态的决心。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK