26

深度强化学习中实验环境:开源平台框架汇总

 4 years ago
source link: https://mp.weixin.qq.com/s/MA5nIWrPiWyDDBqlce2uIg
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

点击 上方 深度学习与先进智能决策 ”进入

以爱与青春为名,陪你一路成长

当我们设计了一个强化学习算法之后,我们如何来验证算法的好坏呢?就像数据集一样,我们需要一个公认的平台来衡量这个算法。这样的一个平台,最基本的需要有仿真和渲染。

OpenAI Gym and Universe

业界最出名的莫过于 GymUniverse 了。 OpenAI Gym 用于评估和比较强化学习算法的好坏。它的接口支持在任何框架下的算法,像 TensorFlow , Theano , Keras 这些都可以。

Azy2quV.jpg!web GitHub官网界面

Gym 库收集、解决了很多环境的测试过程中的问题,能够很好地使得你的强化学习算法得到很好地 Work 。并且含有游戏界面,能够帮助你去写通用性更强的算法。业界现在主流的就是这个环境。

在各大顶会上经常会看到用于连续控制物理引擎的 MuJoCo 但这个收费的。

vmiQjae.jpg!web MuJoCo环境示意图

RoboSchool

作为 MuJoCo 实现的替代品, OpenAI 开发了基于 Bullet 物理引擎的 Roboschool 。它提供了 OpenAI Gym 形式的接口用于模拟机器人控制。目前包含了12个环境。其中除了传统的类似 MuJoCo 的场景,还有交互控制,及多智能体控制场景。 FbAVv27.jpg!web

  • GitHub链接:https://github.com/openai/roboschool

  • 官网链接:https://openai.com/blog/roboschool/

Gym 中还有用于机械臂的抓取和灵巧手的机械手、机械臂环境 Robotics :

r2yEVjR.jpg!web Robotics
  • GitHub链接:https://github.com/openai/gym

  • 官网链接:http://gym.openai.com/

OpenAI Universe 相当于是 OpenAI Gym 的一个扩展,它所能提供的环境更加的复杂,有即时战略游戏的味道,对决策时间有一定的要求。

MNFbYzE.jpg!web Universe

Universe 的发布也算是业界福音,任何程序都可以被转换成一个 Gym 的环境。 Universe 通过自动启动程序在一个 VNC 远程桌上进行工作,所以它不需要对程序内部、源码或者 bot API 的特别访问。环境被打包 Docker 镜像,安装使用将更加方便。

  • GitHub链接:https://github.com/openai/universe

  • 官网链接:https://openai.com/blog/universe/

DeepMind Lab

DeepMind Lab 是一个第一人称 3D 游戏平台,它以丰富的科幻视觉来呈现场景。可用的操作能让智能体环顾四周,并以 3D 的形式移动。示例任务包括收集水果、走迷宫、穿越危险的通道且要避免从悬崖上坠落、使用发射台在平台间移动、玩激光笔、以及快速学习并记住随机生成的环境。 DeepMind Lab 已经成为 DeepMind 内部的一个主要研究平台, DeepMind Lab 同时拥有更丰富的视觉效果和更自然的物理效果。

7N3qQfQ.jpg!web https://github.com/deepmind/lab
  • 官网链接:https://deepmind.com/research/publications/deepmind-lab

  • GitHub链接:https://github.com/deepmind/lab

Project Malmo

Malmo 由微软剑桥研究员 Katja Hofmann 带领开发,是 Microsoft 基于 Minecraft (我的世界)开发的一个人工智能实验和研究平台。这个平台也还用于第一届 协同AI挑战赛

Mrim2am.jpg!web 协同AI挑战赛

Malmo 是用于 多智能体强化学习算法 的开源平台,要求智能体之间相互合作,将协同AI做到极致。并且研究人员还可以加速《我的世界》中的时钟,加快试验速度。

r2UBryv.jpg!web MalmÖ 简介
  • GitHub链接:https://github.com/crowdAI/marLo

  • 协同AI挑战赛官网:https://www.microsoft.com/en-us/research/academic-program/collaborative-ai-challenge/

ViZDoom

ViZDoom 提供了用AI玩毁灭战士游戏的环境(一人称射击类游戏)。它提供的是一个多智能体竞争博弈的一个环境,用于测试算法的好坏。

RbI3iaQ.jpg!web ViZDoom GitHub界面示意图
  • GitHub链接:https://github.com/mwydmuch/ViZDoom

JVRfqqe.gif

aI7v2i3.gif

RjYRn2b.jpg!web


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK