谷歌发布强化学习算法 SimPLe,学习效率提升两倍
source link: https://www.infoq.cn/article/0_JMwfd9f8tuNK8Q21Xq?amp%3Butm_medium=referral
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
深度强化学习 (Deep reinforcement learning) 利用奖励来推动软件政策朝着目标发展。该技术已被用于模拟社会规范的影响,创造出特别擅长玩游戏的人工智能,并为机器人编写程序,使其能够从恶劣的溢出中恢复过来。尽管强化学习功能多样,它也有一个明显的缺点:效率低下。训练策略需要在模拟的或真实的环境中进行大量的交互——远远超过普通人学习任务的需要。
为了在视频游戏领域有所弥补,谷歌的研究人员最近提出了一种新的算法——模拟策略学习,简称 SimPLe,该算法通过游戏模型学习用于选择动作的质量策略。谷歌在一篇新发表的预印本论文 (“Atari 基于模型的强化学习”) 和随开源代码一起发布的文档中对此进行了描述。
论文链接: https://arxiv.org/abs/1903.00374
开源代码: https://github.com/tensorflow/tensor2tensor/blob/master/tensor2tensor/rl/README.md
根据谷歌官方的介绍:
在高层次上,SimPLe 背后的想法是在学习游戏行为的 world 模型和在模拟游戏环境中使用该模型优化策略 (使用无模型强化学习) 之间进行交替。该算法的基本原理已经很好地建立起来,并应用于许多最近的基于模型的强化学习方法中。
如果成功地训练这样一个模型 (如视频预测),一个本质上学会了模拟器的游戏环境,可以用来生成轨迹训练游戏代理的好策略,即选择一个操作序列,这样可以使代理的长期回报最大化。
在每次迭代中,在 world 模型被训练之后,就可以使用这个学习的模拟器来生成滚动 (即动作、观察和结果的样本序列),这些滚动被用来使用近似策略优化 (PPO) 算法来改进游戏策略。滚动的采样从实际的数据集帧开始。由于预测错误通常会随着时间的推移而增加,使长期预测变得非常困难,SimPLe 只使用中等长度的滚动。幸运的是,PPO 算法也可以从其内部价值函数中学习动作和奖励之间的长期效果,因此有限长度的滚动对于像《highway》这样奖励稀疏的游戏来说也是足够的。
从效率方面来说,衡量成功的一个标准是证明该模型是高效的。为此,谷歌的研发人员在与环境进行了 10 万次交互之后评估了策略的输出,将 SimPLe 与两种最先进的无模型 RL 方法 Rainbow 和 PPO 进行了比较。在大多数情况下,SimPLe 的样本效率比其他方法高出两倍以上。
然而,SimPLe 并不总是完美的。最常见的故障是:world 模型不能准确地捕获或预测体积很小但相关度很高的对象。比如某些训练中,由于游戏中子弹的体积太小以至于几乎很难被模型捕捉到。
谷歌的研究人员认为:“基于模型的强化学习方法的主要前景是在交互成本高、速度慢或需要人工标记的环境中,例如许多机器人任务中。在这样的环境下,学习的模拟器可以更好地理解代理的环境,并可以为更多的任务强化学习提供新的,更好的和更快的方法。虽然 SimPLe 还没有达到标准无模型 RL 方法的性能,但它的效率要高得多,我们期望未来的工作能够进一步提高基于模型的性能。”
原文链接:
https://ai.googleblog.com/2019/03/simulated-policy-learning-in-video.html
Recommend
-
7
谷歌开源强化学习深度规划网络 PlaNet 本文作者:
-
1
基于PaddlePaddle的强化学习算法CycleGAN Fork 72 收藏 生成对抗网络(Generative Adversarial Network[1], 简称GAN) 是一种非监督学习的方式,通过让两个神经网络相互博弈的方法进行学习,该方法由lan Goodfellow...
-
2
谷歌发布生态系统RLDS,可在强化学习中生成、共享和使用数据集-InfoQ
-
6
Kid1999' Blog强化学习常见算法总结发表于2021-12-07|更新于2021-12-07|机器学习字数...
-
5
强化学习-MADDPG算法原理及简单实现之前接触的...
-
7
Monte Carlo Algorithms. 蒙特卡洛算法是一大类随机算法,又称为随机抽样或统计试验方法,通过随机样本估计真实值。 下面用几个实例来理解蒙特卡洛算法。 6. 蒙特卡洛算法 6.1 计算
-
4
1.训练环境如何正确编写 强化学习里的 env.reset() env.step() 就是训练环境。其编写流程如下: 1.1 初始阶段: 先写一个简化版的训练环境。把任务难度降到最低,确保一定能正常训练。记录正常训练的智能体的分数,与随机...
-
6
1.训练环境如何正确编写 强化学习里的 env.reset() env.step() 就是训练环境。其编写流程如下: 1.1 初始阶段: 先写一个简化版的训练环境。把任务难度降到最低,确保一定能正常训练。记录正...
-
4
七个流行的强化学习算法及代码实现 作者:Siddhartha Pramanik 2023-01-24 17:03:13 目前流行的强化学习算法包括 Q-learning、SARSA、DDPG、A2C、PPO、DQN 和 TRPO。 这些算法已被用于在游戏、机器人和决策制定等...
-
2
耗时两年,谷歌用强化学习打造23个机器人帮助垃圾分类 作者:机器之心 2023-04-25 11:44:36 以后垃圾分类这个活,可以交给机器人了。 强化学习(RL)可以让...
About Joyk
Aggregate valuable and interesting links.
Joyk means Joy of geeK