ICLR 2020 所有RL papers全扫荡

https://medium.com/@iclr_conf/ourhatata-the-reviewing-process-and-research-shaping-iclr-in-2020-ea9e53eb4c46 这个是包括非RL papers的词云图

## 多次出现的关键词

multi-agent、Hierarchical RL/Skill Discovery、exploration、adversarial、meta RL、meta learning、transfer/Generalization 、evolutionary、graph/GNN/GCN、reasoning、intrinsic rewards/curiosity、generative、imitation learning、robust、

Sampling efficiency/estimation 、model-based、off-policy、 curriculum learning、Safe/constrained Learning

## Top 10

Top 10 Reinforcement Learning Papers From ICLR 202

1| Graph Convolutional Reinforcement Learning

2| Measuring the Reliability of Reinforcement Learning Algorithms

3| Behaviour Suite for Reinforcement Learning

4| The Ingredients of Real World Robotic Reinforcement Learning

5| Network Randomisation: A Simple Technique for Generalisation in Deep Reinforcement Learning

6| On the Weaknesses of Reinforcement Learning for Neural Machine Translation

7| Reinforcement Learning Based Graph-to-Sequence Model for Natural Question Generation

8| Adversarial Policies: Attacking Deep Reinforcement Learning

9| Causal Discovery with Reinforcement Learning

10| Model-Based Reinforcement Learning for Atari

## 正文

1.《Posterior sampling for multi-agent reinforcement learning: solving extensive games with imperfect information》

关键词：MARL，Posterior sampling，game theory

HIGHLIGHT: 对于非平滑的非凸函数，Gradient clipping可provably加速梯度下降。

强化学习的后验采样（PSRL）是在未知环境中进行决策的有用框架。PSRL维护环境的后验分布，然后对从后验分布采样的环境进行规划。尽管PSRL在单智能体强化学习问题上表现良好，但将PSRL应用于 多智能体 强化学习问题却尚未得到研究。在这项工作中，我们将PSRL扩展到具有不完善信息（TEGI）的两人零和博弈，这是一类多智能体系统。更具体地说，我们将PSRL与反事实后悔最小化（CFR）相结合，后者是TEGI在已知环境下的领先算法。我们的主要贡献在于互动策略的新颖设计，此设计使得算法有不错的理论和实验保证。

2.《Dynamics-Aware Unsupervised Skill Discovery》

关键词：Unsupervised learning，model-based learning，hierarchical reinforcement learning

HIGHLIGHT: 我们提出了一种无监督的技能发现方法，该方法可以为分层强化学习实现基于模型的计划。

传统上，基于模型的强化学习（MBRL）旨在学习环境动力学的全局模型。一个好的模型可以潜在地使计划算法生成各种行为并解决各种任务。但是，要为复杂的动力学系统学习准确的模型仍然很困难，即使可以做到，该模型也可能无法很好地推广到训练模型所依据的状态分布之外。在这项工作中，我们 将基于模型的学习与对原语的无模型学习结合在一起，这使基于模型的规划变得容易 。我们旨在回答：如何发现结果易于预测的技能？为此，我们提出了一种 无监督学习算法，即“动态感知技能发现（DADS）”，它可以同时发现可预测的行为并学习其动态 。从理论上讲，我们的方法可利用连续的技能空间，即使对于高维状态空间，我们也可以学习无限多种行为。我们证明， 在学习的潜在空间中的零散规划显着优于标准MBRL和无模型的目标条件RL，可以处理 稀疏奖励 任务，并可大大提高用于无监督技能发现的现有分层RL方法 。

代码： http:// github.com/google-resea rch/dads

3.《Harnessing Structures for Value-Based Planning and Reinforcement Learning》

关键词：value-based reinforcement learning

HIGHLIGHT：我们提出了一个通用框架，该框架允许在规划和深度强化学习中利用低秩结构。

在本文中，我们建议为规划和DRL开发状态作用值函数（即Q函数）的基础结构。如果潜在的系统动力学导致Q函数的某些全局结构，则应该能够通过利用这种结构更好地推断该函数。具体来说，我们研究了广泛存在于大数据矩阵中的低秩结构，在控制和DRL任务的上下文中凭经验验证了低秩Q函数的存在。通过利用矩阵估计（ME）技术，我们提出了一个通用框架来利用Q函数中的底层低秩结构。这导致了经典控制的更有效的规划程序，此外，还可将一种简单方案应用于基于值的RL技术，以在“低秩”任务上始终获得更好的性能。关于控制任务和Atari游戏的大量实验证实了我们方法的有效性。

代码： http:// github.com/YyzHarry/SV- RL

4.《Causal Discovery with Reinforcement Learning》

关键词：causal discovery, structure learning, reinforcement learning, directed acyclic graph

HIGHLIGHT：我们将强化学习应用于基于分数的因果发现，并在合成数据集和真实数据集上均取得可喜的结果。

在此论文中，华为诺亚方舟实验室因果研究团队将强化学习应用到打分法的因果发现算法中，通过基于自注意力机制的 encoder-decoder 神经网络模型探索数据之间的关系，结合因果结构的条件，并使用策略梯度的强化学习算法对神经网络参数进行训练，最终得到因果图结构。在学术界常用的一些数据模型中，该方法在中等规模的图上的表现优于其他方法，包括传统的因果发现算法和近期的基于梯度的算法。同时该方法非常灵活，可以和任意的打分函数结合使用。

5.《SEED RL: Scalable and Efficient Deep-RL with Accelerated Central Inference》

关键词：machine learning, scalability, distributed, DeepMind Lab, ALE, Atari-57, Google Research Football

我们提供了一种称为SEED（可扩展，高效Deep-RL）的现代可扩展强化学习智能体。通过有效利用现代加速器，算法不仅可以每秒训练数百万帧，而且可以降低成本。与目前的方法相比我们通过具有集中式推理和优化的通信层的简单体系结构来实现这一目标。SEED采用了两种最新的分布式算法，IMPALA / V-trace（策略梯度）和R2D2（Q学习），并在Atari-57，DeepMind Lab和Google Research Football上进行了评估：新算法水平更高，成本更低。

代码： https:// drive.google.com/file/d /144yp7PQf486dmctE2oS2md_qmNBTFbez/view

6.《Is a Good Representation Sufficient for Sample Efficient Reinforcement Learning?》

关键词：function approximation, lower bound, representation

HIGHLIGHT：函数近似的基于价值和基于策略的强化学习的指数下界。

7.《Simplified Action Decoder for Deep Multi-Agent Reinforcement Learning》

关键词：multi-agent RL, theory of mind

HIGHLIGHT：我们开发了简化动作解码器，这是一种简单的MARL算法，可在2到5人游戏中大大击败Hanabi上的SOTA。

被他人观察时Learning to be informative是强化学习（RL）的一个有趣挑战。强化学习从根本上要求智能体进行探索以便发现良好策略，但是如果仅仅天真地执行探索，其中的随机性将在训练过程中固有地使智能体的行动对其他智能体提供的信息量减少。我们提出了一种新的深层多智能体RL方法——简化动作解码器（SAD），它通过添加集中式训练阶段解决了这一矛盾。在训练过程中，SAD允许其他智能体不仅观察自己所选择的（探索性）行为，而且观察其队友的贪婪行为。论文将这种简单直觉与用于状态预测的辅助任务以及用于多智能体学习的最佳实践相结合。

代码： https:// bit.ly/2mBJLyk

8.《Behaviour Suite for Reinforcement Learning》

关键词： benchmark, core issues, scalability, reproducibility

HIGHLIGHT：Bsuite是经过精心设计的实验集合，这些实验研究了RL智能体的核心功能。

代码： https:// github.com/deepmind/bsu ite

9.《Model Based Reinforcement Learning for Atari》

关键词：model based rl, video prediction model, atari

HIGHLIGHT：我们使用视频预测模型，基于模型的强化学习算法以及每游戏2h的游戏时间来训练26名Atari游戏的智能体。

在本文中，我们探索视频预测模型如何使智能体能够以比无模型方法更少的交互来解决Atari游戏。我们尝试了几种随机视频预测技术，包括基于离散潜变量的新型模型，提出了一种称为模拟策略学习（SimPLe）的方法，该方法利用这些视频预测技术并训练策略以在学习的模型内玩游戏。

代码： http:// bit.ly/2wjgn1a

10.《Measuring the Reliability of Reinforcement Learning Algorithms》

关键词：metrics, statistics, reliability

HIGHLIGHT：用于测量强化学习算法可靠性的一组新颖指标（+随附统计测试）（我们将重点放在训练期间和学习后（根据固定策略）的可变性和风险）

代码： https:// github.com/google-resea rch/rl-reliability-metrics

11.《The Ingredients of Real World Robotic Reinforcement Learning》

关键词：Robotics

HIGHLIGHT：无需工具即可通过强化学习在现实世界中学习机器人任务的系统。

文章讨论了在实际物理机器人系统上部署RL的实际问题和解决方案，其中涉及有关使用原始感官数据，制作奖励函数以及在episode结束时不进行重置的问题。

12.《Maximum Likelihood Constraint Inference for Inverse Reinforcement Learning》

关键词：learning from demonstration, inverse reinforcement learning, constraint inference

HIGHLIGHT：我们通过利用最大熵原理来量化demonstration与预期的不受约束行为的区别，从而推断任务执行的约束。

我们对马尔可夫决策过程（MDP）上的IRL问题进行了重新表述，在给定环境的名义模型和名义奖励函数的情况下，我们试图估计环境，行为和特征约束条件，从而激发智能体的良好行为。我们的方法基于最大熵IRL框架，鉴于我们对MDP的了解，这使我们能够推理专家智能体进行示范的可能性。使用新算法可以推断可将哪些约束添加到MDP，以最大程度地增加观察这些demonstration的可能性。新算法可迭代地推断最大似然约束以最好地解释观察到的行为，并且将使用模拟行为和在障碍物周围航行的人类的记录数据来评估其功效。

代码： https:// drive.google.com/drive/ folders/1h2J7o4w4J0_dpldTRpFu_jWQR8CkBbXw

13.《Improving Generalization in Meta Reinforcement Learning using Neural Objectives》

关键词：meta reinforcement learning, meta learning

HIGHLIGHT：我们介绍了MetaGenRL，这是一种新颖的元强化学习算法。与以前的工作不同，MetaGenRL可以推广到与元训练完全不同的新环境。

生物进化将许多学习者的经验提炼为人类的通用学习算法。我们新颖的元强化学习算法MetaGenRL受此过程启发。MetaGenRL提取了许多复杂智能体的经验，以元学习一种低复杂度的神经目标函数，该函数决定了未来个人的学习方式。与最近的meta-RL算法不同，MetaGenRL可以推广到与元训练完全不同的新环境。在某些情况下，它甚至优于人工设计的RL算法。MetaGenRL在元训练期间使用off-policy二阶梯度，这可大大提高其采样效率。

14.《Making Sense of Reinforcement Learning and Probabilistic Inference》

关键词：Probabilistic Inference，uncertainty and exploration

HIGHLIGHT：“RL as Inference”的流行算法忽略了不确定性和探索的作用。我们强调了这些问题的重要性，并提出了一个用于RL和推理的连贯框架，以很好地处理不确定性和探索。

强化学习（RL）将控制问题与统计估计结合在一起：智能体不知道系统动态，但可以通过经验来学习。最近的研究将“RL as Inference”，并提出了将RL问题概括为概率推断的特定框架。我们的论文揭示了该方法的一个主要缺点，并阐明了将RL连贯地推广为推理问题的意义。RL智能体尤其必须考虑探索和利用的权衡。在除最简单设置之外的所有情况下，推理在计算上都是棘手的，因此实际的RL算法必须求助于近似技巧。我们证明了流行的“RL as Inference”逼近即使在非常基本的问题中也可能表现不佳。但是，我们表明，只需稍加修改，该框架即可产生可证明具有良好性能的算法，我们证明新算法等效于最近提出的K学习，并将其与Thompson采样联系在一起。

15.《Reinforcement Learning Based Graph-to-Sequence Model for Natural Question Generation》

关键词：deep learning, graph neural networks, natural language processing, question generation

HIGHLIGHT：自然问题生成（QG）旨在根据段落和答案生成问题。之前关于QG的工作要么（i）忽略了隐藏在文本中的丰富结构信息，（ii）仅依靠交叉熵损失，这导致了诸如曝光偏差和训练/测试测量之间的不一致之类的问题，或者（iii）无法充分利用答案信息。为解决这些局限性，我们提出了一种新颖的基于RL的Graph2Seq模型用于QG问题，其中有效的深度对齐网络利用了答案信息，我们还提出了一种新颖的双向GNN来处理有向通道图。我们的 两阶段 训练策略得益于基于交叉熵和基于REINFORCE的序列训练。我们还将从文本中探索静态和动态图的构造，并系统地研究和分析两者之间的性能差异。

代码： https:// github.com/hugochan/RL- based-Graph2Seq-for-NQG

16.《On the Weaknesses of Reinforcement Learning for Neural Machine Translation》

关键词：MRT, minimum risk training, reinforce, machine translation, peakkiness, generation

HIGHLIGHT：提高机器翻译性能的强化实践可能并非来自更好的预测。

抽象：强化学习（RL）通常用于提高文本生成任务（包括机器翻译）的性能，特别是通过使用最低风险训练（MRT）和生成对抗网络（GAN）。但是，我们对在MT上下文中这些方法的学习内容和学习方式知之甚少。我们证明了最常见的MT RL方法之一并没有优化预期的回报，并且证明了其他方法花费的时间过长。实际上，实验结果表明，只有在预训练参数已接近产生正确翻译的情况下，MT的RL练习才可能改善性能。我们的发现进一步表明，观察到的增益可能是由于与训练信号无关的影响如分布曲线形状的变化所致。

17.《SQIL: Imitation Learning via Reinforcement Learning with Sparse Rewards》

关键词：Imitation Learning

HIGHLIGHT：对抗模拟学习的一种简单有效的替代方法：通过演示初始化体验重播缓冲区，将奖励设置为+1，将所有其他数据的奖励设置为0，运行Q学习或soft actor-critic的训练。

从模仿中学习模仿专家的行为可能是具有挑战性的，尤其是在具有高维，连续观察和未知动态的环境中。基于行为克隆（BC）的有监督学习方法存在分布偏移的问题：由于智能体贪婪地模仿演示的动作以及错误累积，它可能会偏离demonstration的状态。最近的基于强化学习（RL）的方法，例如逆向RL和生成对抗式模仿学习（GAIL），通过训练RL智能体以匹配demonstration over a long horizon来克服此问题。由于该任务的真正奖励函数是未知的，因此这些方法通常使用涉及对抗训练的复杂而脆弱的近似技术从demonstration中学习奖励函数。我们提出了一个简单的替代方法，该方法仍然使用RL，但不需要学习奖励函数。关键思想是通过鼓励智能体在遇到新的分发状态时返回到demonstration状态，从而激励他们匹配demonstration over a long horizon。为此，我们为智能体提供了一个恒定的r = + 1奖励以匹配处于demonstrated状态的demonstrated动作，并为所有其他行为提供r = 0的常量奖励。新算法soft Q模仿学习（SQIL）可通过对任何标准Q学习或策略不严格的actor critic算法进行少量改动来实现。我们从理论上证明SQIL可以解释为BC的正则化变体，该变体在鼓励长期模仿之前使用了稀疏性。在Box2D，Atari和MuJoCo的各种基于图像和低维的任务中，与GAIL相比，SQIL优于BC并获得竞争性结果。 本文主要说明了基于RL的具有恒定奖励的简单模仿方法如何与使用学习的奖励的更复杂方法一样有效。

18.《AutoQ: Automated Kernel-Wise Neural Network Quantization》

关键词：AutoML, Kernel-Wise Neural Networks Quantization, Hierarchical Deep Reinforcement Learning

HIGHLIGHT：使用分层深度强化学习，以混合精度进行准确，快速，自动化的Kernel-Wise神经网络Quantization。

在本文中，我们提出了一种基于分层DRL的基于核的网络量化技术AutoQ，以自动搜索每个权重内核的QBN，并为每个激活层选择另一个QBN。与最新的基于DRL的Quantization模型相比，通过AutoQ Quantization的相同模型平均可将推理延迟减少54.06％，将推理能耗降低50.69％，同时达到相同的推理精度。

19.《SVQN: Sequential Variational Soft Q-Learning Networks》

关键词：POMDP, variational inference, generative model

HIGHLIGHT：SVQN在统一的图模型下形式化了隐藏状态的推断和最大熵强化学习，并共同优化了两个模块。

部分可观察的马尔可夫决策过程（POMDP）是用于现实世界中决策应用程序的流行且灵活的模型，该模型需要从过去的观察中获取信息以做出最佳决策。用于解决马尔可夫决策过程（MDP）任务的标准强化学习算法不适用，因为它们无法推断未观察到的状态。在本文中，我们提出了一种用于POMDP的新颖算法—— 顺序变分soft Q学习网络（SVQN），它在统一的图模型下形式化了隐藏状态的推理和最大熵强化学习 （MERL），并共同优化了两个模块。我们进一步设计了深度递归神经网络，以降低算法的计算复杂度。实验结果表明，SVQN可以利用过去的信息来帮助决策以进行有效的推理，并且在一些具有挑战性的任务上要优于其他基准。我们的消融研究表明，SVQN具有随时间推移的泛化能力，并且对观察的干扰具有鲁棒性。

19.《Observational Overfitting in Reinforcement Learning》

关键词：observational, overfitting, generalization, implicit, regularization, overparametrization

HIGHLIGHT：本文提出了一种分析RL状态空间中不相关部分的过拟合的方法，并提出了一种用于度量这种泛化误差的框架。

在无模型强化学习（RL）中过拟合的主要症状：智能体可能会根据马尔可夫决策过程（MDP）产生的观察结果错误地将奖励与某些虚假特征相关联。我们提供了一个用于分析这种情况的通用框架，该框架用于仅通过修改MDP的观察空间来设计多个综合基准。当智能体过拟合到不同的观察空间时，即使底层的MDP动态是固定的，我们仍称之为观察过度拟合。我们的实验揭示了一些有趣属性（尤其在隐式正则化方面），并证实了以前在RL泛化和监督学习（SL）中的工作结果。

20.《Multi-agent Reinforcement Learning for Networked System Control》

关键词： multi-agent reinforcement learning, decision and control

HIGHLIGHT：本文针对网络化多智能体控制问题提出了新提法和新的通信协议。

本文考虑了网络系统控制中的多智能体强化学习（MARL）。具体来说，每个智能体都基于本地观察和来自相邻邻居的消息来学习分散控制策略。我们将这种网络化的MARL（NMARL）问题公式化为时空马尔可夫决策过程，并引入空间折扣因子来稳定每个本地Agent的训练。此外，我们提出了一种新的可微分通信协议，称为NeurComm，以减少NMARL中的信息丢失和非平稳性。在实际的NMARL自适应交通信号控制和协同自适应巡航控制场景下的实验基础上，适当的空间折现因子可以有效地增强非通信MARL算法的学习曲线，

代码： https:// github.com/cts198859/de eprl_network

21.《Learning the Arrow of Time for Problems in Reinforcement Learning》

关键词：Arrow of Time, AI-Safety

HIGHLIGHT：我们研究了MDP的Arrow of Time，用它来衡量可及性，检测副作用并获得好奇心奖励信号。

人类对时间的不对称发展有着天生的理解，我们可用它来高效、安全地感知和操纵环境。受此启发，我们解决了在马尔可夫（决策）过程中学习Arrow of Time的问题。我们将说明学习的Arrow of Time如何捕获有关环境的重要信息，这些信息又可以用于衡量可达性，检测副作用并获得内在的奖励信号。最后，我们提出一种简单有效的算法来 参数化 当前问题，并使用函数逼近器（此处为深度神经网络）学习Arrow of Time。我们的经验结果涵盖了 离散和连续 环境的选择，

代码： https://www. sendspace.com/file/0mx0 en

22.《Reinforcement Learning with Competitive Ensembles of Information-Constrained Primitives》

关键词：Variational Information Bottleneck, Learning primitives

HIGHLIGHT：学习隐式的主策略，因为HRL中的主策略可能无法推广。与许多当前的分层强化学习方法相反，作者提出了一种学习低级策略的去中心化方法，这些低级策略自己决定是否在当前状态下行动，而不是由一个中心化的更高级别的元策略在低级策略之间进行选择。

分层强化学习将策略分解为较低级别的原语或option，以及将较高级别的元策略分解为针对给定情况触发适当行为的策略。但是，元策略仍必须在所有状态中做出适当的决定。在这项工作中，我们提出了一种可分解为不同原语但没有高级元策略的策略设计。每个原语可自己决定是否希望在当前状态下执行操作。我们使用信息理论机制来实现此分散决策：每个原语都会选择需要多少有关当前状态的信息来做出决定，一般来说原语会希望请求有关当前状态的最多信息。但比较信息有限嘛，有时我们需要对原语进行regularization以使用尽可能少的信息，这会导致自然竞争和专业化。我们通过实验证明，新的策略体系结构在泛化方面比flat策略和分层策略都有所改进。

23.《Exploration in Reinforcement Learning with Deep Covering Options》（poster）

关键词： temporal abstraction, exploration

HIGHLIGHT：我们介绍了一种可自动发现task-agnostic options，从而鼓励强化学习中的探索的方法。

目前加速强化学习中的探索的方法常常是启发式的。近年来，研究者提出了covering options以发现一组可证明地减少环境覆盖时间上限的options，这是探索难度的一种度量。Covering options是使用图拉普拉斯图的特征向量计算的，但它们受制于表格任务，不适用于具有较大或连续状态空间的任务。对此，我们介绍了deep covering options，这是一种在线方法，可将覆盖范围扩展到大型状态空间，自动发现task-agnostic options以鼓励探索。

24.《Logic and the 2-Simplicial Transformer》（poster）

关键词： transformer, logic, reasoning

HIGHLIGHT：我们介绍了2-simplicial Transformer，它是Transformer的扩展，包括了一种泛化点积注意力的高维注意力形式，并使用这种注意力来更新实体表征与价值向量的张量积。我们表明，这种架构是深度强化学习背景下逻辑推理的一个有用的归纳偏向。

Review：本文扩展了Transformer，实现了高维注意机制，将点积注意推广了。Reviewer3认为，将注意机制从二阶关系扩展到三阶关系是一个重要的提升，mathematical context具有洞察力，且可能导致进一步的潜在发展。

代码： https:// github.com/dmurfet/2sim plicialtransformer

25.《Watch, Try, Learn: Meta-Learning from Demonstrations and Rewards》

关键词：meta-learning, imitation learning

HIGHLIGHT：本文提出了一种元学习方法，该方法可以从Demonstrations和后续的RL任务中学习。

模仿学习使智能体可从演示中学习复杂的行为。但是，学习基于视觉的复杂任务可能需要不切实际的Demonstrations。元模仿学习是一种有前途的方法，它可使智能体通过利用学习类似任务的经验，从一个或几个Demonstrations中学习新任务。在任务模棱两可或观察不到动态的情况下，仅凭Demonstrations可能无法提供足够的信息。智能体还必须尝试执行任务以成功推断策略。在这项工作中，我们提出了一种可以从Demonstrations和反复试验的经验中学习并具有稀疏奖励反馈的方法。与元模仿相比，此方法使智能体能有效improve itself autonomously beyond the demonstration data。与元强化学习相比，由于Demonstrations减轻了探索负担，因此我们可以扩展到更广泛的任务分配。实验表明，在一系列具有挑战性的基于视觉的控制任务上，我们的方法明显优于以前的方法。

代码： https:// drive.google.com/open? id=1f1LzO0fe1m-kINY8DTgL6JGimVGiQOuz

26.《Adversarial Policies: Attacking Deep Reinforcement Learning》

关键词：adversarial examples, security, multi-agent

HIGHLIGHT：DRL策略可能会受到其他智能体采取行动以创建具有对抗性的自然观察的攻击。

众所周知，DRL策略容易受到其观测值的对抗性扰动，类似于分类器的对抗性例子。然而，攻击者通常无法直接修改另一个智能体的观测值。这可能会导致人们怀疑：是否有可能仅仅通过选择一个在多智能体环境中作用的对抗性策略来攻击一个RL智能体，从而创造出对抗性的自然观测值？我们证明了在具有本体观测的模拟人形机器人之间的零和游戏中存在对抗性策略，它用于对抗通过自我游戏训练成的最先进受害者，使其对对手具有鲁棒性。对抗性策略可靠地赢了受害者，但产生了看似随机和不协调的行为。我们发现，这些策略在高维环境中更成功，并在受害者策略网络中诱导出与受害者和普通对手对弈时实质不同的激活。视频见 https:// adversarialpolicies.github.io / 。

代码： https:// github.com/humancompati bleai/adversarial-policies

27.《Population-Guided Parallel Policy Search for Reinforcement Learning》

关键词：Parallel Learning, Population Based Learning

HIGHLIGHT：本文提出了一种multi-actor RL的新方法，该方法通过以柔和的方式提炼表现最佳的智能体的策略并在智能体之间保持一定距离来确保角色群体的多样性和绩效。作者显示，与几种最先进的单actor算法和其他几种multi-actor RL算法相比，新算法性能有所改善。

本文提出了一种新的以Population为导向的并行学习方案，以提高off-policy强化学习（RL）的性能。在新方案中，具有相同价值函数和策略的多个相同的学习者共享一个经验重播缓冲区，并在最佳策略信息的指导下协作搜索一个好的策略。关键是通过构建用于策略更新的增强损失函数以扩大多个学习者的整体搜索范围，从而以一种**soft**的方式**融合最佳策略的信息**。通过先前最佳策略的指导和扩大范围，我们可以更快更好地进行策略搜索，并且从理论上证明所提出方案的累积回报期望的单调提高。

28.《Learning Efficient Parameter Server Synchronization Policies for Distributed SGD》

关键词：Distributed SGD, Paramter-Server, Synchronization Policy

HIGHLIGHT：我们采用基于强化学习的方法来学习用于Parameter Server-based distributed training of SGD的最佳同步策略。

我们应用基于强化学习的方法来学习最佳同步策略，该策略用于Parameter Server-based distributed training of SGD。通过在PS设置中使用正式的同步策略，我们能够得出状态和动作的合适且紧凑的描述，从而使用标准的现成DQN算法。结果，我们能够学习适用于不同集群环境，不同训练数据集和较小模型变化的同步策略，并且（最重要的是）与标准策略（如批量同步并行（BSP），异步并行（ASP）或陈旧的同步并行（SSP））相比，新模型大大减少了训练时间且学习到的策略普遍适用于多种unseen cases。

29.《Finding and Visualizing Weaknesses of Deep Reinforcement Learning Agents》

关键词：Visualization, Safety

HIGHLIGHT：我们生成经过训练的RL算法的临界状态，以可视化潜在的缺陷。

随着由视觉感知驱动的深度强化学习变得越来越广泛，我们越来越需要更好地理解和探究所学习的智能体。了解决策过程及其与视觉输入的关系对于识别学习行为中的问题非常有价值。但是，这个话题在研究界相对未被充分研究。在这项工作中，我们提出了一种为受过训练的智能体合成感兴趣的视觉输入的方法。这样的输入或状态可能是需要采取特定行动的情况。此外，能够获得非常高/低报酬的临界状态通常对于理解系统的态势感知有帮助，因为它们可对应于危险状态。为此，我们学习了环境状态空间上的生成模型，并使用其潜在空间为目标状态优化了目标函数。实验中，我们证明了这种方法可为各种环境和强化学习方法提供insights。我们在标准的Atari基准游戏以及自动驾驶模拟器中探索结果，发现新算法能够加快识别行为缺陷的效率。我们相信这种通用方法可作为AI安全的重要工具。

30.《Option Discovery using Deep Skill Chaining 》

关键词：Hierarchical Reinforcement Learning, Skill Discovery, Deep Learning

HIGHLIGHT：我们提出了一种新的层次强化学习算法，该算法比非层次智能体和其他最新的技能发现技术更可靠地解决了面向高维度目标的任务。

自主发现在时间上扩展的动作或技能是分层强化学习的长期目标。我们提出了一种将技能链与DNN相结合的新算法，以自主发现高维连续领域中的技能。最终的算法，即深层次的技能链，可通过执行一种特性从而使智能体能够执行另一种特性来构建技能。我们证明，在挑战性的连续控制任务中，深度技能链显着优于非层次智能体和其他最新技能发现技术。

代码: https:// github.com/deep-skill-c haining/deep-skill-chaining

31.《Dynamical Distance Learning for Semi-Supervised and Unsupervised Skill Discovery》

关键词：semi-supervised learning, unsupervised learning, robotics, deep learning

HIGHLIGHT：我们展示了如何在强化学习环境中自动学习动态距离，并使用它们来提供形状良好的奖励函数，以实现新的目标。

强化学习需要手动指定奖励函数才能学习任务。虽然原则上该奖励函数仅需指定任务目标，但在实践中，强化学习可能非常耗时甚至不可行，除非奖励函数的形状能够为成功的结果提供一个平滑的梯度。我们很难手动指定此shaping，特别当从原始观察值（例如图像）中学习任务时。在本文中，我们研究了如何自动学习动态距离：衡量从任何其他状态到给定目标状态的预期时间步长的量度。这些动态距离可用于提供形状良好的奖励函数，以实现新的目标，从而有可能有效地学习复杂任务。我们表明 动态距离可以用于半监督状态，其中与环境的无监督交互用于学习动态距离，而少量的偏好监督用于确定任务目标 ，而无需任何人工设计的奖励函数或目标示例。我们在真实世界的机器人和仿真中都评估了新方法。我们展示了新方法可以使用原始的有9个自由度的手来学习如何转动阀门（使用原始图像观察结果和十个偏好标签，而无需任何其他监督）。学习技能的视频见： https:// sites.google.com/view/d ynamical-distance-learning

32.《Reinforced active learning for image segmentation》

关键词：semantic segmentation, active learning

HIGHLIGHT：通过强化学习来学习标签策略，以减少语义分割任务的标签工作量。

基于学习的语义分割方法有两个固有挑战。首先，获取element-wise的标签是昂贵和耗时的。第二，现实的分割数据集是高度不平衡的：一些类别比其他类别丰富得多，使性能偏向于最具代表性的类别。在本文中，我们感兴趣的是将人类的标签工作集中在一个更大的数据池中的小子集上，最小化标签工作所需努力，同时最大化分割模型在保持hold-out set上的性能。我们提出了一种新的基于DRL的语义分割的主动学习策略。一个agent学习一个策略，从一个未标记的数据池中选择一个小的信息图像区域子集–（与整个图像相对）–进行标记。区域选择决定是基于正在训练的分割模型的预测和不确定性做出的。新方法提出了 一种新的主动学习的DQN公式的修改，使其适应语义分割问题的大规模性质 。我们在CamVid中测试了概念证明，并在大规模数据集Cityscapes中提供了结果。在Cityscapes中，我们的RL region-based DQN方法比最有竞争力的基线所需的额外标记数据少了大约30%而性能相同。此外，与基线相比，我们的方法询问了更多代表性不足的类别的标签，提高了它们的性能，并有助于缓解类不平衡现象。

32.《CAQL: Continuous Action Q-Learning》

关键词：DQN, Continuous control, Mixed-Integer Programming (MIP)

HIGHLIGHT：用于持续控制的基于价值的强化学习的一般框架。

基于价值的强化学习方法（如Q学习）已在各领域（如游戏和推荐系统）中取得了成功。当动作空间有限时，这些算法通过学习最优值函数隐式地找到策略，效果不错。但是，扩展Q学习以解决连续动作RL问题的一个主要挑战是获得最佳Bellman backup需要解决连续动作最大化（max-Q）问题。虽然为了简化max-Q问题，通常限制Q函数的参数化关于动作是凹的，但这种限制可能会导致性能下降。而且，当使用通用前馈神经网络（NN）对Q函数进行参数化时，max-Q问题可能是NP-难问题。在这项工作中我们提出了CAQL方法，该方法使用Q学习和几个即插即用的动作优化器之一来最小化Bellman残差。特别地，利用DNN中优化理论的进步，我们表明可以使用混合整数编程（MIP）来最佳解决max-Q问题-当Q函数具有足够的表示能力时，这种基于MIP的优化诱导出更好的策略，并且比近似于max-Q解决方案的对等策略（如CEM或GA）更强大。为加快CAQL的培训，我们开发了三种技术（i）动态容差，（ii）双重过滤和（iii）聚类。为加快CAQL的inference，我们引入了同时学习最优策略的action function。

为证明CAQL的有效性，我们将其与最新的RL算法在具有 不同程度动作约束 的基准连续控制问题上进行了比较，并表明CAQL在严重受限的环境中明显优于基于策略的方法。

33.《Learning Heuristics for Quantified Boolean Formulas through Reinforcement Learning》 (Poster)

关键词：Logic, QBF, Logical Reasoning, SAT, Graph, GNN

HIGHLIGHT：我们使用RL在最新的QBF求解器中自动学习有关工业问题的分支启发法。

我们演示了如何通过深度强化学习为量化的布尔公式的自动推理算法学习有效的启发式算法。我们专注于回溯搜索算法，该算法已经可以解决令人印象深刻的多达数十万变量的公式。主要挑战是找到这些公式的表示形式，以使其可扩展地进行预测。对于一系列具有挑战性的问题，我们学习了一种启发式算法，与现有的手写启发式算法相比，它可以解决更多的公式。

（PS：这篇在RL技巧上倒没啥很亮的点，主要是把Quantified Boolean Formulas的自动推理转化为MDP尔尔~）

34.《AMRL: Aggregated Memory For Reinforcement Learning》 (Poster)

关键词：deep learning, rl, memory, noise, machine learning

HIGHLIGHT：在DRL中，可将order-invariant函数与标准存储模块结合使用，以改善梯度衰减和抗噪声能力。

在许多部分可观察的方案中，RL智能体必须依靠 长期记忆 才能学习最佳策略。我们证明，由于来自环境和探索的随机性，使用来自NLP的技术和监督学习在RL任务上失败了。利用我们对RL中传统存储方法局限性的见解，我们提出了AMRL，这是一类可以学习更好的策略、具有更高的采样效率，并且对噪声输入具有弹性的模型。具体来说，我们的模型使用标准内存模块来总结短期context，然后从标准模型中汇总所有先前状态，而不考虑顺序。我们表明，这在梯度衰减和随时间变化的信噪比方面均具有优势。我们在Minecraft和迷宫环境中进行评估以测试长期记忆，

35.《CM3: Cooperative Multi-goal Multi-stage Multi-agent Reinforcement Learning》

关键词：multi-agent reinforcement learning

HIGHLIGHT：一种用于完全协作的多目标多智能体强化学习的模块化方法，该方法基于课程学习，可进行有效的探索并为行动目标互动分配功劳。

各种合作的多智能体控制问题都要求智能体在实现个人目标的同时为集体的成功做出贡献。这种多目标多智能体的设置给最近的算法带来了困难，这些算法主要针对单一全局奖励的设置，它们面临两个新挑战：为学习个人目标的实现和为他人的成功而合作的高效探索，以及不同智能体的行动和目标间的相互作用的信用分配。为解决这两个挑战，我们将问题重构为一个新的两阶段课程，在学习多智能体合作之前，先学习单智能体目标的实现，我们推导出一个新的多目标多智能体策略梯度，并采用信用函数进行局部信用分配。我们使用 函数增强 方案来衔接课程中的价值和策略函数。被称为CM3的完整架构在三个具有挑战性的多目标多智能体问题上的学习速度明显快于现有算法的直接改编：困难队形中的合作导航、SUMO交通模拟器中的多车道变化协商以及跳棋环境中的战略合作。

36.《Toward Amortized Ranking-Critical Training For Collaborative Filtering》

关键词：Collaborative Filtering, Recommender Systems, Actor-Critic, Learned Metrics

HIGHLIGHT：我们研究了基于actor-critic强化学习来训练协作过滤模型的新方法，以更直接地最大化基于排名的目标函数且在各种潜变量模型中提高性能。

具体来说，我们训练critic网络以近似基于排名的指标，然后更新actor网络以针对学习的指标直接进行优化。与传统的学习排名方法需要重新运行新列表的优化程序相比，我们基于critic的方法使用神经网络摊分评分过程，并可直接提供新列表的（近似）排名分数。我们证明了actor-critic能够显着改善各种预测模型的性能，并在三个大型数据集上达到与各种强基准相比更好或可比的性能。

代码： https:// github.com/samlobel/RaC T_CF

37.《Chameleon: Adaptive Code Optimization For Expedited Deep Neural Network Compilation》

关键词：Learning to Optimize, Compilers, Code Optimization, Neural Networks, ML for Systems, Learning for Systems

HIGHLIGHT：强化学习和自适应采样，可优化深度神经网络的编译。

以较短的编译时间实现更快的执行速度可促进神经网络的进一步多样性和创新。但是，当前执行神经网络的范例依赖于手动优化的库，传统的编译启发法或最近的遗传算法和其他随机方法。这些方法需要频繁且昂贵的硬件测量，因而不仅十分耗时而且次优。对此，我们设计了一种解决方案，它可以学习快速适应以前看不到的设计空间进行代码优化，既加快了搜索速度，又提高了输出性能。这个被称为Chameleon的方案使用了强化学习方法，方案收敛所需的步骤较少。Chameleon还开发了一种自适应采样算法，不仅关注代表性点上的昂贵样本（真实的硬件测量），还使用领域知识启发逻辑来改进样本本身。通过实际硬件的实验表明，Chameleon在优化时间上比AutoTVM提速4.45倍，同时也将现代深度网络的推理时间提高了5.6%。

38.《Graph Constrained Reinforcement Learning for Natural Language Action Spaces》(Poster)

关键词：natural language generation, knowledge graphs, interactive fiction

HIGHLIGHT：我们介绍了KG-A2C，这是一种强化学习智能体，可以在使用template-based的动作空间进行探索并生成自然语言的同时，构建动态知识图-在广泛的基于文本的游戏中优于所有当前智能体。

交互式小说游戏是基于文本的模拟，其中的智能体完全通过自然语言与世界互动。它们是研究如何扩展强化学习智能体以满足组合语言的较大的、基于文本的动作空间中自然语言理解，部分可观察性和动作生成等挑战的理想环境。我们介绍了KG-A2C，这是一种可在探索动态知识图的同时使用 template-based 的动作空间生成动作的智能体。我们认为， 知识图的双重使用来推理游戏状态并限制自然语言的生成 是组合自然语言动作的可扩展探索的关键。各种IF游戏的结果表明，尽管动作空间大小呈指数增长，KG-A2C的表现仍优于目前的IF智能体。

代码： https:// github.com/rajammanabro lu/KG-A2C

39.《Composing Task-Agnostic Policies with Deep Reinforcement Learning》

关键词：composition, transfer learning

HIGHLIGHT：我们提出了一种新颖的基于强化学习的 技能迁移和组合 方法，该方法采用智能体的原始策略来解决原本未见的任务。

混合搭建基本行为块以解决具有挑战性的转移学习问题是构建智能机器的关键要素之一。。迄今为止，研究者在学习特定于任务的策略或技能方面已经进行了大量工作，但几乎没有集中精力撰写与Task-Agnostic的必要技能以找到新问题的解决方案。在本文中，我们提出了一种新的基于深度强化学习的技能迁移和组合方法，该方法采用智能体的原始策略来解决原本未见的任务。我们在困难的情况下评估了新方法，在这些情况下，通过标准强化学习(RL)甚至是分层RL训练策略要么不可行，要么表现出高样本复杂度。我们表明，新方法不仅能将技能迁移到新的问题环境中，而且还能以高数据效率解决需要任务规划和运动控制的挑战性环境。

代码： https:// drive.google.com/file/d /1pbF9vMy5E3NLdOE5Id5zqzKlUesgStym/view?usp=sharing

40.《Single episode transfer for differing environmental dynamics in reinforcement learning》

关键词：transfer learning

HIGHLIGHT：通过优化探测以快速推断潜变量并立即执行通用策略，在具有相关动态环境系列中进行单事件策略传输。

迁移和适应新的未知环境动态是强化学习的关键挑战。更大的挑战是在测试时间的一次尝试中可能几乎无法达到最佳效果，而可能无法获得丰厚的回报，而当前的方法却无法解决这一问题，需要多次 experience rollouts才能适应。为了在具有相关动力学的环境系列中实现Single episode，我们提出了一种通用算法，该算法可 优化探测器和推理模型 ，以快速估算测试动力学的潜在潜变量，然后将其立即用作通用控制策略的输入。这种模块化的方法可以集成最新的算法以用于variational inference或RL。而且，我们的方法不需要在测试时获得奖励，这使其能够在现有自适应方法无法实现的环境中执行。在具有Single episode测试约束的不同实验领域中，我们的方法明显优于现有的自适应方法，并且在鲁棒传输的基础上表现出良好的性能。

41.《Model-Augmented Actor-Critic: Backpropagating through Paths》

关键词：model-based, actor-critic, pathwise

HIGHLIGHT：使用学习的模型和Q函数通过时间进行反向传播来实现策略梯度。

当前基于模型的强化学习方法只是将模型用作学习的黑匣子模拟器，以扩充数据来进行策略优化或价值函数学习。在本文中，我们展示了如何通过利用模型的 可微分 性更有效地利用模型。我们构造了一个使用学习的模型和策略在未来时间步长上的 路径导数 的策略优化算法。通过使用terminal价值函数，以actor-critic的方式学习策略，可以防止跨多个时间步骤学习的不稳定性。此外，我们根据模型和值函数中的梯度误差提出了对目标的单调改进的推导。我们证明，与基于模型的现有算法相比，我们的方法（i）始终具有更高的采样效率，（ii）匹配无模型算法的渐近性能，并且（iii）扩展到很长的horizons（在这种情况下，过去基于模型的方法通常会遇到困难）。

42.《Robust Reinforcement Learning for Continuous Control with Model Misspecification》

关键词：robustness

HIGHLIGHT：一种用于将鲁棒性建模到连续控制强化学习算法中，以将错误规范建模的框架。

我们提供了一个将鲁棒性-过渡动态中的扰动（我们称其为模型错误指定）纳入连续控制强化学习（RL）算法的框架。我们特别专注于将鲁棒性结合到最新的连续控制RL算法中，新算法被称为 最大后验 策略优化（MPO）。我们通过学习一种针对最坏情况进行优化的策略来实现这一目标，新策略采用 熵正则化的期望回报目标并得出相应的鲁棒熵正则化Bellman压缩算子 。另外，我们引入了一个相对保守的，软鲁棒的，熵正则化目标以及相应的贝尔曼算子。实验结果显示，在环境扰动下，鲁棒和软鲁棒的策略在9个Mujoco域中的性能均优于非鲁棒的策略。此外，我们在具有挑战性的，模拟的，灵巧机器人手上显示出改进的鲁棒性能。视频见 https:// sites.google.com/view/r obust-rl 。

43.《Black-box Off-policy Estimation for Infinite-Horizon Reinforcement Learning》

关键词： off-policy estimation, importance sampling, propensity score

HIGHLIGHT：针对infinite-horizon RL中的off-policy估计问题，我们提出了一种新颖的方法。

在许多现实应用（如医疗保健和机器人技术）中，对long-horizon问题的off-policy估计很重要，在这些应用中，我们可能无法使用高保真（high-fidelity）模拟器，对策略的评估是很昂贵或不可能的。最近，\citet{liu18breaking}提出了一种方法，避免了典型的基于重要性取样的方法所遭受的horizon诅咒。虽然结果看起来promising，但此方法在实践中是有限的，因为它需要通过一个已知的行为策略来 收集数据 。在这项工作中，我们提出了消除此类限制的新颖方法。特别地，我们将问题的formulation化为求解“向后流动”算子的不动点，并表明不动点解给出了目标策略和行为策略之间期望的平稳分布的重要性比。我们分析其渐近一致性和有限样本推广。基准测试证明了我们提出的方法的有效性。

44.《Graph Convolutional Reinforcement Learning》

关键词： GCN，GNN

HIGHLIGHT：在多智能体环境中，学习合作至关重要，其中的关键是要了解智能体之间的相互影响。但是，多智能体环境是高度动态的，智能体不断移动，其邻居快速变化。这使得学习智能体之间相互作用的抽象表示变得困难。为解决这些困难，我们提出了图卷积强化学习，其中图卷积适应于多智能体环境的基础图的动力学，且关系内核通过它们的关系表示来捕获智能体间的相互作用。利用卷积层从逐渐增加的接受场中产生的潜在特征来学习合作，并且通过时间关系(temporal relation)正则化进一步改进合作以保持一致性。

代码： https:// github.com/PKU-AI-Edge/ DGN/

45.《Thinking While Moving: Deep Reinforcement Learning with Concurrent Control》 (Poster)

关键词： continuous-time, robotics

HIGHLIGHT：强化学习的formulation允许智能体同时思考和采取行动，这在真实的机器人抓取中得到了证明。

论文中的强化学习环境设置如下：智能体必须在受控系统的时间演变过程中同时从策略中采样动作，例如机器人必须在上一个动作完成之前决定下一个动作（同时思考和移动）。为了开发针对此类并发控制问题的算法框架，我们从Bellman方程的连续时间公式化开始，然后以意识到系统延迟的方式离散化它们。我们通过对现有基于值的DRL算法的简单体系结构扩展，实例化此类新的近似动态编程方法。

46.《Evolutionary Population Curriculum for Scaling Multi-Agent Reinforcement Learning》

关键词： evolutionary learning, curriculum learning

HIGHLIGHT：在多智能体游戏中，环境的复杂性会随着智能体数量的增加而呈指数增长，因此，当智能体数众多时，学习良好的策略尤其具有挑战性。在本文中，我们介绍了进化人口课程（EPC），这是一种课程学习范例，它通过逐步增加训练智能体的数量来扩展多智能体强化学习（MARL）。此外，EPC使用进化方法来解决整个课程中的客观失调问题：在早期以少量人口成功训练的智能体不一定是适应后期人口规模扩大的最佳人选。具体来说，EPC在每个阶段都会维护多组智能体，在这些集合上执行混合匹配和微调，并以最佳适应性提升智能体到下一阶段。我们在一种流行的MARL算法MADDPG上实现了EPC，并通过经验证明，随着智能体数量呈指数增长，我们的方法始终在性能上始终优于基线。源代码和视频见 https:// sites.google.com/view/e pciclr2020 。

代码： https:// github.com/qian18long/e pciclr2020

47.《A Simple Randomization Technique for Generalization in Deep Reinforcement Learning》

关键词： Generalization in visual domains

HIGHLIGHT：我们提出了一种简单的随机化技术，用于改善具有各种未曾见过的视觉模式的任务的深度强化学习的泛化。

DRL智能体通常无法推广到未曾见过的环境，尤其当它们在高维状态空间（如图像）上进行训练时。在本文中，我们提出了一种可通过引入随机扰乱输入观测值的随机（卷积）神经网络来提高深层RL智能体泛化能力的简单技术。通过 跨变化和随机环境中的learning robust features invariant ，新算法使受过训练的智能体能够适应新领域。此外，我们考虑了一种基于蒙特卡洛近似的推理方法，以减少由该随机化引起的方差。我们展示了新方法在2D CoinRun，3D DeepMind Lab探索和3D机器人控制任务中的优越性：新算法明显优于各种正则化和数据增强方法。

代码： https:// github.com/pokaxpoka/ne trand

48.《Reinforced Genetic Algorithm Learning for Optimizing Computation Graphs》

关键词： learning to optimize, combinatorial optimization, computation graphs, model parallelism, learning for systems

HIGHLIGHT：我们使用DRL来学习指导遗传算法搜索的策略，以更好地优化计算图的执行成本，并在实际的TensorFlow图上显示改进的结果。

我们提出了一种深度强化学习方法，以最小化优化编译器中神经网络计算图的执行成本。与早期的基于学习的工作需要在同一图上对优化器进行训练以进行优化不同，我们提出了一种学习方法，该方法离线训练优化器，然后将其推广到以前看不见的图，而无需进一步训练。这使我们的方法可以在几秒钟（而不是几小时）内在现实世界的TensorFlow图上产生高质量的决策。我们为计算图考虑两个优化任务：最小化运行时间和峰值内存使用。在这两个任务上，我们的方法比经典方法和其他基于学习的方法取得了显着改进。

49.《Projection Based Constrained Policy Optimization》

关键词： Generalization in visual domains

HIGHLIGHT：我们提出了一种可以学习满足约束条件的策略，并在有约束条件的强化学习背景下提供理论分析和经验证明的新算法。

我们考虑了学习控制策略的问题，这些策略在优化奖励函数的同时，需要满足关于安全、公平或其他成本的约束。我们提出了一种新算法–基于投影的约束策略优化（PCPO），这是一种在两步过程中优化策略的迭代方法–第一步执行无约束更新，第二步通过将策略投射回约束集上来调节违反约束的情况。我们从理论上分析了PCPO，并为每次策略更新提供了奖励改进的下限以及约束违反的上限。我们进一步基于两个不同的指标–L2 norm和Kullback-Leibler divergence–来描述PCPO与投影的收敛性。在几个控制任务上的经验结果表明，我们的算法实现了卓越的性能，与最先进的方法相比，新算法平均减少了3.5倍以上的约束违反，并提高了约15%的奖励。

代码： https:// sites.google.com/view/i clr2020-pcpo

50.《Infinite-Horizon Differentiable Model Predictive Control》

关键词： Model Predictive Control, Riccati Equation, Imitation Learning, Safe Learning

HIGHLIGHT：本文提出了一种可微分的线性二次模型预测控制（MPC）框架，用于安全模仿学习。利用从离散时间代数Riccati方程(DARE)中得到的终端成本函数来强制执行Infinite-Horizon成本，从而可证明学习的控制器在闭环中是稳定的。论文的核心贡献之一是推导了DARE解的解析导数，从而允许使用基于微分的学习方法。另一个贡献是MPC优化问题的结构：1.增强的拉格朗日方法确保MPC优化在整个训练过程中是可行的，同时对状态和输入进行硬约束，2.预稳定化控制器确保MPC解和导数在每次迭代中都是准确的。该框架的学习能力在一组数值研究中得到了证明。

51.《Toward Evaluating Robustness of Deep Reinforcement Learning with Continuous Control》

关键词： deep learning, robustness, adversarial examples

HIGHLIGHT：我们研究具有对抗性攻击的DRL中的连续控制智能体问题，并基于学习的模型动力学提出了两步算法。

DRL在许多以前困难的强化学习任务中取得了巨大成功，但最近的研究表明，类似于分类任务中的DNN，DRL智能体也不可避免地容易受到对抗性干扰。先前工作主要集中在无模型的对抗攻击和具有离散动作的智能体上。在这项工作中，我们研究了具有对抗性攻击的DRL中的连续控制智能体问题，并基于学习的模型动力学提出了第一个两步算法。在各种MuJoCo域（Cartpole，Fish，Walker，Humanoid）上进行的大量实验表明，我们提出的框架在降低智能体性能以及将智能体驱动到不安全状态方面比基于无模型的攻击基准要有效得多。

52.《Meta-learning curiosity algorithms》

关键词： meta-learning, exploration, curiosity

HIGHLIGHT：通过搜索 a rich space of programs，元学习好奇心算法激发了很多新颖的设计，这些设计可以在非常不同的强化学习领域中通用。

我们假设好奇心是一种由进化发现的机制，它鼓励智能体在其生命早期进行有意义的探索，以使其在一生中获得高回报的经验。我们将产生好奇行为的问题表述为元学习的问题：外循环将在好奇机制的空间上搜索，动态调整智能体的奖励信号，内循环将使用调整后的奖励信号进行标准的强化学习。然而，目前基于迁移神经网络权重的元RL方法只在非常相似的任务之间进行了泛化。为了扩大泛化范围，我们提出元学习算法：类似于人类在ML论文中设计的代码片段，我们丰富的程序语言将神经网络与缓冲器、最近邻模块和自定义损失函数等其他构件相结合。我们以实证的方式证明了这种方法的有效性，并发现了两种新型的好奇心算法，它们的性能与人类设计的已发表的好奇心算法相当或更好（实验：grid navigation with image inputs, acrobot, lunar lander, ant and hopper）。

代码： https:// github.com/mfranzs/meta -learning-curiosity-algorithms

53.《Keep Doing What Worked: Behavior Modelling Priors for Offline Reinforcement Learning》

关键词： Off-policy, Multitask, Continuous Control

HIGHLIGHT：我们开发了一种从记录的数据中进行稳定的offline强化学习的方法。关键是针对学习到的数据的“优势加权”数据模型规范RL策略。

Off-policy强化学习算法有望适用于只有固定的环境交互数据集(batch)且无法获得新经验的环境中。这一特性使得这些算法对机器人控制等现实世界问题很有吸引力。然而，在实践中，标准的Off-policy算法在连续控制的批处理环境中是失败的。在本文中，我们提出了一个简单算法来解决这个问题。它允许使用由任意行为策略产生的数据，并使用学习到的先验–优势加权行为模型(ABM)–将RL策略偏向于以前已经执行过的、有可能在新任务上成功的动作。我们的方法可被看作是最近批处理RL工作的扩展，它可从冲突的数据源中进行稳定的学习。实验涉及了真实世界机器人的多任务学习。

54.《Model-based reinforcement learning for biological sequence design》

关键词： blackbox optimization, molecule design

HIGHLIGHT：我们通过序列级智能体奖励函数和基于计数的visitation bonus来增强无模型策略学习，并证明在设计DNA和蛋白质序列时可看到的大批量，low-round的有效性。

设计生物结构（如DNA或蛋白质）涉及一个具有挑战性的黑箱优化问题，其特征是由于需要进行劳动密集型的wet lab评估，因此批次大+low-round。对此，我们建议使用基于近端策略优化（PPO）的强化学习（RL）进行生物序列设计。RL为优化生成序列模型提供了灵活框架，以实现特定的标准，例如被挖掘的的高质量序列之间的多样性。我们提出了一种基于模型的PPO变体DyNA-PPO以提高样品效率，算法使用适合先前回合functional measurements的模拟器离线训练新回合的策略。为适应越来越多的跨轮次观察，算法在每个轮次中从容量不同的多种模型中自动选择模拟器模型。在设计DNA转录因子结合位点，设计抗微生物蛋白质以及基于蛋白质结构优化Ising模型的能量的任务上，我们发现DyNA-PPO在可行的建模环境中的性能明显优于现有方法，且在无法学习可靠模型的情况下，效果并没有更差。

55.《Meta Reinforcement Learning with Autonomous Inference of Subtask Dependencies》

关键词：Meta reinforcement learning, subtask graph

HIGHLIGHT：一种新颖的meta-RL方法，可以推断潜在的子任务结构

我们提出并解决了一个新颖的few-shot RL问题，其中任务以子任务图为特征，该子任务图描述了智能体未知的一组子任务及其依赖性。智能体需要在适应阶段的几个情节中快速适应任务，以使测试阶段的收益最大化。我们没有直接学习元策略，而是开发了带有子任务图推理（MSGI）的元学习器，该子学习器通过与环境交互来推断任务的潜在参数，并在给定潜在参数的情况下最大化回报。为促进学习，我们采用了固有的奖励方式，该奖励方式受到鼓励有效探索的上限置信度（UCB）的启发。我们在两个grid-world域和StarCraft II环境上的实验结果表明，新方法能够准确推断潜在任务参数，

56.《Never Give Up: Learning Directed Exploration Strategies》

关键词：exploration, intrinsic motivation

HIGHLIGHT：我们提出了一种强化学习智能体，通过学习一系列的定向探索性策略来解决困难的探索游戏。

我们构建了一个基于偶发性记忆的内在奖励，使用k-最近邻对智能体的最近经验进行训练定向探索性策略，从而鼓励智能体反复重访其环境中的所有状态。采用 自监督的逆动力学模型来训练最近邻查找的嵌入 ，将新奇信号偏向于智能体可以控制的方向。我们采用通用价值函数逼近器的框架，用同一神经网络同时学习许多定向探索策略，在探索和利用之间进行不同的权衡。通过对不同程度的探索/利用使用相同的神经网络，证明了从主要的探索性策略转移到有效的利用性策略。新方法可以与现代分布式RL智能体一起运行，这些智能体可以从在不同环境实例上并行运行的许多actors那里收集大量经验。我们的方法在Atari-57 suite中的所有困难探索中的性能是基础智能体的两倍，同时在其余游戏中保持了非常高的分数。值得注意的是，新方法是第一个在不使用demonstrations 或手工制作的特征的情况下，在《Pitfall！》游戏中实现非零奖励的算法（平均分数为8400分）。

57.《Discriminative Particle Filter Reinforcement Learning for Complex Partial observations》

关键词： Partial Observability, Differentiable Particle Filtering

HIGHLIGHT：我们引入了DPFRL，这是一个通过重要性加权粒子滤波器在部分和复杂观测下进行强化学习的框架。

DRL在诸如Atari，Go等复杂游戏的决策中是成功的。但是，现实世界中的决策通常需要推理，并从复杂的视觉观察中提取部分信息。本文介绍了判别式粒子滤波强化学习（DPFRL），这是一种用于复杂局部观测的新型强化学习框架。DPFRL对神经网络策略中的可微分粒子滤波器进行编码，以进行显式推理，并随时间进行部分观测。粒子滤波器使用学习的判别式更新来维持信念，该判别式更新经过端到端的训练以用于决策。实验表明，使用可微分更新而不是标准生成模型可以显着提高性能，尤其对于具有复杂视觉观察的任务，因为它们避免了建模与决策无关的复杂观测的困难。另外，为了从粒子信念中提取特征，我们基于矩生成函数提出了一种新型的信念特征。在现有的POMDP RL基准测试《Natural Flickering Atari》游戏中，DPFRL优于最新的POMDP RL模型；此外，DPFRL在Habitat环境中使用真实数据进行视觉导航时表现出色。

58.《Episodic Reinforcement Learning with Associative Memory》

关键词： Episodic Control, Episodic Memory, Associative Memory, Non-Parametric Method, Sample Efficiency

HIGHLIGHT：样本效率一直是深度强化学习的主要挑战之一。研究者已提出非参数 episodic control， 通过快速锁定先前成功的策略来加速参数强化学习 。但是，以前的episodic强化学习工作忽略了状态之间的关系，仅将经验存储为不相关的项。为提高强化学习的样本效率，我们提出了一个新颖的框架——带有联想记忆的episodic强化学习（ERLAM）， 该框架将相关的经验轨迹关联起来，以支持推理有效的策略 。我们基于状态转换在内存中的状态之上构建图形，并开发反向轨迹传播策略以允许值通过图形快速传播。我们使用非参数联想记忆作为参数强化学习模型的早期指导。Navigation domain和Atari游戏的结果表明，与最新的带有联想记忆的episodic强化学习模型相比，我们的框架实现了更高的样本效率。

59.《Sub-policy Adaptation for Hierarchical Reinforcement Learning》

关键词： Hierarchical Reinforcement Learning, Transfer, Skill Discovery

HIGHLIGHT：我们提出了HiPPO，这是一种稳定的分层强化学习算法，可以同时训练多个层次的层次结构，从而在技能发现和适应方面均具有良好的表现。

分层强化学习是解决稀疏奖励的长期决策问题的一种有前途的方法。不幸的是，大多数方法仍然使较低级别的技能获取过程与控制新任务中技能的较高级别的训练脱钩。保持技能固定会导致转移设置中出现明显的次优状态。在这项工作中，我们提出了一种即使在接受新任务训练时也可不断将其与更高的水平相适应的发现一组技能的新颖算法。

主要贡献：首先，我们推导了一个新的潜在依赖基线的无偏分层策略梯度，并引入了分层近端策略优化（HiPPO），这是一种有效联合训练分层结构各个级别的基于策略的方法。第二，我们提出了一种训练time-abstractions的方法，可以提高所获技能对环境变化的鲁棒性。代码和视频在 https:// sites.google.com/view/h ippo-rl 。

代码： https:// anonymous.4open.science /r/de105a6d-8f8b-405e-b90a-54ab74adcb17/

## 多次出现的关键词

## Top 10

## 正文

Recommend

微服务治理实践：服务契约

MySQL事务与MVCC如何实现的隔离级别

V 友们都是用什么洗发水？

最好的 Mybatis 代码提示， IDEA MybatisCodeHelperPro 插件送激活码

财商可能比智商重要得多

2020 10大薪资最高的IT编程语言排名

去星巴克必须点东西吗？

nodejs 有没有好用的解决粘包问题的库？

想问问没有高刷对大伙购买 iPhone12 有影响吗

V 友们都多久洗一次头呢？

About Joyk