

华为诺亚方舟实验室多项强化学习研究成果获IJCAI 2020录用
source link: http://mp.weixin.qq.com/s?__biz=MzIwMTE1NjQxMQ%3D%3D&%3Bmid=2247512480&%3Bidx=4&%3Bsn=4b4c25b6e37803d810dc1e5019a8f8d1
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

本文转载自诺亚实验室。
近期,华为诺亚方舟实验室(决策推理实验室-强化学习研究团队)的3项研究成果被人工智能领域顶级会议IJCAI(录取率12.6%)接收(一作都为实习生,主要工作在华为实习期间完成),涵盖团队在 高效强化学习研究方向 近期的探索和研究成果,包括 基于迁移学习的策略复用 、 对多模态示教数据 和 人类先验知识 的合理利用。
Efficient Deep Reinforcement Learning via Adaptive Policy Transfer
图1:面向深度强化学习的策略迁移框架
深度强化学习解决很多复杂问题的能力已经有目共睹,然而,如何提升其学习效率是目前面临的主要问题之一。现有的很多方法已验证迁移学习可利用相关任务中获得的先验知识来加快强化学习任务的学习效率。
然而,这些方法需要明确计算任务之间的相似度,或者只能选择一个适合的源策略,并利用它提供针对目标任务的指导性探索。目前仍缺少如何不显式的计算策略间相似性,自适应的利用源策略中的先验知识的方法。
本文提出了一种通用的策略迁移框架(PTF),利用上述思想实现高效的强化学习。PTF通过将多策略迁移过程建模为选项(option)学习,option判断何时和哪种源策略最适合重用,何时终止该策略的重用。
如图1所示,PTF分为两个子模块,智能体(agent)模块和option模块。Agent模块负责与环境交互,并根据环境的经验和option的指导进行策略更新。以PTF-A3C为例,agent模块的策略更新公式如下:
其中,agent模块对源策略的利用通过添加一个额外的损失函数,该损失函数计算agent策略与源策略之间的差异。根据option的终止函数,我们提出了一种自适应调整策略重用的机制,为损失函数设计了启发式的权重系数,避免负迁移的出现。Option模块负责option的值网络和终止网络的学习,option的值函数更新参考DQN的更新方式,最小化损失函数:
Option模块通过计算以下梯度更新终止网络的参数:
Option模块根据其值函数选择一个option和与其对应的源策略,用以给agent模块提供指导。Agent模块对其利用过程根据该option的终止概率停止,同时,option模块重新选择一个新的option和源策略,重复上述过程。PTF可以自然地与现有的深度强化学习方法结合。实验结果表明,PTF在离散和连续动作空间中的学习效率和最终性能方面,都优于原始的强化学习方法,并超越了最新的策略迁移方法(如图2所示)。
文章链接: https://arxiv.org/abs/2002.08037 。
【诺亚决策推理RL研究团队与天津大学、南京大学等联合研究工作】
图2:各类方法在迷宫环境上的平均累积收益
Triple-GAIL: A Multi-Modal Imitation Learning Framework with Generative Adversarial Nets
图3:Triple-GAIL框架
模仿学习是一种基于专家示教重建期望策略的方法,一直是AI领域的研究热点。为了提升模仿学习的通用性和在实际工程中的应用,相关的研究方向吸引了大量学术和工业界人士,其中利用多模态模仿学习提升模仿学习效果是重要的方向之一。例如,应用于自动驾驶中的驾驶行为学习,真实驾驶员示教数据由于驾驶技能和行为习惯的多样性呈现多种模态并服从不同的分布,如果直接利用行为克隆(Behavioral Cloning,BC)或逆向强化学习(Inverse Reinforcement Learning,IRL)容易导致模态坍塌问题(mode collapse problem),因缺乏发现和区分示教数据中的模态变化的能力。为了针对多模态示教数据进行有效的模仿,我们提出了一种基于生成对抗模仿学习(Generative Adversarial Imitation Learning,GAIL)的多模态模仿学习算法框架(图3),称为Triple-GAIL,通过对模态选择和行为模仿联合学习并利用模态选择器增量式生成数据促进模态区分优化模仿效果。Triple-GAIL在GAIL的基础上增加了一个模态选择器(Selector)用于区分多个模态,并和生成器(Generator)一起持续生成状态-动作-模态数据序列,达到数据增广的目的,而判别器(Discriminator)用于区分状态-动作-模态数据序列是否来自于专家示教数据。与已有多模态模仿学习方法相比,Triple-GAIL既可以直接通过指定模态生成行为轨迹,也可以直接利用模态选择器基于历史数据判断模态。
根据上述目标函数,我们从理论上证明了当且仅当时,生成器和选择器能够同时收敛到各自的最优值,并在公开驾驶数据集(图4)和实时策略游戏中验证了Triple-GAIL相比其他方法能够更高效地学习到接近专家示教的多模态行为。
文章链接: https://arxiv.org/abs/2005.10622 。
【诺亚决策推理RL研究团队与清华大学、南京大学联合研究工作】
图4:各种方法基于NGSIM数据集的驾驶行为学习效果对比
KoGuN: Accelerating Deep Reinforcement Learning via Integrating Human Suboptimal Knowledge
图5:KoGuN框架
人类在面对新任务时,能够自然地利用从之前任务中获得的先验知识指导其之后的学习过程。这样的先验知识未必是与当前任务完全匹配的,很可能是次优的、模糊的,但是仍然能够大大加速人类的学习过程。因此,在强化学习过程中利用人类提供的先验知识直观上能够加速其学习过程。在序列决策问题中,利用人类知识的一系列重要工作是模仿学习,模仿学习需要利用专家的示教数据重建期望策略。而示教数据作为人类知识在某个任务下的具体体现,是low level的知识,我们期望能够利用high level的知识,例如人类的常识知识,在未见过的任务中且没有示教数据可供使用的情况下指导智能体的学习。受此启发,我们提出了一种新颖的知识引导策略网络(Knowledge Guide Policy Network,KoGuN),将人类的先验知识结合到深度强化学习的学习过程中,其框架如图5所示。我们引入了可学习的知识控制器(Knowledge Controller)编码人类知识,其中包含若干条模糊规则。模糊规则适用于基于不确定的、不精确的知识进行推理,这与人类提供的具有非精确性的先验知识相契合。我们使用的模糊规则的形式如下:
其推理过程可用下式表示:
同时,我们设计了知识精化模块(Refine Module)对次优先验进行修正。我们提出的知识引导策略网络能够与现有的基于策略的强化学习算法结合,进行端到端的训练。实验结果显示,我们的方法在离散和连续动作空间任务中均能够提高智能体的学习效率:
在收益信号非常稀疏的情况下,我们的方法优势更加明显,如下:
文章链接: https://arxiv.org/abs/2002.07418
END

备注:强化
强化学习交流群
关注最新最前沿的强化学习技术,
若已为CV君其他账号好友请直接私信。
我爱计算机视觉
在看,让更多人看到
Recommend
-
47
互联网时代,假新闻铺天盖地,而且极具迷惑性,Facebook一度深陷虚假新闻的泥淖,不但被控影响了美国总统大选结果,甚至引发了德国政府的巨额罚金。 甚至连以公信力著称的BBC也难以幸免,比如BBC北安普顿分站的推特账号就曾发...
-
84
12月26日,华为在深圳全球总部召开了一场名为“AI生活 享品智”的媒体品鉴会,不仅发布了AIoT人工智能物联网生态战略,还为全球最大的消费领域IoT实验室“华为方舟实验室”举行了剪彩仪式,这也是该实验室第一次公开亮相。 今年8月...
-
13
摘要: 当今,各种互联网金融风险(比如,欺诈、盗卡、薅羊毛等)层出不穷,为了更有效且高效地保障资金安全,需要应用先进的机器学习技术进行风险防控。近年来,使用深度神经网络(DNN)在有标签的数据上训练风控模型,取得了良好的效果。...
-
37
论文地址:https://arxiv.org/pdf/1906.04477.pdf 因果研究作为下一个潜在的热点,已经吸引了机器学习/深度学习领域的的广泛关注,例...
-
18
图片来源@视觉中国 文丨智能相对论(ID:aixdlun),作者丨黄康瑄 10月8日,韩国新人歌手夏妍发布了由人工智能作曲机...
-
4
近期,由西安电子科技大学、蚂蚁集团、迪肯大学、墨尔本大学和UIUC合作完成的论文「Neural Attention Distillation: Erasing...
-
15
招聘|华为诺亚方舟实验室智能工业视觉组招实习生 ...
-
6
腾讯安全科恩实验室最新自动驾驶研究成果入选国际顶会USENIX Security 2021腾讯安全科恩实验室最新自动驾驶研究成果入选国际顶会USENIX Security 2021 2021-08-13 16:33:33 来源: 摘要:安全领域四大顶会...
-
6
昆仑实验室研究员亮相“补天白帽论坛”,分享研究成果-品玩 昆仑实验室研究员亮相“补天白帽论坛”,分享研究成果 2小时前 8月18日,2022北京网络安全大会(BCS2022)大湾区网络安全峰会在深圳前海举行。本次大会...
-
2
数坤科技多项研究成果被ISMRM 2023年会收录,科研创新实力再上新高度-品玩
About Joyk
Aggregate valuable and interesting links.
Joyk means Joy of geeK