

OR Talk NO.19 | Facebook田渊栋博士:基于蒙特卡洛树搜索的隐动作集黑盒优化
source link: https://zhuanlan.zhihu.com/p/275703840
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

OR Talk NO.19 | Facebook田渊栋博士:基于蒙特卡洛树搜索的隐动作集黑盒优化
分享提纲
主题:《基于蒙特卡洛树搜索的隐动作集黑盒优化》
嘉宾:
博士时间:北京时间 2020年 11月7号(周六) 早 10:00
地点:『运筹OR帷幄』哔哩哔哩直播间
简介
近期,Facebook AI Lab 的田渊栋博士与布朗大学的王林楠及其老板 Rodrigo Fonseca 合作发表了一篇关于黑盒优化的文章(arXiv:2007.00708),提出了一种新的叫作 La-MCTS (Latent Action Monte Carlo Tree Search) 的黑盒优化(Black-box optimization)方法。这里的隐动作集 (Latent Action, La) 是指,从搜索空间的当下节点选择好的子空间(左节点),或坏的子空间(右节点)。
传统蒙特卡洛树搜索的目标是在给定状态空间(state space S)、行动空间(action space A)及状态转移函数(transition matrix, S->A->S') ,传统蒙特卡洛树搜索通过搜索过去的种种行为各有多少奖励,找到最优的行动序列获得最大的奖励。黑盒优化从一个不错的起始点出发去寻找最优解,也可以通过这种方式建模。
但它与传统强化学习之间,有一个关键的不同点:黑盒优化的行动空间可以任意指定,只要有利于最优解的搜寻就可以。LaMCTS正是利用这一点,通过自动学习行动空间的结构以提高搜索效率。
LaMCTS作为一个元算法(meta-algorithm),采用非线性函数切分空间,可以叠加在任何已知的黑盒优化算法,比如Bayesian Optimization(BO)上面。该算法让高维高斯过程的建模局限在一个比较小的范围内,从而更快地在叶节点的子区域中找到最优解。在实际问题中,黑盒优化适用的场景往往是函数调用开销非常大且没有导数信息的情形,比如说函数值是一个复杂系统运转一天后的平均效率,或者是耗费巨资才可获得的一个实验结果,等等,通过降低最优解的样本复杂度,可以极大地降低成本提高效率。
LaMCTS已被NeurIPS 2020接收。算法的源代码目前已公布在 Github 上。
(https://github.com/facebookresearch/LaMCTS)
本次直播,田博士将为我们详细讲解这篇论文的背景和内容。
嘉宾介绍
田渊栋博士,脸书(Facebook)人工智能研究院研究员及经理,研究方向为深度强化学习,多智能体学习,及其在游戏中的应用,和深度学习模型的理论分析。曾担任围棋开源项目 DarkForest 及 ELF OpenGo 项目中研究及工程负责人和第一作者。2013-2014年在Google无人驾驶团队任软件工程师。2005年及08年于上海交通大学获本硕学位,2013年于美国卡耐基梅隆大学机器人研究所获博士学位。曾获得2013年国际计算机视觉大会(ICCV)马尔奖提名(Marr Prize Honorable Mentions)。
参考阅读:
Recommend
-
112
李亚洲翻译2017/12/24 11:56一份数学小白也能读懂的「马尔可夫链蒙特卡洛方法」入门指南
-
71
不用数学也能讲清贝叶斯理论的马尔可夫链蒙特卡洛方法
-
66
加州大学洛杉矶分校计算机科学专业的 Ray Zhang 最近开始在自己的博客上连载介绍强化学习的文章,这些介绍文章主要基于 Richard S. Sutton 和 Andrew G. Barto 合著的《Reinforcement Learning: an Introduction》,并添加了一些示例说明...
-
41
项目:_https://facebook.ai/developers/tools/elf-opengo_ 论文:_https://arxiv.org/abs/1902.04522_ 对于有计算机基础的围棋爱好者来说,你也可以下载 ELF OpenGo 最终版本模型进行...
-
19
© PaperWeekly 原创 · 作者|邓妍蕾 学校|香港大学硕士 研究方向|NLP、语音识别 概览 马尔科夫蒙特卡洛法(Markov Chain Monte Carlo, MCMC)经常用在贝叶斯概率模型的推理和学习中,主要是为了解...
-
42
目录 采样为什么是困难的(the curse of high dimensionality) 基于概率分布的采样Inverse Transform Sampling 接受-拒绝采样Rejection Sampling MCMC 蒙特卡洛马尔可夫链 马氏链...
-
7
现实世界的大多数系统是没有办法给出一个确切的函数定义,比如机器学习模型中的调参,大规模数据中心的冷藏策略等问题。这类问题统统被定义为黑盒优化。黑盒优化是在没办法求解梯度的情况下,通过观察输入和输出,去猜测优化变量的最优解...
-
5
一个场景是所有风险因子的表现序列。历史场景是指风险因子在历史上某天的实际表现,随机场景则是计算机随机模拟生成的。通常蒙特卡洛模拟法需生成至少 1000 个随机场景,然后计算组合在每个场景下的损益,最后取 5%分位点得到组合的 VaR 值。 由于蒙特卡...
-
12
羊驼家族大模型集体进化!32k上下文追平GPT-4,田渊栋团队出品
-
6
田渊栋等人新作:突破内存瓶颈,让一块4090预训练7B大模型 作者:机器之心 2024-03-08 12:35:41 只用 24G 显存,消费级 GPU 就能搞定大模型了。他们合作提出了 GaLore(Gradient Low-Rank Projection),这是一种...
About Joyk
Aggregate valuable and interesting links.
Joyk means Joy of geeK