决策智能：任务与技术概览

导读以较为总览的形式介绍决策智能的概念、主要任务与主要技术。

全文目录：

决策智能技术概览
强化学习的基础概念和思维方式
强化学习的落地现状与挑战

分享嘉宾｜张伟楠上海交通大学副教授

编辑整理｜王雨润北京大学

出品社区｜DataFun

01 /决策智能技术概览

1.智能任务分类

人工智能始终面对两种智能任务类型：预测型任务和决策型任务。

（1）预测型任务

根据数据预测所需输出（有监督学习）
生成数据实例（无监督学习）

（2）决策型任务

在静态环境中优化目标（优化问题）
在动态环境中采取行动（强化学习）

在过去十年中，伴随着深度学习技术的发展，人工智能在预测型任务中取得了长足的进步。包括基于有监督学习进行人脸识别，以及基于无监督学习对数据进行聚类、表征学习、数据生成等。由于过去十年深度学习的发展，使得人工智能搜索、推理、学习、博弈的四类技术中学习技术发展速度突出，预测型任务的解决受到广泛关注。但人工智能的初期阶段，如跳棋程序等，都试图解决决策型任务，可大致可分为在静态环境中优化目标的优化问题与在动态环境中采取行动的控制问题。

两类任务之间的本质区别在于，预测型任务本质学习的是一类映射函数仅需要考虑信号而不涉及行动；而决策型任务的输出则可以直接影响环境本身，以至于需要对环境之后的改变负责。

image-f9b57a6a706443dcae81e65e7a0e8d97.png-imageStyle

2.决策智能的任务和技术分类

决策环境特性可用决策环境的动态性与透明性进行表征，具体如下：

静态环境：环境没有转移状态，对应单步决策；
动态环境：环境有可转移状态，对应多步决策，此环境下无论透明性与否均面对序贯决策任务。
白盒环境：变量和目标之间的关系可以用具体公式表示；
黑盒环境：变量和目标之间的关系无法用具体公式标志。

根据决策环境的动态性和透明性，决策任务可大致划分为四个部分，并对应具体的技术方案为：

运筹优化：对应静态环境与白盒环境，包括（混合整数）线性规划问题、非线性优化问题等；
黑盒优化：对应静态环境与黑盒环境，包括神经网络替代模型优化、贝叶斯优化、超参数搜索等；
动态规划：对应动态环境与白盒环境，包括MDP直接求解、树、图搜索等；
强化学习：对应动态环境与黑盒环境，包括策略优化、Bandits问题等。

image-86a0a9e8424c41ed99d4135351ad1767.png-imageStyle

其中，运筹优化问题往往能够通过建模方式由数学表达式写出，是典型白盒环境。以常见的混合整数规划问题为例，目标是最小化线性目标，并伴随相应的约束。工业场景中以生产排期为例，优化变量为每个时段生产的物品和量，约束为生产物品、生产环境的依赖，目标为完成产量基础上最小化生产成本。若离散化表达生产环境，则可对应至整数规划问题。

image-92d6dfd77eca417c837da85805ae12d7.png-imageStyle

黑盒优化问题中，优化输出目标往往无法由数学公式直接对应至输入变量，优化的目标函数未知，甚至评估也不容易，同时需要在一定范围内寻找最优变量。主要面临的挑战包括无显式解、收敛性等问题。以工业制造为例，一套生产线具有500个可调参数，需要找到合适的参数使得产出零件的坏件率最低，但对于任何一组参数均需开启生产线一段时间后才能计算坏件率。

image-4e1c6adf90b14644af3f7d4823807a04.png-imageStyle

序贯决策问题中，智能体序贯地进行一步一步决策，并接续看到新的观测，直到最终任务结束。智能体和环境交互过程中去学习优化目标的过程，优化目标为累计衰减奖励总和的期望，优化变量为观测动态环境后所采取的行动策略。以机器狗为例，操作轮足和地形持续交互，完成越过障碍物的任务。绝大多数序贯决策问题，可以用强化学习来解决。

image-e825e1a0f4834cd080b6b881ade2ac80.png-imageStyle

02 /强化学习的基础概念和思维方式

1.强化学习定义

强化学习为智能体和环境交互过程中学习来实现目标的计算方法，具有感知、行动和目标三方面诉求。

image-9f8f0cb5cfcf480ab271688a66fd83da.png-imageStyle

在强化学习交互过程中，对于每一时间步，智能体能够获得对于环境的观察，例如机器狗能够获得力觉和视觉的信息；能够执行相应的行动，如机器狗每个关节角度的改变和相应的加速度；能够获得相应的奖励，如果机器狗摔倒则获得负向奖励，若正常行走则获得正向奖励。基于以上观察、行动与奖励三部分内容，智能体完成与环境交互的一次环路，并随着时间步的不断迭代不断往后进行。

image-692c9251d9004a03a7ce67c6bc3516c4.png-imageStyle

因此，在与动态环境交互中进行强化学习的范式与预测型任务的人工智能学习范式具有本质区别。对于有监督学习和无监督学习的学习范式，是在一个给定的数据分布之下，通过求解期望中的打分函数改变模型参数，使得在给定数据分布下期望值达到最小。决策任务中，通过改变智能体与环境交互过程中的策略，智能体与环境交互过程所产生的数据分布（数据占用度量）会直接发生改变，而奖励函数本身则不发生改变。

image-c1c79325a7ec489a8fb2d6021bc7504c.png-imageStyle

2.强化学习系统要素

历史（History）是之前的时间步中所积累的观察、行动和奖励的序列。基于序列智能体可提取环境的状态，代表智能体在环境中的充分统计量，用于确定接下来会发生的事情（观察、行动、奖励）。

image-45da64b5b6e8488786d72f082e857ecb.png-imageStyle

策略是智能体在特定状态的动作决策，确定性策略使用函数形式输入环境状态输出具体行动，随机策略则输入相应的环境状态输出行动的分布并采样出具体的行动。基于具体的状态和动作，环境给出实现预定好的奖励函数值，标定了一步范围内行动的好坏优劣。最终环境将基于当前状态和智能体选择的决策转移至下一个状态。

3.表格式强化学习

（1）价值-策略的动态规划求解（白盒动态环境）

在序贯决策问题中，我们希望优化价值标量，用于定义长期以来什么是"好"的。策略π的价值函数为从某个状态和动作开始，获得的累计奖励期望。价值函数可等同于当前时间步的立即奖励加上在时间折扣后的环境的转移状态与下一个状态的价值（Bellman等式）。

本文地址：决策智能：任务与技术概览
本文版权归作者和AIQ共有，欢迎转载，但未经作者同意必须保留此段声明，且在文章页面明显位置给出

由于奖励函数与环境的转移状态均为给定值，因此环境为白盒环境，问题本身仍归于动态规划问题而非真正意义上的学习问题。学习问题常常仅已知一个具体的数据点，而不包含整个环境分布本身的概率值。基于Bellman迭代等式，可使用策略迭代进行动态规划问题求解：使用Q函数，改进策略π；基于上式，更新Q函数，经过压缩算子的不断迭代可最终收敛于不动点，可取得最优的Q函数和最优策略。

image-7e50cf8243824227986085d63a880342.png-imageStyle

（2）SARSA强化学习方法（黑盒动态环境）

黑盒环境的状态转移概率以及相应的奖励函数本身均是未知的，但在任何状态下仍可以执行相应的动作并直接观测到奖励值并转移到下一个状态，智能体将继续执行动作。因此对于当前策略执行的每个（状态-动作-奖励-状态-动作），可类似Bellman迭代式基于采样版本进行Q函数的更新，对应于强化学习中的SARSA算法。

image-fb4a1550c5f04a6085c6c4598b0b4315.png-imageStyle

SARSA算法的关键在于在当前策略之下得到的采样数据直接用于更新当前策略，即在线策略时序差分控制（on-policy TD control），用于保证当前数据与当前策略本身是匹配的。

image-8509ad2c6c0d4a9c89a70208369d7ff1.png-imageStyle

在Windy Gridworld环境中，SARSA算法以在线强化学习的方式学习出从初始状态到目标状态的一条最优轨迹。

image-c642007fa8994246b41894c18dfcc8d7.png-imageStyle

4.深度强化学习

表格式强化学习具体计算每一个状态以及每一个动作所对应的Q值，或一个策略在每一个状态下采取每一个行动具体的概率值。但若环境较为复杂或状态空间与动作空间较大，表格学习将会变得困难。此类情况下，往往选择参数化函数以还原价值函数表格或策略表格，使用更新参数的策略以更新相应的价值函数或策略。

image-c5a1971ebc0a4c538f9970f9b576de5c.png-imageStyle

基于该思路，可使用深度神经网络形式实现参数化价值函数或策略网络。于是自2013年12月开始，第一篇深度强化学习论文在NIPS Workshop上发表并取得较大成功。使用深度卷积网络直接实现Q函数，输入游戏中的像素，输出相应的行动。

image-535ad0390ee142cb88b9f48630947aca.png-imageStyle

深度强化学习的关键在于实现了端到端的强化学习。之前无论是设计表格或设计参数去实现近似函数，均需要大量人工；端到端强化学习输入生数据，输出策略，使得强化学习从一项实验室学术技术变成可以产生工业GDP价值的落地技术。

image-ae67782d48cc4dc5ad16810415e227e4.png-imageStyle

深度强化学习本身将深度学习和强化学习结合在一起，其结合带来了大量新的关键科学问题的研究。由于价值函数和策略变成了深度神经网络，因此使得数据采样和训练难以稳定地进行，以至于需要新的稳定性计算方式设计，同时也需要平衡CPU（用于收集经验数据）与GPU（用于训练神经网络）之间算力的平衡。这些新的问题促进深度强化学习算法的创新。

image-5077e17d1b974d4186e0acc1b4dd0f94.png-imageStyle

目前深度强化学习的研究前沿方向主要包括：

基于模拟学习的强化学习：建立环境模拟器
目标策动的层次化强化学习：长程任务的中间目标是桥梁的基石
模仿学习：无奖励信号下跟随专家做策略学习
多智能体强化学习：分散式、去中心化的人工智能
离线强化学习：训练过程中智能体不能与环境交互
强化学习大模型：探索以大的序列建模方式完成序贯决策任务

image-12bf76268f1143c28ba821438e69b0a5.png-imageStyle

强化学习大模型使用大语言模型架构（如GPT架构）去定义接下来产生的动作，来完成智能体当前的目标。智能体的目标可以以各种方式在序列过程中进行建模，如在规定步数内获得特定反馈值或行进至地图内规定位置，并输出为达到该目标所要执行的动作。于是通过这种方式可以倒装强化学习，将优化最终目标的范式变成为达到最终目标预测历史动作的范式，该范式正在达到并超越离线强化学习方法。

image-8cbd88c397774fde94c5b7f54fe687e6.png-imageStyle

在多智能强化学习方面，数字大脑研究院、中科院和高校团队于2021年11月发布首个多智能体强化大模型MADT，使用一个GPT模型完成多个星际争霸对战任务，并在新的对战任务中具有较好的迁移性能。DeepMind在2022年5月发布Gato决策大模型，使用同一个GPT网络（11.8亿参数）同时完成约600个任务，在75%以上的任务中达到了专家50%以上的性能水平。它采样每个任务的专家数据，并使用完全有监督学习离线训练，并使用部分专家轨迹做任务提示学习。

image-550b2154f57041f6b7673f7099177eae.png-imageStyle

image-49549f5024f24bbda210d085703b9ec7.png-imageStyle

03/强化学习的落地现状与挑战

1.强化学习落地现状

自2013年第一篇深度强化学习论文发表以来，强化学习在游戏智能外也拥有如无人驾驶、交通调度、快递仓库分拣机器人、体育场景等广泛的落地场景。强化学习若从虚拟的游戏场景走向真实的工业场景，依然面临着包括数据样本小、噪声多、离线训练等诸多挑战。

image-0423a9c355044929907f2b6260818800.png-imageStyle

2.强化学习落地挑战

人对于AI的更高要求：赋予AI决策权的同时对其算法的安全性、稳定性与高效性提出更高要求，需要高仿真度模拟器和安全强化学习技术
决策场景千变万化：不同任务的目标、数据、效率要求等皆不同，要求算法团队对具体的场景任务比较了解
算力的极大需求：强化学习的数据需求与算力需求较预测型深度学习模型大1~2个数量级，一个统一的、高效的、服务强化学习的计算平台很重要

image-b24e78d64c7e4a7a92329e8dc08b09ee.png-imageStyle

今天的分享就到这里，谢谢大家。

image-d777c71fabdc497c8b482315dbea3def.png-imageStyle

▌2023数据智能创新与实践大会

4大体系，专业解构数据智能

16个主题论坛，覆盖当下热点与趋势

70+演讲，兼具创新与最佳实践

1000+专业观众，内行人的技术盛会

点击下方链接即可报名参会～

https://www.bagevent.com/event/8416932?bag_track=zhihu

01 /决策智能技术概览

1.智能任务分类

2.决策智能的任务和技术分类

02 /强化学习的基础概念和思维方式

1.强化学习定义

2.强化学习系统要素

3.表格式强化学习

4.深度强化学习

03/强化学习的落地现状与挑战

1.强化学习落地现状

2.强化学习落地挑战

Recommend

GraphQL技术栈概览：如何将所有的功能组合起来

Java后端技术概览 - 后端技术杂谈 | 飒然Hang

智能决策引擎公司慧安金科招聘「运维开发工程师」等

推荐系统技术概览

观远数据2019智能决策峰会在上海举行，其智能分析2.0平台正式发布

React18 技术概览 - 基础篇（还等什么，抓紧来看看吧）

B端决策类产品设计指南：任务中断回溯设计

智能决策技术在汽车行业的应用实践

前端视频播放技术概览

全球隐私计算技术发展概览 - PrimiHub

About Joyk