0

谷歌研究人员提出“通才型”智能体Multi-Game Decision Transformers,深入探索“通才型”...

 1 year ago
source link: https://www.mittrchina.com/news/detail/10730
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

麻省理工科技评论-谷歌研究人员提出“通才型”智能体Multi-Game Decision Transformers,深入探索“通才型”模型研究方向

谷歌研究人员提出“通才型”智能体Multi-Game Decision Transformers,深入探索“通才型”模型研究方向
人工智能的长期目标之一,是训练出一种“通才型”的、可以同时解决各种不同类型任务的“多面手”通用模型。目前,在 AI 领域中以计算机视觉、自然语言处理以及二者交叉等子领域的技术进展最为迅猛。这些子领域进
280



34c7bdbad6f84ae48fe32d1726322770

人工智能的长期目标之一,是训练出一种“通才型”的、可以同时解决各种不同类型任务的“多面手”通用模型。

目前,在 AI 领域中以计算机视觉、自然语言处理以及二者交叉等子领域的技术进展最为迅猛。这些子领域进展的重要策略之一,就是通过模型大小的缩放以及微调来实现针对某一任务最优的性能。

图丨专家级回报和行动决策的说明(来源:arXiv)

也就是说,对于大型或跨环境的任务,通过在大型、多样化的、甚至与任务无直接关系的数据集的训练,来构建基于转换器的大规模模型可以实现强大的功能。而针对单个任务或同一环境中的多个任务,通过使用更小的模型就可以达到与大模型同样的效果。

这一在视觉和语言领域得到成功的策略,是否也适用于针对“通才型”模型的跨多种环境的强化学习和训练呢?针对这一问题,谷歌的研究人员进行了研究,相关论文以《多博弈决策转换器》(Multi-Game Decision Transformers)为题发表在 arXiv [1]。

图丨相关论文(来源:arXiv)

在该论文中,研究人员展示了一个基于转换器的完全离线训练的模型 Multi-Game Decision Transformers,它的能力十分多元,可以同时玩 46 种不同的雅达利(Atari,一款美国游戏机)游戏,而且性能已经接近人类。

而在针对 Multi-Game Decision Transformers 的训练和评估中,研究人员也发现了迈向“通才型”的模型的重要经验和规律。尤其是发现,在语言和视觉领域所见趋势,同样在大规模“通才型”模型的强化学习中适用,包括性能随模型大小的缩放,以及通过微调来快速学习适应新游戏。

研究人员在这次训练中选择了街机学习环境(Arcade Learning Environment,ALE)作为训练测试平台,这主要是因为ALE针对一般能力的经验性评估而设计,不同于其他的著名的深度 Q 学习(deep Q-learning)等需要针对每个不同游戏准备不同的超参数。

a34cfb6154cf40fcaf1c568fb1b26ea5
图丨Multi-Game Decision Transformers 模型架构(来源:arXiv)

研究人员在对模型训练中的一个重要的任务设置是,学习在具有明显不同的动态、奖励和代理实施方式的大量不同环境中解决多个任务;这与机器人领域中的多任务环境有着很大的不同,之前的多任务问题基本是在相同或相似环境中。

简单来说,Multi-Game Decision Transformers 模型训练所解决的问题和目标概述如下:系统每间隔时间t便会接收到对世界 Ot 的观察,并需要在每个间隔选择一个行动 at。然后,它会得到一个标量奖励 rt。而训练的目标则是,寻找到总回报奖励 Rt 最大的单个最优策略分布 P。

训练中使用的训练数据集包含专家和非专家行为的混合,而为了控制所生成的行动 at 可以始终如一地产生高回报奖励。研究人员受推理时间方法的启发,设计出一个二元分类器,可以识别在某一时间t是否需要专家级的行动。

图丨训练中使用的训练数据集包含专家和非专家行为的混合(来源:arXiv)

为了评估 Multi-Game Decision Transformers 模型的能力,研究人员将其与其他模型进行了对比。所对比的模型有:在 DT 模型基础上删除了目标返回条件,以及返回令牌预测的 BC;使用 C51 算法的但基于最小化时间差的原因而允许分类损失的 C51 DQN;以及 CQL、CP、 BERT、ACL 等。

在模型的性能随大小的变化方面,Multi-Game Decision Transformers 模型呈现出了更明显的经验幂律关系。事实上,在自然语言处理和计算机视觉方面,美国计算机科学家、企业家杰瑞·卡普兰(Jerry Kaplan)等人已经证明语言模型的大小和它的性能之间有着经验幂律的关系。而且,这一趋势在很多不同数量级大小的模型上皆获得验证,模型参数数量从几百万个到数千亿个不等。

9c42a966c4a14065afd6b64bdfcd4715
图丨Multi-Game Decision Transformer 和其他模型的性能和微调性能随模型大小的变化(来源:arXiv)

而对比 Multi-Game Decision Transformer 和其他模型在雅塔利游戏中的性能表现,可以看到,该模型的性能随大小稳定增长,而其他模型都在大小增长到一定水平之后性能达到饱和不增再加,且性能随模型大小的增长相对缓慢得多。

研究人员还评估了经过预训练的和未经预训练的 Multi-Game Decision Transformer 模型与其他模型在微调方面的表现。结果发现,经过预训练的 DT 模型的表现最好,而未经训练的 CQL 的表现最差。

396c1dde43d84537bcec541fa6755313
图丨经过预训练的和未经预训练的 Multi-Game Decision Transformer 模型与其他模型在微调的表现(来源:arXiv)

这也验证了研究人员的假设,即预训练的进行确实有助于模型快速学习新游戏。此外,该团队还观察到,对于 DT 模型来说,微调性能与模型大小呈相关性,会随模型的增加而升高,而这一趋势在 CQL 模型的却并不一致。

-End-

参考:
1、http://export.arxivarxiv.org/pdf/2205.15241v1

3904acbe84764331837af2894114f171

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK