2

清华商汤最新AI,征服了《我的世界》

 11 months ago
source link: https://www.qbitai.com/2023/05/57402.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

清华商汤最新AI,征服了《我的世界》

head.jpg西风 2023-05-30 14:29:07 来源:量子位

任务覆盖率达100%!

西风 发自 凹非寺

量子位 | 公众号 QbitAI

继GPT-4惊艳《我的世界》后,国产AI智能体也来了——

像人一样生存、探索和创作,并且通关了整个游戏!

清华商汤最新AI,征服了《我的世界》

从生存模式白手起家,不仅可以拿到主世界的所有物品、挖钻石,还能制作附魔书!

面对各类地形、环境、白天黑夜场景都能hold住,甚至遇到怪物也能自如应对。

清华商汤最新AI,征服了《我的世界》

不卖关子,全都是这个小东西干的,它的名字叫Ghost in the Minecraft(GITM)。

清华商汤最新AI,征服了《我的世界》

由商汤科技联合清华大学、上海人工智能实验室等机构研究者们共同开发。

和以往的智能体相比,GITM的特点可以用两个字来形容:更强。

  • 能完成更多的任务:

在主世界的所有技术挑战上实现了100%的任务覆盖率。

  • 更高的任务成功率:

在“获取钻石”任务上,也可以达到67.5%的高成功率。

清华商汤最新AI,征服了《我的世界》

看到这,你肯定会问:这么强,训练要花很长时间吧?

漏!单一CPU节点只需要训练两天!

打破AI发展限制

在AI发展进程中有一个非常有趣却有违常识的现象:

一些对人类而言相对困难的任务,例如下棋,对AI来说却相对容易实现;而在开放世界中与环境交互、进行规划和决策等对人类来说较简单的事,AI却面临巨大挑战。

这就是莫拉维克悖论。

不过,这个通才AI智能体GITM,据说已经成功打破了这一悖论限制:

它可以在复杂且类似于现实世界的环境中取得突破,能够像人类一样生存,探索和创造。

先来看一下它的具体表现怎么样:

在《我的世界》中,GITM在主世界的所有技术挑战上实现了100%的任务覆盖率,也就是成功解锁了完整的科技树的262个物品。

而此前所有智能体的总和只能覆盖30%。(以往所有智能体方法包括OpenAI和DeepMind在内总共只解锁了78个)

清华商汤最新AI,征服了《我的世界》

△红色代表其它智能体也解锁了的物品,绿色代表只有GITM解锁的物品

清华商汤最新AI,征服了《我的世界》

在最受关注的“获取钻石”任务上,GITM取得了67.5%的成功率,相比于目前最佳成绩(OpenAI VPT)提高了47.5%。

清华商汤最新AI,征服了《我的世界》

然鹅,重点来了。

在训练效率上,GITM也达到了新高度。环境交互步数只需已有方法的万分之一,单一CPU节点训练两天即可完成。

远远低于之前OpenAI VPT所需的6480个GPU天或DeepMind DreamerV3所需的17个GPU天。

清华商汤最新AI,征服了《我的世界》

不仅如此,GITM还可以进一步应用在《我的世界》更加复杂的任务中,比如生存所需的避难所、农田、铁傀儡,创造自动化设备所需的红石电路、进入下界所需的下界传送门等。

清华商汤最新AI,征服了《我的世界》

GITM强大的能力和可扩展性的背后是大语言模型(LLM)的加持。

GITM的心脏:大语言模型

之前基于强化学习的智能体所面临的最大困境在于:

如何将一个极长时域和复杂目标映射成一系列键盘、鼠标操作。

为了解决这个问题,GITM的开发者采用了基于大语言模型(LLM)的智能体程序。

清华商汤最新AI,征服了《我的世界》

与强化学习智能体程序直接映射不同,他们基于LLM的智能体程序采用了一种分层的方法:

首先将分解目标拆分为子目标,然后进一步拆分为结构化的操作,最后再拆分为键盘、鼠标操作。

清华商汤最新AI,征服了《我的世界》

具体来说,基于LLM的智能体程序包括LLM分解器、LLM规划器和LLM界面,它们分别负责对子目标、结构化操作和键盘/鼠标操作进行分解:

1)LLM分解器首先根据从互联网收集到的基于文本的知识,将目标分解为一系列明确定义的子目标。

2)然后,LLM规划器为每个子目标规划一系列结构化操作。LLM规划器还会将成功的动作列表,记录并总结到基于文本的记忆中,来增强规划能力。

3)LLM界面通过处理原始的键盘/鼠标输入和接收原始的观察结果,执行结构化操作与环境进行交互。

清华商汤最新AI,征服了《我的世界》

此前,商汤基于监督学习和强化学习就炼成了可以在《星际争霸2》中,对挑顶级水平玩家的DI-star。

而训练一个DI-star,就用了“16万场录像”“1亿局对战”

而这次,有了大语言模型的加持,事情又变得有意思了捏。

项目地址:https://github.com/OpenGVLab/GITM

版权所有,未经授权不得以任何形式转载及使用,违者必究。

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK