清华商汤最新AI，征服了《我的世界》

西风 2023-05-30 14:29:07 来源：量子位

任务覆盖率达100%！

西风发自凹非寺

量子位 | 公众号 QbitAI

继GPT-4惊艳《我的世界》后，国产AI智能体也来了——

像人一样生存、探索和创作，并且通关了整个游戏！

从生存模式白手起家，不仅可以拿到主世界的所有物品、挖钻石，还能制作附魔书！

面对各类地形、环境、白天黑夜场景都能hold住，甚至遇到怪物也能自如应对。

不卖关子，全都是这个小东西干的，它的名字叫Ghost in the Minecraft（GITM）。

由商汤科技联合清华大学、上海人工智能实验室等机构研究者们共同开发。

和以往的智能体相比，GITM的特点可以用两个字来形容：更强。

能完成更多的任务：

在主世界的所有技术挑战上实现了100%的任务覆盖率。

更高的任务成功率：

在“获取钻石”任务上，也可以达到67.5%的高成功率。

看到这，你肯定会问：这么强，训练要花很长时间吧？

漏！单一CPU节点只需要训练两天！

打破AI发展限制

在AI发展进程中有一个非常有趣却有违常识的现象：

一些对人类而言相对困难的任务，例如下棋，对AI来说却相对容易实现；而在开放世界中与环境交互、进行规划和决策等对人类来说较简单的事，AI却面临巨大挑战。

这就是莫拉维克悖论。

不过，这个通才AI智能体GITM，据说已经成功打破了这一悖论限制：

它可以在复杂且类似于现实世界的环境中取得突破，能够像人类一样生存，探索和创造。

先来看一下它的具体表现怎么样：

在《我的世界》中，GITM在主世界的所有技术挑战上实现了100%的任务覆盖率，也就是成功解锁了完整的科技树的262个物品。

而此前所有智能体的总和只能覆盖30%。（以往所有智能体方法包括OpenAI和DeepMind在内总共只解锁了78个）

△红色代表其它智能体也解锁了的物品，绿色代表只有GITM解锁的物品

在最受关注的“获取钻石”任务上，GITM取得了67.5%的成功率，相比于目前最佳成绩（OpenAI VPT）提高了47.5%。

然鹅，重点来了。

在训练效率上，GITM也达到了新高度。环境交互步数只需已有方法的万分之一，单一CPU节点训练两天即可完成。

远远低于之前OpenAI VPT所需的6480个GPU天或DeepMind DreamerV3所需的17个GPU天。

不仅如此，GITM还可以进一步应用在《我的世界》更加复杂的任务中，比如生存所需的避难所、农田、铁傀儡，创造自动化设备所需的红石电路、进入下界所需的下界传送门等。

GITM强大的能力和可扩展性的背后是大语言模型（LLM）的加持。

GITM的心脏：大语言模型

之前基于强化学习的智能体所面临的最大困境在于：

如何将一个极长时域和复杂目标映射成一系列键盘、鼠标操作。

为了解决这个问题，GITM的开发者采用了基于大语言模型（LLM）的智能体程序。

与强化学习智能体程序直接映射不同，他们基于LLM的智能体程序采用了一种分层的方法：

首先将分解目标拆分为子目标，然后进一步拆分为结构化的操作，最后再拆分为键盘、鼠标操作。

具体来说，基于LLM的智能体程序包括LLM分解器、LLM规划器和LLM界面，它们分别负责对子目标、结构化操作和键盘/鼠标操作进行分解：

1）LLM分解器首先根据从互联网收集到的基于文本的知识，将目标分解为一系列明确定义的子目标。

2）然后，LLM规划器为每个子目标规划一系列结构化操作。LLM规划器还会将成功的动作列表，记录并总结到基于文本的记忆中，来增强规划能力。

3）LLM界面通过处理原始的键盘/鼠标输入和接收原始的观察结果，执行结构化操作与环境进行交互。

此前，商汤基于监督学习和强化学习就炼成了可以在《星际争霸2》中，对挑顶级水平玩家的DI-star。

而训练一个DI-star，就用了“16万场录像”和“1亿局对战”。

而这次，有了大语言模型的加持，事情又变得有意思了捏。

项目地址：https://github.com/OpenGVLab/GITM

清华商汤最新AI，征服了《我的世界》

清华商汤最新AI，征服了《我的世界》

打破AI发展限制

△红色代表其它智能体也解锁了的物品，绿色代表只有GITM解锁的物品

GITM的心脏：大语言模型

Recommend

Notion x Fitness

Dealmaster: Discounts on Star Trek gear, laptops, and more

叫醒耳朵、焕新呼吸 TCL空调新风音乐节吹动健康新风

#634 – The CAN bus can! with Dr Ken Tindell

Customer Success Sidekick by Parative

Nvidia's rise: Why retail traders may want to wait to buy

「凌科药业」完成2亿人民币C1轮融资

去年大获全胜后，Habby这款新手游致敬陈星汉，换新套路了？

苹果首款头显 Reality Pro 高清渲染图曝光：配“数字表冠”

讲好故事才能赚钱？测试状况不断外带裁员，二次元厂商压力有点大

About Joyk