0

在《我的世界》里挖钻石把AI难哭,DeepMind最新算法终于扳回颜面

 1 year ago
source link: https://www.qbitai.com/2023/01/41504.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

在《我的世界》里挖钻石把AI难哭,DeepMind最新算法终于扳回颜面

head.jpg鱼羊 2023-01-22 12:18:23 来源:量子位

不靠攻略和“外挂”

鱼羊 Alex 发自 凹非寺

量子位 | 公众号 QbitAI

又一个AI老大难问题,被DeepMind攻克了:

一只名叫DreamerV3的AI,在啥也不知道的情况下被丢进《我的世界》(MineCraft)里,摸爬滚打17天,还真就学会了如何从0开始挖钻石。

d526b447474846a6aad2bee357cc0553~tplv-tt-shrink:640:0.image?traceid=202301221215325C1237B91F42296C9FA4&x-expires=2147483647&x-signature=nKsimrDjjJYWwJMwDUHIP%2FDFGK8%3D

△就是从撸树开始的那种

要知道,之前为了攻克这个问题,CMU、微软、DeepMind和OpenAI还联手在NeurIPS上拉了个比赛,叫MineRL。

结果搞了三四年,AI们也没能在不参考人类经验的情况下,完成挖钻石任务。

此前表现最好的VPT选手,为了达成这一成就,可是狂看了70000+小时《我的世界》游戏视频,并且用上了720个V100……

这不DeepMind的最新结果一出,研究人员都开心坏了。

MineRL的发起人之一、前OpenAI研究科学家William Guss就第一时间跑来发表贺电:

4年了,“钻石挑战”终于被攻克了!

0340099813e04704befbf03fa5ddec45~tplv-tt-shrink:640:0.image?traceid=202301221215325C1237B91F42296C9FA4&x-expires=2147483647&x-signature=sOVjMf71lTtNf2U5OEgX3ezsZVg%3D

今年刚拿到了NeurIPS杰出数据集和基准论文奖的MineDojo作者、英伟达AI科学家范麟熙则表示:

AI玩转MineCraft背后,有个莫拉维克悖论:一些任务对于人类而言很困难(比如围棋),但对AI来说很简单。但像MineCraft这样人类高玩无数的游戏,情况却相反。
DreamerV3能在没有任何人工数据辅助的情况下收集钻石,这让我感到非常兴奋。

所以,这个0基础挖钻石任务,到底有啥难点?

首先,在《我的世界》里,初始世界是完全随机生成的。

即使是人类玩家,想要快速挖到钻石,也得有相当丰富的经验。比如,知道怎么推算钻石的位置、掌握一些挖掘窍门(如鱼骨挖矿法)等。

排除掉经验的因素,对于AI来说,这个挖钻石的过程也挺复杂,至少得要7个步骤

第一步,玩家在空手进入《我的世界》中时,需要先撸树来获取木块:

f847ec38cf17460d91fe6521267b2058~tplv-tt-shrink:640:0.image?traceid=202301221215325C1237B91F42296C9FA4&x-expires=2147483647&x-signature=tSxJij4yglIO32iQacxxHARLEvs%3D

第二步,得用木块用来合成工作台:

c91c076691d44c5584c63d265c9aba78~tplv-tt-shrink:640:0.image?traceid=202301221215325C1237B91F42296C9FA4&x-expires=2147483647&x-signature=R1lcEOEJUv0w4yIZBeTozTpmmGU%3D

第三步,在工作台上合成木镐,用来挖圆石:

e9c0516bdeb345c4b2cef8f1846a7ebe~tplv-tt-shrink:640:0.image?traceid=202301221215325C1237B91F42296C9FA4&x-expires=2147483647&x-signature=B3KzivYTXy2L0%2Fb1%2BMAulEG2X4M%3D

第四步,获得圆石之后,需要合成一个石镐,用来快速挖铁矿:

ad5b9ea2b2eb40f08d5db60cd5c62d9f~tplv-tt-shrink:640:0.image?traceid=202301221215325C1237B91F42296C9FA4&x-expires=2147483647&x-signature=WZ2lCwkTW9gjGgJDpf2oBeACjr8%3D

第五步,为了将铁矿合成铁锭,还需要做一个熔炉来烧铁:

a8a91e8aba524b5fbe74648e09577333~tplv-tt-shrink:640:0.image?traceid=202301221215325C1237B91F42296C9FA4&x-expires=2147483647&x-signature=KPHgdXkHh5hYjmych5nPL7ecmRw%3D

第六步,合成铁镐,用来挖钻石:

6fc04ba7baf14505ab293d80ef003a81~tplv-tt-shrink:640:0.image?traceid=202301221215325C1237B91F42296C9FA4&x-expires=2147483647&x-signature=MoVvJEzITM48mzvr60SfQVgg5BA%3D

第七步,寻找钻石,然后用铁镐挖出钻石:

038f44887f314fff8f056c74258277a8~tplv-tt-shrink:640:0.image?traceid=202301221215325C1237B91F42296C9FA4&x-expires=2147483647&x-signature=%2BxRqlie7Bk03zGeuTBQ6pFJGhIA%3D

p.s. 有玩家测试过,在AI知道钻石等各种资源坐标的情况下(开外挂),也需要2-3分钟才能搞定。

这也就意味着,AI必须在有限时间里,做出大量决策。

那么既然不能参考人类高手的经验,自然就需要强化学习(Reinforcement Learning)出马。

具体而言,DeepMind的研究人员提出了一种基于世界模型的通用算法

在整体架构上,DreamerV3由3个神经网络组成:世界模型、评委(critic)和演员(actor)。

480572c8db254546b2dcdd4aa33f6e0d~tplv-tt-shrink:640:0.image?traceid=202301221215325C1237B91F42296C9FA4&x-expires=2147483647&x-signature=KGn6SxPv2pY%2FCZc6MuXBC%2FKZi48%3D

世界模型要做的,是把环境输入编码为离散的表征,并通过预测来指导下一步要执行的操作。

而评委和演员则会根据抽象出来的表征进行学习。其中,评委网络会输出一个标量值来代表行动价值,从而帮助演员网络选择最优的行动。

这里面的一个核心点在于,DeepMind的研究人员希望DreamerV3不仅仅能处理同类型的问题,还可以用固定超参数,掌握跨领域任务

因此,研究人员需要系统地解决世界模型、评委和演员等各个组件中信号大小不同,以及稳定平衡目标的问题。

研究人员发现:

以前的世界模型,需要根据复杂3D环境的视觉输入,对表征损失进行不同的缩放,在训练过程中还得调整不少超参数,但这里面其实有许多没必要的细节。

而如果把自由比特(free bits)和KL平衡(KL balancing)结合起来,就可以在不调整超参数的情况下让DreamerV3在不同领域中学习。

KL平衡是上一代DreamerV2中提出的一项新技术。能够使预测向表征移动的速度比表征向预测移动的速度更快,带来更精确的预测。

自由比特避免了简单环境下的过度拟合。

a0994aa00afc42d087b010eab14d42cf~tplv-tt-shrink:640:0.image?traceid=202301221215325C1237B91F42296C9FA4&x-expires=2147483647&x-signature=lF6ibpHLhW%2F9LwkjeqnOBrZbQwE%3D

DreamerV3的三大块都用上了固定超参数,具体如下:

99261a3b62da4880af9d48e3198b13a2~tplv-tt-shrink:640:0.image?traceid=202301221215325C1237B91F42296C9FA4&x-expires=2147483647&x-signature=AdXQbB5mwwzkEfQbrEQXFQBQn%2BE%3D

也就是说,DreamerV3如今成了世界上第一个纯靠自己摸索,就能在《我的世界》里速挖钻石的AI。

并且DreamerV3的本事可不只是玩MC。

在另外7项基准测试中,DreamerV3都取得了成功,并且在BSuite、Crafter上达到了SOTA。

d84714281f3c4256a7de20c7884c6ab7~tplv-tt-shrink:640:0.image?traceid=202301221215325C1237B91F42296C9FA4&x-expires=2147483647&x-signature=JQrCMK68wZne8TMwnQ8o6%2F6%2FDvM%3D

值得一提的是,在这些任务中,训练智能体所用到的GPU资源都仅为1块V100。研究人员表示,这意味着有更多的实验室能跑得动这一模型。

另外,在需要时空推理的三维空间中,DreamerV3也能快速进行学习。

在DeepMind为强化学习专门打造的3D平台DMLab上,DreamerV3在任务中使用的交互次数仅为IMPALA的1/130。

343025216e3145d48a13afc98e8e6018~tplv-tt-shrink:640:0.image?traceid=202301221215325C1237B91F42296C9FA4&x-expires=2147483647&x-signature=BACO5gcTOCTkBMhCEdCqv4EfYC8%3D

目前,DreamerV3的代码是coming soon的状态。

感兴趣的小伙伴可以蹲一波~

参考链接:
[1]https://danijar.com/project/dreamerv3/
[2]https://twitter.com/DeepMind/status/1613159943040811010

版权所有,未经授权不得以任何形式转载及使用,违者必究。

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK