1

经过7万小时训练,OpenAI宣布做出了最强的《我的世界》AI

 1 year ago
source link: https://www.yystv.cn/p/10156
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

经过7万小时训练,OpenAI宣布做出了最强的《我的世界》AI

文化 2天前
文化 > 经过7万小时训练,OpenAI宣布做出了最强的《我的世界》AI

视频是种潜力巨大的培训资源。

Open AI最近公布了一项他们在人工智能领域的最新成果——最擅长玩《我的世界》的AI。

厉害到什么程度?无论是建造地堡、金字塔这些复杂的建筑,跟游戏里的恶龙战斗,亦或是“白手起家”,制造出稀有的钻石工具都不在话下,这些任务即使是交给熟练的人类玩家来做,往往也需要数十分钟的流程以及上万个点击操作。

AI学会自己建造传送门:

而该AI在经过训练后,则可以在没有任何外力辅助的情况下自主完成这一系列事件,这是此前其他AI都无法做到的。根据Open AI的介绍,能够实现这一成果,依靠的是在模仿学习(imitation learning)技术上的新突破。

在这项技术中,AI会被训练成通过观察并模仿人类的行为来完成相应的任务,此前很多效果都运用到了类似的原理,比如控制机械手臂或者驾驶汽车。

既然AI需要观察模仿,那么就势必需要一定量的素材,而单就“熟练操作《我的世界》”而言,各大视频网站上的学习素材其实已经非常多,完全能够满足AI的学习需要。

但问题是,还需要另一项额外的工作,即“让AI准确理解视频里的内容”。

《我的世界》是一款没有明确目标的游戏,虽然网上素材繁多,可并不能直接拿来当作学习资料,因为视频里的每个动作和操作,其实都需要人类为其贴上“标签”,也就是做出相应的注释,才能AI明白操作的含义。

如果每个动作都需要人工注释,那效率自然会降低,为了解决这个问题,研究人员想出了一项新方法——训练能够自动为视频操作贴标签的AI。

他们先是召集了一批志愿者玩家来操作游戏,并保留了玩家们的按键记录,在得到2000个小时的游戏数据后,研究人员训练了一个新的模型,并人工将按键操作与游戏里的效果一一对应,比如在什么情况下点击鼠标会让人物挥动斧头。

下一步便是用这个模型来处理网上海量的《我的世界》视频,为他们贴上让AI能够理解的标签。根据公布的数据,为了得到理想的效果,科研人员提供的视频素材长达70000个小时。

而这确实也获得了一定的成果,比如像开头说的那样,AI已经学会了如何自己制作钻石工具。而Open AI的负责人Bowen Baker表示:“我们觉得《我的世界》是一个很好的研究领域。”

由于《我的世界》没有明确的输赢且自由度极高,所以研究人员可以训练AI执行更多复杂的任务,而他们认为这些工作最终可以反哺到现实——如果AI能在游戏里设计一张桌子,那么在现实里没准也行。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK