127

星际争霸界也出了位“带路党”,当年的冠军正帮谷歌AI击败人类

 6 years ago
source link: https://baijia.baidu.com/s?id=1585017035317592536&wfr=pc&fr=idx_top
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

星际争霸界也出了位“带路党”,当年的冠军正帮谷歌AI击败人类

星际争霸界也出了位“带路党”,当年的冠军正帮谷歌AI击败人类
2017-11-25 14:07鲲鹏计划获奖作者,北京极客伙伴科技有限公司,优质科技领域创作者

李杉 若朴 发自 凹非寺量子位 出品 | 公众号 QbitAI

u=1417729809,2092734237&fm=173&s=E5C6B4444AA7B4515ED1140F0300D0C0&w=640&h=360&img.JPEG

1990年代,十几岁的Oriol Vinyals(维纽斯)成了西班牙《星际争霸》全国冠军。

他之所以玩这款科幻策略游戏,是因为比其他打打杀杀的游戏更需要动脑子。维纽斯说:“没上大学之前,这款游戏就让我在生活中怀有更强的战略思维。”

他的战略思维的确获得了回报:在巴塞罗那学习了电信工程和数学之后,维纽斯去过微软研究院实习,获得了加州大学伯克利的计算机博士学位,接着加入谷歌大脑团队,开始从事人工智能开发工作,然后又转入谷歌旗下DeepMind团队。

他又跟“星际争霸”打起了交道。

但这一次不是他亲自玩,而是教给机器人怎么玩。在人工智能成为全球最优秀的围棋选手后,星际成为了下一个攻克目标。

DeepMind与《星际争霸2》的开发商暴雪展开合作,让人工智能研究人员可以通过之前的数百万场对战进行学习。他们的目标之一,就是开发一套足够好的人工智能系统,使之可以击败人类选手。就像DeepMind的AlphaGo击败李世乭、柯洁一样。

然而,最终的目标是将其中使用的技术应用到现实世界,而不是让它始终停留在游戏里面。

“我们正在试图理解人类以及我们大脑的工作方式。”暴雪首席软件工程师Jacob Repp说,“如果我们能够得到这种高质量的数据流——人类玩游戏时的原始输入以及由此产生的结果——那就能成为研究人们行为的有用数据。”

对人工智能研究人员来说,《星际争霸2》是个颇为有趣的挑战。

与国际象棋或围棋不同,星际玩家面对的是不完美信息博弈。“战争迷雾”意味着玩家的规划、决策、行动,要一段时间后才能看到结果。

暴雪已经使用神经网络来获取玩家技能,而依据则是他们利用键盘和鼠标输入的信息、他们排兵布阵的方法、他们玩游戏时的效率。这些信号都可以用来让游戏本身更加有趣,或者让对战双方更加均衡。

但要让人工智能玩《星际争霸2》,就必须让他们能“看到”游戏里的3D地图,并快速而准确地加以解读。

DeepMind的首次测试,先在雅达利游戏上训练神经网络和AI智能体(Agent),然后再将其应用到《星际争霸2》上。即便没有进一步的指令,用雅达利游戏训练的人工智能也可以在地图上随意走动、移动镜头、排兵布阵。

“这的确可以在一定程度上发挥作用”,Viyals说。

u=184833746,752879099&fm=173&s=20F2C2242EAAE65544489B820300E08C&w=640&h=400&img.JPEG

在加入DeepMind之前,维纽斯开发了一项图片搜索功能和Gmail的“智能回复”,后者可以根据邮件内容推荐相关的回复。该团队还在从事语音识别,让人工智能记住不同人的对话,从而在下次听到这个声音时识别出来。

“在《星际争霸2》里,也要应对这些问题。”维纽斯说。一个玩家可能看到对手的侦察兵,然后又消失在视野中。对人工智能来说,记住他们遇到的东西,并且理解这可能表明敌人正在某个地方修建基地,就需要使用LSTM神经网络。

维纽斯解释道,电脑可以把某个数据的记忆保留数十年的时间,但这种记忆不仅需要保存,还要在未来针对某个信息调取出来。

“在《星际争霸2》中,这非常重要,但却很微妙,可以将未来与过去联系起来。”他说,“很难建立因果关系,因为游戏中会发生很多事情。”

尽管自己也是星际玩家,但维纽斯表示,DeepMind的研究并没有使用之前的技术作为假设。

借助所谓的强化学习技术,神经网络可以直接解读他们获取的原始信号——在这个案例中,就是《星际争霸》过往的对战录像。

SC2LE

今年8月,DeepMind和暴雪联合发布了第一篇AI打星际的论文:《StarCraft II: A New Challenge for Reinforcement Learning》。

这篇论文的第一作者,就是维纽斯。

u=2406396309,2851547206&fm=173&s=0EA07C2290CC48EB5841E8D30000E0B1&w=640&h=347&img.JPEG

论文介绍了暴雪和DeepMind合作推出的SC2LE工具包,其中包括:

机器学习API:由暴雪开发,将研究人员和开发人员接入游戏,并自带首次发布的Linux工具包。至此,Windows、Mac与Linux系统均可在云端运行。匿名游戏回放数据集:包含65000多场游戏记录,在接下来的几周将增加至50万场,帮助实现智能体间的离线比赛。开源的DeepMindPySC2工具包:方便研究人员使用暴雪的特征层API训练智能体。一系列简单的增强学习迷你游戏:帮助研究人员在特定任务上测试智能体的性能。

6f061d950a7b02089651207169d9f2d3562cc882.jpg

概述开发环境的论文:记录了迷你游戏的初始基线结果、监督学习数据以及智能体间完整的对抗记录。

DeepMind希望通过此举,推动更多研究社区和开放工具的开发。

围棋AI“带路党”

u=970532959,2866252077&fm=173&s=AF0D68844E8300CE103A8D880300E09F&w=640&h=457&img.JPEG

维纽斯的故事,让量子位想起他的同事:黄士杰、樊麾。

黄士杰和樊麾都是从小就对围棋产生了浓厚的兴趣。2003年,黄士杰从台湾师范大学毕业获得硕士学位,毕业论文:《电脑围棋打劫的策略》。

一年后,黄士杰开始攻读博士学位。2007年,黄士杰成为台湾师范大学围棋社首任社长,并带领同学征战台湾大专杯围棋赛。

黄士杰的棋力是业余六段。

除了在现实世界下围棋,黄士杰还一直在研究围棋程序。2006年,黄士杰独自开发的第一款围棋程序AjaGo,获得围棋大赛第11名;他参与的中国象棋程序Elephant(大象),获得大赛的铜牌。

2010年,黄士杰在Rémi Coulom的指导下,开发出围棋程序Erica,并在围棋比赛中击败日本的Zen,获得当年的冠军。这在当时可算了不起的成就。Rémi Coulom是另一个围棋程序Crazy Stone的作者。

2012年,黄士杰加入DeepMind。然后开始AlphaGo的研发。

2015年,黄士杰与樊麾相遇。当年10月,樊麾受邀前往伦敦与尚不为人所知的AlphaGo展开对战。结果五战全败,输的樊麾一度怀疑人生。

樊麾是从小学棋的职业选手,曾经入选国少队,但后来自知与国内顶尖高手实力有差距,所以少年时选择远走欧洲,成为欧洲围棋冠军,法国围棋队总教练。

败给AlphaGo后,樊麾也加入了DeepMind,和黄士杰一样,成为围棋AI的“带路党”。后来的故事大家就熟知了,AlphaGo一路过关斩将,站在围棋之巅。

u=3595729895,3944113012&fm=173&s=2F940CC05083395F905C500F03007043&w=640&h=360&img.JPEG

当然星际AI的研究,还在非常早期的阶段。最近在首尔的一场竞赛中,《星际争霸》职业玩家宋炳具用了不到半小时就轻易击败了4个人工智能机器人。但他也承认,它们的防守打法“有时候让人震惊”。

虽然过去20年维纽斯玩《星际争霸》机会并不多,但这位前西班牙冠军却对自己的《星际争霸》技术满怀信心。

“人工智能现在能打败我吗?我觉得还不能”,维纽斯笑道。

举报/反馈

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK