星际争霸界也出了位“带路党”，当年的冠军正帮谷歌AI击败人类

2017-11-25 14:07鲲鹏计划获奖作者,北京极客伙伴科技有限公司,优质科技领域创作者

李杉若朴发自凹非寺量子位出品 | 公众号 QbitAI

u=1417729809,2092734237&fm=173&s=E5C6B4444AA7B4515ED1140F0300D0C0&w=640&h=360&img.JPEG

1990年代，十几岁的Oriol Vinyals（维纽斯）成了西班牙《星际争霸》全国冠军。

他之所以玩这款科幻策略游戏，是因为比其他打打杀杀的游戏更需要动脑子。维纽斯说：“没上大学之前，这款游戏就让我在生活中怀有更强的战略思维。”

他的战略思维的确获得了回报：在巴塞罗那学习了电信工程和数学之后，维纽斯去过微软研究院实习，获得了加州大学伯克利的计算机博士学位，接着加入谷歌大脑团队，开始从事人工智能开发工作，然后又转入谷歌旗下DeepMind团队。

他又跟“星际争霸”打起了交道。

但这一次不是他亲自玩，而是教给机器人怎么玩。在人工智能成为全球最优秀的围棋选手后，星际成为了下一个攻克目标。

DeepMind与《星际争霸2》的开发商暴雪展开合作，让人工智能研究人员可以通过之前的数百万场对战进行学习。他们的目标之一，就是开发一套足够好的人工智能系统，使之可以击败人类选手。就像DeepMind的AlphaGo击败李世乭、柯洁一样。

然而，最终的目标是将其中使用的技术应用到现实世界，而不是让它始终停留在游戏里面。

“我们正在试图理解人类以及我们大脑的工作方式。”暴雪首席软件工程师Jacob Repp说，“如果我们能够得到这种高质量的数据流——人类玩游戏时的原始输入以及由此产生的结果——那就能成为研究人们行为的有用数据。”

对人工智能研究人员来说，《星际争霸2》是个颇为有趣的挑战。

与国际象棋或围棋不同，星际玩家面对的是不完美信息博弈。“战争迷雾”意味着玩家的规划、决策、行动，要一段时间后才能看到结果。

暴雪已经使用神经网络来获取玩家技能，而依据则是他们利用键盘和鼠标输入的信息、他们排兵布阵的方法、他们玩游戏时的效率。这些信号都可以用来让游戏本身更加有趣，或者让对战双方更加均衡。

但要让人工智能玩《星际争霸2》，就必须让他们能“看到”游戏里的3D地图，并快速而准确地加以解读。

DeepMind的首次测试，先在雅达利游戏上训练神经网络和AI智能体（Agent），然后再将其应用到《星际争霸2》上。即便没有进一步的指令，用雅达利游戏训练的人工智能也可以在地图上随意走动、移动镜头、排兵布阵。

“这的确可以在一定程度上发挥作用”，Viyals说。

u=184833746,752879099&fm=173&s=20F2C2242EAAE65544489B820300E08C&w=640&h=400&img.JPEG

在加入DeepMind之前，维纽斯开发了一项图片搜索功能和Gmail的“智能回复”，后者可以根据邮件内容推荐相关的回复。该团队还在从事语音识别，让人工智能记住不同人的对话，从而在下次听到这个声音时识别出来。

“在《星际争霸2》里，也要应对这些问题。”维纽斯说。一个玩家可能看到对手的侦察兵，然后又消失在视野中。对人工智能来说，记住他们遇到的东西，并且理解这可能表明敌人正在某个地方修建基地，就需要使用LSTM神经网络。

维纽斯解释道，电脑可以把某个数据的记忆保留数十年的时间，但这种记忆不仅需要保存，还要在未来针对某个信息调取出来。

“在《星际争霸2》中，这非常重要，但却很微妙，可以将未来与过去联系起来。”他说，“很难建立因果关系，因为游戏中会发生很多事情。”

尽管自己也是星际玩家，但维纽斯表示，DeepMind的研究并没有使用之前的技术作为假设。

借助所谓的强化学习技术，神经网络可以直接解读他们获取的原始信号——在这个案例中，就是《星际争霸》过往的对战录像。

SC2LE

今年8月，DeepMind和暴雪联合发布了第一篇AI打星际的论文：《StarCraft II: A New Challenge for Reinforcement Learning》。

这篇论文的第一作者，就是维纽斯。

u=2406396309,2851547206&fm=173&s=0EA07C2290CC48EB5841E8D30000E0B1&w=640&h=347&img.JPEG

论文介绍了暴雪和DeepMind合作推出的SC2LE工具包，其中包括：

机器学习API：由暴雪开发，将研究人员和开发人员接入游戏，并自带首次发布的Linux工具包。至此，Windows、Mac与Linux系统均可在云端运行。匿名游戏回放数据集：包含65000多场游戏记录，在接下来的几周将增加至50万场，帮助实现智能体间的离线比赛。开源的DeepMindPySC2工具包：方便研究人员使用暴雪的特征层API训练智能体。一系列简单的增强学习迷你游戏：帮助研究人员在特定任务上测试智能体的性能。

概述开发环境的论文：记录了迷你游戏的初始基线结果、监督学习数据以及智能体间完整的对抗记录。

DeepMind希望通过此举，推动更多研究社区和开放工具的开发。

围棋AI“带路党”

u=970532959,2866252077&fm=173&s=AF0D68844E8300CE103A8D880300E09F&w=640&h=457&img.JPEG

维纽斯的故事，让量子位想起他的同事：黄士杰、樊麾。

黄士杰和樊麾都是从小就对围棋产生了浓厚的兴趣。2003年，黄士杰从台湾师范大学毕业获得硕士学位，毕业论文：《电脑围棋打劫的策略》。

一年后，黄士杰开始攻读博士学位。2007年，黄士杰成为台湾师范大学围棋社首任社长，并带领同学征战台湾大专杯围棋赛。

黄士杰的棋力是业余六段。

除了在现实世界下围棋，黄士杰还一直在研究围棋程序。2006年，黄士杰独自开发的第一款围棋程序AjaGo，获得围棋大赛第11名；他参与的中国象棋程序Elephant（大象），获得大赛的铜牌。

2010年，黄士杰在Rémi Coulom的指导下，开发出围棋程序Erica，并在围棋比赛中击败日本的Zen，获得当年的冠军。这在当时可算了不起的成就。Rémi Coulom是另一个围棋程序Crazy Stone的作者。

2012年，黄士杰加入DeepMind。然后开始AlphaGo的研发。

2015年，黄士杰与樊麾相遇。当年10月，樊麾受邀前往伦敦与尚不为人所知的AlphaGo展开对战。结果五战全败，输的樊麾一度怀疑人生。

樊麾是从小学棋的职业选手，曾经入选国少队，但后来自知与国内顶尖高手实力有差距，所以少年时选择远走欧洲，成为欧洲围棋冠军，法国围棋队总教练。

败给AlphaGo后，樊麾也加入了DeepMind，和黄士杰一样，成为围棋AI的“带路党”。后来的故事大家就熟知了，AlphaGo一路过关斩将，站在围棋之巅。

u=3595729895,3944113012&fm=173&s=2F940CC05083395F905C500F03007043&w=640&h=360&img.JPEG

当然星际AI的研究，还在非常早期的阶段。最近在首尔的一场竞赛中，《星际争霸》职业玩家宋炳具用了不到半小时就轻易击败了4个人工智能机器人。但他也承认，它们的防守打法“有时候让人震惊”。

虽然过去20年维纽斯玩《星际争霸》机会并不多，但这位前西班牙冠军却对自己的《星际争霸》技术满怀信心。

“人工智能现在能打败我吗？我觉得还不能”，维纽斯笑道。

举报/反馈

星际争霸界也出了位“带路党”，当年的冠军正帮谷歌AI击败人类

Recommend

GitHub - KupynOrest/DeblurGAN

北京终于折叠

26亿美金诉讼案主角，现在正自我封神人工智能宗教领袖

本周热点：可以相信中国奶企了吗？

周鸿祎自传里没讲的事情

60多家共享单车押金难退缺德还是无德？

GitHub - dcodeIO/webassembly: A minimal toolkit and runtime to produce and run W...

消费升级下，美颜经济的商机与新趋势

Linux 4.14 发现能导致数据丢失的严重 Bug

长征六号成功发射三颗吉林一号卫星

About Joyk