AlphaGo 进化到 Zero，不靠人类靠自学

pigsrollaroundinthem (39396)发表于 2017年10月19日 11时29分星期四新浪微博分享豆瓣分享 来自人类向机器学习

Google 旗下的 AI 子公司 DeepMind 在《自然》期刊上发表了最新的论文（PDF），介绍了它的围棋 AI AlphaGo Zero。DeepMind 开发的前几个版本的围棋 AI 如 AlphaGo Fan（打败樊麾的版本）、AlphaGo Lee（打败李世石的版本），AlphaGo Master （打败柯洁的版本）都需要人类知识训练，但进化到 Zero 的版本则从零开始完全通过自我学习，3 天后超过 AlphaGo Lee，取得了 100 胜 0 负的成绩，21 天后达到 AlphaGo Master 的水平，40 天后成为史上最强大的围棋选手。DeepMind 认为通用 AI 能帮助人类解决其面临的部分最具有挑战性的难题。DeepMind 称，AlphaGo Zero 只使用一个神经网络，而先前版本的 AlphaGo 使用了策略网络和价值网络判断落子，而 AlphaGo Zero 通过强化学习将两者结合在一起，能更有效的训练和评估，它所需的计算资源也比前几代要少：AlphaGo Fan 使用了 176 个 GPU ，AlphaGo Lee 使用了 48 个 TPU，AlphaGo Master 使用了 4 个 TPU，比 Master 更强的 Zero 也是使用 4 个 TPU。

AlphaGo 进化到 Zero，不靠人类靠自学

AlphaGo 进化到 Zero，不靠人类靠自学

Recommend

GitHub - michaelbull/kotlin-result: A Result monad for modelling success or fail...

柯洁回应新版本AlphaGo问世：人类太多余了_人物

孩子手机被没收家长在群里发了质疑后…_手机

贾跃亭在美国起诉顾颖琼首场败诉临时禁令撤销_人物

背面配圆形副屏：魅族申请魅蓝X2外观设计专利_Meizu 魅族

比海外便宜多了国行版华为Mate 10系列上市_Huawei 华为

GitHub - greghendershott/racket-mode: GNU Emacs major modes for Racket: Edit and...

GitHub - jorgenschaefer/emacs-buttercup: Behavior-Driven Emacs Lisp Testing

Was running a selenium test when.... - Imgur

指纹识别：如何证明你不是一条狗？

About Joyk