135

AlphaGo Zero 有开源版了,但这不代表你可以训练出 AlphaGo Zero

 6 years ago
source link: https://zhuanlan.zhihu.com/p/30434626?
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
AlphaGo Zero 有开源版了,但这不代表你可以训练出 AlphaGo Zero

AlphaGo Zero 有开源版了,但这不代表你可以训练出 AlphaGo Zero

人工智能话题下的优秀答主

在 AlphaGo Zero 论文发布几天后,著名免费围棋程序 Leela 的作者就已开源了 gcp/leela-zero 项目,基本复制了 AlphaGo Zero 方法(其中还对特征层做了个小改进可能会让黑白棋力更一致)。感兴趣的读者可点击看看。

但是 AlphaGo Zero 的难点不在于它的方法,它的方法是特别简单,我从前在这个专栏的文章也说过应该用 MCTS 去直接强化网络。关键是 DeepMind 的论文其实有点狡猾,没有说训练时的精确配置,结果所有新闻报道都把训练过程说成特别轻而易举。

  1. 对弈时只需 4 个 TPU v2(估计相当于 40 张 GTX 1080 Ti?)就可实现超强的实力。
  2. 从自我对弈棋谱训练网络,也不需要很强的算力。DeepMind 论文中的 64 个 GPU worker,完全足够。请评论中的朋友看清楚这一点。
  3. 但生成自我对弈的棋谱,需要大量算力,需要的 TPU v2 数未知,经大家估算,需要 10000 张 GTX 1080 Ti 的算力。

如 CGI 团队所计算的:

而 Leela 的作者也有类似的估算。所以这需要许多人通力合作,把自我对弈过程做成一个分布式项目。估计除非把虚拟货币和这个挂上钩才会有这么多的算力。

此外,AlphaGo Zero 的 39 层(20 block)和 79 层(40 block)版本的棋力也有一定区别。下面是 20 block 版本,看上去极限小于 5000 ELO:

下面是 40 block 版本,看上去极限在 5500 ELO 或以上:

据 Zen 的作者所言,DeepMind 团队曾告诉他 Master 使用的是 20 block 版本的网络,而 ELO 在 4858。所以 Zero 和 Master 在相同架构下棋力并没有区别,人类棋谱并没有反作用

编辑于 2017-10-25 13:49

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK