80

[译]AlphaGO Zero--如何不依赖人类知识也能成为围棋专家(二) - 恒生技术之眼 - 恒生...

 6 years ago
source link: http://rdc.hundsun.com/portal/article/845.html?
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

[译]AlphaGO Zero--如何不依赖人类知识也能成为围棋专家(二)

上一篇文章中,我们从阿尔法狗零的强化学习和经验分析方面认识其工作原理方法,本文我们从阿尔法狗零的知识体系和其知识的表现来全面解析阿尔法狗零。

【阿尔法狗零学到的知识】

阿尔法狗零从自弈的过程中发现了围棋中令人惊讶的知识。不仅仅包括人类所知道的围棋的基础知识,也包括了超越传统围棋标准策略技巧的非标知识。

图5展示了职业级定式(围棋术语)被发现的时间线(图5a和扩展数据图2)。最终阿尔法狗零更偏好人类未知的变种定式(图5b和扩展数据图3)。图5c展示了在训练不同阶段发生几局快速自弈(见补充信息)。

整个40天的训练期间,被均分为了20个区间,每一区间最优程序打败自身的对局可以参看扩展数据图4和补充信息。阿尔法狗零快速从随机走子向着理解复杂围棋概念演进,包括布局,手筋,死棋活棋,打劫,收官,对杀,先手棋,棋形,逼和缓,都被一一发现。更令人惊讶的是,征子——人类对围棋理解的精髓要素——在之后的训练中,也被阿尔法狗零学会了。

f_9745ed88b9f73bc3b44e02260d1f5dcd.png

【阿尔法狗零的最终表现】

我们接下来又将之前所说的强化学习流程用于阿尔法狗零的第二个实例,并用了更大的神经网络和更长的训练周期。还是从完全随机走子开始训练,大约训练了40天。

整个训练过程中,产生了2.9百万局自弈数据。参数用了包含2048个状态对的三百一十万个mini-batch来更新。这个神经网络包含了40个残差模块。图6a展示了这次训练的学习曲线。同样被划分为20个等长区间,取每个区间最优模型的对局数据可以看扩展数据的图5和补充信息。

我们用内部联赛的形式评估了阿尔法狗零对阵阿尔法狗凡,阿尔法狗李和一些之前存在的其他围棋程序。我们也和已知最强的程序进行了比赛,阿尔法狗大师——用本文中同样的算法和架构,但是基于人类数据和人为设计特征来训练的(见方法篇)——2017年2月,在线上对战中它以60-0的战绩击败了最强的人类职业选手们。在我们的评估中,每步棋所有的程序都允许5s的计算时间;阿尔法狗零和阿尔法狗大师采用单机器配4个TPU应战;而阿尔法狗凡和阿尔法狗李则采用分布式的176块GPU加48块TPU。我们也囊括了另外一位“选手”,它只基于粗粒度的阿尔法狗零的神经网络,只会简单从神经网络的输出中选择最大概率的走子。

f_ecd73d4a9da617dda3e590d53bdf4891.png

图6b用Elo评分显示了每个程序的走棋表现。只用粗粒度网络的选手,没有任何的前瞻性搜索,最后获得了3055的Elo评分。阿尔法狗零则得到了5185分,同时,阿尔法狗大师4858分,阿尔法狗李3739分以及阿尔法狗凡3144分。

最后,我们让阿尔法狗零和阿尔法狗大师直接进行了100场限制2小时的比赛。阿尔法狗零胜89,负11(见扩展数据图6和补充信息)。

【结论】

按照我们对结果的理解,我们认为,哪怕是在最具有挑战性的领域,这种纯强化学习的方式是完全可行的:即存在这种可能性,不用任何人类的例子或者指导数据,不给出超过规则本身的任何知识,机器也能达到超人的表现。再者,这种纯强化学习方法只要几个小时的训练出的模型,就能更好的逼近甚至超过用专家数据训练出来的模型。应用本文所述方法,阿尔法狗零打败了之前最强版本的阿尔法狗,而它们就是用手工设计特征的人类数据加上大量的时间训练出的。

过去千年,人类从数百万局的对弈中积累出围棋知识,然后整理成棋谱,棋谚和棋形知识。阿尔法狗零却只要寥寥几日,从一片空白重新发现大量的围棋知识,还进一步提出了新的弈棋技巧,给这个古老的中国游戏带来了全新的视角。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK