88

DeepMind 的 AI 从 AlphaGo Zero 进化到 AlphaZero

 6 years ago
source link: http://www.solidot.org/story?sid=54778
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

DeepMind 的 AI 从 AlphaGo Zero 进化到 AlphaZero

pigsrollaroundinthem (39396)发表于 2017年12月07日 21时00分 星期四 新浪微博分享 豆瓣分享 来自下个天网

Google AI 子公司 DeepMind 的研究人员本周在预印本网站 arxiv 发表论文(PDF),称他们的 AI 程序从 AlphaGo Zero 进化到了 AlphaZero,通过自对弈在数小时内打败了最出色的国际象棋和日本将棋程序。AlphaGo Zero 是通过强化学习方法训练花了 40 天时间成为超越人类的最强大围棋选手。AlphaZero 应用了类似但更通用的算法,它只掌握最基本的棋类规则,然后通过自对弈反复训练强化学习逐渐进化。它用了 8 小时超越了打败李世石的版本 AlphaGo Lee,用了 4 小时打败了最出色的国际象棋程序 Stockfish,用了 2 小时打败了将棋程序 Elmo。AlphaZero 和 AlphaGo Zero 一样都只使用 4 个 TPU。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK