8

中国AI足球队勇夺世界冠军:腾讯绝悟出品

 3 years ago
source link: https://news.cnblogs.com/n/684287/
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
中国AI足球队勇夺世界冠军:腾讯绝悟出品_IT新闻_博客园
投递人 itwriter 发布于 2020-12-30 21:37 评论(2) 有437人阅读 原文链接 [收藏] « »

  一记漂亮的长传,直接助攻射门:

中国 AI 足球队勇夺世界冠军:腾讯绝悟出品

  带球连过两人:

中国 AI 足球队勇夺世界冠军:腾讯绝悟出品

  这样高超的线上足球技巧,并非上手两三年的“老玩家”做出的,而是仅仅练习了一个月的腾讯 AI“绝悟”。

  现在,战胜大部分荣耀玩家后,AI“绝悟”又化名 WeKick,去试手了一把谷歌举办的线上世界足球赛。

  没想到,轻轻松松就拿了个冠军回来:

中国 AI 足球队勇夺世界冠军:腾讯绝悟出品

  嗯?打完王者,还能踢 FIFA?

  没错,利用迁移学习,就能让“足球版绝悟”WeKick,快速掌握踢足球的技巧。

  但要想踢出多种策略、稳定掌握这些策略,还得采用不同的方法。

  各种风格小模型,共同训练主模型

  从“绝悟”完全体迁移过来的 WeKick,针对这场足球比赛,进行了策略性的调整。

中国 AI 足球队勇夺世界冠军:腾讯绝悟出品

  与常规足球游戏的“控制整只球队”不同,这场足球比赛中,每个队伍需要控制其中 1 个智能体,与游戏中的 10 个内置智能体组成球队(11vs11 赛制)。

  也就是说,每个智能体“球员”,都需要学习如何在队友之间传球,并克服对手的防守以进球。

  然而采用强化学习,从 0 开始训练一个会踢球的 AI,相当困难。

  在王者荣耀等 MOBA 游戏中,智能体可以学习的信号非常多,包括实时经济、血量、经验等。

中国 AI 足球队勇夺世界冠军:腾讯绝悟出品

  但足球游戏的激励非常稀疏,几乎只有“进球”这一项奖励机制。

  稀疏激励,正是强化学习的难题之一。

  为了突破这一难关,“绝悟”WeKick 版本采用了 3 点创新,来对模型进行训练。

  首先,是自博弈 (Self-Play)强化学习。

  WeKick 部署了一种异步分布式强化学习框架,虽然会牺牲训练时的部分实时性能,但能够提升其灵活性,支持在训练过程中按需调整计算资源。

  此外,WeKick 还结合生成对抗模拟学习(GAIL)与人工设计奖励,采用了生成对抗训练机制。

中国 AI 足球队勇夺世界冠军:腾讯绝悟出品

  这种机制能够模拟专家行为的状态和动作分布,使得 WeKick 能够从其他球队中学习经验。

  之后,将 GAIL 训练的模型作为固定对手,再一次进行自博弈训练,就能提升策略的稳健性。

  这种方法虽然不错,却存在一个缺陷。

  训练后,模型容易收敛成单一风格,容易发生因“没见过某种打法”而表现失常、导致成绩不佳的情况。

  因此,WeKick 的团队想出了一种方法:采用多风格强化学习的训练方案,让智能体“球员”们先专精一个领域,再进行配合。

  也就是说,先训练一群具备一定竞技能力的基础模型,每个模型分别掌握运球过人、传球配合、射门得分……

  然后,基于基础模型,训练出多种风格的各个模型,过程中会定期加入主模型作为选手,避免模型坚持原来的风格。

中国 AI 足球队勇夺世界冠军:腾讯绝悟出品

  最后,将这些模型集合起来,训练一个主模型,期间除了主模型以历史模型为对手,还会拿所有风格化基础模型当对手,确保主模型能应对各种风格的踢球方式。

  通过这 3 种方式训练出来的模型 WeKick,既具有丰富的足球经验,也能准确地对抗各种不同风格的比赛技巧。

  谷歌+英超,线上足球赛

  这个线上足球赛 Google Football,有点像是一款 AI 操作的足球游戏,由谷歌和英超曼城俱乐部在 Kaggle 上联合举办。

中国 AI 足球队勇夺世界冠军:腾讯绝悟出品

  比赛采用谷歌强化学习环境,基于开源足球游戏 Gameplay Football 开发,共有来自世界顶级院校、研究机构的 1100 多支队伍参与挑战。

  与足球赛的比赛规则一致,线上足球赛同样需要遵守越位、黄牌、红牌等规则。

  而在谷歌提供的足球环境中,智能体“球员”则可以做出短传、长传、运球、射门等动作。

  在经过几轮厮杀后,WeKick 最终以 1785.8 的总分,在这场竞技中以显著优势胜出。

中国 AI 足球队勇夺世界冠军:腾讯绝悟出品

  不过,这也并非“绝悟”第一次参加谷歌举办的足球赛。

  在 5v5 的多智能体天梯赛 Google Research Football League 中,“绝悟”同样取得了第一名的成绩。

  事实上,在游戏 AI 上一路向前的“绝悟”,已经历了 3 次进化。

  从最初攻克 Atari 游戏开始,到后来的围棋 AI“绝艺”,再到包括王者荣耀在内的 MOBA 游戏 AI“绝悟”、如今的足球游戏 AI“WeKick”,这一深度强化学习智能体正变得更复杂。

  腾讯 AI Lab 表示,它们的目标是向通用人工智能(AGI)不断迈进。

  整体训练框架:https://arxiv.org/abs/1912.09729

  Kaggle 足球赛排行榜:https://www.kaggle.com/c/google-football/leaderboard

  - THE END -

  #足球#AI

原文链接:量子位责任编辑:万南


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK