DeepMind 论文揭示最强 AlphaGo Zero,不靠人类知识进化成长

2020-06-06 作者: 围观:150 67 评论
DeepMind 论文揭示最强 AlphaGo Zero,不靠人类知识进化成长

AlphaGo「退役」了,但 DeepMind 探索围棋并没有停止。今年 5 月乌镇大会的「人机对弈」,中国棋手、世界冠军柯洁九段以 0 比 3 不敌 AlphaGo。随后 DeepMind 创始人 Hassabis 宣布,AlphaGo 将永久结束竞技舞台,不再比赛。同时 Hassbis 表示:「我们计划在今年稍晚发表最后一篇论文,详细介绍我们在演算法效率取得的进展,以及应用在其他更领域的可能性。就像第一篇 AlphaGo 论文,我们希望更多开发者接过棒子,利用这些全新的进展开发属于自己的强大围棋程式。」

今天,DeepMind 如约在《Nature》发表这篇论文──名为《Mastering the game of Go without human knowledge》(不使用人类知识掌握围棋),DeepMind 展示了更强大的新版本围棋程式「AlphaGo Zero」,验证了即使像围棋这最具挑战性的领域,也可以透过纯强化学习的方法自我完善达到目的。

摘要:人工智慧的长期目标是透过后天的自主学习(注:tabula rasa,意为「白板」,指所有的知识都是逐渐从感官和经验而来),在一个具挑战性的领域创造出超越人类的精通程度学习的演算法。之前,AlphaGo 成为首个战胜人类围棋世界冠军的程式,当时 AlphaGo 透过深层神经网路下决策,并使用人类专家的下棋资料进行监督学习,同时也透过自我对弈强化学习。这篇论文,我们将介绍一种仅基于强化学习的演算法,而不使用人类的资料、指导或规则以外的领域知识。AlphaGo 成为自己的老师,这神经网路训练用于预测 AlphaGo 自己的落子选择,提高了树搜寻的强度,使落子品质更高,具更强的自我对弈更新能力。从一块白板开始,我们的新程式 AlphaGo Zero 表现惊人,并以 100:0 击败了之前版本的 AlphaGo。

全新强化学习演算法:无需任何人类指导

这篇论文的最大亮点,在于无需任何人类指导,透过全新的强化学习方式成为自己的老师,在围棋这最具挑战性的领域达到超过人类的精通程度。相比之前使用人类对弈资料,此演算法训练时间更短,仅用 3 天就达到击败李世乭的 AlphaGo Lee 水準,21 天达到之前击败柯洁的 AlphaGo Master 水準。

3 天内──就是 AlphaGo Zero 击败 AlphaGo Lee 之前,曾进行 490 万次自我对弈练习。 相比之下,AlphaGo Lee 的训练时间达数月之久。AlphaGo Zero 不仅发现人类数千年来已有的许多围棋策略,还设计了人类玩家未知的策略。

DeepMind 论文揭示最强 AlphaGo Zero,不靠人类知识进化成长

据 DeepMind 部落格介绍,AlphaGo Zero 採用新的强化学习方法,从一个不知道围棋游戏规则的神经网路开始,然后透过将这个神经网路与强大的搜寻演算法结合,就开始自我对弈了。训练过程中,神经网路更新和调整,并用于预测下一步落子和最终的输赢。

更新后的神经网路再度与搜寻演算法组合,过程不断重複,建立出一个新的、更强大版本的 AlphaGo Zero。每次更新,系统的效能和自我对弈的品质均能部分提高。「日拱一卒,功不唐捐」,最终的神经网路越来越精确,AlphaGo Zero 也变得更强。

Alpha Zero 与之前版本有如下不同:

上述差异均有助提高系统的效能和通用性,但最关键的仍是演算法的改进,不仅使 AlphaGo Zero 更强大,功耗上也更高效。

DeepMind 论文揭示最强 AlphaGo Zero,不靠人类知识进化成长

AlphaGo 不同版本所需的 GPU / TPU 资源。

技术细节

新方法使用一个具参数 θ 的深层神经网路 fθ。这个神经网路将棋子的位置和历史状态 s 为输入,并输出下一步落子位置的概率,用 (p, v) = fθ(s) 表示。落子位置概率向量 p 代表每步棋(包括不应手)的概率,数值 v 是一个纯量估值,代表棋手下在目前位置 s 的获胜机率。

AlphaGo Zero 的神经网路透过新的自我对弈资料训练,在每个位置 s,神经网路 fθ 都会进行蒙地卡罗树(MCTS)搜寻,得出每步落子的机率 π。落子概率通常优于初始的落子概率向量 p,在自我对弈过程中,程式透过基于蒙地卡罗树的策略来选下一步,并使用获胜者 z 为价值样本,可视为一个强有力的评估策略作业。过程中神经网路参数不断更新,落子概率和价值 (p,v)= fθ(s) 也越来越接近改善后的搜寻概率和自我对弈胜者 (π, z),这些新的参数也会用于下次自我对弈更新以增强搜寻结果,下图即为自我训练的流程图。

DeepMind 论文揭示最强 AlphaGo Zero,不靠人类知识进化成长

AlphaGo Zero 自我对弈训练的流程示意图。

虽然这技术还算早期阶段,但 AlphaGo Zero 的突破使我们未来面对人类一些重大挑战(如蛋白质摺叠、减少能源消耗、搜寻革命性的新材料等)充满信心。众所周知,深度学习需要大量资料,在很多情况下,获得大量人类资料的成本过于高昂,甚至根本难以获得。如果将该技术应用到其他问题,有可能对我们的生活产生根本性的影响。