深度学习与蒙特卡洛树搜索：AlphaGo 超越围棋的人工智能里程碑

5星 · 超过95%的资源需积分: 50 17 浏览量更新于2024-09-08 3 收藏 1.23MB PDF 举报

本文翻译自Nature杂志的"Mastering the game of Go with deep neural networks and tree search"一文，作者包括David Silver、Aja Huang、Chris J. Maddison等人。AlphaGo是文中所介绍的重要成果，它标志着人工智能在围棋领域的重大突破。围棋以其巨大的搜索空间、复杂的棋盘局面和走步评估的难度，一直以来都是AI研究的难点。论文的核心技术在于结合价值网络（Value Networks）和策略网络（Policy Networks）。价值网络用于评估当前棋局的状态，它通过深度学习的方式从大量自我对弈的数据中学习到最优的局势价值，从而指导决策。策略网络则负责选择最优的走步，它同样基于深度学习，通过强化学习不断优化策略，以对抗MCTS（蒙特卡洛树搜索）的随机模拟。没有前瞻搜索时，AlphaGo的神经网络已经能与进行了上千次随机模拟的MCTS相媲美。进一步的创新是将蒙特卡洛模拟与价值和策略网络相结合，形成一种新的搜索算法。这种算法使得AlphaGo在与专业围棋选手的比赛中表现出色，以5:0的战绩战胜欧洲冠军，这在全尺寸围棋历史上首次实现了计算机程序战胜人类职业选手，打破了原以为至少需要十年才能达到的里程碑。文章还提到了在大规模博弈中，如围棋（搜索空间广阔，每一步可能的走法众多），穷举搜索几乎不可能。解决这个问题的关键在于两个原则：一是利用价值函数来限制搜索深度，通过预先评估局面的价值，减少深入搜索的必要；二是通过策略网络进行抽样走步，以概率方式缩小搜索宽度。然而，围棋的复杂性使这种方法在围棋中面临挑战，但AlphaGo的创新方法展示了其在围棋领域的卓越性能。总结来说，这篇论文揭示了深度学习和搜索算法如何结合，使得AI在围棋这一传统智力游戏上取得前所未有的成就，展示了人工智能在处理复杂决策问题上的巨大潜力。这对于理解人工智能的发展方向，尤其是强化学习和深度学习在实际应用中的作用具有重要意义。

展开

Mastering the game of Go with deep neural networks

and tree search

David Silver, Aja Huang, Chris J. Maddison等

原文：http://www.nature.com/nature/journal/v529/n7587/full/nature16961.html

董世都译

此翻译仅供重庆机器博弈实验室参考，请不要上传网络。

由于巨大的搜索空间，以及棋盘局面（board positions），走步(move)的评估困难，

围棋被认为是人工智能的最大挑战。这篇论文提出用价值网络（value networks）评估局

面，用策略网络评估走步（move）的选择。用人类高手下棋的监督学习与程序自我下棋的

（self-play）增强学习（reinforcement learning）相结合训练深度神经网络。若没有任何

前瞻搜索，该神经网络与进行了上千次随机模拟自我下棋的最先进的蒙特卡罗树搜索树

（Monte Carlo tree search，以下简称MCTS）的下棋水平相当。我们把蒙特卡罗模拟与价

值、策略网络结合在一起，引入了一种新的搜索算法。用该算法，我们的AlphaGo程序与

其他程序相比中获得了99.8%的胜率，并且以5:0击败了欧洲冠军。这是在全尺寸的围棋

中，计算机程序第一次打败人类职业选手。而以前，这样的胜利被认为至少要等十年。

所有的完全信息博弈中有一个决定博弈结果的最优价值函数，



󰇛󰇜, 该函

数有由所有选手的每一局面或状态决定。可以在搜索树中通过递归最优化这个

函数。这个搜索树初略的包含



可能的走步序列，b为游戏的“宽度

（breadth）”，指每个棋盘局面的可能（译者加）合法走步，d为深度。在大的

博弈中，例如国际象棋

󰇛

     

󰇜

󰇟󰇠,特别是围棋中

󰇛

     

󰇜

󰇟󰇠,

穷举搜索是不可能的，但用两个通用的原则可以减少有效的搜索空间。首先，

用局面评估可以减少搜索的深度：在状态s截断搜索树，s以下的子树由价值函

数

󰇛



󰇜

 



󰇛󰇜近似，该函数可由状态s预测得到。该方法在国际象棋[4]，跳棋

[5]，othello[6]中超过人类，但由于围棋的复杂性，该方法在围棋中很难成功。

其次，可以以

󰇛







󰇜

策略抽样行动（actions，可能的走法？）减少搜索的宽

度。

󰇛







󰇜

为局面s中走步a的概率分布。例如，Monte Carlo rollouts[8]从一个

策略p出发，通过抽样选手双方的最长走法（actions）序列，搜索到最大深

度，根本就没有分支。平均这个模拟对弈rollout（模拟对弈？)，能提供一个有

效的局面的估值。用该方法在西洋双陆棋及拼字游戏中超越人类的能力，在围

棋中达到弱业余选手的水平。

MCTS用蒙特卡罗模拟对弈（rollout）方法估计搜索树中每一个局面的估

值。模拟次数越多，搜索树增长越大，相关的估值就越准确。在搜索中，通过

选取有更高估值的孩子改进选取星都（actions）的策略。策略及估值都渐渐收

敛于最优[12]。目前最强的围棋程序是基于MCTS的，该程序通过训练预测下棋

高手的走步的策略得以加强。这些策略把搜索范围缩小在最可能的走法之中以

及用于模拟对弈（rollout）中的抽样。该方法达到强的业余选手的水平[13-

15]。然而，以前的工作局限于肤浅策略（shallow policies1[13-15]）或基于输

入特征的线性组合的估值函数。

最近，深度卷积神经网络使（计算机）视觉领域的性能得到空前的提高：

下载后可阅读完整内容，剩余7页未读，立即下载

身份认证购VIP最低享 7 折!

30元优惠券

小小小小小学生

粉丝: 8

深度学习与蒙特卡洛树搜索：AlphaGo 超越围棋的人工智能里程碑

Nature Electronics 论文中文版_面向绿色未来的高能效5G技术v3.pdf

AlphaGo论文16Nature

AlphaGo论文

AlphaGo Zero 论文中文版.pdf

Alphago发布在Nature上的论文

AlphaGo初版论文解析：Nature 16年的AI里程碑

谷歌alphaGO 的实现，nature原文的翻译

Nature论文级分析：AlphaGo背后的深度神经网络和树搜索.docx

Nature论文级分析：AlphaGo背后的深度神经网络和树搜索.pdf

奇点到来，超越人类 《Nature论文：人工智能从0-1自学打败阿法狗 》论文翻译.pdf

最新资源

奇点到来，超越人类《Nature论文：人工智能从0-1自学打败阿法狗》论文翻译.pdf