AlphaGoZero：无师自通，围棋超人

3星 · 超过75%的资源需积分: 10 193 浏览量更新于2024-09-09 2 收藏 883KB PDF 举报

"人工智能文献翻译：无需人类知识介入掌握围棋" 这篇翻译的文章源自《自然》杂志的一篇研究论文，介绍了人工智能在围棋领域的重大突破。文章的核心是AlphaGoZero，一个基于强化学习的人工智能系统，它在没有任何人类知识输入的情况下，仅通过学习围棋的基本规则，就达到了超越人类的专业水平。传统的AlphaGo（如AlphaGoFan）依赖于深度神经网络和大量的人类专家棋谱来训练其策略和价值网络，从而能够评估棋局并选择最佳落子。然而，AlphaGoZero摒弃了这一依赖，它通过自我对弈的方式进行学习，不断优化其决策过程。这个过程中，神经网络不仅预测下一步棋，还判断对弈的结果，以此提升其游戏策略。强化学习是AlphaGoZero的关键，它让系统在不断的实践中自我改进。通过与自身对弈，AlphaGoZero能够探索巨大的搜索空间，进行复杂的预判，最终在短时间内超越了前代版本AlphaGo，并且以100:0的成绩战胜了曾经的人类冠军。这种方法的创新之处在于，它不再局限于模仿人类的策略，而是独立发展出超越人类理解的棋艺。这一成就对于人工智能领域具有深远意义，它展示了在没有领域专家知识的情况下，机器学习系统也能在高难度任务中取得卓越表现。这不仅证明了强化学习的强大潜力，也为其他需要深度理解和决策的复杂领域（如地球物理或科学计算）提供了新的研究方向。以前，依赖专家数据的系统可能受限于数据的质量和数量，但AlphaGoZero的成功表明，通过自我学习和迭代，AI可以自我提升，达到甚至超越人类的水平。此外，该研究表明，即使在像围棋这样需要深度战略思维和精细计算的领域，人工智能也能自我演化，这为未来开发能在更多未知领域自主学习和适应的智能系统奠定了基础。这不仅仅是围棋游戏的胜利，更是人工智能研究的一次重大飞跃，它预示着AI在解决现实世界中的复杂问题上将发挥更大的作用。

译自：doi: 10.1038/nature24270 NATURE|VOL 550|19 Oct 2017

无需人类知识介入掌握围棋

中文译者：张燕生

原文作者：David Silver, Julian Schrittwieser, etc.

人工智能的一个远大的目标就是能找到一种算法，它可以在任何全新领域，基于白板而拥有超越人类的理解力

和学习能力。近期，AlphaGo 已成为了第一个战胜世界围棋冠军的计算机。AlphaGo 运用深度神经网络树搜索去评价

棋局，选择落子。这个神经网络是通过监督式学习人类棋手下法，再经过计算机自我博弈的增强型学习系统训练而

成的。这里要介绍一个算法，它基于增强型学习，除了围棋规则之外，不需要人类数据、指导或任何领域知识。AlphaGo

成为了自己的老师：一个神经网络训练着去预判 AlphaGo 应如何落子以及这个自弈游戏的胜者。这个神经网络增强

树搜索能力，从而提高落子质量并在下一轮迭代中变得更强。始于零基础，我们新一代的计算机 AlphaGo Zero 达到

了超过人类的能力，以 100:0 战胜了前一版的围棋冠军计算机 AlphaGo。

人工智能已经取得非常大的进步——可以利用

监督式学习系统来模仿人类棋手的下法

1-4

。然而专

家数据库往往是非常昂贵的、不可靠的或干脆不可

利用的。即使当可靠的数据集可以被利用时，用这种

方法训练的系统也可能会遭遇性能天花板

。相比较

而言，增强型学习系统的训练来自于自身经验，原则

上允许它超越人类的能力，而且可以在缺乏人类专

家的领域中发挥作用。近期，面向这个目标——使用

增强型学习训练的深度神经网络，已经取得了快速

的进步。这些系统已经在诸如 Atari 游戏

6,7

、3D 虚拟

环境

8-10

等计算机游戏中超越人类。然而在超越人类

智力最富挑战的领域，如围棋，人们普遍认为人工智

能还面临巨大的挑战

——它需要在一个巨大的搜

索空间中进行复杂而精确的预判。在此之前没有任

何一种方法在这些领域内可以达到人类的能力。

AlphaGo 是第一台在围棋比赛中超越人类的计

算机。已经发布的版本

有我们称之为 AlphaGo Fan

的计算机，它于 2015 年 10 月打败欧洲冠军樊麾。

AlphaGo Fan 用到了 2 个深度神经网络：一个策略网

络输出落子概率，另一个价值网络输出局势评价。策

略网络先是由监督式学习训练去精确预测人类棋手

的下法，然后再由策略梯度增强学习进行优化。价值

张燕生：中国煤炭地质总局勘查研究总院，高级工程师，国际地球物理学会会员；研究方向：地球物理学及勘探方法研究

DeepMind, 5 New Street Square, London EC4A 3TW, UK.

网络被训练去预测策略网络自我博弈的游戏胜方。

经过训练之后，这些网络就组成一个蒙特卡罗树搜

索（MCTS）

13-15

，提供前向搜索，用策略网络去收窄

对高概率下法的搜索路径，用价值网络（连同蒙特卡

罗推演一起使用一个快速推演策略）去评价树中的

局势。接下来的一代，我们称之为 AlphaGo Lee，使

用相似的方法（见“方法”）于 2016 年 3 月打败了拥

有 18 次国际冠军头衔的李世石。

新一代计算机 AlphaGo Zero 在几个重要方面有

别于 AlphaGo Fan 和 AlphaGo Lee

。首先而且最重要

的是，它起始于没有任何人类数据和监督参与的随

机下法，仅仅通过自弈增强型学习进行训练；第二，

它只用棋盘上黑白子作为输入特性；第三，它是使用

单一的神经网络，而不再使用分开的策略网络和价

值网络；最后，它使用更为简单的、依赖于单一神经

网络上的树搜索算法去评价局势和下法，不再执行

蒙特卡罗推演。为取得这样的结果，我们介绍一个全

新的增强型学习算法，它在训练环中结合前向搜索，

产生快速成长的、精确而稳定的自学习。进一步关于

搜索算法、训练过程和网络架构等方面的技术差异

请参见附件“方法”。

下载后可阅读完整内容，剩余6页未读，立即下载

qq_33663395

粉丝: 1
资源: 1

AlphaGoZero：无师自通，围棋超人

最新最强电脑围棋

人工智能与信息社会课件：310从国际象棋到围棋.pdf

Go:一个围棋项目；围棋项目

tivogo:使用了gnugo的围棋壳

GoBoard:使用html5画布绘制围棋板

learn-go:来自不同资源的随机围棋练习，例如围棋入门书

无师自通：深度强化学习掌握围棋

人工智能里程碑：AlphaGo击败围棋大师

人工智能专家系统：迈向超越人类的智能

AlphaGo Zero：无师自通的围棋大师

最新资源