谷歌阿法狗围棋系统技术剖析

需积分: 0 117 浏览量更新于2024-08-05 收藏 1.96MB PDF 举报

"阿法狗围棋系统的简要分析1" 阿法狗围棋系统是谷歌DeepMind公司开发的一款人工智能程序，2016年3月，它在与世界围棋冠军李世石的比赛中取得了4:1的历史性胜利，这一结果震惊了全球，将计算机围棋程序的发展推进了至少10到30年。本文主要分析了阿法狗系统的技术构成，并基于其公开的比赛数据探讨了可能存在的技术弱点。阿法狗的核心技术主要包括以下几个方面： 1) 走棋网络（Policy Network）：这是一个深度卷积神经网络，负责根据当前棋盘局面生成下一步的走棋概率分布。它通过学习大量的专业围棋棋谱，理解围棋的策略模式，从而能够提出合理的走棋建议。 2) 价值网络（Value Network）：同样基于深度卷积神经网络，该网络评估棋盘上的局势，给出每一步棋的胜负概率。它帮助阿法狗在搜索过程中快速判断局面优劣，减少了搜索空间，提高了效率。 3) 强化学习（Reinforcement Learning）：阿法狗通过自我对弈来不断优化这两个神经网络。在自我对弈中，它会尝试不同的走法，通过胜率反馈来调整网络权重，使得网络在后续的对弈中表现得更好。 4) MCTS（蒙特卡洛树搜索）算法：这是阿法狗的重要搜索策略，它结合了价值网络和走棋网络的结果，进行高效的搜索。MCTS通过模拟大量随机游戏，选择最有可能导致胜利的走法。尽管阿法狗表现出色，但分析其公开比赛数据后，可能存在的一些弱点包括： 1) 对于罕见或创新的棋局策略反应可能不足：由于训练主要基于历史棋谱，阿法狗可能对人类棋手的新颖或非传统策略适应性不强。 2) 局部搜索能力可能有限：虽然MCTS可以处理全局策略，但在局部复杂的战斗中，可能不如人类棋手敏感。 3) 缺乏直觉和深度理解：虽然深度学习提供了强大的模式识别能力，但阿法狗可能无法像人类那样深入理解围棋的哲学和战略层面。 4) 面对极端情况的应对：在某些极端的棋局局面下，如时间压力或特殊布局，阿法狗的决策可能受到影响。阿法狗的成功在于深度学习、深度卷积神经网络、强化学习和蒙特卡洛树搜索等技术的有效结合，但同时也存在对新策略适应性、局部战斗处理等方面的挑战。这些分析为我们理解人工智能在复杂决策任务中的应用提供了宝贵见解。

第 42 卷第 5 期自动化学报 Vol. 42, No. 5

2016 年 5 月 ACTA AUTOMATICA SINICA May, 2016

阿法狗围棋系统的简要分析

田渊栋

摘要谷歌的围棋系统阿法狗 (AlphaGo) 在三月的比赛中以 4:1 的成绩击败了围棋世界冠军李世石, 大大超过了许多人对

计算机围棋程序何时能赶上人类职业高手的预期 (约 10 ∼ 30 年). 本文在技术层面分析了阿法狗系统的组成部分, 并基于它过

去的公开对局预测了它可能的弱点.

关键词深度学习, 深度卷积神经网络, 计算机围棋, 强化学习, 阿法狗

引用格式田渊栋. 阿法狗围棋系统的简要分析. 自动化学报, 2016, 42(5): 671−675

DOI 10.16383/j.aas.2016.y000001

A Simple Analysis of AlphaGo

TIAN Yuan-Dong

Abstract In March 2016, the AlphaGo system from Google DeepMind beat the World Go Champion Lee Sedol 4:1 in

a historic ﬁve-game match. This is a giant leap ﬁlling the gap between Go AI and top human professional players, which

was once regarded to be ﬁlled in at least 10 ∼ 30 years. In this paper, based on published results [Silver et al., 2016], i

analyze the components of AlphaGo and predict its potential technical weakness based on the public games of AlphaGo.

Key words Deep learning, deep convolutional neural network, computer Go, reinforcement learning, AlphaGo

Citation Tian Yuan-Dong. A simple analysis of AlphaGo. Acta Automatica Sinica, 2016, 42(5): 671−675

AlphaGo 这个系统

[1]

主要由几个部分组成:

1) 走棋网络 (Policy network), 给定当前局面,

预测/采样下一步的走棋.

2) 快速走子 (Fast rollout), 目标和走棋网络一

样, 但在适当牺牲走棋质量的条件下, 速度要比走棋

网络快 1 000 倍.

3) 估值网络 (Value network), 给定当前局面,

估计是白胜还是黑胜.

4) 蒙特卡罗树搜索 (Monte Carlo tree search,

MCTS), 把以上这三个部分连起来, 形成一个完整

的系统.

我们的 DarkForest

[2]

和 AlphaGo 同样是用蒙

特卡罗树搜索搭建的系统. DarkForest 较 AlphaGo

而言, 在训练时加强了走棋网络, 而少了快速走子

和估值网络, 12 月时以开源软件 Pachi 的缺省策略

(Default policy) 部分替代了快速走子的功能, 2 个

月后部分实现了 AlphaGo 快速走子的能力.

以下详细介绍各部分.

1 走棋网络

走棋网络把当前局面作为输入, 预测/采样下

收稿日期 2016-04-14 录用日期 2016-05-10

Manuscript received April 14, 2016; accepted May 10, 2016

本文责任编委周志华

Recommended by Associate Editor ZHOU Zhi-Hua

1. 脸书人工智能研究所加利福尼亚州 94025 美国

1. Facebo ok AI Research (FAIR) Facebook Inc., CA 94025,

USA

一步的走棋. 它的预测不只给出最强的一手, 而是

对棋盘上所有可能的下一着给一个分数. 棋盘上

有 361 个点, 它就给出 361 个数, 好招的分数比坏

招要高. DarkForest 在这部分有创新, 通过在训练

时预测三步而非一步, 提高了策略输出的质量, 和

他们在使用增强学习进行自我对局后得到的走棋

网络 (Reinforced network, RL network) 的效果相

当. 当然, 他们并没有在最后的系统中使用增强

学习后的网络, 而是用了直接通过训练学习到的网

络 (Supervised network, SL network), 理由是 RL

network 输出的走棋缺乏变化, 对搜索不利.

有意思的是在 AlphaGo 为了速度上的考虑, 只

用了宽度为 192 的网络, 而并没有使用最好的宽度

为 384 的网络 (见图 1, 即文献 [1] 中 Figure 2 的

左图), 所以要是图形处理器 (Graphics processing

unit, GPU) 更快一点 (或者更多一点), AlphaGo 肯

定是会变得更强的.

所谓的 0.1 秒走一步, 就是纯粹用这样的网络,

下出有最高置信度的合法着法. 这种做法完全不搜

索, 大局观非常强, 不会陷入局部战斗中, 说它建模

了 “棋感” 一点也没有错. 从去年八月开始我们秉持

开放的目的, 第一个把基于深度学习的走棋网络直

接放上 KGS Go Server 给大家试下并且达到了 3d

的水平, 当时引起了挺大的轰动, 并且在今年 1 月的

KGS 锦标赛上差点拿了冠军. 受此影响, 今年 3 月

份在日本举行的 UEC 杯 (日本电气通信大学杯) 进

下载后可阅读完整内容，剩余4页未读，立即下载

高工-老罗

粉丝: 26
资源: 314

谷歌阿法狗围棋系统技术剖析

AlphaGo阿法狗：人工智能围棋软件的开发与胜利

人工智能AlphaGoZero：从无到精通，自学击败阿法狗

西安阿法迪NFC门禁读头解决方案：支持多种手机的安全门禁管理

阿法狗原理

谷歌旗下人工智能研究部研发的 AI 围棋下载软件：AlphaGo 阿法狗对战.zip

阿法狗论文-alphago

阿法狗破解小林流.doc

Python-2016深度学习阿法狗复制品

CCTC 2016 平安科技夏磊豪：两朵云与金融“阿法狗”

奇点到来，超越人类 《Nature论文：人工智能从0-1自学打败阿法狗 》论文翻译.pdf

最新资源

奇点到来，超越人类《Nature论文：人工智能从0-1自学打败阿法狗》论文翻译.pdf