AlphaGo原理详解：深度学习与CNN在围棋中的应用

需积分: 38 170 浏览量更新于2024-08-04 1 收藏 187KB PDF 举报

"深入浅出学习AlphaGo原理"这篇文章详细解析了AlphaGo的第一版本，特别是它在围棋游戏中的应用。AlphaGo的核心技术包括深度学习和蒙特卡洛搜索树。文章首先介绍了围棋的基本规则，棋盘上有19*19个交叉点，每个点代表不同的棋子状态。状态通过一个361维向量（state）表示，其中0表示空位，1或-1代表不同颜色的棋子。作者将围棋问题简化为从当前状态（state）寻找最优的落子行动（action），这可以通过深度卷积神经网络（Convolutional Neural Network，CNN）来实现。CNN作为一种强大的图像处理算法，通过训练大量棋局样本，能够学习到棋盘状态与最佳行动之间的复杂关系。策略函数（Policy Network）是CNN的一部分，它负责预测在特定状态下应该选择哪个位置落子。在解决问题的过程中，蒙特卡洛搜索树（Monte Carlo Tree Search，MCTS）被用来模拟未来可能的棋局演变，评估每一步行动的潜在收益。MCTS结合了随机性和启发式搜索，能够在有限时间内找到相对最优的决策。这篇文章以通俗易懂的方式阐述了AlphaGo如何利用深度学习和蒙特卡洛搜索相结合的方法来优化围棋策略。通过CNN的策略网络，AlphaGo能够在棋盘上进行高效的搜索，寻找最大化的地盘，从而达到超越人类棋手的水平。阅读这篇文章大约需要15分钟，对于理解深度学习在围棋游戏中的应用非常有帮助。

还记得刚刚举得船图的例子嘛？可以类比一下，机器发现现在的状态和之前的某一

种类型有些类似，输出是一个的向量，其中有几个值比较大（接近1就是100%），那么就用1*361

这个值当做下一个的位置。不幸的，这种训练方法有很大的局限的，可以直观想到

的是，如果对战平台上数据本身就都是，那不是训练出来一个很蠢的神经网络嘛？棋力如何呢？

深度卷积网络策略的棋力

很不幸，据本人说，这个网络的棋力大概相当于业余6段所有的的人类选手。远远未能Aja Huang

超过当时最强的围棋电脑程序。CrazyStone

既然比不过，那么就学习它，打算把和Aja Huang

结合一下，那么问题就来了，是怎么来解决围棋问题的呢？CrazyStone CrazyStone

这是的老师在2006年对围棋AI做出的另一大重要突破Aja Huang Remi Colulum

干货论文送上 MCTS

Efficient Selectivity and Backup Operators in Monte-Carlo Tree Search

MCTS 蒙特卡洛搜索树——走子演算（Rollout）

蒙特卡洛搜索树（Monte-Carlo Tree Search）是一种的方法，它的基本思想是：

大智若愚

首先模拟一盘对决，使用的思路很简单，随机

面对一个空白棋盘，最初我们对棋盘一无所知，假设所有落子的方法分值

都相等，设为1

之后，从种方法中选一种走法，在这一步后，棋盘状态变为【随机】 361

。之后假设对方也和自己一样，走了一步，此时棋盘状态变为 →s

s → 1 【随机】

→s

s → 2

重复以上步骤直到并且双方分出胜负，此时便完整的模拟完了一盘棋，我

们假设一个变量，胜利记为1，失败则为0r

那么问题就来了，如果这一盘赢了，那意味着这一连串的下法至少比对面那个二逼要明智一些，

毕竟我最后赢了，那么我把这次落子方法记下来，

并把它的分值变化：

新分数=初始分数+r

(2-2) (2-2) 新分数 = 初始分数 + r

同理，可以把之后所有随机出来的落子方法都应用2-2公

式，即都加分。之后开始第二次模拟，这一次，我们对棋盘不是一无所知了，至少在 1

状态我们知道落子方法的分值是2，其他都是1，我们使用这个数据的方法是：在0

这次中，。随机我们随机到状态的概率要比其他方法高一点

之后，我们不断重复以上步骤，这样，那些看起来不错（以最后的胜负来作为判断依据）的落子

方案的分数就会越来越高，并且这些落子方案也是比较有前途的，会被更多的选择。

→s s →

→a a →

human

(→s) P h u m a n ( s → )

→s

s → 0

→a

a → 0

→s

s → 1

→s

s → 2

→s

s → n

(→s

,→a

) ( s → 0 , a → 0 )

(→s

,→a

) ( s → i , a → i )

→s

s →

0 →a

a → 0

→a

a → 0

score(→s)=

剩余10页未读，继续阅读

北极象

粉丝: 1w+
资源: 396

AlphaGo原理详解：深度学习与CNN在围棋中的应用

深入浅出强化学习：从基础到深度强化学习的探索

五子棋AI模型：探索AlphaGo Zero原理的实践Demo

AlphaGo：深度学习与层间干扰在围棋AI中的关键要素

reinforcement_learning_basic，学习强化学习基础原理的仓库

神经网络原理方面的书

从深度学习到强化学习

强化学习，邹伟，清华大学出版社 配套的程序和课件，供机器学习的爱好者学习和参考 在源程序基础上进行修改，可以得到很好的结果

机器学习ppt

David Silver强化学习讲义

强化学习(reinforcement learning)

最新资源

强化学习，邹伟，清华大学出版社配套的程序和课件，供机器学习的爱好者学习和参考在源程序基础上进行修改，可以得到很好的结果