深度学习笔记：详解RBM限制波尔兹曼机

需积分: 9 129 浏览量更新于2024-07-23 1 收藏 1.43MB DOC 举报

"这篇资源是一篇关于RBM（限制波尔兹曼机）的深度学习读书笔记，详细介绍了RBM的使用方法、能量模型以及相关的概率理论和抽样方法。" RBM（限制波尔兹曼机）是一种无监督学习的神经网络模型，常用于特征学习和数据降维。它在深度学习领域中占有重要地位，尤其在图像识别、自然语言处理和推荐系统等领域有广泛应用。 1. **限制波尔兹曼机RBM的使用方法** RBM由两层神经元组成：一个可见层（visible layer）和一个隐藏层（hidden layer）。可见层神经元直接连接到隐藏层神经元，但隐藏层神经元之间以及可见层神经元之间不存在相互连接。RBM通过训练学习到隐藏层对可见层数据的表示，这一过程可以用于数据预处理，提取特征。 2. **RBM的能量模型** - **能量模型定义**：RBM的能量模型定义了一个系统的能量函数，它与网络中神经元的状态有关。能量函数通常表示为E(v,h)，其中v是可见层的激活状态，h是隐藏层的激活状态。 - **能量模型作用**：能量模型用于计算系统处于某一状态的概率，低能量状态对应于高概率，而高能量状态对应于低概率。 3. **从能量模型到概率** RBM的概率分布可以通过能量函数推导出来，使用Boltzmann分布，即P(v,h) = exp(-E(v,h)) / Z，其中Z是归一化常数，确保概率总和为1。 4. **从能量函数到概率，从概率到极大似然** 在训练RBM时，目标是找到权重参数以最大化数据集上的似然函数。这涉及到求解极大似然估计，通过梯度上升或梯度下降等优化方法更新权重，以降低训练数据的能量，提高其概率。 5. **求解极大似然** 在实践中，由于直接计算Z非常困难，通常采用对比散度（Contrastive Divergence, CD）或梯度检查点（Gradient Checkpointing）等近似方法来迭代更新权重。 6. **用到的抽样方法** - **马尔科夫蒙特卡罗（Markov Chain Monte Carlo, MCMC）**：在训练过程中，RBM利用MCMC方法进行采样，包括Gibbs采样，从当前状态转移至下一个状态，以模拟系统在不同状态间随机游走的过程。 7. **参考文献** 该资源虽未列出具体参考文献，但指出内容来自网络上多位专家的分享，可能包括经典的深度学习书籍、研究论文和技术博客。这篇笔记不仅提供了RBM的基础概念，还涵盖了其在实际应用中的技术细节，对于理解RBM的工作原理及其在深度学习中的角色十分有帮助。学习者需要具备一定的机器学习、统计学和神经网络基础知识才能更好地理解文中内容。

对于（))）的说明：不说别的——比如吧，你现在出去逛街，走到一个岔路口，你只想随便

逛逛，所以你是有 5 的概率往左边的路，5 的概率往右边的路；但是你不知道怎么选择

哪个路，所以你选择了抛硬币，正面朝上你就向左，反面朝上就向右。现在你只抛一次，

发现他是正面朝上的，你就向左走了。

::回到上面的问题，某节点 ; 取值为  的概率是 （假如），也可以看做一个找不均匀

的硬币，正面朝上的概率是 ，反面朝上的概率是  ；现在要给节点 ; 取值，就拿这个

硬币抛一下，正面朝上就取值 ，反面朝上就取值 ，这个就相当于抛硬币决定走哪个路的

那个过程。

::现在假如找不到这样的不均匀的硬币，就拿随机数生成器来代替（生成的数是  之间

的浮点数）；因为随机数生成器取值小于  的概率也是 ，大于  的概率是  。

 的用途

 的用途主要是两种，一是对数据进行编码，然后交给监督学习方法去进行分类或回归，

二是得到了权重矩阵和偏移量，供  神经网络初始化训练。

第一种可以说是把它当做一个降维的方法来使用。

第二种就用途比较奇怪。其中的原因就是神经网络也是要训练一个权重矩阵和偏移量，但

是如果直接用  神经网络，初始值选得不好的话，往往会陷入局部极小值。根据实际应用

结果表明，直接把  训练得到的权重矩阵和偏移量作为  神经网络初始值，得到的结

果会非常地好。

这就类似爬山，如果一个风景点里面有很多个山峰，如果让你随便选个山就爬，希望你能

爬上最高那个山的山顶，但是你的精力是有限的，只能爬一座山，而你也不知道哪座山最

高，这样，你就很容易爬到一座不是最高的山上。但是，如果用直升机把你送到最高的那

个山上的靠近山顶处，那你就能很容易地爬上最高的那座山。这个时候， 就的角色就

是那个直升机。

其实还有两种用途的，下面说说。

第三种， 可以估计联合概率 &#<=$，如果把 < 当做训练样本， 当成类别标签（隐藏节

点只有一个的情况，能得到一个隐藏节点取值为  的概率），就可以利用利用贝叶斯公式

求 &#<$，然后就可以进行分类，类似朴素贝叶斯、8;、>。说得专业点， 可以

作为一个生成模型（?(@<1%'）使用。

第四种， 可以直接计算条件概率 &#<$，如果把 < 当做训练样本， 当成类别标签（隐

藏节点只有一个的情况，能得到一个隐藏节点取值为  的概率）， 就可以用来进行分

类。说得专业点， 可以作为一个判别模型（)A))(@<1%'）使用。

 限制波尔兹曼机（）能量模型

能量模型定义

在说  之前，先来说点其他的，就是能量模型。

能量模型是个什么样的东西呢？直观上的理解就是，把一个表面粗糙又不太圆的小球，放

到一个表面也比较粗糙的碗里，就随便往里面一扔，看看小球停在碗的哪个地方。一般来

说停在碗底的可能性比较大，停在靠近碗底的其他地方也可能，甚至运气好还会停在碗口

附近（这个碗是比较浅的一个碗）；能量模型把小球停在哪个地方定义为一种状态，每种

状态都对应着一个能量，这个能量由能量函数来定义，小球处在某种状态的概率（如停在

碗底的概率跟停在碗口的概率当然不一样）可以通过这种状态下小球具有的能量来定义

（换个说法，如小球停在了碗口附近，这是一种状态，这个状态对应着一个能量 ，而发

生“小球停在碗口附近”这种状态的概率 &，可以用  来表示，表示成 &B7#$，其中 7 是能量

函数），这就是我认为的能量模型。

这样，就有了能量函数，概率之类的东西。

波尔兹曼网络是一种随机网络。描述一个随机网络，总结起来主要有两点。

第一，概率分布函数。由于网络节点的取值状态是随机的，从贝叶斯网的观点来看，要描

述整个网络，需要用三种概率分布来描述系统。即联合概率分布，边缘概率分布和条件概

率分布。要搞清楚这三种不同的概率分布=是理解随机网络的关键=这里向大家推荐的书籍是

张连文所著的《贝叶斯网引论》。很多文献上说受限波尔兹曼是一个无向图，从贝叶斯网

的观点看，受限波尔兹曼网络也可以看作一个双向的有向图，即从输入层节点可以计算隐

层节点取某一种状态值的概率，反之亦然。

第二，能量函数。随机神经网络是根植于统计力学的。受统计力学中能量泛函的启发，引

入了能量函数。能量函数是描述整个系统状态的一种测度。系统越有序或者概率分布越集

中，系统的能量越小。反之，系统越无序或者概率分布越趋于均匀分布，则系统的能量越

大。能量函数的最小值，对应于系统的最稳定状态。

能量模型作用

剩余25页未读，继续阅读

望月的狐

粉丝: 0
资源: 5

深度学习笔记：详解RBM限制波尔兹曼机

DBN RBN tensorflow python3 源码 mnist

RBN:CVPR2021口头论文的官方回购

DBN动态贝叶斯网络代码

GAN用BN层做为生成器结构去生成时序数据可以用吗啊

【水果识别】基于matlab GUI形态学水果大小识别【含Matlab源码 920期】.md

【瑕疵检测】基于matlab瓶盖瑕疵检测【含Matlab源码 730期】.md

Shapely-1.6.4.post2-cp35-cp35m-win_amd64.whl

Apache Flink CEP复杂事件处理详解及实战案例

SSM+JSP在线网课管理系统答辩PPT.pptx

稳压罐sw16_三维3D设计图纸.zip

最新资源