深度学习笔记：解析RBM网络结构与功能

需积分: 9 142 浏览量更新于2024-09-12 2 收藏 1.01MB PDF 举报

"该资源是一份关于深度学习的笔记，主要聚焦于限制波尔兹曼机（Restricted Boltzmann Machine, RBM）。笔记详细介绍了RBM的网络结构、参数及功能，包括编码和解码过程。" 在深度学习领域，限制波尔兹曼机（RBM）是一种重要的无监督学习模型，常用于特征学习和数据建模。RBM由两层神经元组成：一层是可见层（Visible Layer），另一层是隐藏层（Hidden Layer）。在RBM中，每个可见节点仅与隐藏层的相应节点相连，这种独立性简化了模型的训练过程。 RBM的主要参数包括： 1. 权重矩阵 \( W \)：这是连接可见层和隐藏层的权重，大小为 \( n \times m \)，其中 \( n \) 是隐藏节点的数量，\( m \) 是可见节点的数量。 2. 可见节点偏移量 \( b \)：这是一个向量，包含 \( m \) 个元素 \( (b_1, b_2, \dots, b_m) \)，影响可见节点的激活概率。 3. 隐藏节点偏移量 \( c \)：同样是个向量，包含 \( n \) 个元素 \( (c_1, c_2, \dots, c_n) \)，影响隐藏节点的激活概率。 RBM的主要功能包括数据编码和解码。在编码过程中，给定一个 \( m \) 维的输入样本 \( x \)，RBM会生成一个对应的 \( n \) 维隐藏表示（编码后的样本）\( y \)。这个过程通过以下方式实现： - 对于每个隐藏节点 \( h_i \)，其取值为1的概率 \( p(h_i=1|v) \) 由sigmoid函数确定，即 \( p(h_i=1|v) = \sigma(\sum_{j=1}^{m} w_{ij} \cdot v_j + c_i) \)，其中 \( v \) 是输入样本 \( x \) 的值。 - 使用随机数生成器，基于上述概率，决定隐藏节点 \( h_i \) 的实际取值（0或1）。解码过程则是从编码后的样本 \( y \) 回溯到原始样本 \( x \)。这个过程与编码类似，只是方向相反，隐藏层的输出被用来估计可见层的值。这个过程同样涉及sigmoid函数和随机数生成，以确定可见节点的激活状态。 RBM在深度学习中的应用广泛，如特征提取、预训练等。通过训练RBM，可以学习到数据集中的潜在特征，这些特征可以进一步用于构建更复杂的深度学习模型，如深度信念网络（Deep Belief Network, DBN）或其他深度学习架构。RBM的学习过程通常采用对比散度（Contrastive Divergence, CD）或其他近似梯度下降方法来优化权重矩阵和偏置项，以最大化数据样本在模型上的联合概率。总结来说，RBM是深度学习中一种有效的无监督学习工具，能够处理高维数据，提取特征，并用于预训练，为后续的监督学习任务提供更强大的输入表示。理解和掌握RBM的工作原理及其应用，对于深度学习实践者来说至关重要。

3.2 限制波尔兹曼机（RBM）能量模型

3.2.1 能量模型定义

在说 RBM 之前，先来说点其他的，就是能量模型。

能量模型是个什么样的东西呢？直观上的理解就是，把一个表面粗糙又不太圆的小球，

放到一个表面也比较粗糙的碗里，就随便往里面一扔，看看小球停在碗的哪个地方。一般来

说停在碗底的可能性比较大，停在靠近碗底的其他地方也可能，甚至运气好还会停在碗口附

近（这个碗是比较浅的一个碗）；能量模型把小球停在哪个地方定义为一种状态，每种状态

都对应着一个能量，这个能量由能量函数来定义，小球处在某种状态的概率（如停在碗底的

概率跟停在碗口的概率当然不一样）可以通过这种状态下小球具有的能量来定义（换个说法，

如小球停在了碗口附近，这是一种状态，这个状态对应着一个能量 E，而发生“小球停在碗

口附近”这种状态的概率 p，可以用 E 来表示，表示成 p=f(E)，其中 f 是能量函数），这就是

我认为的能量模型。

这样，就有了能量函数，概率之类的东西。

波尔兹曼网络是一种随机网络。描述一个随机网络，总结起来主要有两点。

第一，概率分布函数。由于网络节点的取值状态是随机的，从贝叶斯网的观点来看，要

描述整个网络，需要用三种概率分布来描述系统。即联合概率分布，边缘概率分布和条件概

率分布。要搞清楚这三种不同的概率分布,是理解随机网络的关键,这里向大家推荐的书籍是

张连文所著的《贝叶斯网引论》。很多文献上说受限波尔兹曼是一个无向图，从贝叶斯网的

观点看，受限波尔兹曼网络也可以看作一个双向的有向图，即从输入层节点可以计算隐层节

点取某一种状态值的概率，反之亦然。

第二，能量函数。随机神经网络是根植于统计力学的。受统计力学中能量泛函的启发，

引入了能量函数。能量函数是描述整个系统状态的一种测度。系统越有序或者概率分布越集

中，系统的能量越小。反之，系统越无序或者概率分布越趋于均匀分布，则系统的能量越大。

能量函数的最小值，对应于系统的最稳定状态。

3.2.2 能量模型作用

为什么要弄这个能量模型呢？原因有几个。

第一、RBM 网络是一种无监督学习的方法，无监督学习的目的是最大可能的拟合输入

数据，所以学习 RBM 网络的目的是让 RBM 网络最大可能地拟合输入数据。

第二、对于一组输入数据来说，现在还不知道它符合那个分布，那是非常难学的。例如，

知道它符合高斯分布，那就可以写出似然函数，然后求解，就能求出这个是一个什么样个高

斯分布；但是要是不知道它符合一个什么分布，那可是连似然函数都没法写的，问题都没有，

根本就无从下手。好在天无绝人之路——统计力学的结论表明，任何概率分布都可以转变成

基于能量的模型，而且很多的分布都可以利用能量模型的特有的性质和学习过程，有些甚至

从能量模型中找到了通用的学习方法。有这样一个好东西，当然要用了。

第三、在马尔科夫随机场（MRF）中能量模型主要扮演着两个作用：一、全局解的度量

（目标函数）；二、能量最小时的解（各种变量对应的配置）为目标解。也就是能量模型能

为无监督学习方法提供两个东西：a）目标函数；b）目标解。

剩余10页未读，继续阅读

趣学算法

粉丝: 1792

深度学习笔记：解析RBM网络结构与功能

深度学习笔记之RBM修正版

深度学习笔记之RBM

深度学习笔记：RBM限制玻尔兹曼机详解

深度学习读书笔记 三． 限制波尔兹曼机 3.1 限制波尔兹曼机（RBM） 使用方法

deep-autoencoder-with-RBM-pretraining:一种深度自动编码器，可通过受限的玻尔兹曼机器预训练权重

RBM学习笔记

概率图-详细笔记.zip

深度学习笔记

深度学习笔记：RBM使用详解与能量模型转换

深度学习笔记：详解RBM限制波尔兹曼机

最新资源

深度学习读书笔记三．限制波尔兹曼机 3.1 限制波尔兹曼机（RBM）使用方法