变分路由优化与互信息胶囊自编码网络探索

版权申诉

178 浏览量更新于2024-06-27 收藏 881KB DOCX 举报

""基于互信息自编码和变分路由的胶囊网络结构优化" 在人工智能的图像理解和分类识别领域，卷积神经网络（CNN）一直是主流方法。然而，CNN的局限在于无法有效地处理物体的姿势变化和形变问题。胶囊网络（Capsule Network, CN）应运而生，它通过保持对象的拓扑关系来解决这一问题。矩阵胶囊网络在Smallnorb数据集上的出色表现以及在图像分类、文本分类、自然语言处理和对抗网络等领域的广泛应用，证明了其优越性。胶囊网络的主要挑战包括：1) 路由过程依赖于预定义的类别数量，这限制了网络的自学习能力；2) 主流的胶囊网络多采用监督学习，对未标注数据的处理能力有限。文献[5]提出使用变分路由来改善第一个问题。变分路由不仅适用于矩阵胶囊，提高特征区分度和减少计算复杂度，还通过GMM自动确定类别数，增强了网络的适应性和泛化能力。此外，通过变分法，它可以提供更可靠的置信度估计，进一步提升模型性能。针对第二个挑战，本文提出了一种基于互信息的胶囊自编码器，旨在实现无监督学习。这种自编码器包含局部编码器，能够从局部特征逐步理解到全局特征。胶囊结构的编码器输出保留了对象的空间信息，增强了网络的鲁棒性。更重要的是，通过互信息作为损失函数，网络能够自动筛选出最具代表性的编码特征，从而达到特征选择的目的。文章结构如下：第二部分详细介绍了经典胶囊网络的工作原理；第三部分则讨论了变分路由的实现细节及其优势；第四部分将详细阐述基于互信息的胶囊自编码器的设计和工作流程；第五部分将展示实验结果，验证新方法的有效性和性能提升；最后，第六部分总结全文并展望未来的研究方向。这一研究为胶囊网络的优化提供了新的视角，有望推动无监督学习在胶囊网络中的应用。"

变分路由使用 GMM 对高级胶囊建模，然后将初始胶囊中的特征视为拟合 GMM 的数

据点，计算拟合分布的过程就是计算高级胶囊的过程。矩阵胶囊中姿势矩阵代表的是对数

据提取的抽象特征，通过对姿势矩阵进行分组、聚合来实现特征间的聚合。设初始胶囊位

于网络的 L 层，高级胶囊位于网络的 L+1 层，$n \in {\rm{laye}}{{\rm{r}}_l},k \in

{{\rm{layer}} _{l + 1}}$。将初始胶囊的姿势矩阵${{\boldsymbol{M}}_n}$乘以一个$4

\times 4$的视角不变转换矩阵${{\boldsymbol{W}}_{nk}}$，然后得到一个$4 \times 4$投票

矩阵${{\boldsymbol{V}}_{nk}}$，其中${{\boldsymbol{W}}_{nk}}$通过网络的反向传播学

习更新。那么初始胶囊$n$被分组整合到高级胶囊$k$的概率，是基于投票矩阵

${{\boldsymbol{V}}_{nk}}$与其他初始胶囊对高级胶囊$k$的投票

$\left\{ {{{\boldsymbol{V}}_{ik}},i \ne n} \right\}$的接近程度。本文将初始胶囊的投票矩阵

${{\boldsymbol{V}}_{nk}}$作为可观测变量，由$V = \left\{ {{{\boldsymbol{\nu}} _1} \cdots

{{\boldsymbol{\nu}} _m} \cdots {{\boldsymbol{\nu}} _M}} \right\}$表示，其中$M = $$ N

\times K$，表示投票矩阵的数量，每个矩阵${{\boldsymbol{\nu}} _m}$具有 16 个神经元，

对应于被提取的 16 个原始图像特征数据，该元素表示为${\nu _{md}}$。对于每个观察量

${{\boldsymbol{\nu}} _m}$，本文都设定一个对应的潜在变量${\theta _i}$，表示为$\theta =

\left\{ {{\theta _1} \cdots {\theta _n} \cdots {\theta _N}} \right\}$，变量${\theta _n}$有$k$个维

度，对应数据集类别数，${{\boldsymbol{\theta}} _n}$的数据形式是 one-hot 向量(只有类别

$k$对应的元素为 1，其余元素均为 0)，元素表示为${\theta _{nk}}$。

投票矩阵$ {{\boldsymbol{\nu}} }_{m} $符合的高斯混合概率分布公式为

$$ p({{\boldsymbol{\nu}}_m}) = \sum\limits_{k = 1}^K {{\pi

_k}N({{\boldsymbol{\nu}}_n}|{{\boldsymbol{\mu}}_k},} {\varLambda_k}) $$

(7)

其中，$\pi = \left\{ {{\pi _k}} \right\}$表示高斯混合分布中不同分布的占比大小集合，

$\mu = \left\{ {{{\boldsymbol{\mu}} _k}} \right\}$是高斯混合分布中各分布均值的集合，

$\varLambda = \left\{ {{\varLambda_k}} \right\}$是各分布的协方差集合，下标$k$表示第

$k$个混合分布的相关参数，${{p}}\left( {{\nu _m}} \right)$表示${\nu _m}$所属的高级胶囊

分布。为了获得完整数据集联合分布$p\left( {{\boldsymbol{\nu}},\theta } \right)$，需计算后

验概率$p\left( {\theta /v} \right)$，本文使用变分推断的方法计算后验概率$p\left( {\theta /v}

\right)$的近似解$q\left( \theta \right)$，根据式(6)可以得

$${\rm{ln}}{q^*}(\theta ) = \sum\limits_{n = 1}^N {\sum\limits_{k = 1}^K {{\theta _{nk}}{\rm{ln}}{\rho _{nk}} +

{\rm{const}}} } $$

(8)

其中

$$ \begin{split} \ln {\rho _{nk}} =\,& {\rm{E}}\left[ {\ln {\pi _k}} \right] + \frac{1}{2}{\rm{E}}\left[ {\ln \left|

\varLambda \right|} \right] - \frac{D}{2}\ln \left( {2\pi } \right) \\ \,& -{\frac{1}{2}{{\rm{E}}_{{\mu

_k},{\varLambda_k}}}\left[ {{{\left( {{{\boldsymbol{\nu}} _n} - {{\boldsymbol{\mu}} _k}}

(9)

剩余19页未读，继续阅读

罗伯特之技术屋

粉丝: 4417
资源: 1万+

变分路由优化与互信息胶囊自编码网络探索

CiscoASA：CiscoASA路由协议配置与优化.docx

材料力学之弹塑性力学算法：弹性理论：弹性力学的变分原理.Tex.header.docx

基于混合高斯变分自编码网络的异常检测算法.docx

基于i向量和变分自编码相对生成对抗网络的语音转换.docx

基于鱼群优化的车载自组织网络路由算法.docx

华为路由器路由策略和策略路由.docx

基于扩散方法的分布式随机变分推断算法.docx

网络设计与优化.docx

11种主要神经网络结构图解.docx

ChatGPT技术的神经网络结构分析.docx

最新资源