变分路由使用 GMM 对高级胶囊建模,然后将初始胶囊中的特征视为拟合 GMM 的数
据点,计算拟合分布的过程就是计算高级胶囊的过程。矩阵胶囊中姿势矩阵代表的是对数
据提取的抽象特征,通过对姿势矩阵进行分组、聚合来实现特征间的聚合。设初始胶囊位
于网络的 L 层,高级胶囊位于网络的 L+1 层,$n \in {\rm{laye}}{{\rm{r}}_l},k \in
{{\rm{layer}} _{l + 1}}$。将初始胶囊的姿势矩阵${{\boldsymbol{M}}_n}$乘以一个$4
\times 4$的视角不变转换矩阵${{\boldsymbol{W}}_{nk}}$,然后得到一个$4 \times 4$投票
矩阵${{\boldsymbol{V}}_{nk}}$,其中${{\boldsymbol{W}}_{nk}}$通过网络的反向传播学
习更新。那么初始胶囊$n$被分组整合到高级胶囊$k$的概率,是基于投票矩阵
${{\boldsymbol{V}}_{nk}}$与其他初始胶囊对高级胶囊$k$的投票
$\left\{ {{{\boldsymbol{V}}_{ik}},i \ne n} \right\}$的接近程度。本文将初始胶囊的投票矩阵
${{\boldsymbol{V}}_{nk}}$作为可观测变量,由$V = \left\{ {{{\boldsymbol{\nu}} _1} \cdots
{{\boldsymbol{\nu}} _m} \cdots {{\boldsymbol{\nu}} _M}} \right\}$表示,其中$M = $$ N
\times K$,表示投票矩阵的数量,每个矩阵${{\boldsymbol{\nu}} _m}$具有 16 个神经元,
对应于被提取的 16 个原始图像特征数据,该元素表示为${\nu _{md}}$。对于每个观察量
${{\boldsymbol{\nu}} _m}$,本文都设定一个对应的潜在变量${\theta _i}$,表示为$\theta =
\left\{ {{\theta _1} \cdots {\theta _n} \cdots {\theta _N}} \right\}$,变量${\theta _n}$有$k$个维
度,对应数据集类别数,${{\boldsymbol{\theta}} _n}$的数据形式是 one-hot 向量(只有类别
$k$对应的元素为 1,其余元素均为 0),元素表示为${\theta _{nk}}$。
投票矩阵$ {{\boldsymbol{\nu}} }_{m} $符合的高斯混合概率分布公式为
$$ p({{\boldsymbol{\nu}}_m}) = \sum\limits_{k = 1}^K {{\pi
_k}N({{\boldsymbol{\nu}}_n}|{{\boldsymbol{\mu}}_k},} {\varLambda_k}) $$
其中,$\pi = \left\{ {{\pi _k}} \right\}$表示高斯混合分布中不同分布的占比大小集合,
$\mu = \left\{ {{{\boldsymbol{\mu}} _k}} \right\}$是高斯混合分布中各分布均值的集合,
$\varLambda = \left\{ {{\varLambda_k}} \right\}$是各分布的协方差集合,下标$k$表示第
$k$个混合分布的相关参数,${{p}}\left( {{\nu _m}} \right)$表示${\nu _m}$所属的高级胶囊
分布。为了获得完整数据集联合分布$p\left( {{\boldsymbol{\nu}},\theta } \right)$,需计算后
验概率$p\left( {\theta /v} \right)$,本文使用变分推断的方法计算后验概率$p\left( {\theta /v}
\right)$的近似解$q\left( \theta \right)$,根据式(6)可以得
$${\rm{ln}}{q^*}(\theta ) = \sum\limits_{n = 1}^N {\sum\limits_{k = 1}^K {{\theta _{nk}}{\rm{ln}}{\rho _{nk}} +
{\rm{const}}} } $$
其中
$$ \begin{split} \ln {\rho _{nk}} =\,& {\rm{E}}\left[ {\ln {\pi _k}} \right] + \frac{1}{2}{\rm{E}}\left[ {\ln \left|
\varLambda \right|} \right] - \frac{D}{2}\ln \left( {2\pi } \right) \\ \,& -{\frac{1}{2}{{\rm{E}}_{{\mu
_k},{\varLambda_k}}}\left[ {{{\left( {{{\boldsymbol{\nu}} _n} - {{\boldsymbol{\mu}} _k}}