无限变分自编码器:半监督学习中的无限混合生成模型

40 浏览量更新于2023-10-15 收藏 1.23MB PDF 举报

半监督学习

混合模型

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1用于半监督学习的M. 安东尼·迪克·安东·范登亨格尔阿德莱德大学{ehsan.abbasnejad，anthony.dick，anton.vandenhengel}@ adelaide.edu.au摘要本文提出了一种容量自适应的无限变分自编码器（VAE）。这是使用混合模型来实现的，其中混合系数由Dirichlet过程建模，允许我们在执行推断时对系数进行积分。重要的是，这允许我们根据数据自动改变混合中自动编码器的数量。实验表明，我们的方法的灵活性，特别是对于半监督学习，只有少量的训练样本。1. 介绍变分自动编码器（VAE）[18]是一种新引入的工具，用于对分布p（x）进行无监督学习，从中提取一组训练样本x。它学习生成模型的参数，基于从潜在变量空间z中采样，并近似分布p（x|z）。通过将潜在空间设计为易于从中采样（例如，高斯）和选择灵活的生成模型（例如，一个深刻的信念网络）VAE可以支持-提供了一种灵活而有效的生成式建模方法该模型的一个局限性是潜在空间的维数和生成模型中的参数数目是预先固定的。这意味着，虽然模型参数可以针对训练数据进行优化，但模型的容量必须事先选择，假设对训练数据特性有一定的预知。在本文中，我们提出了一种方法，利用贝叶斯非参数模型[1，8，31，13]产生一个无限的混合自动编码器。这种无限混合能够随着数据的复杂性而增长，以最好地捕捉其内在结构。我们做这项工作的动机是半监督学习的任务。在这种情况下，我们有大量未标记的数据，但只有少量标记的训练样本。在我们的方法中，我们使用未标记的数据训练生成模型，然后将此模型组合使用利用可用于训练用于分类的判别模型的任何标记的数据。我们证明，我们的无限VAE优于经典的VAE和标准的分类方法，特别是当可用的标记样本的数量是小的。这是因为无限VAE能够更准确地捕获未标记数据的分布。因此，它提供了一种生成模型，该生成模型允许使用少量样本更有效地学习基于其输出训练的本文的主要贡献有两个方面：（1）我们提供了用于组合自动编码器（特别是变分自动编码器）的贝叶斯非参数模型。这弥合了非参数贝叶斯方法和深度神经网络之间的差距;（2）我们提供了一种半监督学习方法，利用我们的模型学习到的自编码器的无限混合来进行预测。从一个小数目的标记的例子。本文的其余部分组织如下。在第2节中，我们回顾相关的方法，而在第3节中，我们简要地提供了变分自动编码器的背景。在第4节中，我们的非参数贝叶斯方法，以无限混合的VAE介绍。我们提供了问题的数学公式，以及如何将Gibbs抽样和变分推理相结合，以有效地学习输入的底层结构随后在第5节中，我们将VAE的无限混合作为无监督生成方法与有区别的深度模型相结合，以在半监督设置中执行预测。在第6节中，我们提供了我们的方法在各种数据集上的实证评估，包括自然图像和3D形状。我们使用各种判别模型，包括残差网络[12]与我们的模型相结合，并表明我们的方法能够超越我们的基线。2. 相关工作大多数成功的学习算法，特别是深度学习，需要大量的标记实例进行训练。半监督学习试图利用58885889未标记的数据，以实现强大的推广利用小标记的例子。例如，来自web的未标记数据与[6]中的标签传播一起用于分类。类似地，半监督学习用于视频[28]或图像[43，7]中的对象这些方法中的大多数是通过以下方式开发的：（a）将未标记和标记的实例投影到嵌入空间，并使用最近邻来利用距离来推断标记的相似标记浅层[15，42，14]或深层网络[45]中的传播;或（b）制定联合生成-判别模型的某些变体，该模型使用未标记数据的潜在结构来更好地学习具有标记实例的决策函数。例如，集成方法[3，26，24，47，5]基于构建的集成学习器分配伪类标签，然后使用它们来找到要添加到集成的新的适当学习器。近年来，深度生成模型在受限玻尔兹曼机（及其无限变体 [4] ）和自动编码器（例如，[17][21][22][23][24][25][26][27][28][29][29][29] 从这些无监督方法中学习到的表示用于监督学习。我们的其他相关方法是对抗网络[9，29，25]，其中生成和判别模型被联合训练。只要从生成模型中提取的样本在最小-最大优化中的判别模型中表现不佳，该模型就会惩罚生成模型。虽然理论上是合理的，但事实证明，训练这样的模型是困难的。我们的半监督学习公式也与高速公路[40]和记忆[44]网络有关，这些网络试图结合多个信息通道，捕获数据的各个方面以进行更好的预测，尽管它们的方法主要关注深度。3. 变分自动编码器虽然典型地自编码器假定确定性的潜在空间，但在变分自编码器中，潜在变量是随机的。输入x是从潜在空间z中的变量生成的。由于当所有潜变量都被积分出来时输入的联合分布是难以处理的，所以我们求助于变分推理（因此得名）。模型定义为：pθ（z）=N（z; 0，I），p θ（x|z）=N（x; µ（z），σ（z）I），q φ（z|x）=N（x; μ（x），σ（x）I），其中θ和φ是待求模型的参数。目标是最小化以下损失，-Ez<$q（z|x）[logp（x）|z）]+KL（qφ（z|x）||p（z））。（一）`x`x重建误差正则化X1x2x3X4H1H2H3图1.可变编码器：实线为直接连接，虚线为采样。由x表示的输入层和隐藏层h确定变分分布的矩。从变分分布中对潜变量z进行采样。这种损失的第一项是重建误差，或数据点的预期负对数似然。期望是相对于编码器该术语鼓励解码器在使用来自潜在分布的样本时学习重构数据较大的错误表示解码器无法重建数据。编码器的示意性网络如图1所示。如图所示，深度网络学习高斯的均值和方差，从高斯中生成z的后续样本。第二项是编码器的分布q θ（z）之间的Kullback-Leibler发散|x）和p（z）。这种发散度量了当使用q表示z上的先验时丢失了多少信息，并鼓励其值为高斯。为了有效地执行推理，使用了eterization技巧[18]，与深度神经网络相结合，允许使用反向传播来训练模型。4. 无限混合变分自动编码器经典形式的自动编码器寻求找到输入的嵌入，使得其再现具有最小的差异。变分自动编码器通过引入贝叶斯视图来修改该概念，其中给定输入的潜变量的条件分布类似于给定潜变量的输入的分布，同时确保潜变量的分布接近于具有零均值和方差1的高斯分布。单个变分编码器具有固定的容量，因此可能无法很好地捕获输入的复杂性。然而，通过使用VAE的集合，我们可以确保我们能够通过调整集合中的VAE数量来拟合数据来对数据进行建模。在我们无限的混合物中，我们试图找到这些变量的混合物5890我我我我基于数据确定的组件。算法1学习变分自动编码器的无限混合初始化VAE分配cAc={}c = 1，. . . 得双曲余切值.而不收敛对于xi∈X，进行VAE赋值，根据等式将cnew赋值3否则，根据等式3对c_new进行2图2.变分推理的无限混合表示为如果C新C然后VAE组件在其中操作的块每个VAE中的每个潜在变量zi（在该图示中是一维的）从高斯分布中提取。实线表示非线性编码，虚线表示解码器。在该图中，φ和θ分别是编码器和解码器的参数这样，它的容量理论上可以增长到无穷大。然后，每个自动编码器能够捕获数据的特定方面。例如，一个可能更擅长表示圆形结构，而另一个更擅长表示直线。这种混合直观地表示了数据的各种基本方面。此外，由于每个VAE通过潜变量的密度对其表示的不确定性进行建模，因此我们知道每个自动编码器在重建输入时的信心。我们的非参数混合模型的一个优点是，我们正在采取贝叶斯方法，其中考虑到参数的分布。因此，我们捕捉模型参数的不确定性。自动编码器，是不太相信他们的recruitic，灰，有较少的影响，对输出。如图2所示，每个编码器通过非线性变换（卷积或神经网络中的全连接层）以一定概率找到嵌入变量的分布在混合块中的每个自动编码器产生一个概率measure，确保其重建输入的能力。这种行为与大脑发展专门区域的能力相似，这些区域负责特定的传统上，混合模型使用预定数量的加权分量来构建。每个权重系数确定预测器成功产生准确输出的可能性。这些系数-Aci=Aci <${i}<$给定VAE必须忘记结束if结束for针对新VAE更新C对于c=1，. . .，C做更新VAE忘记C中的Ac th VAE学习cthVAEi，其中cnew=c结束时结束返回VAE的无限混合形式上，令c为VAE分量的每个实例的分配矩阵（即，哪个VAE能够最好地重构实例i），并且π为c的混合系数先验。对于n个未标记的实例，我们将VAE的无限混合建模为，∫p（c，π，θ，x1，...，n，α）= p（c|π）p（π|α）pθ（x1，.，n|c，z）p（z）dz我们假设混合系数是从参数为α的狄利克雷分布中得出的（示例见图3），p（π1，. . .，πC| α）α Dir（α/C），为了确定每个实例在混合模型的一个组件中的成员资格，即，每个变分自动编码器能够编码输入并以最小损失重构它的可能性，我们计算隶属度的条件概率。属于自动编码器组件的每个实例的条件概率通过对所有混合组件π进行积分来计算，即[35，36]，从多项分布中提取这些系数，其中这些系数的数量是固定的。另一方面，为了学习变分自编码器∫ ∫p（c，θ，x 1，.，n，α）=Ynpθci（xi|zci）p（zci）p（c |π）p（π|α）dπdzci我在非参数贝叶斯方式中，我们采用Dirich-let过程。在狄利克雷过程中，与传统的混合模型不同，我们假设每个分量的概率是从一个具有狄利克雷先验的多项式中得出的。采用这种方法的优点是我们可以对所有可能的混合系数进行积分这使得数量这种集成考虑了所有可能的隶属系数，用于将实例分配给VAE。c的分布是多项的，其中Dirichlet分布是其共轭先验，因此这种积分是易于处理的。为了对参数θ和c进行推断，我们执行块吉布斯采样，在φX1X2x3θz1z2z3X1X2x3…5891(a)α=0.99（b）α=2（c）α=50图3. 狄利克雷分布与各种值的α。较小的α值倾向于将质量集中在拐角处（在这个简单的例子中，通常随着尺寸的增加）。这些较小的值减少了生成新的自动编码器组件的机会。优化每个VAE的θ，并更新c中的分配。优化使用变分自动编码器为了更新c，我们执行以下吉布斯采样：• 实例i属于VAEc的条件概率：整个学习过程总结在算法1. 为了提高性能，在我们的方法的每次迭代中，我们跟踪集合Ac中的第c个VAE分配变化。这使我们能够有效地更新每个VAE使用反向传播操作进行新的分配。在VAE赋值完成后，我们执行两个操作：（1）忘记;（2）学习。在遗忘阶段，我们倾向于忘记分配给给定VAE的实例这是通过执行具有负学习速率的梯度更新来完成的，即，反向反向传播另一方面，在学习阶段，我们用正学习率更新给定VAE的参数，就像通常使用反向传播一样这种交替允许结构上相似的实例，这些实例可以与单个VAE共享要学习的潜在变量，同时忘记那些不太适合的实例。要用无限混合来重建输入x，预期重建定义为：ΣE[x]=pθc（ci=c|xi）Eq（z|x）[x|zc]。（四）p（c =cc，x，α）φCηc（xi）c我|\ii=（2）n−1+α也就是说，我们使用每个VAE来重建输入，其中ηc（xi）是集群c的占用数，对于n个实例不包括实例i。我们定义，ηc（xi）为（n−1）pθc（ci=c|xi），用该VAE的概率对其进行加权（该概率与每个VAE的方差成反比5.使用无限自动编码器的半监督学习和exp.ΣE zc<$qφc（z|x）[logpθc（xi|zc）]许多深度神经网络pθc（ci=c|xi）=ΣJexp.EzqJφ j（z|x）ΣΣΣlogpθj（xi|zj）在监督学习中，这取决于可用性-大型标记数据集的数量。然而，在许多问题其使用潜在样本zc来评估实例xi被分配给第c个VAE的可能性。• 实例i没有被任何现有的自动编码器很好地表示并且必须生成新的这样的数据集是不可用的，并且必须采用替代方法，例如生成模型和判别模型的组合。在半监督学习中，标记实例的数量很少，我们使用VAE的无限混合来辅助监督学习。受混合专家的启发[30，第11章]，我们计算了测试示例的预测输出y的p（c =c|C，x，α）=α.（三）样品X-10，我我n−1+αΣC注意，原则上，ηc（xi）是计算的a度量。p（y*|x）=p（y*|x∈，ωc）×pθ（ci=c|xi）。通过排除观测中的第i个联系我们C深判别克雷蒂克斯深度生成集群的其他成员。然而，出于性能原因，我们在此使用cth VAE作为此占用数量的估计值。只要单个观察对编码器的潜在表示的影响可以忽略不计，这是合理的。在等式2中，当从该多项分布中提取用于新分配的样本时，存在完全不同的如果新的VAE拟合不成功，则在后续迭代中，实例将以高概率分配给其原始VAE。这种预测公式将深度学习器的辨别能力与参数集ωc和灵活的生成模型相结合。对于一个给定的测试实例x，每个判别专家产生一个试验性的输出，然后由生成模型加权。因此，每个判别专家学习从生成模型的角度来看在结构上更相似的实例中表现得更好在训练过程中，我们最小化由生成函数加权的判别项的负对数（对数损失）。5892图4. 我们的VAE和半监督学习的无限混合框架。我们在较低级别共享判别模型的参数，以实现更有效的训练和预测。对于混合物中的每种 VAE ，我们都有一位专家（例如：softmax）之前的输出。粗箭头表示更可能的连接。重量. 每个实例它导致类似的实例在训练过程中在神经网络中获得更强的权重。此外，应该注意的是，生成模型和判别模型可以在某种程度上共享深度参数ωc和θc特别是在我们的实现中，我们只考虑最后一层的参数对于每个判别和生成分量是不同的。我们在图4中总结了我们的框架。虽然将无监督生成模型和有监督判别模型相结合本身并不新颖，但在我们的问题中，生成模型可以增长以捕获数据的复杂性。此外，由于我们共享判别模型和生成模型的参数，因此每个无监督学习器不需要学习输入的所有方面。事实上，在许多图像分类问题中，每个像素值在最终决策中几乎不起作用。因此，通过共享参数，当潜变量的分布不鼓励正确的最终决策时，无监督模型会产生更大的损失。这种共享是通过重用使用标签初始化的参数来完成的。6. 实验在本节中，我们将研究我们的方法在各种数据集上进行半监督分类的性能。我们研究了如何将生成网络和判别网络相结合，能够有效地进行半监督学习。由于吉布斯采样的收敛速度每个自动编码器用二维潜在变量z训练并随机初始化。因此，每个新的VAE已经能够在一定程度上重建输入。在采样步骤期间，该VAE在输入的特定结构中变得更加专业化。为了进一步促进sam-为了实现这一点，我们将聚类的数量设置为等于类的数量，并使用100个随机标记的示例来微调VAE分配。在每次迭代中，如果没有实例分配给VAE，它将被删除。因此，当实例被分配给VAE时，混合随着每次迭代而增长和收缩。我们报告了3次试验的结果。为了比较自动编码器在内部捕获输入结构的能力，我们比较了通过单个VAE获得的潜在表示和来自我们在等式4中的方法的预期潜在表示，并使用它对支持向量机（SVM）进行子训练。为了计算期望值，我们使用了来自隐变量空间一旦使用第4节中的无限混合模型使用所有未标记实例学习生成模型，我们随机选择标记实例的子集用于训练判别模型。在整个实验中，我们共享从输入到最后一层的判别式架构中的参数，以便每个专家都由softmax表示。我们报告的分类结果，在各种问题，包括手写二值图像，自然图像和三维形状。虽然我们的半监督学习方法的性能取决于判别模型的选择，但我们观察到我们的方法优于基线，特别是对于较小的标记实例。对于所有训练（随机梯度下降算法利率为0。001。对于VAE，我们使用β 1 = 0的Adam[16]更新。9，β2=0。999 但是，我们对损失的变化设置了一个阈值，以检测收敛并停止训练。除了二进制图像，我们使用双-二元译码器（pθ（x|z）是二项的），我们的译码器是连续的（（pθ（x|z）是高斯的），其中来自潜在空间的样本用于重新生成输入以计算损失。在问题中，当输入过于复杂的自动编码器执行良好，我们共享的最后一层的判别模型与VAE的输出。6.1. MNIST数据集MNIST数据集1包含60，000个训练图像和10，000个测试图像，大小为28×28的手写数字。图5（a）显示了来自该数据集的一些随机图像。我们使用原始的VAE算法（单VAE），具有100次迭代和50个隐变量来学习对于输入pθ（x），这些具有二进制分布的数字|z）。如图5（b）所示，这些重建非常不符合要求。清晰，有时是错误的（第6列，7被错误地重建为9）。使用这个VAE作为基础，我们训练生成模型的无限混合在α=2的10次迭代之后，描绘了期望的重建E[x1http://yann.lecun.com/exdb/mnist/VAE的无限混合（生成）…z1z2softmax 牧羊人1softmax2看门狗深度网络（判别式）…牧羊人5893(a) 原始图像(b) VAE重建（隐变量数50）(c) VAE重建（隐变量数1024）(d) 无限混合重建（使用具有隐变量数量50的基础VAE的聚类数量18）图5.自动编码器的输入重建图示。第一行是原始图像。图5（b）和5（c）中的重建是使用单个VAE获得的最后一行中的图像是从18个VAE的混合模型中获得的，每个VAE具有50个隐藏单元。如图所示，重建图像在图5（d）中更清晰。方法C#隐藏单元误差无限混合21009.17101005.12171004.9VAE11005.92110245.1表1. MNIST数据集的重建误差作为输入图像和预期重建的差异的范数，将我们的方法与原始VAE进行比较。在图5（d）中。我们使用2个样本来计算第c个VAE的E[x]。如所观察到的，这种重建在视觉上更好，并且第6列中的错误被修复。此外，图5（c）示出了使用具有1024个隐藏单元的VAE。值得注意的是，尽管我们提出的模型具有较少的隐藏单元数量（900vs1024），但使用我们的模型重建效果更好。在表1中，我们总结了使用我们的方法与原始VAE的重建误差（即，x−E[x]如图所示，当隐藏单元的数量几乎相似（1000vs1024）时，我们的方法与VAE的性能相似。如图所示，在VAE数量较多的情况下，我们能够显著降低重建误差。为了在半监督环境中测试我们的方法，我们使用了深度卷积神经网络（CNN）。我们的深度CNN-chitecture由两个卷积层组成，每个卷积层后有32个5×5的过滤器和整流线性单元（ReLU）激活和2×2的最大池化。我们添加了一个具有256个隐藏单元的完全见表2，我们的无限混合物与17个基地VAE已经能够超越大多数的国家的最先进的方法。只有最近提出的虚拟对抗网络[29]在小训练样本的情况下表现得比我们更好。表2. MNIST的测试错误，17个聚类和100个隐藏变量。只有[29]报告的性能比我们的更6.2. 狗实验ImageNet是一个包含1，461，406个自然图像的数据集，根据WordNet层次结构手动标记为1000个类。我们选择了一个子集的10个品种的狗为我们的实验。这10个品种是：为了说明潜在空间以及VAE的混合如何能够表示隐变量中的不确定性，我们使用此dogs子集。我们微调一个预先训练好的AlexNet[20]作为基本判别模型，并与生成模型共享参数。特别是，我们使用第7个全连接层（fc7）的4096维输出作为softmax专家和VAE au的输入到编码器。我们使用所有未标记的狗实例训练生成模型，并为每个VAE使用1000个隐藏单元，设置α=2，并使用14个自动编码器停止。我们随机选择5张狗的图像（来自这个ImageNet子集）和5张其他任何东西的图像（来自方法/标签1001000所有伪标签[23]10.493.640.81EmbedNN [45]16.95.733.59中文（简体）3.33±0.142.40±0.020.96对抗性[9]0.78虚拟对抗[29]2.661.500.64±0.03[32]第三十二话8.10±0.953.680.12±1.31PEA [2]5.212.642.30[34]第三十四话4.34±2.311.710.070.790.05±基线CNN8.62±1.874.16±0.350.68±0.02无限混合3.93±0.52.29±0.20.6±0.025894z1z1z1z1z1图6.通过在Dogs数据集上训练我们的VAE无限混合物发现了二维潜在空间。我们随机选择了5张狗的图像和5张其他任何东西的图像，并在每个VAE中绘制了它们的潜在表征（第一维为z1，第二维为z2每个圆的位置表示给定图像在该空间中的密度平均值，其半径是方差（分别为图1中的µ和σ如图所示，非狗的代表（蓝色圆圈）通常远离狗（红色圆圈）聚集此外，狗比非狗具有更小的方差，因此VAE不确定在训练期间未看到的图像的表示方法/标签10010004000所有AlexNet[20]69.59± 3.2186.72± 0.6689.88± 0.0390.26± 0.25无限混合75.81± 1.8389.28± 0.1990.68± 0.0591.69± 0.17潜在VAE+SVM49.81± 1.8763.28± 0.6474.8±0.279.6±0.7潜在混合+SVM58.1±2.6372.28 ±0.279.8±0.1883.9±0.24表3.测试AlexNet在狗数据集上的准确性，并与我们在前两行中提出的方法进行后两行比较了从单个VAE获得的潜在表示与我们的。使用Creative Common License闪烁），如图6所示。我们绘制了这些图像在5个学习混合物VAE中的2维潜在表示。在每个图中，潜变量z的密度的平均值确定圆心的位置，方差显示为半径（我们使用二元高斯的平均方差更好地说明圆）。这些值是从每个VAE网络计算的，如图1中的µ和σ。如图所示，非狗的图像通常在该潜在空间中聚集在一起，这表明它们被识别为不同的。此外，非犬的方差普遍高于犬。因此，即使当非狗的平均值没有足够的区分性时（在该VAE中，狗和非挖掘没有足够好地聚类分开），我们也不确定不是狗的表示这种不确定性导致分配给给定VAE（来自等式3）的概率较低，并且随后在学习专家模型的混合时权重较小。在表3中，AlexNet在这个狗子集上的准确性被显示出来，并与我们的无限混合方法进行了比较。如图所示，无限混合执行得更好，特别是对于较小的标记实例。此外，当在SVM中使用时，无限混合物的潜在表示（计算为期望）显着优于单个VAE。这说明了我们的模型能够更好地捕捉潜在的表示。方法/标签10004000所有[10]第十话31.9Maxout [11]9.38GDI [33]8.27Conv-Large [34，39]23.3± 30.619.27[34]第三十四话20.09± 0.469.27[12]第十二话10.08± 1.128.04±.217.5±0.01VAE的无限混合8.72±0.457.78±0.137.5±0.02表4.在CIFAR10上使用不同数量的标记训练样本测试错误。[34]中报告的结果不包括图像增强。虽然[39]中的原始方法似乎可以通过增强提供高达2%的6.3. CIFAR数据集CIFAR-10数据集[19]由10类自然32×32RGB图像组成，其中50，000张图像用于训练，10，000张图像用于测试。我们的实验表明，单一的VAE不能很好地编码这个数据集这一点也得到了证实[22]。然而，由于我们的目标是执行半监督学习，因此我们使用残差网络（ResNet）[12]作为图像表示中的成功模型，用于区分学习，以与我们的生成模型共享参数。该模型对于无监督方法可能不足以解决的复杂问题非常有用。此外，自动编码器试图保留重建图像所需的像素值的分布，而此信息对最终分类预测的影响最小。因此，结合生成模型的这种参数共享z2z2z2z2z25895etShapenpPano3DDee每次tmaxApprole Sof我们的歌859590表5。在我们的方法中，使用单个VAE与预期潜在变量来训练SVM的潜在变量表示的ModelNet10精度80757050 1002505007501000199520003991此外，表5示出了从来自我们的无限混合物和单个VAE的样本获得的潜在表示的准确度比较，如图所示，我们的方法中预期的潜在代表性明显更具歧视性，已标记实例图7. ModelNet 10与3D Shapenet [46]和Deep-Pano [37]相比，平均超过3次试验。为了更好的预测，分类器是必要的。因此，我们微调ResNet并使用第127层的输出作为VAE的输入我们使用2000个隐藏节点和α=2来训练具有15个VAE的无限混合。对于训练，我们通过在每侧填充4个像素和随机裁剪来增强训练图像。表4报告了运行我们的方法的测试误差在这个数据集上。如图所示，我们的VAE无限混合与强大的判别模型相结合，在该数据集中表现出最先进的水平当使用所有的这是因为在较大的标记训练大小下，生成模型提供的实例权重被平均并失去其影响力，因此所有专家变得相似。另一方面，对于较小的标记示例，每个softmax专家都专注于数据的特定方面。6.4. 3D ModelNet[46]中引入了ModelNet数据集来评估3D形状分类器。ModelNet有151，128个3D模型，分为40个对象类别， ModelNet10 是基于 NYUv2 数据集中类的子集[38]。3D模型被体素化以适应30×30×30网格，并通过12次旋转进行增强。对于判别模型，我们使用类似于[27]的卷积架构，其中我们有一个3D卷积层，具有32个大小为5和步幅为2的过滤器，大小为3和步幅为1的卷积，大小为2的最大池化层和128维完全连接层。与CIFAR-10实验类似，我们分享VAE的无限混合和判别softmax之间的最后一个全连接层的参数如图7所示，当使用整个数据集时，我们的无限混合和[27]中的最佳结果以92%的准确率匹配。然而，随着我们减少标记训练示例的数量，很明显，我们的方法优于单个softmax分类器。有效，优于单一VAE。这是因为，我们考虑到输入的变化，并适应输入的复杂性。虽然单个VAE必须完整地捕获数据集，但我们的方法可以自由选择和拟合。我们对2D和3D图像的实验表明，初始卷积层对于VAE能够将输入编码到专家混合最佳表现的潜在空间中起着至关重要的作用该3D模型进一步说明了决策函数主要取决于生成模型的内部结构，而不是像素值的重构。当我们与VAE的生成无限混合共享判别模型的参数并学习专家的混合时，我们将数据的各种表示结合起来，以获得更好的预测。7. 结论在本文中，我们采用贝叶斯非参数方法，提出了一个无限的混合变分自动编码器，可以增长，以代表输入的复杂性此外，我们使用这些自动编码器来创建用于半监督学习的专家混合模型。在2D图像和3D形状中，我们的方法在各种数据集中提供了我们进一步表明，这种混合物，其中每个组件学习表示数据的特定方面，能够使用比单个整体模型更少的总参数产生更好的预测。无论模型是生成性的还是判别性的，这都适用。此外，在最终目标是分类的半监督学习中，已证明区分模型和生成模型之间的参数共享可提供更好的预测精度。在未来的工作中，我们计划扩展我们的方法，使用变分推理，而不是更好的效率抽样。此外，在贝叶斯范式下，引入一种新的变分损失，使输入和输出的联合概率最小化，从而在样本数较少的情况下，进一步提高了预测精度.精度方法/标签1001000所有VAE潜伏期+SVM64.2179.0982.71MixtureLatent+SVM74.0183.2685.685896引用[1] E.阿巴斯内贾德，S.桑纳E.诉博尼利亚，普帕特通过狄利克雷过程和高斯过程的混合来学习基于社区的偏好。在第二十三届国际人工智能联合会议的会议中，IJCAI中国科学院出版社，2013年。1[2] P. Bachman，O. Alsharif和D. 准备学习伪合奏。在Z. GhahramaniM. 威灵角 Cortes ， N. D. Lawrence 和 K. Q.Weinberger，编辑，神经信息处理系统进展27，第3365Curran As-Sociates，Inc.2014. 6.1[3] K. Chen和S.王.半监督学习的正则化提升。在j.C.普拉特D.Koller，Y.Singer和S. T. Roweis，编辑，Advances in Neural Information Processing Systems20，第281-288页。Cur-ran Associates，Inc. 2008.2[13] N. L. 约特角Holmes，P. Mülle r和S. G. 瓦尔克河。贝叶斯非参数学，第28卷。剑桥大学出版社，2010年。1[14] K.在Kim，J. Tompkin，H. Pfister和C.希奥博尔特具有显式关系正则化的半监督学习。IEEE计算机视觉与模式识别会议（CVPR），2015年6月2[15] F.康河，巴西-地Jin和R.苏克坦卡相关标签传播及其在多标签学习中的应用在Proceedings of the2006IEEEComputerSocietyConferenceonComputer Vision and Pattern Appropriation-Volume2，CVPRIEEE计算机协会。2[16] D. Kingma和J.BA. 亚当：一种随机优化方法ArXiv电子印刷品，2014年12月。6[17] D.金玛（ P. Kingma ）、 S.Mohamed ， D.J.Rezeland，以及M.威林使用深度生成模型的半监督学习。在Z.Ghahramani，M. 威林[4] M. Cote'和H.拉罗谢尔无限受限C. Cortes，N.Lawrence和K.Weinberger编辑玻尔兹曼机 CoRR，abs/1502.02476，2015。2[5] D. Dai和L. V.Gool包围投影用于半监督图像分类。在2013年IEEE计算机视觉国际会议论文集，ICCVUSA，2013. IEEE计算机协会。2[6] S. Ebert，M. Fritz和B.席勒半监督学习预算：Scaling Up to Large Datasets ，第 232-245 页。Springer Berlin海德堡，柏林海德堡，2013年。2[7] Y. Fu和L.西格半监督式词汇学习。CVPR，2016年。2[8] A. Gelman，J. B. Carlin和H. S.胸骨切开术组贝叶斯数据分析，第2卷。2014. 1[9] I. Goodfellow，J.普热-阿巴迪米尔扎湾，澳-地许、D.沃德-法利，S。奥扎尔A. Courville和Y.本吉欧。生成性对抗网。在Z. GhahramaniM. 威灵角 Cortes ， N. D. Lawrence 和 K. Q.Weinberger，编辑，神经信息处理系统进展27，第2672Curran As-Sociates，Inc.2014. 2、6.1[10] I. J. Goodfellow，A. Courville和Y.本吉奥。大规模特征学习与尖峰和板稀疏编码。在2012年国际机器学习会议上。6.3[11] I. J. 古德费罗D. 沃德法利M. 米尔扎A. Courville和Y.本吉奥。Maxout Networks.ArXiv电子印刷品，2013年2月。6.3[12] K.他，X。Zhang，S. Ren和J.太阳用于图像识别的深度残差学习。 CoRR ， abs/1512.03385 ，2015。1、6.3、6.35897神经信息处理系统27，第3581-3589页。Curran Associates，Inc. 2014年2、6.1[18] D. P.Kingma和M.威林自动编码变分贝叶斯。在 2014 年的国际学习表征会议（ICLR）上。第1、3条[19] A. Krizhevsky和G.辛顿从微小的图像中学习多层特征。2009. 6.3[20] A.克里热夫斯基岛Sutskever和G. E.辛顿使用深度卷积神经网络的Im-agenet分类。在P.巴特利特，F.佩雷拉角，巴西-地伯吉斯湖Bot-tou和K. Weinberger，编辑，神经信息处理系统进展25，第1106- 1114页2012. 6.2、6.1[21] H. Larochelle，M.曼德尔河Pascanu和Y.本吉奥。分类限制玻尔兹曼机的学习算法。机器学习研究杂志，2012年。2[22] A. B. L. Larsen ， S. K.SAznderb y ， H.Larochelle和O.温瑟使用学习的相似性度量对像素之外的像素进行自动编码。2016年第33届机器学习国际会议。6.3[23] D.- H.李你伪标签：简单高效的深度神经网络半监督学习方法。在表征学习挑战研讨会，ICML，第3卷，第2页，2013年。6.1[24] C. Leistner，A.Saffari，J.Santner和H.比肖夫半监督随机森林 ICCV，2009年。2[25] A.马赫扎尼J. Shlens，N.杰特利和我好家伙。对抗性自动编码器。 arXiv 预印本arXiv：1511.05644，2015。25898[26] P. K.马拉普拉加达河Jin，杨花A. K. Jain和Y.刘某Semiboost：用于半监督学习的提升。IEEE Trans.模式分析马赫内特尔，31（11）：20002[27] D. Maturana和S.谢勒VoxNet：用于实时对象识别的3D卷积神经网络InIROS，2015. 6.4[28] I. Misra、A. Shrivastava和M.赫伯特观看并学习：从视频中进行对象检测器的半监督学习。CoRR，abs/1505.05769，2015年。2[29] T. Miyato，S.- I.前田，M。Koyama，K. Nakae，以及S.石井虚拟对抗训练的分布平滑。在2016年国际学习代表会议上。第二条、第六条第一款、第二款[30] K. P. 墨菲机器学习：一个可能的前景。MITPress，2012. 5[31] Orbanz和Y. W.茶贝叶斯非参数模型机器学习百科全书，第81-89页。Springer，2011. 1[32] N.皮泰利角Russell和L.阿加皮托使用无监督地图集的半监督学习，第565-580页。Springer Berlin海德堡，柏林海德堡，2014年。6.1[33] Y. Pu、X. Yuan、云南A.史蒂文斯角Li和L.卡琳一个深度生成的解卷积图像模型。ArXiv电子印刷品，2015年12月。6.3[34] A. Rasmus，H.瓦尔波拉湾Honkala，M. Berglund和T.莱子使用梯形网络的半监督学习。在第28届神经信息处理系统国际会议论文集，NIPSUSA，2015.麻省理工学院出版社. 6.1、6.3、4[35] C. E.拉斯穆森无限高斯混合模型。在神经信息处理系统的进展12，第554MIT Press，2000.4[36] C. E. Rasmussen和Z. Ghahramani高斯过程专家的无限组合。于 T. G. Diet-terich ， S. Becker 和 Z.Ghahramani ，编辑， AdvancesinNeuralInformation Processing Systems 14，第881-888页。MIT Press，2002. 4[37] B. Shi，S.白氏Z. Zhou和X.柏Deeppano：用于三维形状识别的深度全景表示。IEEE信号处理快报，22（12）：23392015年12月。7[38] N. Silberman，D. Hoiem、P.Kohli和R.

下载后可阅读完整内容，剩余1页未读，立即下载