一种通用的半监督神经网络及其在联想学习中的应用

4 浏览量更新于2023-10-16 收藏 912KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

89通过联想一种通用的半监督神经网络Philip Haeusser1，2Alexander Mordvintsev2Daniel Cremers11个部门慕尼黑工业大学{haeusser，cremers}@ in.tum.de2Google，Inc.moralex@google.com摘要在许多现实场景中，特定机器学习任务的标记数据半监督训练方法利用大量可用的未标记数据和较少数量的标记示例。我们提出了一个受人类学习启发的深度神经网络优化调度鼓励正确的关联循环，这些循环结束于关联开始的同一类，并惩罚结束于不同类的错误关联。该实现易于使用，可以添加到任何现有的端到端培训设置中。我们展示了几个数据集上的联想学习能力，并表明它可以通过利用额外可用的未标记数据来极大地提高分类任务的性能特别是，对于标记数据很少的情况，我们的训练方案在SVHN上的表现优于当前最先进的技术。1. 介绍一个孩子能够很快地学习新的概念，而不需要数百万个单独指出的一旦孩子看到一只狗，他或她将能够识别其他狗，并在随后接触更多种类的狗时变得更好。在训练计算机执行类似任务方面，深度神经网络在机器学习模型中表现出优越的性能（ [20 ， 18 ，10]）。然而，这些网络的训练方式与学习儿童截然不同，每个训练示例都需要标签，遵循纯粹的监督训练方案。神经网络由大量待优化的参数定义。因此，需要过多的标记训练数据，这可能是昂贵和耗时的图1. 通过联想学习。一个网络（绿色）被训练来产生嵌入（蓝色），如果属于同一个类，则具有高度相似性从标记（A）到未标记（B）数据的嵌入和返回的可微关联循环（红色）用于评估关联。消费以获得。我们希望在没有标签的情况下（无监督地）或仅使用一部分标记的数据（半监督地）来训练机器学习模型。最近，已经努力以无监督或半监督的方式训练神经网络，产生有希望的结果。然而，这些方法中的大多数都需要技巧来生成训练数据，例如从图像中采样块用于上下文预测[6]或生成代理类[7，22，13]。在其他情况下，半监督训练方案需要非平凡的额外架构，例如生成对抗网络[9]或解码器部分[39]。我们提出了一种新的训练方法，遵循直观的方法：通过关联学习（图1）。我们通过网络提供一批标记数据和一批未标记数据，为两批数据生成嵌入。然后，从标记批次中的样本向未标记批次中的样本发送假想步行者。该转换遵循从我们称为关联的各个嵌入的相似性获得的概率分布。为了评估关联是否有意义，第二步回到标记的批次-再次由嵌入之间的相似性现在很容易90检查循环是否在开始时的同一类结束我们希望最大化一致周期的概率，即，返回到同一类的遍历。因此，网络被训练来产生嵌入，这些嵌入捕获不同类的本质，利用未标记的数据。此外，可以指定分类损失，将嵌入推广到实际的目标任务。关联操作是完全可区分的，有助于任意网络架构的端到端训练。任何现有的分类网络都可以通过我们定制的损失函数进行扩展。总而言之，我们的主要贡献是：• 一种新颖而简单的训练方法，允许对任意网络架构进行半监督端到端训练。我们称之为“联想学习”的方法。• 我们的方法的开源TensorFlow实现1• 大量的实验表明，提出的方法提高性能高达64%相比，纯粹的监督的情况下。• MNIST和SVHN的结果具有竞争力，当只有少数标记样品可用时，后者超过了最新技术水平。2. 相关工作利用未标记数据训练神经网络的挑战已经使用各种不同的方法来解决虽然这项工作遵循半监督的方法，但其动机也与纯粹的非监督方法有关。第三类相关的工作是由生成的方法。2.1. 半监督训练半监督训练范式在过去并不是神经网络最流行的方法之它已成功应用于SVM [14]，其中未标记的样本作为额外的正则化器，因为决策边界需要对未标记的样本也具有较宽的裕度。一种适用于神经网络的训练方案是用从模型自己的预测中获得的附加标记数据引导模型[22]为未标记的样本引入伪标签，这些样本只是具有最大预测概率的类别。然后同时训练标记和未标记的样本结合去噪自动编码器和丢弃，这种方法在MNIST上产生了有竞争力的结果。1https://git.io/vyzrl其他方法将自动编码器部分添加到现有网络中，目的是实施有效的表示（[27] [37][39]）。最近，[30]引入了一个正则化项，它使用未标记的数据将神经网络的决策边界推到决策空间的不太密集的区域，并在分类任务中强制类的互斥性。当与[31]中的强制随机变换不变性的成本函数相结合时，可以获得各种分类任务的最新结果。2.2. Pennsylvania无监督训练无监督训练显然比半监督方法更普遍。但是，区分确切的目的很重要。虽然半监督训练允许对网络学习的内容进行一定程度的指导，但无监督方法的有效性在很出于探索性的目的，可能希望表示对于数据集中一个类的不同子类型变得更细粒度。相反，如果最终目标是分类，那么对这种现象的不变性可能更可取。[12]建议使用受限玻尔兹曼机（[33]）以自动编码器的方式用未标记的数据逐层预训练网络[11][19][39]在自动编码器上构建神经网络，该自动编码器充当正则化器并鼓励捕获输入本质的表示。一个全新的无监督训练类别是从数据中生成替代标签。[13]采用产生弱标签的聚类方法。[7]从数据集的转换样本生成代理类这些转换具有手动调整的参数，使其不平凡，以确保它们能够表示任意数据集中的变化。在[6]的工作中，上下文预测被用作替代任务。该网络的目标是预测图像中两个随机采样块的相对位置补丁的大小需要手动调整，使得图像中的对象的部分不会过采样或欠采样。[34]采用多层LSTM进行无监督图像序列预测/重建，利用视频的时间维度作为各个帧的上下文。2.3. 生成对抗网络（GANs）生成对抗网络（GAN）[9]在无人监督的训练中启用了一门新的学科。一个生成器网络（G）和一个神经网络（D）被联合训练，其中G试图生成看起来好像是从未标记的数据集中绘制的图像，而D被认为是识别真实样本之间的差异91IJ和生成的。除了提供令人信服的vi-最后，正确行走的概率变为结果表明，这些网络学习有用，等级表示[26]。[32]介绍了在设计和训练GAN方面的改进，特别是这些作者实现了最先进的P（正确行走）=1|一|Σ伊日阿巴伊杰（四）ART导致在MNIST、CIFAR-10和SVHN上的半监督分类。3. 联想学习我们的工作背后的一个一般假设是，如果好的嵌入属于同一个类，那么它们将具有很高的相似性。我们希望优化CNN的参数，以产生良好的嵌入，同时利用标记和未标记的数据。一批标记和未标记的图像（分别为Aimg和Bimg）通过CNN馈送，从而产生嵌入向量（A和B）。然后我们想象一个步行者根据相互的相似性从A到B，然后回来。如果walker最终到达的类与他开始时所在的类相同，则步行是正确的。一般方案如图1所示。3.1. 数学公式目标是最大化从A到B再回到A的正确行走的概率，最终到达同一个类。A和B是矩阵，其行索引其中ij惠class（Ai）= class（Aj）。我们定义多个损失，鼓励直观的目标。这些损失可以合并，如第4所述。L总计=L步行者+L访视+L分类（5）沃克输了我们的联合循环的目标是一致性。当遍历在与起始样本具有相同类的样本处结束时，遍历是一致这种损失会惩罚不正确的遍历，并鼓励遍历到正确类的均匀概率分布。均匀分布模拟了这样一种想法，即允许在与起始样本不同的样本处结束遍历，只要两者属于同一个类。步行者损失被定义为正确往返T的均匀目标分布与往返概率Paba之间的交叉熵H。我是沃克。 =H （ T ， Paba ）（6）具有均匀目标分布.分批让A和B作为Tij。=1/#class（Ai）class（Ai）=class（Aj）（7）0其他我是。=Ai·Bj（1）注意，点积通常可以由任何其他相似性度量（诸如欧几里德距离）代替。在我们的实验中，点积在收敛方面效果最好。现在，我们通过在列上对M进行softmaxing，将这些相似性转换为从A到B的Pab= P（Bj|Ai）。=（softmax（M））ij（2）其中#class（Ai）是类（Ai）在A中出现的次数。访问损失。在未标记的批次中可能存在困难的样本，例如MNIST中绘制不正确的数字。为了最好地利用所有未标记的样本，“访问”所有这些样本应该是有益的，而不仅仅是在“容易”的样本之间进行关联。这鼓励了更好地泛化的嵌入。访问损失被定义为均匀目标分布之间的交叉熵HIJΣ=exp（Mij）/j′exp（Mij′）V和访问概率P访问。如果无监督批处理包含许多在有监督批处理中不存在的类，则这种正则化可能是有害的，并且需要相反，我们得到另一个方向的转移概率，Pba，通过用MT代替M。我们现在可以定义从Ai开始到A i结束的往返概率。相应地加权.我来看你。=HV、P访问（八）在AJ：爸爸=（PabPba）ijΣABBA（三）其中，B中示例的访问概率和均匀目标分布定义如下：P访问。（9）=PikPkjK伊季Vj. =1/|B|（十）P92分类损失。到目前为止，只讨论了嵌入的创建。这些嵌入可以通过添加一个额外的全连接93在网络顶部使用softmax和交叉熵损失。我们称这种损失为分类损失。这种到类的映射对于在测试集上评估网络的性能是必要的然而，即使没有它，也可以实现趋同。3.2. 执行使用Adam [16]和建议的默认设置使总损失Ltotal我们应用了第4节中提到的随机数据增强。训练过程在TensorFlow [1]中端到端实现，代码是公开的。4. 实验为了证明我们提出的训练范例的能力，我们在各种数据集上进行了不同的实验。除非另有说明，否则我们对标记批次A（每类10个样本）和未标记批次B均使用以下批量为100的网络架构：C（32，3）→C（32，3）→P（2）→C（64，3） →C（64，3）→P（2）→C（128，3） →C（128，3） →P（2）→FC（128）这里，C（n，k）代表具有大小为k×k且步幅为1的n个核的卷积层P（k）表示窗口大小为k×k且步幅为1的最大池化层。FC（n）是具有n个输出单元的全连接层。卷积层和全连接层具有指数线性单位（elu）激活函数[3]和附加的L2权重正则化器，权重为10−4。有一个额外的FC层，映射嵌入在产生嵌入的最后一个FC层之后的用于分类的logit，即，FC（10）为10类。4.1. MNISTMNIST数据集[21]是包含用于监督分类的手写数字的基准。带有变换的互斥正则化（[31]）之前已经在这个基准上设定了半监督深度学习方法的最新技术水平。我们训练上面提到的简单结构与我们的方法一起使用，具有3.1节中的所有三种损失，并获得了如表1所示的竞争性结果。我们甚至还没有开始探索可能进一步改进我们的结果的复杂的额外正则化方案这些第一个实验的主要目的是测试一个人可以多快地使用香草架构获得有竞争力的结果，纯粹是通过添加我们提出的训练方案。在下文中，我们将探索一些有趣的、易于重现的特性。4.1.1协会的演变未经训练的网络已经能够根据生成的嵌入进行一些初步关联。然而，进行了许多错误的关联，并且仅访问了无监督批次（B）中的少数样本：那些最类似于监督批次（A）中的示例。随着训练的进行，这些联系会变得更好。访问损失确保B中的所有样本以相等的概率被访问。图2显示了这种演变。显示了每个类别具有2个标记样本的设置的原始样本，其中A为绿色，B为红色。关联是自上而下建立的.请注意，第二组绿色数字等于第一组（“往返”）。图2中的顶部图形显示了训练开始时的访问概率。较暗的线表示较高的概率（软最大点积）。图2中的下图显示了训练收敛后的关联。这需要10k次迭代，在此期间，仅将相同的20个标记样本用于A，并且从数据集的其余部分随机抽取B的样本，忽略标签。4.1.2混淆分析即使在训练收敛之后，网络仍然会出错。这些错误是可以解释的。图3示出了用于分类任务的混淆矩阵。在左侧，示出了来自标记集合（A）的所有样本（每类10个）。被分类为不正确的那些样本表达了在监督训练集中不存在的特征，例如，“7”中间有一个横条（误认为是“2”）或“4”中间有一个闭环（误认为是“9”）。显然，A需要在某种程度上代表数据集，这通常是机器学习任务的情况。4.2. STL 10STL-10是来自10个类别的RGB图像的数据集[4]。有5k个标记的训练样本和100k个未标记的训练图像，它们来自相同的10个类和标记集合中不存在的其他类。为此，我们对网络架构进行了如下轻微修改：C（32，3）→C（64，3，步幅=2）→P（3）→C（64，3） →C（128，3） →P（2）→C（128，3） →C（256，3） →P（2）→FC（128）作为预处理步骤，我们对通过网络提供的所有样本应用各种形式的数据增强。特别是，随机裁剪，亮度，饱和度，色调和小旋转的变化我们使用从A的标记训练集中每个类随机选择的100个样本进行训练（即我们仅使用20%的标记训练图像），并在测试集上实现了81%的准确率。因为这并不完全符合94方法标记样本1001000所有[28]第二十八话0.89（0.50）--改进GAN† [32]0.93（0.07）--互斥+转换。[三十一]0.55（0.16）-0.27（0.02）我们0.89（0.08）0.74（0.03）0.36（0.03）表1. MNIST上的结果。测试集的误差（%）（越低越好）。括号中的标准偏差。†：关于置换不变MNIST的结果。图2. 协会的演变。顶部：在训练开始时，经过几次迭代。下：收敛后。绿色数字是监督集（A），红色数字是来自非监督集（B）的样本。根据数据集创建者建议的测试协议，我们不想声称该实验的最新技术水平，但确实认为这是一个有希望的结果。[13]按照所提出的方案实现了76.3%。未标记的训练集包含许多其他类，并且检查训练网络与它们的关联是有趣的。图4显示了来自未标记训练集的样本的5个最近邻（余弦距离）。余弦相似度显示在每个关联的左上角。请注意，这些数字并不软-最大了。已知类（上面两行）大多数都正确关联，而新类（下面两行）与其他类关联，但暴露了有趣的连接：海豚的鳍让人想起三角形物体的网，比如飞机机翼的小翼。一只猫鼬看向右边，就意味着一只狗看向同一个方向，或者一只眼睛周围有黑点的浣熊。不幸的是，未出现在标记训练集中的类的嵌入似乎不能很好地组合在一起;相反，它们往往接近已知类95图3.MNIST分类。左上：用于训练的所有标记样本右：混淆矩阵与所犯的错误。测试误差：0.96%。左下角：测试中的错误分类示例。表示。图4. 来自未标记训练集的样本的最近邻。最左边的列显示了样本，其他5列是余弦距离的最近邻居（显示在图片的左上角）。4.3. SVHN街景门牌号（SVHN）数据集[25]包含从谷歌街景图像中提取的门牌号数字。我们使用格式2变体，其中数字被裁剪为32x32像素。这种变体在结构上与MNIST相似，但统计数据要复杂得多，变化也更丰富。训练子集和测试子集分别包含73，257和26，032个数字。我们使用以下架构进行了与MNIST相同的实验C（32，3）→C（32，3）→C（32，3）→P（2）→C（64，3） →C（64，3） →C（64，3） →P（2）→C（128，3） →C（128，3） →C（128，3） →P（2） →FC（128）通过应用随机仿射变换和高斯模糊来模拟SVHN中明显的变化来实现数据增强。4.4. 添加未标记数据的效果为了量化使用我们的方法将未标记数据添加到训练过程中的有用性，我们使用不同数量的标记和未标记数据训练了相同的网络架构对于没有未标记数据的情况，只有L分类是活动的。在存在标记数据的其他情况下，我们优化Ltotal。我们在10个随机选择的数据子集上运行网络，并报告中位数和标准差。表3显示了SVHN的结果。我们使用（标记的）SVHN训练集作为数据语料库，从中随机选择子集作为标记集和未标记集。这两个集合之间可能存在重叠，这意味着报告的错误率可以被视为上限。让这对应于表3中最左边的列。毫不奇怪，使用的标记样本越多，测试集的错误就越低我们现在添加未标记的数据。对于只有20个标记样本（每个类别2个）的设置，基线是0个额外未标记样本的错误率为81.00%随着更多未标记样本的添加，性能会下降这种设定似乎是病态的：取决于数据集，有一个最小数量的样本需要进行有效的概括。在所有其他具有更多标记样本的场景中，我们观察到的一般模式是，性能随着更大量的未标记数据而提高。这表明，它确实是可能的，以提高网络的性能，只是通过添加未标记的数据使用拟议的例如，在500个标记样品的情况下，可以将测试误差降低64.8%（从17.75%降低到6.25%）。当在标记批次中使用所有数据时（表3中的最后一行），会发生特定情况：这里，未标记组中的所有样品也在标记组中。这意味着未标记的集合不包含新信息。尽管如此，对未标记的数据进行联想学习Lwalker和Lvisit作为一个有益的正则化子，加强了属于同一类的嵌入的相似性。这意味着，在使用纯监督训练方案的情况下，自相关学习也可以提供帮助，而不需要额外的未标记数据。4.5. 访问损失第3.1介绍了不同的损失。我们想调查一下我们计划的访问失败的影响。为此目的，96方法标记样本50010002000中文（简体）36.02（0.10）虚拟对抗[24]24.63辅助深度生成模型[23]22.86[23]第二十三话16.61（0.24）[32]第三十二话18.44（4.8）8.11（1.3）6.16（0.58）[32]第5.88（1.0）相互排他性+转型。* [三十一]9.62（1.37）4.52（0.40）3.66（0.14）我们6.25（0.32）5.14（0.17）4.60（0.21）表2. SVHN的可比方法结果。测试集的误差（%）（越低越好）。括号中的标准偏差。* * 作者提供的结果。标记数量样品未标记样本0100020000所有2081.00（3.01）81.98（2.58）82.15（1.35）82.10（1.91）10055.64（6.54）39.85（7.19）24.31（7.19）23.18（7.41）50017.75（0.65）12.78（0.99）6.61（0.32）6.25（0.32）100010.92（0.24）9.10（0.37）5.48（0.34）5.14（0.17）20008.25（0.32）7.27（0.43）4.83（0.15）4.60（0.21）所有3.09（0.06）2.79（0.02）2.80（0.03）2.69（0.05）表3. SVHN上的结果与不同数量的（总）标记/未标记的训练数据。测试集的误差（%）（越低越好）。括号中的标准偏差我们在不同的数据集上训练网络，并改变L访问的损失权重，保持L分类和L沃克的损失权重不变。表4示出了结果。获得了最差的随访，无访视丢失。对于MNIST，访问损失是成功培训的关键。对于SVHN，约0.25的适度失重导致最佳性能。如果访问减肥太高，效果似乎是超过正规化的网络。.这表明访视减重需要根据数据集内的变化进行调整。如果标记批次和未标记批次（尺寸相同）中的样本分布不太相似，则访视失重应较低。4.6. 域适应对表示效率的测试是将模型应用于域适应（DA）任务[29]。一般的想法是在来自源域的数据上训练模型，然后使其适应来自目标域的相似但不同的数据。在神经网络的背景下，DA主要是通过在源域上训练网络后在目标域上微调网络（[36，15]），或者通过设计一个具有多个输出的网络来实现的。97域（[5，38]），有时称为双输出。作为使用联想学习的DA的第一次尝试，我们尝试了以下过程，该过程是微调和双输出的混合：我们首先在源域上训练一个网络，如第4节所述。然后，我们只将无监督数据集交换为目标域数据并继续训练。请注意，在这里，在训练时根本没有使用目标类的标签。作为一个基线示例，我们选择了一个在SVHN上训练的网络。我们将来自SVHN（源域）的标记样本和来自MNIST（目标域）的未标记样本输入到网络中，该网络具有最初用于在源域上进行训练的架构，并使用我们基于关联的方法对其进行微调。未应用数据增补。最初，该网络在MNIST测试集上实现了18.56%的错误一些SVHN例子与MNIST有足够的相似性，以至于网络识别出了相当数量的手写数字。然后，我们用上述两个数据源训练网络，访问损失的权重为0.5。后98数据集访视体重减轻00.250.51MNISTSVHN5.68（0.53）7.91（0.40）1.17（0.15）6.31（0.20）0.82（0.12）6.32（0.07）0.85（0.04）6.43（0.26）表4. 访问损失的影响。响应的误差（%）测试集（越低越好）的不同值的访问减肥。报告的是整个训练过程中最小错误率的中位数，括号中为标准差实验使用1，000个随机选择的标记样本作为监督数据集进行数据方法域（源→目标）SVHN→ MNIST源仅美国[8]DS [2]我们45.1040.818.56适配美国[8]DS [2]我们26.15（42.6%）17.3（58.3%）0.51（99.3%）只针对美国[8]DS [2]我们0.580.50.38表5. 域适应。目标测试集上的错误（%）（越低越好）。“仅源”和“仅目标”是指仅在相应数据集上训练而没有域适配。“DA”和“DS”分别代表域对抗训练和域分离网络。括号中的数字表示覆盖了下限和上限之间的差距。9k次迭代后，网络在MNIST测试集上达到了0.51%的准确度，这比我们用来自MNIST的100或1000个标记样本训练网络时达到的准确度更高第4.1）。为了比较，[2]一直保持采用域分离网络的域自适应的最新技术水平。表5将他们的结果与我们的结果进行了对比。我们的第一个DA试验性训练方法大大优于传统方法因此，我们的结论是，学习的as-sociation是一个有前途的培训计划，鼓励有效的嵌入。深入分析联想学习对领域适应的影响，可以揭示成功地将我们的方法应用于大规模问题设置的5. 结论我们提出了一种新颖的半监督训练方案，该方案完全可区分，易于添加到扩展的端到端设置中。关键思想是鼓励从la的嵌入中获得周期一致的关联链，将数据与未标记的数据进行比对。该代码可公开获取。虽然我们没有采用ResNet [10]或Inception [35]等复杂的网络架构，但我们使用所提出的方法训练的简单网络获得了有竞争力的结果。我们已经证明了如何添加未标记的数据显着改善结果，特别是当标记的样本的数量是小的，超过了最先进的SVHN与500个标记的样本。在未来的工作中，我们计划系统地研究联想学习对领域适应问题的适用性。研究数千个类的可扩展性，甚至可能是完全不同的问题，如分割，将是未来研究的主题99引用[1] M. Abadi、A.Agarwal，P.Barham，E.Brevdo，Z.陈先生，C.西特罗湾S. Corrado，A. Davis，J. Dean，M. Devin等人Tensorflow：异构分布式系统上的大规模机器学习。arXiv预印本arXiv：1603.04467，2016。4[2] K. Bousmalis，G. Trigeorgis，N. Silberman，D. Krishnan和 D. 二汉域分离网络。 arXiv 预印本 arXiv ：1608.06019，2016。8[3] D.- A. Clevert，T. Unterthiner和S. Hochreiter。通过指数线性单元（elus）进行快速准确的深度网络学习。arXiv预印本arXiv：1511.07289，2015。4[4] A. Coates，H. Lee和A. Y. Ng.单层网络在无监督特征学习中的分析。Ann Arbor，1001（48109）：2，2010. 4[5] R.科洛伯特，J.韦斯顿L.博图M. 卡伦K. Kavukcuoglu和P.库克萨自然语言处理（几乎）从零开始。 Journal of Machine Learning Research ， 12（Aug）：2493-2537，2011. 7[6] C.多尔施A. Gupta和A. A.埃夫罗斯通过上下文预测的无监督视觉表示学习。在IEEE计算机视觉国际会议的Proceedings，第1422-1430页，2015年。一、二[7] A. 多索维茨基T. Springenberg，M. Riedmiller和T.布洛克斯使用卷积神经网络的判别式无监督特征学习。神经信息处理系统的进展，第766-774页，2014年。一、二[8] Y. Ganin，E.乌斯蒂诺娃Ajakan山口Germain，H.拉罗谢尔F.拉维奥莱特M Marchand和V。Lempitsky神经网络的领域对抗训练。Journal of Machine Learning Research，17（59）：1-35，2016。8[9] I. 古德费罗 J. 波吉特-阿巴迪 M. 米尔扎 B. 许、D. 沃德-法利，S。奥扎尔A.Courville和Y.本吉奥。生成对抗网络。神经信息处理系统进展，第2672-2680页，2014年。一、二[10] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习arXiv预印本arXiv：1512.03385，2015。1、8[11] I.希金斯湖，澳-地Matthey，X. Glorot，A.帕尔湾乌里亚角Blun-dell，S. Mohamed和A. Lerchner早期视觉概念学习与无监督深度学习arXiv预印本arXiv：1606.05579，2016年。2[12] G. 辛顿限制玻尔兹曼机训练实用指南Momentum，9（1）：926，2010. 2[13] C. 黄角Change Loy和X.唐判别属性和视觉表示的无监督在IEEE计算机视觉和模式识别会议论文集，第5175-5184页一、二、五[14] T. Joachims基于支持向量机的文本分类直推推理。ICML，第99卷，第200-209页，1999年。2[15] Y. Kim. 用于句子分类的卷积神经网络arXiv预印本arXiv：1408.5882，2014。7[16] D. Kingma和J. BA. Adam：一种随机优化方法。arXiv预印本arXiv：1412.6980，2014。4[17]D. 金玛（P. Kingma）、S. Mohamed，D. 希门尼斯·雷泽，和M.威林半监督学习与深度生成100模型在 Z. Ghahramani ， M. 威灵角 Cortes ， N. D.Lawrence和K. Q. Weinberger，编辑，神经信息处理系统进展，第3581Curran Associates，Inc. 2014. 7[18] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分类与深度卷积神经网络。在F. 佩雷拉角，巴西-地J. C. 伯吉斯湖Bottou和K.Q.Weinberger ，编辑， Advances in Neural InformationProcessingSystems25 ，第 1097-1105 页 CurranAssociates，Inc. 2012. 1[19] Q. 诉乐使用大规模非监督学习构建高级特征2013年IEEE声学、语音和信号处理国际会议，第8595IEEE，2013。2[20] Y.勒昆湖Bottou，Y. Bengio和P.哈夫纳基于梯度的学习应用于文档识别。 Proceedings of the IEEE ， 86（11）：2278-2324，1998. 1[21] Y.勒昆角Cortes和C. J·伯吉斯mnist手写数字数据库，1998。4[22] D.- H.李你伪标签：简单高效的深度神经网络半监督学习方法。在表征学习挑战研讨会，ICML，第3卷，第2页，2013年。一、二[23] L. 马埃岛，C. K. 桑德比S. K. Sønderby，O. 温瑟辅助深度生成模型。 arXiv 预印本 arXiv ：1602.05473，2016年。7[24] T. Miyato，S.- I.前田，M。Koyama，K. Nakae和S.石井虚拟对抗示例的分布平滑。arXiv预印本arXiv：1507.00677，2015。7[25] Y. Netzer，T.Wang，中国山核桃A.Coates，A.比萨科湾Wu，和A.Y. Ng.使用无监督特征学习读取自然图像中的数字。在NIPS深度学习和无监督特征学习研讨会上，2011卷，第4页。格拉纳达西班牙，2011年。6[26] A.拉德福德湖，澳-地Metz和S.钦塔拉使用深度卷积生成对抗网络进行无监督表示学习arXiv预印本arXiv：1511.06434，2015。3[27] M. Ranzato和M.苏莫使用深度网络对紧凑文档表示进行半监督学习。第25届机器学习国际会议论文集，第792-799页。ACM，2008年。2[28] A. 拉斯穆斯贝格伦湾洪卡拉河瓦尔波拉，T. 莱子使用梯形网络的半监督学习神经信息处理系统进展，第3546-3554页，2015年。5[29] K.萨延科湾库利斯，M。Fritz和T.达雷尔。使视觉类别模型适应新领域。在欧洲计算机视觉会议上，第213-226页。施普林格，2010年。7[30] M. Sajjadi，M. Javanmardi和T.塔斯迪森半监督深度学习的互斥性损失。2016年IEEE图像处理国际会议（ICIP），第1908IEEE，2016. 2[31] M. Sajjadi，M. Javanmardi和T.塔斯迪森用于深度半监督学习的随机变换和扰动正则化。arXiv预印本arXiv：1606.04586，2016年。二四五七[32] T. 萨利曼斯岛Goodfellow，W.扎伦巴河谷Cheung，A.Rad- ford和X.尘改进的gans训练技术。arXiv预印本arXiv：1606.03498，2016。三、五、七101[33] P. 斯摩伦斯基动力系统中的信息处理技术报告，DTIC文件，1986年。2[34] N. Srivastava、E.Mansimov和R.萨拉赫季诺夫使用lstms的视频表示的无监督学习。CoRR，abs/1502.04681，2，2015。2[35] C. 塞格迪 W. 刘先生， Y. 贾， P. Sermanet S. 里德D.安格洛夫，D。Erhan，V. Vanhoucke，和A.拉比诺维奇。更深的回旋。在IEEE计算机视觉和模式识别会议论文集，第1-9页8[36] S. Venugopalan H. 许、 J. 多纳休 M. 罗尔巴赫R. Mooney和K.萨恩科使用深度递归神经网络将视频翻译为自然arXiv预印本arXiv：1412.4729，2014。7[37] J. Weston，F.Ratle，H.Mobahi和R.科洛伯特通过半监督嵌入进行深度学习神经网络：贸易的技巧，第639Springer，2012.2[38] Z.扬河，巴西-地Salakhutdinov和W.科恩从头开始的多任务跨语言序列标记。 arXiv 预印本 arXiv ：1603.06270，2016年。7[39] J. Zhao，M.马蒂厄河 Goroshin和Y. 勒昆堆叠的什么地方自动编码器。 arXiv 预印本 arXiv ： 1506.02351 ，2015。一、二

下载后可阅读完整内容，剩余1页未读，立即下载