无监督学习中的AET与AED自动编码方法比较研究

49 浏览量更新于2023-10-18 收藏 997KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1AET与AED：通过自动编码转换而不是数据的无监督表示学习张立恒1，张伟，祁国军1，2，<$，王立强3，罗杰波41机器感知与学习实验室（MAPLE）http://maple-lab.net/2华为云、3中佛罗里达大学、4罗切斯特大学guojun.huawei.comhttp://maple-lab.net/projects/AET.htm摘要深度神经网络的成功通常依赖于大量的标记示例，这在许多真实场景中很难获得。为了应对这一挑战，无监督方法是在不使用任何标记数据的情况下训练神经网络的首选方法。在本文中，我们提出了一种新的无监督表示学习的自动编码转换（AET）相比，传统的自动编码数据（AED）的方法。给定一个随机采样的变换，AET试图预测它仅仅从编码的功能，尽可能准确地在输出端。其思想如下：只要无监督特征成功地编码了关于原始图像和变换图像的视觉结构的基本信息，就可以很好地预测变换。我们将证明，这种AET范式允许我们实例化各种各样的变换，从参数化到非参数化和GAN诱导的变换。我们的实验表明，AET大大改善了现有的无监督方法，在CIFAR-10，ImageNet和Places数据集上，通过完全监督的对立面，设置了新的最先进的性能，大大超过了上界。我们的源代码可在 https://github.com/maple-research-lab/AET上获得。1. 介绍将深度神经网络应用于图像分类、目标检测和语义分割的巨大成功，启发了我们探索它们在各种计算机视觉任务中的全部能力。不幸的是，工作是在L.张在华为云实习。†通讯作者：G.- J. Qi。电子邮件地址：guojunq@gmail.com(a) 自动编码数据（AED）(b) 自动编码转换（AET）图1：AED和AET之间的说明性比较，其中AET试图估计输入transformation- mation，而不是在输出端的数据。这迫使编码器网络E提取包含关于视觉结构的足够信息的特征以解码输入变换。深度神经网络通常需要大量标记的数据来学习用于视觉理解任务的适当特征表示当只有有限数量的标记数据可用于训练网络时，这极大地限制了深度神经网络的适用性。因此，在文献中，人们越来越感兴趣的是以无监督的方式学习深度特征表示，以解决标记数据不足的新兴视觉理解任务在无监督学习方法的努力中，最具代表性的是自动编码器和生成对抗网络（GAN）[11]。前者训练编码器网络以输出具有suf的特征表示，25472548通过配对解码器重构输入图像的有效信息。在文献中已经提出了许多自动编码器的变体[12，15]，但它们都坚持在输出端重建输入数据的基本相同的想法，因此我们将它们分类为图1（a）中所示的自动编码数据另一方面，GAN通过使用一对经过逆向训练的生成器和卷积器从输入噪声中生成图像，以无监督的方式学习特征表示。输入到发生器中的噪声可以看作是其输出的特征表示，因为它们包含了通过发生器产生相应图像所必需的信息为了获得每个图像的以这种方式，给定输入图像，编码器可以直接输出其噪声表示，通过生成器产生原始图像[6，8]。这结合了AED和GAN模型的优势。最近，这些模型在许多无监督和半监督任务中成为自动编码器的流行替代方案，因为它们可以整体生成照片级逼真图像的分布，从而可以从训练的生成器中导出更好的特征表示除了自动编码器和GAN之外，还存在各种不使用人工标记数据的自监督学习方法。这些方法创建了自我监督的目标来训练网络。例如，Doersch et al.[5]提出通过预测两个随机采样的补丁的相对位置来训练神经网络。Mehdi和Favaro [18]报告通过解决拼图来训练卷积神经网络。在文献[30，17]中，图像着色也被用作训练卷积网络的自监督任务。相反，Dosovitskiy etal.[7]训练神经网络，区分一组代理类人工形成的各种变换图像补丁，而Gidaris等人。[10]尝试对四个离散角度的图像旋转进行分类。这些方法在视觉结构的各个层次上探索监督信号，以训练网络，而无需手动标记数据。通过估计连续帧之间移动对象的自运动，也可以从视频中提取无监督特征[1]。相比之下，我们有动力通过自动编码转换（AET）而不是数据本身来学习无监督的特征表示。具体而言，通过对一些算子进行采样来变换图像，我们试图训练自动编码器，该自动编码器可以从原始图像和变换图像之间的学习特征表示直接重建这些算子。我们相信，只要训练的特征具有足够的信息量，我们就可以解码来自图像视觉结构编码特征的转换。相比之下，自动编码数据（AED）的典型范例在图1中，AET专注于探索不同变换下特征表示的动态，从而不仅揭示静态视觉结构，而且揭示它们如何通过应用不同变换而改变。此外，对所提出的AET框架中可应用的变换的形式没有限制。这使我们能够灵活地探索各种各样的变换，从简单的图像变形到任何参数和非参数变换。我们将在实验中证明AET表示优于其他无监督模型，大大推动最先进的无监督方法更接近完全监督对应方的上限。本文的其余部分组织如下。我们首先在第2节回顾了相关的工作，然后在第3节正式提出了所提出的AET模型。我们在第4节中进行实验，将其性能与其他最先进的无监督模型进行比较。最后，我们在第5节中总结了结论。2. 相关工作自动编码器。在文献[13，14，27]中已经广泛研究了以无监督方式学习表示的自动编码器架构的使用。这些现有的自动编码器都是基于在输出端通过一对编码器和解码器重构输入数据。编码器充当特征的提取器，该特征通常完整地表示关于输入数据的最基本信息，而解码器被联合训练以根据所提取的特征来恢复输入数据其思想是，一个好的特征表示应该包含足够的信息来重建输入数据。根据自动编码数据（AED）的这种范例，已经提出了宽范围例如，变异自动编码器[15]明确引入了关于从数据中提取的特征分布的概率假设。去噪自动编码器[27]旨在通过从噪声损坏的输入重建原始输入来学习更多的鲁棒表示。对比自动编码器[26]使给定数据周围的表示突然变化，从而鼓励表示不变性对输入数据进行小扰动。Zhang等人[29]提出了一种交叉信道自动编码器，其通过从另一子集重构数据信道的子集，其中交叉信道特征被连接为数据表示。Hinton等人[12]在胶囊网络的上下文中提出了一种变换自动编码器，其仍然通过最小化重建图像和目标图像之间的差异来以AED方式进行训练。从概念上讲，这不同于所提出的AET，AET旨在通过直接最小化端到端自动编码器架构中的输入和输出变换来学习无监督特征。2549生成对抗网络。除了自动编码器之外，生成对抗网络（GAN）还以无监督的方式训练数据的网络表示。与自动编码器不同，GAN试图从随机分布的噪声中直接生成数据。通过将采样噪声看作是真实数据流形上的坐标，可以将它们作为特征来表示数据。为此，通常需要训练数据编码器以找到可以通过GAN生成器生成输入图像的噪声。这可以通过联合训练一对相互逆的生成器和编码器来实现[6，8]。GAN与自动编码器不同的一个突出特点是，它们不依赖于输出端输入数据的一对一重建。相反，他们专注于发现和生成数据在底层流形上的整个分布。最近的进展表明，正则化GANs在基于真实数据分布的Lipschitz假设生成看不见的数据方面具有很好的泛化能力[23，2]，这表明GANs在提供图像表达方面具有巨大潜力[6，8，9]。自我监督表征学习。在除了自动编码器和GAN，其他无监督学习方法探索各种自监督信号来训练深度神经网络。这些自监督信号可以直接从数据本身导出，而无需手动标记。例如，Doersch et al.[5]使用图像中两个随机采样块的相对位置作为自监督信息来训练模型。Mehdi和Favaro [18]提出通过解决拼图来训练卷积神经网络。Noroozi等人[19]学习满足下采样和平铺图像之间等价关系的计数特征，以及Gi- daris等人。[10]通过在离散集中对图像旋转进行分类来训练神经网络。Dosovitskiy等人[7]通过对一组代理类进行分类来训练C-NN，每个代理类都是通过对单个图像应用各种变换而形成的。然而，所得到的特征可能会过度区分视觉上相似的图像，因为它们总是属于不同的代理类，并且训练成本要昂贵得多，因为每个训练示例都会导致单独的代理类。自监督学习的思想已经被用于通过移动对象的自运动来训练视频的特征表示[1]。总之，这种类型的方法使用自监督目标而不是手动标记的数据来训练网络3. AET：提议的方法我们将在本节中详细介绍自动编码转换（AET）的建议范例.首先，我们将在第3.1节中正式介绍AET的公式。然后，我们将在3.2节中用不同类型的变换实例化AET。3.1. 制定假设我们从一个离散T采样一个变换t（例如，图像扭曲，投影变换，甚至GAN诱导的变换，c.f.更多详情见第3.2它被应用于从数据分布X中绘制的图像x，产生x的变换版本t（x）。我们的目标是学习一个编码器E：x›→E（x），它旨在提取样本x的表示E（x）。同时，我们希望学习解码器D：[E（x），E（t（x））]→t，其通过从编码的表示进行解码来给出输入变换的估计t原始图像和转换后的图像。由于对输入变换的预测是通过编码的特征而不是原始图像和变换后的图像进行的，因此它迫使模型提取表达性特征作为代表图像的代理。自动编码变换（AET）的学习问题现在归结为联合训练特征编码器E和变换解码器D。为此，让我们选择一个损失函数，它量化了变换t和它的估计t之间的差异。然后AET可以通过使这种损失最小化来解决，minE（t，t）E，DtT， xX其中变换估计是编码器E和解码器D的函数，使得t=D[E（x），E（ t（x））]，并且期望值E被取在采样的变换和数据上。与训练其他深度神经网络一样，E和D的网络参数通过反向传播损失函数的梯度在小批量上联合更新。3.2. AET家族各种各样的变换可以很容易地并入到AET配方。在这里，我们讨论了三种类型，参数化，GAN诱导和非参数化变换，以实例化AET模型。参数化变换。设我们有一个变换族T={tθ|其中它们的参数θ是从分布Θ中采样的。相当于-ly定义了参数化变换的分布，其中每个变换都可以用其参数表示，并且变换之间的损失可以是通过它们参数的差异来捕捉。为例如，仿射变换和射影变换等许多变换可以用变换前后图像的齐次坐标之间的参数化矩阵M（θ）∈R3×3来这样的矩阵捕获由giv引起的几何结构的变化n变换，因此可以直接定义25502（tθ，tθ22在目标和估计的转换之间。在实验中，我们将比较这一类别中的参数化转换的不同实例GAN诱导变形。一可以选择其他没有明确几何含义像仿射变换和射影变换。让我们考虑一个GAN生成器，它在真实图像的流形上变换输入。例如，在[24]中，局部生成器G（x，z）是用采样的随机噪声z学习的，该噪声z参数化给定图像x周围的底层变换。这有效地定义了GAN引起的变换，使得tz（x）=G（x，z），其中变换参数为z。可以直接选择在噪声参数r-1之间的损失22s，并训练网络D以从编码器网络的特征E（x）和E（tz（x））E. 与经典变换相比，图像中的低级外观和几何结构，GAN诱导的变换可以改变图像中的高级例如，GAN已经证明了他们在面部图像中操纵年龄，头发，性别和戴眼镜等属性以及改变卧室图像中的家具布局的能力[25]。这使得AET能够探索更丰富的变换家族，以学习更具表现力的表示。非参数转换。即使变换t∈ T很难参数化，我们仍然可以通过测量随机采样图像的变换之间的平均差来定义损失τ（t，τt）从形式上讲，图2：用于在CIFAR-10数据集上训练和评估AET的网络架构的图示。损失（1）不能准确地反映变换之间的实际因此，我们建议使用基于参数的损失的AET与参数化的变换。我们已经表明，广泛的转换可以采用在训练AET。在本文中，我们将专注于参数化变换，因为它们不涉及训练额外的模型，如GAN诱导的变换，或者需要选择辅助变换来近似非参数形式。这使我们能够与实验中所示的文献中的无监督方法进行此外，GAN诱导的变换在很大程度上依赖于变换图像的质量，但现有的GAN模型仍然是（t，xX iist（t（x），it（x））（1）l无法以高分辨率生成具有细粒度细节的高质量图像。因此，我们把它留给未来的S-其中，dist（·，·）是两个经变换的图像之间的距离，并且期望值是在随机样本上取得的对于输入非参数变换t，我们还需要一个解码器网络，它输出一个变换矩阵t来估计输入变换。这可以通过选择一个参数化变换tθ= tθt来估计t。尽管非参数t可能不落在pa的空间rameterizedtransformations，这种近似对于无监督学习应该足够了，因为我们的最终目标不是获得输入变换的准确估计;相反，我们的目标是学习一个好的特征表示，以给出在参数化变换空间中可以实现的最佳估计。请注意，参数化变换也可以插入到等式中。（1）通过最小化该损失函数来训练相应的AET然而，在实验中，我们发现性能不如AET训练与基于参数的损失。这很可能是由于研究了用于训练AET表示的GAN诱导和非参数4. 实验在本节中，我们将在CIFAR-10、ImageNet和Places数据集上评估所提出的AET模型，并将其与不同的无监督方法进行比较。无监督学习通常通过使用学习的表示来间接地基于分类性能进行为了公平比较，我们遵循文献中广泛采用的测试4.1. CIFAR 10实验首先，我们在CIFAR-10数据集上评估AET模型。我们考虑两种不同的变换-仿射变换和25514.1.1体系结构和实施细节为了与现有的非监督模型进行公平和直接的比较，我们采用了网络中网络（NIN）架构，该架构在CIFAR-10数据集上成功地表现出了具有竞争力的性能，用于无监督学习任务[10]。如图2顶部所示，NIN由四个卷积块组成，每个卷积块包含三个卷积层。AET有两个NIN分支，每个分支分别以原始图像和变换后的图像作为输入。两个分支的第四块的输出特征被连接并平均汇集以形成384-d特征向量。然后，输出层跟随以预测输入变换的参数。这两个分支共享相同的网络权重，并用作编码器网络，为输入图像生成特征表示。AET网络由SGD训练，批量大小为512幅原始图像及其转换后的对应图像。动量和权重衰减设置为0。9和5×10−4。学习率初始化为0。在240、480、640、800和1000个历元之后，预定下降5该模型总共训练了1500个epoch。对于AET-仿射，仿射变换是一个范围的组合dom旋转[−180<$，180<$]，随机平移±0。2的图像高度和宽度在垂直和水平方向上，以及随机缩放因子[0. 七，一。[3]，以及[-30，30]度的随机剪切。对于AET-射影，形成了射影变换通过将图像的四个角在水平和垂直方向上随机平移±0.125.第125章他的一句话，一句话，一句话八，一。2]并旋转0°、90°、180°或270°。我们比较了下面两种模型的结果，并证明两者都优于其他现有的模型和AET-project比AET-affine表现得更好4.1.2评价方案为了评估由非监督模型表示的质量，通常在学习的特征上训练分类器。具体来说，在我们对CIFAR-10的实验中，我们遵循现有的评估协议[21，7，25，20，10]，在第二个卷积块上构建分类器。请参见图2的底部，其中前两个块被冻结，而它们上面的分类器则使用标记的示例进行训练我们评估的分类结果，使用AET功能与基于模型和无模型的分类器。对于基于模型的分类器，我们训练了一个具有三个全连接（FC）层的非线性分类器-两个隐藏层中的每一个都或者，我们还测试了卷积分类器上的unsuper-表1：CIFAR-10上无监督特征学习方法的比较。完全监督的NIN和随机初始化。+ conv具有相同的三块NIN架构，但第一个是完全监督的，而第二个是在前两个块的顶部训练的，前两个块是随机初始化的，并在训练期间保持冻结。方法错误率监督NIN（下限）7.20随机初始化+ conv（上限）27.50Roto-Scat + SVM [21]17.7CNN [7]15.7DCGAN [25]17.2[20]第二十话15.3[10]第十届全国政协委员10.94RotNet + conv [10]8.84（Ours）AET-仿射+FC9.77（Ours）AET-仿射+卷积8.05（我们的）AET项目+FC9.41（Ours）AET-项目+会议7.82图3：不同模型的KNN错误率比较，CIFAR-10上最近邻的数量K通过添加第三个NIN块，将其输出特征图平均合并并连接到线性软最大分类器，从而提供特征。此外，我们还测试了无模型的KNN分类器的基础上平均池输出功能的第二个卷积块。KNN分类器具有无需使用标记示例训练模型的优点。这使得在评价阶段对非监督特征表示的质量进行了更直接的评价4.1.3结果在表1中，我们在CIFAR-10上比较了AET模型与完全监督和无监督方法。首先，我们注意到，具有卷积分类器的无监督AET项目几乎实现了与具有四个卷积块的完全监督NIN对应物相同的错误率（7. 82%vs. 7.2%）。这是一个了不起的成果证明AET能够训练无人监督的fea-2552表2：RotNet与在CIFAR-10上使用不同的分类器进行评估。选择RotNet作为基线，因为它具有与无监督训练完全相同的架构。这里n-FC表示n层全连接（FC）分类器，KNN是用K=10个最近邻获得的.括号中的数字是错误率相对减少的相对值。RotNet基线。KNN1-FC2-FC3-FCconv[10]第十话24.9718.2111.3410.948.84AET-仿射23.07（↓7.6%）17.16（↓5.8%）9.77（↓13.8%）10.16（↓7.1%）8.05（↓8.9%）AET项目22.39（↓10.3%）16.65（↓8.6%）9.41（↓17.0%）9.92（↓9.3%）7.82（↓11.5%）与CIFAR-10上的监督对应物相比，Tures的性能差距要小得多此外，在表1中，April优于其他无监督方法。例如，ExamplarCNN还对图像进行各种变换，包括旋转、平移、缩放，甚至更多，如操纵对比度和颜色。然后，它通过对生成的代理类进行分类来训练无监督CNN，每个代理类包含单个图像的所有变换版本与ExamplarCNN [7]相比，AET在表3：ImageNet上非线性层的Top-1准确度。AlexNet被用作训练非监督模型的骨干。在无监督特征学习之后，非线性分类器在Conv4和Conv5层上使用标记的示例进行训练，以比较它们的性能。我们还比较了完全监督模型和随机模型，给出了上界和下界的性能。为了进行公平比较，在AET中仅应用单一裁剪，并且在测试期间不应用脱落或局部响应正常化。错误率，这意味着它可以探索图像变换更有效地训练无监督网络。值得指出的是，在CIFAR-10上，其他报告的方法[21，7，25，20，10]通常基于不同的无监督网络和有监督分类器进行评估，因此很难对它们进行直接比较。结果仍然表明，最先进的性能可以通过Ablation达到，因为它们的错误率非常接近完全监督的对应物所设置的预约束下限实际上，可以选择表1中的RotNet作为比较的基线，因为它是用与AAVO相同的网络和分类器训练的。这样就可以直接进行公平竞争。从结果来看，April成功地击败了RotNet的全连接（FC）和卷积-在学习的表示之上的al分类器。我们还比较了使用KNN分类器和表2中的不同FC层训练时的April与此基线。结果表明，无论使用哪种分类器，AET-项目都能始终实现最小的错误。在图3中，我们还比较了不同近邻数的KNN结果。同样，AET-project在不涉及任何标记示例的情况下表现最好。无模型的KNN结果表明，AET模型具有优势时，没有标签的训练分类器上的无监督的功能。在下面的ImageNet实验中，许多现有的方法在文献中与相同的无监督AlexNet架构以及其上的我们将直接进行公平的比较，结果表明，AET仍然大大优于其他无监督方法。4.2. ImageNet实验我们进一步评估的性能AET的ImageNet数据集。AlexNet被用作学习无监督特征的主干。在CIFAR-10上的实验结果表明，投影变换在AET模型的训练上具有更好的性能，因此我们在此报告AET-project的实验结果。架构和培训细节。两个具有共享参数的AlexNet分支分别以原始图像和变换图像作为输入来创建以训练无监督的AET项目。来自两个分支中的倒数第二个全连接层的4096维输出特征被连接并馈送到输出层，产生八个投影变换参数。我们仍然使用SGD来训练网络，批量大小为768张图像及其相应的转换版本，动量为0。9，a重量衰减为5×10−4。初始学习速率设置为方法Conv4 Conv5ImageNet Labels [3]（Upper Bound）59.7 59.7随机[19]（下限）27.1 12.0追踪[28] 38.8 29.8背景[5]彩色化[30] 40.7 35.2[18]第十八话BiGAN [6] 41.9 32.2[3]第三节DeepCluster [4]-44.0[10]第10话（我们的）AET项目2553表4：ImageNet上线性层的Top-1准确度AlexNet被用作骨干来训练比较中的无监督模型一个1000路的线性分类器是在各种各样的特征图的卷积层上训练的，这些特征图在空间上被调整了大小，大约有9000个元素。完全监督和随机模型也被报道显示无监督模型性能的上限和在AET测试期间，仅使用单一作物，并且不使用丢弃或局部响应归一化，除了用 * 表示的模型，其中应用十个作物来比较结果。方法Conv1Conv2Conv3Conv4Conv5ImageNet Labels（上限）[10]19.336.344.248.350.5随机（下限）[10]11.617.116.916.314.1随机重标度[16]（下限）17.523.024.523.220.6背景[5]16.223.330.231.729.6[22]第二十二话14.120.721.019.815.5彩色化[30]12.524.530.431.530.3[18]第十八话18.228.834.033.927.1BiGAN [6]17.724.531.029.928.0[29]第二十九话17.729.335.435.232.8计算[19]18.030.634.332.525.7[第10话]18.831.738.738.236.5（我们的）AET项目19.232.840.639.737.7DeepCluster*[4]13.432.341.039.638.2（我们的）AET项目 *19.335.444.043.642.40的情况。01，并且在时期100时下降10倍，150. AET总共训练了200个epoch。最后，应用的投影变换以与CIFAR-10相同的方式随机采样结果首先，我们按照[18]中的评估协议在ImageNet上报告了表3中比较方法的Top-1准确率。采用两种设置进行评估-Conv 4和Conv 5例如，在Conv4设置中，Conv5和三个全连接层在标记的示例上训练，包括最后1000路输出层。从结果来看，在这两种设置中，AET模型成功地击败了其他比较的无监督模型。特别是，在比较的模型中，BiGAN [6]训练基于GAN的无监督模型，并学习基于数据的自动编码器，以将图像映射到无监督表示。因此，它可以被视为结合了GAN和AED模型的优势。结果表明， AET 的性能明显优于BiGAN，这表明它至少在该实验设置中优于GAN和AED范例。我们还与完全监督模型进行了比较，这些模型通过使用所有标记数据训练整个AlexNet来提供上限性能。随机模型的分类器在具有随机采样权重的Conv4和Conv5上训练，并且它们建立了下界。性能从比较中可以看出，AET模型极大地缩小了与上界的性能差距--与上界Top-1精度的差距从9。7%和15.RotNet和DeepCluster在Conv4和Conv5上分别为7%，达到6。5%和12。7%，分别相对收窄33%和19%此外，我们亦按照[29]通过在表4中不同数量的卷积层上训练1000路线性分类器来比较模型。同样，AET在所有比较的无监督模型中获得了最好的准确性4.3. 地点实验我们还在Places数据集上进行了实验。作为如表5所示，我们评估了在ImageNet数据集上预训练的无监督模型然后，在具有地点标签的特征图的多层上训练单层逻辑回归分类器。因此，我们认为无监督特征从一个数据集到另一个数据集的可推广性。我们的模型仍然基于AlexNet变体，就像ImageNet实验中使用的那些变体一样。我们还比较了使用Places标签和ImageNet标签训练的完全监督模型以及随机网络。结果表明，在大多数情况下，AET模型的性能优于其他无监督模型，除了Conv1和Conv2，Counting [19]的性能略好。4.4. 谓词变换分析虽然我们的最终目标是学习好的代表-的图像，这是有见地的，看看预测变换的准确性及其与超2554表5：具有线性层的Places数据集的Top-1精度。一个205路逻辑回归分类器是在不同层次的特征图上训练的，这些特征图在空间上被调整大小，大约有9000个元素。所有无监督特征都在ImageNet数据集上进行了预训练，当使用Places标签训练逻辑回归层时，这些特征会被冻结我们还将它们与使用Places Labels和ImageNet标签以及随机模型训练的完全监督网络进行了比较。最高精度值以粗体显示，第二高精度值以下划线显示。方法Conv1Conv2Conv3Conv4Conv5[31]第三十一话22.135.140.243.344.6ImageNet标签22.734.838.439.438.7随机15.720.319.819.117.5[16]第十六话21.426.227.126.124.0背景[5]19.726.731.932.730.9[22]第二十二话18.223.223.421.918.4彩色化[30]16.025.729.630.329.7[18]第十八话23.031.935.034.229.3BiGAN [6]22.028.731.831.329.7[29]第二十九话21.330.734.034.132.5计算[19]23.333.936.334.729.6[第10话]21.531.035.134.633.7（我们的）AET项目22.132.937.136.234.7(a)CIFAR-10（b）ImageNet图4：错误率（前1精度）与在CIFAR-10和ImageNet数据集上，电子邮件的AET损失。分级性能。如图4所示，转换预测损失（即，AET损失被最小化以训练模型）与CIFAR-10和ImageNet上的分类误差和Top-1准确度很好地对齐这表明，通过使用学习的特征，更好地预测变换是更好的分类结果的良好替代这证明我们选择AET来监督特征表示的学习是合理的。在图5中，我们还比较了原始图像的一些示例，以及AET模型输入端和输出端的转换图像。这些示例显示了该模型可以很好地解码来自编码图像特征的变换，从而提供无监督表示，在我们的实验中，这些表示在分类图像时具有竞争力。5. 结论在本文中，我们提出了一种新的自动编码转换（AET）范式的无监督训练，图5：原始图像（顶部）的一些示例，以及AET模型的输入（中间）和预测（底部）转换的对应物。神经网络与传统的自动编码数据（AED）方法形成对比。通过在输出端估计随机采样的变换，AET迫使编码器学习良好的表示，使得它们包含关于原始图像和变换图像两者的视觉结构的足够信息。我们证明了各种各样的转换可以很容易地纳入到这个框架中，实验结果表明，国家的最先进的perfor- mances的实质性改进，显着缩小了差距，在文献中完全supervised同行。6. 确认这项工作是在Liheng Zhang在华盛顿州西雅图的华为云实习期间完成的，而这个想法是由Guo-Jun Qi构思和制定的。2555引用[1] P. Agrawal，J. Carreira和J.马利克学习通过移动来观察。IEEE International Conference on Computer Vision，第37-45页，2015年。二、三[2] M. Arjovsky，S.Chintala和L.博图Wasserstein ganarXiv预印本arXiv：1701.07875，2017。3[3] P. Bojanowski和A. Joulin通过预测噪声的无监督学习。arXiv预印本arXiv：1704.05310，2017。6[4] M. Caron，P. Bojanowski，A. Joulin和M.杜兹用于视觉特征的无监督学习的深度聚类arXiv预印本arXiv：1807.05520，2018。六、七[5] C.多尔施A. Gupta和A. A.埃夫罗斯通过上下文预测的无监督视觉表示学习。在IEEE计算机视觉国际会议的Proceedings，第1422-1430页，2015年。二三六七八[6] J. 多纳休山口Kr aühenbuühl 和 T. 达雷尔。adversarialfeature-ture learning.arXiv 预印本 arXiv ：1605.09782，2016。二三六七八[7] A. 多索维茨基T. Springenberg，M. Riedmiller和T.布洛克斯使用卷积神经网络的判别式无监督特征学习。神经信息处理系统的进展，第766-774页，2014年。二三五六[8] V. Dumoulin， I. 贝尔加齐， B. 普尔 O. 马斯特罗彼得罗A. Lamb，M. Arjovsky和A.考维尔逆向学习推理。arXiv预印本arXiv：1606.00704，2016。二、三[9] M. Edraki和G.- J. Qi。具有流形边缘的广义损失敏感在2018年欧洲计算机视觉会议（ECCV 2018）的会议记录中。3[10] S. Gidaris，P. Singh，and N.小木通过预测图像旋转的无监督表示学习。arXiv预印本arXiv：1803.07728，2018。二、三、五、六、七、八[11] I. 古德费罗 J. 波吉特-阿巴迪 M. 米尔扎 B. 许、D. 沃德-法利，S。奥扎尔A.Courville和Y.本吉奥。生成对抗网络。在神经信息处理系统的进展，第2672-2680页，2014年。1[12] G. E. Hinton，A. Krizhevsky和S. D.王.变换- ING自动编码器。国际人工神经网络会议，第44-51页。Springer，2011. 2[13] G. E. Hinton和R. S.泽梅尔自动编码器，最小描述长度和亥姆霍兹自由能。神经信息处理系统的进展，第3-10页，1994年。2[14] N. Japkowicz，S. J. Hanson和M. A.格鲁克非线性自联想不等同于主成分分析。神经计算，12（3）：531-545，2000。2[15] D. P.Kingma和M.威林自动编码变分贝叶斯。arXiv预印本arXiv：1312.6114，2013。2[16] P. Kr aühenbuühl，C. Doersch，J. Donahue和T. 达雷尔。卷积神经网络的数据相关初始化。arXiv预印本arXiv：1511.06856，2015。七、八[17] G. Larsson，M. Maire和G.沙赫纳洛维奇学习自动着色的表示。在欧洲计算机视觉上，第577施普林格，2016年。22556[18] M. Noroozi和P.法瓦罗通过解决拼图游戏进行视觉表示的无监督学习在欧洲计算机视觉会议上，第69施普林格，2016年。二三六七八[19] M. Noroozi，H. Pirsiavash和P.法瓦罗通过学习计数进行表征学习。IEEE国际计算机视觉会议（ICCV），2017。三六七八[20] E. Oyallon，E. Belilovsky和S.扎戈鲁伊科扩展散射变换：深度混合网络。2017年国际计算机视觉会议（ICCV）。五、六[21] E. Oyallon和S.马拉特用于对象分类的深度旋转平移散射在IEEE计算机视觉和模式识别会议论文集，第2865-2873页五、六[22] D.作者：P. Krahenbuhl，J.多纳休，T. Darrell和A. A.埃夫罗斯上下文编码器：通过图像修复进行特征学习。在IEEE计算机视觉和模式识别会议论文集，第2536-2544页七、八[23] G.- J. Qi。基于Lipschitz密度的损失敏感生成对抗网络。arXiv预印本arXiv：1701.06264，2017。3[24] G.- J. Qi，L. Zhang，H. Hu，M. Edraki，J. Wang和X.-S.华全局与局部生成对抗网络。在IEEE计算机视觉和模式识别会议（CVPR）上，2018年。4[25] A.拉德福德湖，澳-地Metz和S.钦塔拉使用深度卷积生成对抗网络进行无监督表示学习arXiv预印本arXiv：1511.06434，2015。四五六[26] S. Rifai，P. Vincent，X. Muller，X. Glorot和Y.本吉奥。收缩式自动编码器：特征提取过程中的显式不变性。第 28 届国际机器学习集，第 833-840 页。Omnipress，2011年。2[27] P. Vincent，H. Larochelle，Y. Bengio和P A.曼扎戈尔用去噪自动编码器提取和合成鲁棒特征第25届国际机器学习会议集，第1096-1103页。ACM，2008年。2[28] X. Wang和A.古普塔。使用视频的视觉表示的无监督学习IEEE国际计算机视觉会议，第2794-2802页，2015年6[29] R. Zhang，P.Isola和A.A. 埃夫罗斯裂脑自动编码器：通过跨通道预测的无监督学习。二七八[30] R. Zhang，P.Isola和A.A. 埃夫罗斯彩色图像着色。欧洲计算机视觉会议，第649-666页。施普林格，2016年。二、六、七、八[31] B. Zhou ，中国古柏A. Lapedriza ， J. Xiao 、肖氏 A.Torralba和A.奥利瓦使用地点数据库学习用于场景识别的深度特征。神经信息处理系统，第487-495页，2014年。8

下载后可阅读完整内容，剩余1页未读，立即下载