没有合适的资源?快使用搜索试试~ 我知道了~
181300AVT:通过自动编码变换实现无监督学习的变换等变表示0齐国俊1,2,*,张立恒1,陈昌文3,田琦401 机器感知与学习实验室(MAPLE)0http://maple-lab.net/02 华为云,4 华为诺亚方舟实验室,3 香港中文大学深圳研究院和彭城实验室0guojun.qi@huawei.com0http://maple-lab.net/projects/AVT.htm0摘要0Transformation-Equivariant Representations(TERs)的学习是由Hinton等人[16]引入的,被认为是揭示各种变换下的视觉结构的原则。它包含了著名的卷积神经网络(CNNs)作为一个特殊情况,只与平移等变换等价。相反,我们寻求以无监督的方式训练适用于一类通用变换的TERs。为此,我们提出了一种新的原则性方法,即自动编码变换(AVT),与传统的自动编码数据方法相比。形式上,给定变换后的图像,AVT通过最大化变换和表示之间的互信息来训练网络。这确保了个体图像的结果TERs包含了其视觉结构的内在信息,这些信息在广义非线性情况下会在各种变换下等变地显现出来。从技术上讲,我们证明了通过最大化互信息的变分下界可以有效地解决所得到的优化问题。这种变分方法引入了一个变换解码器来近似变换的不可计算后验,从而得到一个具有表示编码器和变换解码器的自动编码架构。实验证明,所提出的AVT模型在无监督任务上取得了新的记录,大大缩小了与监督模型之间的性能差距。0*通讯作者:齐国俊。电子邮件:guojunq@gmail.com。这个想法是由齐国俊构思和制定的,而张立恒在华为云实习期间进行了实验。01. 引言0当大量标记数据可用于训练模型时,卷积神经网络(CNNs)在取得巨大成功时表现出色。尽管缺乏坚实的理论,但人们认为图像平移的等价性和不变性在CNNs的成功中起着关键作用[6,7,34,16],特别是对于监督任务。具体而言,虽然整个网络是以端到端的方式进行训练的,但典型的CNN模型由两部分组成:输入图像通过多个卷积层的卷积特征图和将特征图映射到目标标签的全连接层的分类器。显然,监督分类任务要求全连接分类器对变换不变的标签进行预测。为了训练CNN模型,这种变换不变性准则是通过最小化标记示例上的分类错误来实现的,这些示例通过各种变换进行了增强[22]。不幸的是,如果没有标签监督,简单地应用变换不变性来学习无监督表示将导致任何输入图像的平凡常数表示。相反,不难看出通过卷积层生成的表示对变换是等变的 -平移图像的特征图也以相同的方式进行了移动,受到边缘填充效应的影响[22]。自然而然地,我们可以通过考虑超出平移的更多类型的变换(例如,图像扭曲和投影变换)来推广这个想法[6]。在本文中,我们将变换等变性的概念形式化为训练无监督表示的准则。我们希望它能够学习表示-81310这与有监督任务中的转换不变性标准相反,有监督任务旨在将表示调整为预定义任务及其标签。直观地讲,训练一个转换等变表示并不奇怪 -一个好的表示应该能够保留图像的内在视觉结构,以便在表示的视觉结构发生变化时能够外在地等变到各种变换。换句话说,在这种表示中,可以从这些在转换之前和之后很好地编码视觉结构的表示中解码出转换[37]。为此,我们提出了一种新的自动编码变换(AVT)范式,以学习针对一类通用变换的强大表示。我们从信息论的角度对其进行了形式化,考虑了图像和变换之间的联合概率。这使我们能够使用互信息来描述表示和变换之间的依赖关系。然后,AVT模型可以通过在无监督的方式下最大化互信息来直接训练,而不需要任何标签。这将确保所得到的表示包含关于图像结构的内在信息,这些信息可以被外在地转换为单个图像。此外,我们将展示通过变换和原始图像的表示直接计算出以这种方式学习的表示,而无需直接访问原始样本,这使我们能够将现有的线性变换等变表示(TERs)推广到更一般的非线性情况[31]。不幸的是,直接最大化互信息是不可行的,因为不可能准确评估与相关表示的变换的后验概率。因此,我们寻求通过引入一个变换解码器来最大化互信息的变分下界,以近似计算不可计算的后验概率。这导致了一个有效的自动编码变换(而不是数据)架构,通过联合编码转换后的图像和解码相关的变换。所得到的AVT模型与传统的自动编码器[18,19,35]有着根本性的不同,传统的自动编码器通过重构图像来学习表示。虽然可以从重构的原始图像和变换后的图像中解码出变换,但这是一个相当强的假设,因为这样的表示可能包含关于必要和不必要的视觉细节的超过足够的信息。AVT模型基于一个较弱的假设,即表示被训练为仅包含关于视觉结构的必要信息,以解码原始图像和变换之间的转换。0直观地讲,重构一个高维图像比解码具有较少自由度的变换更困难。从这个意义上讲,传统的自动编码器倾向于用每个细节来过度表示图像,无论它们是否必要。相反,AVT可以通过识别最基本的视觉结构来学习更具有一般性的表示,以解码变换,从而为下游任务提供更好的性能。本文的其余部分组织如下。在第2节中,我们将回顾有关无监督方法的相关工作。我们将在第3节中通过最大化表示和变换之间的互信息来形式化提出的AVT模型。接下来,在第4节中详细介绍变分方法。实验结果将在第5节中展示,我们在第6节中总结本文。02. 相关工作0在本节中,我们将回顾一些用于训练变换等变表示的相关方法,以及其他无监督模型。02.1. 变换等变表示0变换等变性的研究可以追溯到胶囊网络的训练思想[34, 16,17],其中胶囊被设计为具有矢量化而不是标量表示的各种变换等变性。然而,缺乏明确的训练机制来确保所得到的胶囊具有变换等变性。为了解决这个问题,文献中进行了许多努力[6, 8,24],将传统的平移等变卷积扩展到更多的变换。例如,群等变卷积(G-卷积)[6]已经发展成可以等变于更多类型的变换,以便在生成的表示之上的分类层中可以探索更丰富的几何结构。群等变性的思想也被引入到胶囊网络中[24],通过使用通用路由机制来确保输出姿态向量对一组变换具有等变性。然而,这些群等变卷积和胶囊必须以有标签的数据进行监督训练[6,24],而不能学习适用于未见任务的无监督变换等变表示。此外,它们的表示被限制为群的函数,这限制了在更灵活的表示之上训练未来分类器的能力。最近,张等人[37]提出了一种新颖的自动编码变换(AET)模型,通过学习一种表示,可以从中重构输入的变换。81320这与我们学习变换等变表示的动机密切相关,考虑到可以从原始和变换后的图像的学习表示中解码出变换。相反,在本文中,我们从信息论的角度以更加原则性的方式来处理这个问题。具体来说,我们将定义一个关于表示和变换的联合概率,这将使我们能够通过直接最大化变换和表示之间的互信息来训练无监督表示。我们希望所得到的表示能够在没有事先访问标签的情况下推广到新的任务。02.2. 其他无监督表示0自动编码器和生成对抗网络。在文献中已经研究了以无监督方式训练自动编码器的方法[18, 19,35]。大多数自动编码器是通过最小化从编码表示中重构输入数据的误差来训练的。已经提出了许多自动编码器的变体。其中之一是变分自动编码器(VAE)[20],它通过最大化数据似然的下界来训练一对概率编码器和解码器,而beta-VAE通过引入可调节的超参数来平衡潜在通道容量之间的独立约束和重构准确性[15]。去噪自动编码器[35]试图通过重构受噪声污染的数据来学习鲁棒的表示,而对比自动编码器[33]则鼓励学习对数据的小扰动不变的表示。在这方面,Hinton等人[16]通过最小化重构数据和目标数据之间的差异来提出胶囊网络。同时,生成对抗网络(GANs)也被用于在文献中训练无监督表示。与自动编码器相反,GAN模型从简单分布中绘制的噪声生成数据,通过对抗性地训练鉴别器来区分真实数据和伪造数据。采样的噪声可以被视为在流形上生成数据的表示,可以通过联合训练一对互逆的生成器和编码器来训练一个编码器来反转生成器以找到生成噪声。这可以通过联合训练一对互逆的生成器和编码器来实现[10,12]。还存在基于对真实数据分布的Lipschitz假设的更好的可推广的GANs,这可以产生训练示例之外的更强大的数据表示[10, 12,13]。与自动编码器相比,GANs不依赖于学习数据的一对一重构;相反,它们的目标是生成整个数据分布。自监督信号。还存在许多其他使用不同类型的自监督学习方法的无监督学习方法。0有监督信号用于训练深度网络。Mehdi和Favaro[25]提出使用拼图游戏来训练卷积神经网络。Doersch等人[9]通过预测图像中采样补丁之间的相对位置来训练网络,作为自我监督信息。相反,Noroozi等人[26]计算满足下采样和平铺图像之间等价关系的特征数量,而Gidaris等人[14]对离散的一组图像旋转进行分类,以训练深度网络。Dosovitskiy等人[11]通过对单个图像应用各种变换来创建一组替代类。然而,由于它们总是属于不同的替代类,所以所得到的特征可能过度区分视觉上相似的图像。还可以通过估计连续帧之间移动物体的自运动来从视频中学习无监督特征[2]。03. 表述0我们从提出的无监督学习变换等变表示(TERs)的符号开始。考虑从数据分布p(x)中抽取的随机样本x。我们从分布p(t)中采样一个变换t,并将其应用于x,得到一个变换后的图像t(x)。通常,我们考虑参数化变换的分布p(t),例如,从简单分布中采样旋转、平移和剪切常数的仿射变换,以及随机移动和插值图像的投影变换。我们的目标是学习一个无监督表示,其中包含尽可能多的信息以恢复变换。我们希望这样的表示能够紧凑地编码图像,使其在图像的视觉结构发生变换时能够等变。具体而言,我们希望学习一个编码器,将变换后的样本t(x)映射到所需表示的均值fθ和方差σθ。这导致了以下概率表示z的t(x):0z = fθ(t(x)) + σθ(t(x)) ◦ � (1)0其中�是从正态分布N(� | 0,I)中采样的,◦表示逐元素乘积。在这种情况下,概率表示z遵循条件分布pθ(z | t, x) � N � z | fθ(t(x)), σ^2θ(t(x))�,其中随机采样的变换t和输入数据x。同时,原始样本x的表示˜z可以在t设置为恒等变换时计算得到。如第1节所讨论的,我们希望学习一个对采样的变换t等变的表示z,因此应尽可能从z中恢复其信息。因此,形式化这种变换等变性的最自然选择是互信息。81330从信息论的角度来看,我们研究了表示z和t之间的互信息formation I(t, z |˜z)。互信息越大,表示z对t的推断知识就越多。此外,可以证明互信息I(t; z | ˜z)是联合互信息I(z; (t, ˜z))的下界,当I(z;x | ˜z, t) =0时,联合互信息达到最大值。在这种情况下,给定(˜z,t)后,x对z不提供额外的信息。这意味着可以直接从(˜z,t)估计z,而不需要访问原始样本x,这将线性变换等变性推广到非线性情况。有关更多详细信息,请参阅长版本[31]和本文的补充材料,我们在其中详细介绍了这种广义变换等变表示。因此,我们最大化表示和变换之间的互信息来训练模型。0maxθI(t;z|˜z)0不幸的是,这个最大化问题要求我们评估变换的后验概率pθ(t|z,˜z),这通常很难直接计算。这使得通过直接最大化上述互信息来训练表示变得不可行。因此,我们将转向一种变分方法,引入一个具有参数φ的变换解码器qφ(t|z,˜z)来近似pθ(t|z,˜z)。在下一节中,我们将详细介绍这种变分方法。04.自动编码变分变换0首先,我们提出了互信息I(t;z|x)的变分下界,可以以可行的方式在qφ上最大化。与其他变分方法(如变分自动编码器[20])中的下界数据似然不同,我们更自然地通过以下方式最大化互信息的下界[1],即表示z和变换t之间的互信息0I(t;z|˜z)=H(t|˜z)−H(t|z,˜z)=H(t|˜z)+Epθ(t,z,˜z)logpθ(t|z,˜z)0=H(t|˜z)+Epθ(t,z,˜z)logqφ(t|z,˜z)0+Ep(z,˜z)D(pθ(t|z,˜z)∥qφ(t|z,˜z))0≥H(t|˜z)+Epθ(t,z,˜z)logqφ(t|z,˜z)�˜Iθ,φ(t;z|˜z)0其中H(∙)表示(条件)熵,D(pθ(t|z,˜z)∥qφ(t|z,˜z))是pθ和qφ之间的Kullback散度,始终为非负。0我们选择最大化下界变分信息˜I(t;z|˜z)。由于H(t|˜z)与模型参数θ和φ无关,我们只需最大化0maxθ,φEpθ(t,z,˜z)logqφ(t|z,˜z)(2)0在期望p(t,z,˜z)上学习θ和φ。这种变分方法与变分自动编码器[20]不同:后者试图对数据对数似然进行下界,而我们在这里寻求对互信息进行下界。尽管两者都是基于自动编码器结构推导出来的,但互信息的下界形式比数据似然更简单-它不包含额外的Kullback-Leibler散度项,因此更容易最大化。04.1.算法0在实践中,给定一批样本{xi|i=1,∙∙∙,n},我们首先为每个样本绘制一个变换ti。然后,我们使用重参数化(1)来生成具有fθ和σθ以及采样噪声�i的概率表示zi。另一方面,我们使用正态分布N(t|dφ(z,˜z),σ^2φ(z,˜z))作为解码器qφ(t|z,˜z),其中均值dφ(z,˜z)和方差σ^2φ(z,˜z)分别由深度网络实现。通过上述样本,目标函数(2)可以近似表示为0maxθ,φ1n0i=1logN(ti|dφ(zi,˜zi),σφ(zi,˜zi))(3)0其中zi=fθ(ti(xi))+σθ(ti(xi))◦�i。0和˜zi=fθ(xi)+σθ(xi)◦˜�。0对于每个i=1,∙∙∙,n,我们选择�i,˜�i�N(�|0,I),以及ti�p(t)。04.2.架构0如图1所示,我们通过使用具有共享权重的孪生编码器网络来实现变换解码器qφ(t|z,˜z),以表示原始图像和变换后的图像,其中˜z和z分别表示采样变换的均值dφ和方差σ^2φ。我们注意到,在传统的自动编码器中,必须通过更深的解码器将误差信号反向传播以重建图像,然后再训练感兴趣的编码器。相比之下,AVT允许使用更少的变量估计变换,从而使更强的训练信号能够在编码器明显衰减之前到达。这可以更充分地训练编码器以在下游任务中表示图像。81340图1:提出的AVT的架构。原始图像和变换后的图像通过编码器pθ传入,其中1表示恒等变换,生成原始图像的表示。原始图像和变换后的表示˜z和z被采样并传入变换解码器qφ,从中采样变换t。05. 实验0在本节中,我们按照文献中的标准协议评估了提出的AVT模型。05.1. CIFAR-10实验0我们在CIFAR-10数据集上评估了AVT模型。05.1.1 实验设置0架构为了与现有模型进行公平比较,我们在CIFAR-10数据集上采用了网络内网络(NIN)进行无监督学习任务[37]。NIN包含四个卷积块,每个块包含三个卷积层。AVT有两个NIN分支,分别将原始图像和变换后的图像作为输入。我们对两个分支的第四个块的输出特征图进行平均池化和连接,形成一个384维特征向量。然后,一个输出层用于输出预测变换的均值dφ和对数方差logσ^2φ,其中对数将方差缩放为实数值。两个分支共享相同的网络权重,每个分支的前两个块被用作编码器网络,直接输出表示的均值fθ。在表示的均值之上添加了一个1×1卷积层和一个批量归一化层,用于输出对数方差logσ^2θ。0实现细节AVT网络通过批量大小为512的图像及其变换版本进行SGD训练。动量和权重衰减分别设置为0.9和5×10^-4。模型总共训练4500个epochs。学习率初始化为10^-3。然后在3000个epochs后逐渐衰减到10^-5,之前在前50个epochs后增加到5×10^-3。之前的研究[37]表明,投影变换优于仿射变换。0训练无监督模型,因此我们采用它来训练AVT进行公平比较。投影变换由图像的四个角随机平移±0.125个高度和宽度,并在缩放因子[0.8, 1.2]范围内随机旋转角度{0°, 90°, 180°,270°}组成。在训练AVT模型时,从编码器pθ(z|t,x)中随机采样一个表示,将其输入到替代解码器qφ(t|x,z)中。相比之下,为了充分利用训练下游分类任务中概率表示的不确定性,我们随机抽取并平均五个随机样本作为图像的表示。我们发现,平均随机采样的表示优于仅使用表示的均值来训练下游分类器。05.1.2 结果0与其他方法的比较。通常会根据无监督模型学习到的表示来训练一个分类器来评估性能。具体而言,在CIFAR-10上,严格遵循现有的评估协议[28, 11, 32, 27, 14,37],在第二个卷积块之上构建一个分类器。首先,我们使用AVT特征和基于模型和无模型的分类器评估分类结果。对于基于模型的分类器,我们按照[37]的方法训练一个非线性分类器,其中有三个全连接(FC)层 -每个隐藏层有200个神经元,带有批量归一化和ReLU激活函数,输出层是一个具有十个神经元的软最大层,每个神经元对应一个图像类别。我们还通过添加第三个NIN块来测试基于无监督特征的卷积分类器,其输出特征图被平均池化并连接到一个线性软最大分类器。表1显示了AVT和其他模型的结果。它比较了AVT和CIFAR-10上的完全监督和无监督方法。使用卷积分类器的无监督AVT几乎与其具有四个卷积块的完全监督NIN对应物的错误率相同(7.75% vs.7.2%)。这一显著结果表明,AVT能够大大缩小与CIFAR-10上的完全监督模型之间的性能差距。我们还在表2中评估了在无监督表示之上训练不同数量的FC层和卷积分类器时的AVT性能。结果表明,无论使用哪种分类器,AVT始终能够达到最小的错误率。基于无模型的KNN分类器的比较。我们还测试了基于第二个卷积块的平均池化特征表示的无模型KNN分类器。KNN分类器是无模型的,不需要从标记示例中训练分类器。这个1 FC2 FC3 FCconvK3510152081350表1:CIFAR-10上无监督特征学习方法的比较。完全监督的NIN和随机初始化 +卷积具有相同的三块NIN架构,但第一个是完全监督的,而第二个是在前两个块的基础上训练的,这两个块是随机初始化并在训练过程中保持冻结状态。0方法错误率0监督NIN [14](上界)7.20 随机初始化 +卷积[14](下界)27.500Roto-Scat + SVM [28] 17.7 ExamplarCNN [11]15.7 DCGAN [32] 17.2 Scattering [27] 15.3RotNet + 非线性[14] 10.94 RotNet + 卷积[14]8.84 AET-af�ne + 非线性[37] 9.77 AET-af�ne +卷积[37] 8.05 AET + 非线性[37] 9.41 AET +卷积[37] 7.820AVT + 非线性 8.96 AVT + 卷积 7.750表2:在CIFAR10上训练的不同分类器的错误率,其中n-FC表示具有n个全连接层的分类器,conv表示第三个NIN块作为卷积分类器。选择了两种AET变体进行公平直接比较,因为它们基于与AVT相同的架构,并且在之前的研究中已经超过了其他无监督表示 [37]。0AET-af�ne [37] 17.16 9.77 10.16 8.05AET-project [37] 16.65 9.41 9.92 7.820(我们的) AVT 16.19 8.96 9.55 7.750表3:在CIFAR-10上,使用不同模型计算K个最近邻的KNN错误率的比较。0AET-af�ne [37] 24.88 23.29 23.07 23.34 23.94 AET-project[37] 23.29 22.40 22.39 23.32 23.73 (我们的) AVT 22.4621.62 23.7 22.16 21.510使我们能够直接评估学习特征的质量。表3报告了使用不同最近邻数的KNN结果。再次,AVT优于0当它们用于计算图像分类的K个最近邻时,比较不同模型的表示。与小标记数据的比较。最后,我们还进行了实验,当使用少量标记示例来训练下游分类器时,对学习表示的帮助如何。表4报告了CIFAR-10上不同模型的结果。当只有少量标记示例(每类≤1000个样本)可用时,AVT优于完全监督模型。在大多数情况下,它也优于其他无监督模型。此外,如果我们在CIFAR-10上采用广泛使用的13层网络[23]来训练无监督和监督部分,错误率可以进一步显著降低,特别是当使用非常少量的标记示例时。05.2. ImageNet实验0我们进一步评估AVT在ImageNet数据集上的性能。使用AlexNet作为骨干来学习无监督特征。05.2.1 架构和训练细节0创建具有共享参数的两个AlexNet分支,分别使用原始和转换后的图像作为输入来训练无监督的AVT。两个分支中倒数第二个全连接层的4096维输出特征被连接起来,并输入到输出层产生八个投影变换参数的均值和对数方差。我们仍然使用SGD来训练网络,批量大小为768个图像和转换后的对应图像,动量为0.9,权重衰减为5×10^-4。初始学习率设置为10^-3,在第300和350个epoch时降低10倍。总共训练AVT400个epoch。最后,以与CIFAE-10相同的方式随机采样投影变换,并将无监督表示输入到分类器中,该分类器是从概率编码器的五个采样表示的平均值。05.2.2 结果0表5:按照[ 25 , 38 , 14 , 37]中的评估协议,报告了比较方法在ImageNet上的Top-1准确率。评估采用了两种设置,其中Conv4和Conv5表示在标记数据上训练AlexNet的剩余部分。在以无监督方式训练后,所有底部的卷积层直到Conv4和Conv5都被冻结。从结果来看,在这两种设置中,AVT模型始终优于其他无监督模型。我们还与完全监督模型进行比较,这些模型通过训练所有标记示例来提供分类性能的上限。201004001000500081360表4:在CIFAR-10上使用不同数量的每类样本进行训练下游分类器的错误率。在未标记的数据上,NIN(�13层网络)的前两个块之上训练了一个带有标记示例的第三个卷积块。我们与从头开始使用所有标记示例进行训练的完全监督模型进行比较。0监督卷积 66.34 52.74 25.81 16.53 6.93 监督非线性 65.03 51.1327.17 16.13 7.920RotNet + conv [ 14 ] 35.37 24.72 17.16 13.57 8.05 AET-project +conv [ 37 ] 34.83 24.35 16.28 12.58 7.82 AET-project + non-linear [37 ] 37.13 25.19 18.32 14.27 9.410AVT + conv 35.44 24.26 15.97 12.27 7.75 AVT + non-linear37.62 25.01 17.95 14.14 8.960AVT + conv (13 层) � 26.2 18.44 13.56 10.86 6.30表6:在ImageNet上使用线性层的Top-1准确率。AlexNet被用作骨干来训练进行比较的无监督模型。在空间上调整大小以具有约9000个元素的特征图的各种卷积层上训练了一个1000类的线性分类器。为了显示无监督模型性能的上限和下限,还报告了完全监督和随机模型。只使用一个裁剪,并且在AVT的测试过程中没有使用dropout或局部响应归一化,除了用十个裁剪来比较结果的模型以外。0方法 Conv1 Conv2 Conv3 Conv4 Conv50ImageNet标签(上限) 19.3 36.3 44.2 48.3 50.5 随机(下限) 11.6 17.116.9 16.3 14.1 随机调整尺寸 [ 21 ] 17.5 23.0 24.5 23.2 20.60Context [ 9 ] 16.2 23.3 30.2 31.7 29.6 Context Encoders [ 29 ] 14.1 20.721.0 19.8 15.5 Colorization[ 39 ] 12.5 24.5 30.4 31.5 30.3 Jigsaw Puzzles [25 ] 18.2 28.8 34.0 33.9 27.1 BIGAN [ 10 ] 17.7 24.5 31.0 29.9 28.0Split-Brain [ 38 ] 17.7 29.3 35.4 35.2 32.8 Counting [ 26 ] 18.0 30.6 34.332.5 25.7 RotNet [ 14 ] 18.8 31.7 38.7 38.2 36.5 AET-project [ 37 ] 19.232.8 40.6 39.7 37.70(Ours) AVT 19.5 33.6 41.3 40.3 39.10DeepCluster* [ 5 ] 13.4 32.3 41.0 39.6 38.2 AET-project* [ 37 ] 19.3 35.444.0 43.6 42.4 (Ours) AVT* 20.9 36.1 44.4 44.3 43.50通过端到端地使用所有标记数据训练整个AlexNet。随机模型的分类器是在随机采样的Con-v4和Conv5之上进行训练的,这设置了性能的下限。相比之下,AVT模型进一步缩小了性能差距,Conv4和Con-v5分别为5.5%和11.3%。这相对于之前最先进的AET模型的改进分别为15%和11%。0[ 37]中通过在表6中的不同数量的卷积层之上训练一个1000类的线性分类器来比较模型。同样,AVT在Top-1准确率方面始终优于所有比较的无监督模型。05.3. 地点实验0最后,我们在Places数据集上评估了AVT模型。表7报告了结果。无监督模型在ImageNet数据集上进行了预训练,并且进行了线性逻辑回归81370表7:Places数据集的Top-1准确率。在大约9000个元素上,使用205路逻辑回归分类器在各种特征图的顶部进行训练,这些特征图在空间上被调整大小。所有无监督特征都是在ImageNet数据集上进行预训练的,并且在训练带有Places标签的逻辑回归分类器时被冻结。我们还将其与使用Places标签和ImageNet标签进行训练的全监督网络以及随机模型进行了比较。最高准确率值以粗体显示,次高准确率值以下划线显示。0方法 Conv1 Conv2 Conv3 Conv4 Conv50Places标签(上界)[40] 22.1 35.1 40.2 43.3 44.6 ImageNet标签 22.7 34.8 38.439.4 38.7 随机(下界) 15.7 20.3 19.8 19.1 17.5 随机缩放[21] 21.4 26.2 27.126.1 24.00上下文[9] 19.7 26.7 31.9 32.7 30.9 上下文编码器[29] 18.2 23.2 23.4 21.918.4 上色[39] 16.0 25.7 29.6 30.3 29.7 拼图[25] 23.0 31.9 35.0 34.2 29.3BIGAN[10] 22.0 28.7 31.8 31.3 29.7 分裂脑[38] 21.3 30.7 34.0 34.1 32.5计数[26] 23.3 33.9 36.3 34.7 29.6 RotNet[14] 21.5 31.0 35.1 34.6 33.7AET-project[37] 22.1 32.9 37.1 36.2 34.70AVT 22.3 33.1 37.8 36.7 35.60表5:在ImageNet上使用非线性层的Top-1准确率。AlexNet被用作骨干网络来训练无监督模型。在学习无监督特征之后,使用标记的示例在Conv4和Conv5层的顶部训练非线性分类器以比较它们的性能。我们还将其与全监督模型和给出上界和下界性能的随机模型进行了比较。为了公平比较,在AVT中只应用了一个裁剪,并且在测试期间没有应用dropout或局部响应归一化。0方法 Conv4 Conv50从[4]全监督(上界) 59.7 59.7 从[25]随机(下界) 27.112.00跟踪[36] 38.8 29.8 上下文[9] 45.6 30.4 上色[39]40.7 35.2 拼图[25] 45.3 34.6 BIGAN[10] 41.9 32.2NAT[4] - 36.0 DeepCluster[5] - 44.0 RotNet[14]50.0 43.8 AET-project[37] 53.2 47.00(我们的) AVT 54.2 48.40在不同层的卷积特征图上训练了一个基于tic回归的分类器,并使用Places标签进行评估。0评估了从一个数据集到另一个数据集的无监督特征的泛化能力。这些模型仍然基于AlexNet的变体。我们将其与使用Places标签和ImageNet标签分别训练的全监督模型以及随机网络进行了比较。AVT模型在除了使用Conv1和Conv2的浅层表示的Counting[38]之外,优于其他无监督模型,但稍微比其性能差一些。06. 结论0在本文中,我们提出了一种通过自动编码变分变换(AVT)来学习表示的新范式,而不是像传统自动编码器那样重构数据。它旨在最大化变换和变换图像的表示之间的互信息。通过引入一个变换解码器来近似变换的后验概率,解决了互信息的难以最大化的问题,通过变换解码器自然地引出了一种新的概率结构,其中包含表示编码器和变换解码器。所得到的表示应该尽可能多地包含关于变换的信息,以与其等价。实验结果表明,AVT表示在CIFAR-10、ImageNet和Places数据集上取得了新的最先进性能,与其他无监督模型相比,大大缩小了与监督模型之间的性能差距。381380参考文献0[1] David Barber Felix Agakov.IM算法:信息最大化的变分方法。神经信息处理系统进展,16:201,2004年。40[2] Pulkit Agrawal,Joao Carreira和Jitendra Malik.通过移动学习看。在IEEE国际计算机视觉会议上的论文集,页码37-45,2015年。30[3] Martin Arjovsky,Soumith Chintala和L´eon Bottou.Wasserstein gan. arXiv预印本arXiv:1701.07875,2017年。0[4] Piotr Bojanowski和Armand Joulin.通过预测噪声进行无监督学习。arXiv预印本arXiv:1704.05310,2017年。80[5] Mathilde Caron,Piotr Bojanowski,ArmandJoulin和Matthijs Douze.无监督学习视觉特征的深度聚类。arXiv预印本arXiv:1807.05520,2018年。7,80[6] Taco Cohen和Max Welling.群等变卷积网络。在机器学习国际会议上,页码2990-2999,2016年。1,20[7] Taco S Cohen,Mario Geiger和Maurice Weiler.诱导表示之间的交织器(应用于等变神经网络理论)。arXiv预印本arXiv:1803.10743,2018年。10[8] Taco S Cohen和Max Welling.可转动的卷积神经网络。arXiv预印本arXiv:1612.08498,2016年。20[9] Carl Doersch,Abhinav Gupta和Alexei A Efros.通过上下文预测进行无监督的视觉表示学习。在IEEE国际计算机视觉会议上的论文集,页码1422-1430,2015年。3,7,80[10] Jeff Donahue,Philipp Kr¨ahenb¨uhl和Trevor Darrell.对抗特征学习。arXiv预印本arXiv:1605.09782,2016年。3,7,80[11] Alexey Dosovitskiy,Jost Tobias Springenberg,MartinRied- miller和Thomas Brox.用卷积神经网络进行有区分的无监督特征学习。在神经信息处理系统进展中,页码766-774,2014年。3,5,60[12] Vincent Dumoulin,Ishmael Belghazi,Ben Poole,Olivi-er Mastropietro,Alex Lamb,Martin Arjovsky和AaronCourville.对抗学习推理。arXiv预印本arXiv:1606.00704,2016年。30[13] Marzieh Edraki和Guo-Jun Qi.具有流形边缘的广义损失敏感对抗学习。在欧洲计算机视觉会议(ECCV 2018)论文集中,2018年。30[14] Spyros Gidaris,Praveer Singh和Nikos Komodakis.通过预测图像旋转进行无监督表示学习。arXiv预印本arXiv:1803.07728,2018年。3,5,6,7,80[15] Irina Higgins,Loic Matthey,Arka Pal,ChristopherBurgess,Xavier Glorot,Matthew Botvinick,ShakirMohamed和Alexander Lerchner.beta-vae:通过受限变分框架学习基本视觉概念。在学习表示国际会议上,2017年。30[16] Geoffrey E Hinton,Alex Krizhevsky和Sida D Wang.变换自动编码器。在国际会议上0人工神经网络,页码44-51。Springer,2011年。1,2,30[17] Geoffrey E Hinton,Sara Sabour和Nicholas Frosst.具有EM路由的矩阵胶囊。2018年。20[18] Geoffrey E Hinton和Richard S Zemel.自动编码器,最小描述长度和Helmholtz自由能。在神经信息处理系统进展中,页码3-10,1994年。2,30[19] Nathalie Japkowicz,Stephen Jose Hanson和Mark A Gluck.非线性自动关联不等同于PCA。神经计算,12(3):531-545,2000年。2,30[20] Diederik P Kingma和Max Welling.自动编码变分贝叶斯。arXiv预印本arXiv:1312.6114,2013年。3,40[21] Philipp Kr¨ahenb¨uhl, Carl Doersch, Jeff Donahue, and Trevor Darrell.卷积神经网络的数据依赖初始化。arXiv预印本arXiv:1511.06856,2015年。7,80[22] Alex Krizhevsky, Ilya Sutskever, and Geoffrey E Hinton.使用深度卷积神经网络进行ImageNet分类.在神经信息处理系统进展中, 2012. 10[23] Samuli Laine and Timo Aila. 用于半监督学习的时间集成.arXiv预印本arXiv:1610.02242 , 2016. 60[24] Jan Eric Lenssen, Matthias Fey, and Pascal Libuschewski.群等变胶囊网络. arXiv预印本arXiv:1806.05086 , 2018. 20[25] Mehdi Noroozi and Paolo Favaro.通过解决拼图难题进行无监督学习的视觉表示.在欧洲计算机视觉会议上, Springer, 2016. 3 , 6 , 7 , 80[26
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功