没有合适的资源?快使用搜索试试~ 我知道了~
10336无监督特征表示的实例相似性学习王紫薇1,2,3,王云松1,吴子怡1,陆继文1,2,3 *,周杰1,2,31清华大学自动化系2智能技术与系统国家重点实验室3北京国家信息科学技术研究中心{wang-zw18,wangys16} @ mails.tsinghua.edu.cn; dazitu616@gmail.com;{lujiwen,jzhou}@ tsinghua.edu.cn摘要在本文中,我们提出了一个实例相似性学习(ISL)的无监督特征表示方法。传统的方法在特征空间中分配具有高相似性的紧密实例对,这通常导致对于大邻域的错误的成对关系,这是由于欧氏距离不能描述特征流形上的真实语义相似性。相反,我们的方法以无监督的方式挖掘特征流形,通过学习实例之间的语义相似性,以获得有区别的表示。聚类实例特异性分析邻域发现ISL句子具体而言,我们采用生成式对抗网络(GAN)挖掘底层的特征流形,其中生成的特征被应用作为代理,以逐步探索的特征流形,以便获得实例之间的语义相似性作为可靠的伪监督。大量的图像分类实验表明,我们的方法相比,国家的最先进的方法的优越性。该代码可在https://github.com/ZiweiWangTHU/ISL.git上获得。1. 介绍深度神经网络已经在各种视觉应用中实现了最先进的性能,例如人脸识别[7,45,34],对象检测[41,33,30],图像检索[14,42,32]等。然而,大多数成功的深度神经网络都是用强监督来训练的,这需要大量标注数据,标注成本昂贵,并严格限制了深度模型的部署。因此,期望仅用未标记的数据来训练深度神经网络,同时实现与监督学习可比较的性能。为了使深度神经网络能够从未标记的数据中学习,无监督学习方法已经广泛应用。*通讯作者图1.比较了聚类方法、实例特异性分析方法、邻域发现方法和本文方法的不同之处。聚类方法由于复杂的类间边界而容易出错,并且实例特异性分析方法由于将每个样本视为独立类的模糊监督而具有弱区分性。同时,邻域发现方法将靠近锚点的实例视为相似样本,无法在特征流形上描述大邻域中的真实语义相似性。相反,我们挖掘的特征流形和学习的实例到实例的关系,具有可靠的语义相似性,因此,信息的功能,可以获得。最近研究的。图1的第一列中所示的聚类方法[24,47,3]提供了伪标签来根据聚类索引训练网络,由于复杂的类间边界,聚类索引容易出错。图1的第二列中描绘的实例特异性分析方法[46,2,38,16,21然而,提供的监督是模糊的,导致弱的阶级歧视。同时,由于辅助监督和目标任务之间的差异,使用自监督学习设计文本前任务[8,51,44]具有与实例特异性分析方法相同的局限性为了减轻聚类和实例特异性分析的缺点,邻居-10337已经提出了Hood发现方法[22,54,23],其通过挖掘实例到实例的相关性,以类一致性最大化来逐步探索局部邻居。它们只是将高相似性分配给在特征空间中具有短欧氏距离的对。当表示位于在欧氏空间中连续的隐式特征流形中时,欧氏距离仅揭示极小邻域中的真实语义相似性,并且由于与特征流形上测量的距离不一致而无法提供大邻域因此,特征区分度仍然是有限的,如图1的第三列所示。在本文中,我们提出了一个ISL方法来学习语义相似性的无监督特征表示的实例。与传统方法不同,传统方法根据特征空间中的Eu-clidean距离将高相似性分配给紧密对,我们的方法以无监督的方式挖掘特征流形并学习不同样本之间的语义相似性,以便在大邻域中应用可靠的实例到实例关系来监督表示学习模型,如图的最后一列所示1. 更具体地说,我们采用生成对抗网络(GAN)[13]来挖掘底层特征人,图2描述了所提出方法的整体流程。生成器产生代理特征,该代理特征基于所采样的三元组来挖掘每个锚实例的阳性,并且鉴别器预测所生成的代理在语义上与所挖掘的伪阳性样本相似的置信度得分。由于Euclidean距离揭示了小邻域中的样本相似性,因此将代理特征附近具有高置信度得分的实例添加到给定锚点的正样本集为了探索更丰富的实例关系并同时利用挖掘出的正样本集的语义,在GANs的训练过程中,所生成的代理被强制为与负实例和挖掘出的伪正在可靠的伪监督下,我们采用对比度损失与硬 正 增 强 来 学 习 区 分 性 特 征 。 在 CIFAR-10 [28],CIFAR-100 [28],SVHN [36]和ImageNet [6]图像分类数据集上的广泛实验表明,所此外,我们的ISL可以与最先进的无监督功能集成,以进一步提高性能。2. 相关工作无监督学习引起了广泛的兴趣-- 这是因为它使模型能够由大量未标记的数据进行训练,并节省了昂贵的注释成本。现有的方法可以分为五类:集群,在-立场特异性分析、邻域发现、自监督学习和生成模型。聚类:聚类方法[3,47,24,48]采用聚类索引作为伪标签来训练端到端无监督学习模型。Caron等人[3]共同学习网络参数和特征的簇分配,其中k均值被应用于迭代数据分组。此外,Yanget al. [48]应用堆叠的自动编码器[43],以通过最小化图像重建损失来提供更强的监督,而不管集群分配。然而,聚类方法是容易出错的,因为它们不能表示高度复杂的类边界。实例特异性分析:实例特异性分析[46,2,38,1,16,21,4,50,18,49]方法将每个实例视为一个独立的类,并且仅将样本及其转换的实例视为正对,假设实例语义相似性是通过实例监督自动发现的。Wu等[46]为了降低实例分类器的复杂度,提出了噪声对比估计(NCE)来近似全softmax分布,并利用存储库来存储实例特征。He等人[16]构建动态词典,促进大规模对比学习。Chen等人[4]组合了具有额外的非线性变换的各种数据增强技术,以学习有区别的非监督特征。然而,在实例特异性分析方法中,学习的类边界是模糊的,因为它们可能推开具有相同类标签的样本并增加类内方差。邻居发现:邻域发现方法[22,23,54]通过逐步挖掘具有类一致性最大化的实例到实例的相关性来减轻上述两种方法的缺点。Huang等人. [22]通过比较每个实例与课程学习设置中的不同样本的余弦相似性,迭代地扩大每个实例的邻域,Zhuang等[54]提出了一种局部聚集的度量,其中鼓励相似的样本一起移动,反之亦然。然而,现有的邻域发现方法简单地基于其特征的欧氏距离来分配相似性以训练表示学习模型,这未能证明大邻域的底层特征流形上的语义相似性。自我监督学习:自监督学习方法[8,51,44,37,39,25,35,11]通常设计文本前任务以提供具有人类先验的手工制作的辅助监督,其中假设经由辅助监督学习的语义可以被转移到下游任务,例如图像分类和对象检测。Doersch等人[8]和Norooziet al. [37]在图像上取样并设计拼图玩具,10338联系我们联系我们我我阳性样本集扩增实例抽样特征提取代理生成正样本挖掘采样Concat积极正集合积极ConcatGDR锚采样锚Concat代理负集合负负CNNCNNCNN阴性样本集收缩图2.实例相似性学习的流水线。对于给定的锚点,我们首先从挖掘的正集和负集中采样三元组,然后通过卷积神经网络获得特征在连接锚点、正样本和负样本的如果代理在语义上类似于锚,则将代理的邻域中的实例从负集合中移除并添加到正集合,其中语义相似性由鉴别器预测。ZLES,其中网络被设计为预测两个补丁的相对位置。Pathak等人[39]使用基于上下文的像素预测作为前提任务,图像中的掩蔽内容应该由具有重构和对抗性损失的上下文编码器生成。然而,自监督学习方法与无监督学习中的实例特异性分析方法有着相同的局限性,这是由于前提任务与下游应用之间存在很大的差异。生成模型:生成模型[43,31,27,40,20,13,10],包括RBM [20]、AutoEncoders [27]和GAN [13],最近已经被广泛研究,因为它能够通过在没有监督的情况下重建输入样本Radford等人[40]和Donahue等人[9]应用GANs来提取表示-在特征空间中的相似性。然而,由于特征流形上的测地线距离与欧氏距离不匹配,欧氏距离只能反映极小邻域中的相似性,而不能反映大邻域中的真实语义相似性.因此,具有不同语义的样本被视为相似对用于伪监督来训练表示模型,反之亦然,这导致无监督学习中的无信息特征。由于隐式特征流形在特征提取模型的训练过程中会发生变化,因此我们采用GANs根据特征分布动态挖掘特征为了评估特征分布,我们对在特征空间中的三元组{fa,fp,fn}根据在语义上与所生成的样本相似的示例。我我我 得双曲余切值.本发明公开了一种复合材料,p和n是特征相似矩阵Sfi菲菲放。由于重建任务和下游任务之间的差异,直接使用生成模型学习表示会3. 方法在本节中,我们首先介绍通过GANs进行的特征流形挖掘,然后在挖掘的特征流形上进行实例语义相似性学习。最后,我们提出了有效的训练目标与学习的语义相似性,以获得歧视性的表示。3.1. 特征流形挖掘设X = x1,x2,..., xN且F = f1,f2,…其中,N分别 是输入图像及其特征,其中,N是实例的数量。S0,1N×N是相似矩阵,其中如果xi和xj语义相似(正),则第i行第j列的元素sij等于1,否则为零(负).传统的无监督方法处理具有短欧几里德距离的配对分别是第i个三联体中的锚、阳性样本和阴性 对于初始化,S被设置为训练开始时的单位矩阵,这意味着所有实例仅在语义上与它们自己相似。 代理生成器G生成用于第i个三元组的代理特征fg,其用于通过挖掘给定锚点的正性来探索特征流形,并动态地修改相似性矩阵。为了探索更丰富的实例关系并同时利用所挖掘的正样本集的语义,我们期望代理特征f g具有以下两个性质:(1) 代理特征应该在语义上与三元组中的负样本相似。在训练过程开始时,三元组中的正样本与锚点相同,其中不探索用于区分性表示学习的丰富实例关系。为了扩大阳性样本集以提供更多信息的监督,强制代理在语义上类似于阴性,使得主动10339我PPS不S不SP不我NF菲,菲,菲SS我 我我SS我Sp我TG Dsf=arg maxD(T)(3)我特征流形探索(2) 代理特征还应该在语义上类似于正样本,目的是利用来自挖掘的正集合的语义,使得以高精度学习特征流形。我们采用鉴别器D来测量代理与正或负之间的语义相似性。D应该准确地分类真正的三重态Tr={fi,f,fn}从挖掘的集合中采样并合成pG小,并且由于正集合的约束大小,类别区分弱。我们的方法采用所生成的代理f g来挖掘具有锚特征fi的语义相似的实例,以扩大正样本集i,其中i是用锚本身初始化的。由于生成器G根据特征分布学习底层特征流形,因此生成的代理fg用于挖掘给定锚点和移动的语义相似实例将来自否定集合的语义上相似的样本我我Tn={},并将生成的代理作为放大正面的。因为阴性 同时,真正的三重性也应该是与众不同的--由D从合成的三重态p=fi,fg,fn中消除,其中生成的代理作为正。 在[13]中的对抗性损失之后,我们设计了以下目标来训练生成器和鉴别器,并获得类似于正样本和负样本的代理特征:min maxLgan=logD(Tr)+log(1-D(Tp))+(1)αlog(1−D(Tn))其中,Tn和Tp中的fg由G基于实数生成。我合成三元组D(p)评估语义相似性-在生成的特征和挖掘的积极因素之间,表示正样本集扩大的代理的可靠性当生成的代理的置信度得分D(p)高时,代理挖掘可靠区域,在该区域中,实例从负样本集中移除并添加到正样本集中。我们采用以下策略来扩大具有实例fj的给定锚fi的正样本集i:fj={fj. ||Fr,D(Tp)> h }(2)||Fh}(2)并且表示为f g= G(Tr)。D(T)表示哪里||·||F是Frobenius范数,r是一个hyperpa。输入三元组是真的这是预测的。α是平衡所生成的代理特征被识别为正样本的硬度当α增加时,生成的代理f g被迫更类似于负样本,并且更难被识别为正实例,这意味着代理更积极地探索特征流形。当完成GAN的训练放大器用于控制正样本集放大区域的大小。h是触发正样本添加的阈值。由于特征流形在特征空间中是连续的,欧氏距离可以揭示极小邻域中的语义相似性因此,代理的小超球形邻域中的实例可以被视为具有代理特征的语义相似的样本,其与正样本集放大的锚共享一致的语义因为生成的代理fg受给定锚点的阳性样本集抽样实三元组T我r输入到生成器G,我们sam-3.2. 实例相似性学习在本节中,我们首先简要介绍了传统方法中手工制作的实例相似性分配,该方法利用特征之间的欧氏距离来度量相似性,然后详细介绍了我们的方法中使用挖掘的特征流形进行实例相似性学习。在传统方法[22,23,54]中,邻域(X)由给定锚X的k-最近邻以以下形式识别N(X)={Xi|d(xi,x)在所有i}其中d(x,y)表示两个特征向量x和y之间的距离,并且通常应用欧几里得距离。k是决定邻域大小的超参数,并且邻域中的实例都被视为相似样本。由于欧几里德距离只能揭示极小邻域中的真实语义相似性,而不能提供大邻域中的信息伪监督,因此k通常被限制为非常小。多次提取给定锚点的真实三元组以获得关于阳性和阴性分布的更多信息我们将最优代理表示为fg*,定义如下:Gp美国国际集团我我们利用所有生成的prox之间的最佳代理-y特征以通过(2)放大正样本集。由实例相似性学习提供的伪监督是信息性的,因为它将挖掘的特征流形上具有短测地线距离的实例设置为正,并且最大化它们的特征之间的相似性可以显著地增强下游任务(诸如图像分类和对象检测)上的特征信息性3.3. 基于实例相似度挖掘的学习的实例相似性可以为无监督特征表示提供有效的监督,其中10340P∈我ΣΣpik我k=1我我 KN语义相似对应被约束为在特征空间中接近,反之亦然。在[46]中的非参数损失之后,我们通过两个样本xi和xi来自同一类的概率分布pij来exp(fTf/τ)并且没有硬正增强策略。接下来[46],我们维护了一个离线内存库,以通过将特征向量存储在内存中来避免所有实例的棘手损失计算我们用随机向量初始化记忆库,并更新记忆特征通过混合记忆特征和学习到的最多-pij=ij(四)日期特征f:ΣNexp(fTf/τ)iˆˆ其中τ是对应于温度的超参数。分布的浓度[19]。由于我们认为给定锚的正样本集i中的所有语义相似的实例共享相同的类标签,因此我们提出以下目标,其最大化正样本集中的所有实例来自相同类的概率的对数似L1=−Σlog(Σpik)(5)i=1fk∈Pifi=ηfi+(1−η)fi(8)其中η[0,1]是说明在存储器更新过程期间最新特征的重要性的超参数。4. 实验在本节中,我们首先简要描述数据集和我们的实现细节。然后,我们通过玩具例子来展示我们的直觉逻辑,并进行了消融一项研究,调查不同成分对其目的是鼓励锚点与其所有正样本之间的标签一致性,从而为表示学习提供更多信息的伪监督。如[23]所示,由于数量较少,正样本集中语义相似性较低的实例在训练期间可能会被淹没。然而,硬阳性提供了大的梯度,并且对训练过程有显著贡献[52,53,15]。因此,我们应用[23]中展示的硬正增强(HPE)策略来进一步增强性能。我们定义具有最小pijw的最小样本fj。r. t. 锚定器F1作为硬正片。对于初始化的正样本集,锚点图像X1的随机变换变体的特征被认为是硬正的。将锚fi的硬正表示为fhard,我们采用以下损失来将硬正增强策略与我们的方法整合:实例相似性学习。最后,我们来--将我们的ISL与最先进的图像分类无监督特征学习方法进行对比。实施细节和其他任务的结果,如对象检测和迁移学习显示在补充材料。4.1. 数据集和实施详细信息我们首先详细介绍了我们进行实验的数据集:CIFAR-10数据集由来自10个类的60,000张图像组成,其 中 50 , 000 张 用 于 训 练 , 10 , 000 张 用 于 评 估 。CIFAR-100数据集与CIFAR-10具有相同的数据分割,唯一的区别是图像由100个街景门牌号(SVHN)数据集包含10类数字图像,其中73,257个用于训练,26,032个用于评估。ImageNet数据集由大约1。200万和50k图像从1,000类分别用于训练和验证。N NL2=piki=1k =1皮克日志硬ik(六)我们采用top-1准确率来评估图像分类的ISL。根据[46]中的实验设置,我们测试了两个分类器,包括线性分类器其中,N是数据集中的样本数,p是硬证明了实例fk和锚fi的硬正fhard来自同一类的概率。硬阳性增强的损失显著放大了训练期间硬阳性的影响我们ISL的整体亏损如下:L=L1+λL2(7)其中λ是平衡两个损失项的重要性的超参数。为了与最先进的方法进行公平的比较,我们在以下环境中进行了实验:(LC)和加权kNN来评估在不同层中提取的特征我们应用了一个全连接层作为LC,它通过交叉熵损失进行训练加权kNN分类器通过前k个邻居的投票推断特征f的类别标签对于每个相邻的fi,权重被分配为exp(fi/τ)。我们设定k=200且τ=0。在我们的实验中。我们训练我们的ISL与AlexNet [29],ResNet18的架构[17]第50我们迭代训练GAN,挖掘特征模型,学习实例之间的语义相似性,并优化主干,总共4轮提取图像的训练中10341(a) 1-阳性(b)10-阳性图3.挖掘的阳性样本的平均精度w.r.t.在针对1和10的正样本集大小的训练期间的不同轮次。GANs中,我们为给定的锚点采样了五个三元组,以减少采样特征分布与真实特征分布之间的差异,从而可以精确地挖掘特征流形。我们利用三个全连接层作为生成器,另一个三层全连接网络作为鉴别器。在每一轮中,我们训练GAN,直到generator的丢失收敛。超参数α被设置为1。我们使用具有固定学习率1e-4的Adam优化器[26]来训练生成器和鉴别器。在骨干网的训练中,每轮训练的epoch数分别为200 、 200 、 100 和 100 , 分 别 在 CIFAR-10 、 CIFAR-100、SVHN和ImageNet上进行实验在[46]之后,我们采用了SGD优化器,动量为0。9 .第九条。学习率最初设置为0。03并通过乘以0衰减两次。1在总时期的75%和90%时期。我们使用ImageNet的批量大小为256,其他的为128。在大多数实验中,特征被归一化并且长度被固定为128。超参数η、τ和λ被设置为0。5,0。07和0。5的比例。例如,扩大正样本集的相似性学习,我们为给定的锚点采样了五个三元组,以生成具有增强可靠性超参数h和r被设置为0。5和1.4.2. 性能分析在本节中,我们首先通过玩具示例展示了我们的实例相似性学习的直观逻辑,并通过消融研究显示了所提出的技术中不同组件的影响。4.2.1玩具实例虽然欧氏距离无法揭示大邻域中样本的真实语义相似性,但所提出的ISL的思想是学习特征流形中的实例相似性,为无监督特征表示提供信息伪监督我们使用AlexNet在CIFAR-10上进行了简单的实验,以直观的方式展示我们显示了所有锚点上正样本集的平均精度,其中精度定义为从锚点类中挖掘的伪阳性的比率。图3展示了跨锚点挖掘的伪阳性的精度。在训练期间的不同时期,其中阳性样本集大小为1和10。在我们的ISL中应用的测地距离与传统的邻域发现方法中利用的欧氏距离进行了比较,后者选择了最接近的样本是阳性的。这两个距离度量达到了类似的精度为正样本集的大小为1,而测地距离显着超过欧氏距离的大小为10的正样本集,因为前者揭示了真正的语义相似性在大的社区。4.2.2消融研究利用特征之间的欧氏距离作为监督只能揭示极小邻域中的语义相似性,并且不能为表示学习提供信息性的伪监督相反,我们的实例相似性学习说明了挖掘的特征流形上的测地线距离,该特征流形证明了可靠的实例到实例的关系。为了研究所提出的实例相似性学习的有效性和关键超参数的影响,我们进行了消融研究w.r.t.实例相似性学习中的置信度阈值h、正样本集扩大的区域大小r以及生成正样本集扩大的每个代理的采样次数。我们采用AlexNet架构作为主干,并在消融研究中在CIFAR-10数据集上训练我们的ISL报告了4.第一章性能w.r. t置信度分数阈值h:在实例相似性学习中,当置信度分数大于阈值h时,使用周围实例来应用所生成的代理以扩大正样本集。增加h减少了给定锚点的挖掘阳性,因为代理需要在阳性样本集扩大中更有信心,反之亦然。h对性能的影响如图所示。4(a),其中中等阈值实现最佳性能。低阈值不能保证所生成的代理的可靠性,并且高阈值不能为正样本集扩大提供足够的代理,其中它们都降低了准确性。性能w.r. t 区域大小r:在正样本集放大中,与代理的欧几里得距离小于r的实例被分配为给定锚点的正样本。较大的r表示对于每个生成的prox-y,更多的实例被添加到正样本集,并且假设欧几里得距离可以在较大的邻域中更好地图4(b)展示了性能与不同r的关系,并且中等r放大了位置。10342图4.CIFAR-10数据集上的分类准确性w.r.t.(a)实例相似性学习中的置信度得分阈值H,以及(b)区域大小R和(c)生成用于正样本集放大的每个代理的采样时间。具有足够可靠实例的有效样本集。大的r将不可靠的实例添加到正样本集,因为欧几里得距离不能揭示大邻域中的真实语义相似性。相反,对于小r,正样本集添加的实例不足,使得具有相似语义的样本被推走,并且特征的类边界变得模糊。性能w.r. t生成代理的采样次数:生成器G根据锚、其正样本和负样本的分布来生成代理特征。为了提供关于分布的准确信息,我们多次对三元组进行采样,以便可以生成更可靠的代理。表演w.r.t. 不同的采样时间如图所示。4(c),其中当三元组被采样更多次时,分类准确度增加。然而,当采样时间大于5时,改进变得非常增量,而训练阶段的计算成本显著增加为了平衡效率和有效性,我们在大多数实验中采样了五个三元组4.3. 与最新方法的在本节中,我们将所提出的ISL与最先进的无监督表 示 学 习 方 法 进 行 了 比 较 , 包 括 聚 类 方 法DeepCluster[3],实例特异性分析方法Instance [46],MoCo-v1 [16]和MoCo-v2 [5],自监督方法RotNet [16]和MoCo-v2 [17]。[12] 以 及 邻 域 发 现 方 法 AND [22] 、 LA [54] 、 PAD[23]。同时,提供随机特征的基线以供参考。我们在CIFAR-10、CIFAR-100、SVHN和ImageNet上证明了top-1的准确性。对于CIFAR-10,CIFAR-100和SVHN上的实验,我们利用AlexNet,ResNet 18和ResNet 50作为骨干网络来评估所提出的ISL。我们测试了两个分类模型,加权kNN与FC功能和线性分类器使用的Conv5功能。表1展示了结果。所有的非监督学习方法都以相当大的幅度优于随机特征,这清楚地表明了其有效性。除PAD外,其他现有方法未在无监督复制中应用硬阳性增强(HPE)策略。表 1. CIFAR-10 、 CIFAR-100 和 SVHN 上 的 分 类 准 确 率(%),其中AlexNet、ResNet 18和ResNet 50的架构被用作骨干网络。两个分类模型的结果报告:加权kNN与FC功能和线性分类器使用的Conv5功能。ISL w/o HPE是指我们的方法没有硬阳性增强。数据集CIFAR10CIFAR100SVHN架构Classifier/Feat.加权k近邻/FC随机三十四512个。1五十六8DeepCluster62. 3二十二岁784. 9RotNet七十二5三十二1七十七。5AlexNet例如和六十岁。374岁8三十二741岁579岁。8九十9ISL(不含HPE)81.149.291.0垫81. 5四十八791. 2ISL82.850.391.8例如八十8四十192. 6ResNet18和ISL(不含HPE)86岁。387.0四十八152.1九十三193.9ISL87.854.794.2例如81. 8四十二392. 9ResNet50和ISL(不含HPE)87岁688.3四十九056.7九十三294.0ISL88.958.194.5架构Classifier/Feat.线性分类器/conv 5随机67岁3三十二779岁。2DeepCluster七十七。941岁992. 0RotNet84.1五十七492. 3AlexNet例如和七十1七十七。639岁4四十七989岁。3九十三7ISL(不含HPE)83岁558.5九十三3垫84. 7五十八6九十三2ISL85.860.193.9例如84. 1四十八994 0ResNet18和ISL(不含HPE)88岁989.2五十七461.194 394.4ISL90.763.594.5例如八十五050块194 4ResNet50和ISL(不含HPE)九十291.0五十八563.094 994.9ISL91.565.995.2怨恨学习由于硬正增强(H-PE)策略也增加了学习的表示的准确性,因此我们还在三个数据集上测试了我们的没有HPE的ISL,以评估仅由实例相似性学习带来10343∗的益处,其在表1中表示为ISL w/o HPE与现有的无监督特征相比,在大多数情况下,我们的ISL在所有三个数据集上使用两个分类模型获得了更高的准确率。对 于 ImageNet 上 的 实 验 , AlexNet , ResNet18 和ResNet50被用作我们ISL中的骨干尽管使用具有FC特征 的 kNN 分 类 模 型 进 行 评 估 , 但 也 使 用 Conv1 到Conv5层的特征来测试我们的使用标记的方法将特征尺寸设置为2,048。由于本地聚合度量会自动推开不同的样本并将其拉到10344小型货车R.V.R.V.小型货车R.V.查询第2小型货车第4图5.在训练期间的不同轮次中通过LA(顶行)和我们的ISL(底行)进行阳性样本挖掘的示例查询图像来自minibus类。带有绿色框的图像表示正确挖掘的阳性图像,而带有红色框的图像表示来自其他类别的图像。补充材料中有更多的例子。表2. ImageNet与AlexNet,ResNet18和ResNet50架构上的前1名准确率(%)比较。两个分类模型的结果报告:加权kNN与FC功能和线性分类器使用的Conv 1-Conv 5 fea- tures。分类器线性分类器k近邻特征conv1conv2conv3conv4conv5FCAlexNet随机11个国家。6十七岁1十六岁9十六岁3十四岁13 .第三章。5DeepCluster十三岁4三十二341岁039岁6三十八岁。2二十六岁8RotNet十八岁831岁7三十八岁。7三十八岁。2三十六59 .第九条。2例如十六岁8二十六岁531岁8三十四1三十五631岁3和十五岁6二十七岁0三十五939岁7三十七931岁3垫----三十八岁。6三十五1LA十八岁7三十二7三十八岁。1四十二3四十二4三十八岁。1ISL十七岁329岁0三十八岁。4四十三3四十三5三十八岁。9ResNet18DeepCluster例如十六岁4十六岁0十七岁219号。928岁729岁844. 339岁0四十九144. 5−41岁0LA9 .第九条。1十八岁7三十四8四十八452岁8四十五0ISL十五岁319号。1三十二7四十九1五十四0四十六岁。1ResNet50DeepClusterLA十八岁910个。2二十七岁323岁3三十六739岁352岁4四十九044. 2六十岁。2−四十九4ISL十七岁3二十四岁2三十八岁。552岁561岁250块2MoCo-v1*十五岁7二十二岁9四十650块8六十岁。6三十七7MoCo-v2*十四岁928岁441岁752岁967岁5三十八岁。5MoCo-v2+ISL系列十三岁2二十七岁141岁951岁768岁6四十1在类似的情况下,LA获得了邻域发现方法中的最新性能。然而,LA忽略了样本对的欧氏距离和揭示语义的实例之间的测地线距离之间的不匹配。相反,我们的ISL通过GAN挖掘特征流形,并通过生成的代理来学习实例相似性当在线性分类器中应用高级Conv4和Conv5特征以及在kNN中应用FC特征时,我们的方法在所有现有的邻域发现MoCo-v1[16]验证了通过动量对比实时构建大型一致的词典可以促进有效的大规模对比学习,SimCLR [4]验证了10345额外的MLP投影头和更多的数据扩充有益于对比学习。为了进一步增强ISL的性能,我们将所提出的Moco-v2的准确性是通过重新运行官方发布的代码获得的。由于我们的ISL采用邻域发现通过测地距离上挖掘的特征流形,特征的区分度进一步加强了信息伪监督的对比学习。图5可视化了在训练期间的不同轮次中经由LA和我们的ISL的阳性样本挖掘的示例。LA将具有相似外观(包括颜色和形状)的实例视为正样本,并且无法区分不同类之间的细粒度差异。与此相反,我们的方法通过挖掘特征流形来分配实例之间的相似性,即使在不同的外观下也能成功地找到语义相似的样本。5. 结论在 本 文 中 , 我 们 提 出 了 一 个 实 例 相 似 性 学 习(ISL)方法的无监督特征表示。提出的ISL通过GANs挖掘特征流形,并通过探索挖掘的特征流形来学习实例之间的语义相似性,通过该信息伪监督来学习区分性特征。大量的实验表明,该方法的优越性相比,最先进的无监督特征。确认这项工作部分得到了中国国家重点研究发展计划2017YFA0700802的支持,部分得到了中国国家自然科学基金61822603、U1813218和U1713214的支持,部分得到了北京人工智能研究院(BAAI)的资助,部分得到了北京市人工智能研究所(INSTIT)的资助。清华大学郭强教授。10346引用[1] Philip Bachman , R Devon Hjelm , and WilliamBuchwalter.通过最大化跨视图的互信息来学习表示在NIPS,第15509-15519页[2] Piotr Bojanowski和Armand Joulin。通过预测噪声进行无监督在ICML,第517-526页[3] Mathilde Caron,Piotr Bojanowski,Armand Joulin,andMatthijs Douze.用于视觉特征的无监督学习的深度聚类。ECCV,第132-149页[4] 陈婷,西蒙·科恩布里斯,穆罕默德·诺鲁齐,和葛offrey Hinton.视觉表征对比学习的一个简单框架。arXiv预印本arXiv:2002.05709,2020。[5] Xinlei Chen,Haoqi Fan,Ross Girshick,and KaimingHe.通过动量对比学习改进基线。arXiv预印本arXiv:2003.04297,2020。[6] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。CVPR,第248-255页[7] 邓建康,郭佳,薛念南,Stefanos Zafeiri- ou.Arcface:用于深度人脸识别的附加角度余量损失。在CVPR中,第4690-4699页[8] Carl Doersch、Abhinav Gupta和Alexei A Efros。通过上下文预测的无监督视觉表示学习在ICCV,第1422-1430页[9] Je f fDonahue,PhilippK raühenbuühl,和Tr ev或Darrell。对抗 性 特 征 学 习 。 arXiv 预 印 本 arXiv : 1605.09782 ,2016。[10] 杰夫·多纳休和凯伦·西蒙尼扬。大规模对抗表示学习。在NIPS,第10542[11] 风泽宇,常旭,大成涛。通过旋转特征解耦的自监督表示学习。在CVPR中,第10364-10374页[12] Spyros Gidaris,Praveer Singh和Nikos Komodakis。通过预测图像旋转的无监督表示学习。arXiv预印本arXiv:1803.07728,2018。[13] Ian Goodfellow 、 Jean Pouget-Abadie 、 Mehdi Mirza 、Bing X-u 、 David Warde-Farley 、 Sherjil Ozair 、 AaronCourville和Yoshua Bengio。生成性对抗网。在NIPS,第2672-2680页[14] 阿尔伯特·戈多、乔恩·阿尔玛·赞、杰罗姆·雷沃德和黛安·拉鲁斯。深度图像检索:学习图像搜索的全局表示。在ECCV,第241-257页[15] BenHarwood , BG Kumar , Gustavo Carneiro , IanReid,Tom Drummond,et al.深度度量学习的智能挖掘。在ICCV,第2821-2829页[16] Kaiming He,Haoqi Fan,Yuxin Wu,Saining Xie,andRoss Girshick.用于无监督视觉表示学习的动量对比arXiv预印本arXiv:1911.05722,2019。[17] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。CVPR,第770-778页,2016年[18] Oli vierJHe´ naf f,Ara vindSriniv as,Jef fre yDeFauw,AliRazavi,Carl Doersch,SM Eslami,and Aaron vanden Oord.使用对比预测编码的数据高效图像识别。arXiv预印本arXiv:1905.09272,2019。10347[19] Geoffrey Hinton Oriol Vinyals和Jeff Dean。在神经网络中提取知识。arXiv预印本arX-iv:1503.02531,2015。[20] Geoffrey E Hinton , Simon Osindero , and Yee-WhyeTeh. 一种深度信念网的快速学习算法。神经计算,18(7):1527[21] R Devon Hjelm 、 Alex Fedorov 、 Samuel Lavoie-Marchildon 、 Karan Grewal 、 Phil Bachman 、 AdamTrischler和Yoshua Bengio。通过相互信息估计和最大化 来 学 习 深 度 表 示 。 arXiv 预 印 本 arX- iv :1808.06670,2018。[22] 黄佳波、齐东、龚绍刚、朱夏天。通过邻域发现的无监督深度学习arXiv预印本arXiv:1904.11567,2019。[23] 黄佳波、齐东、龚绍刚、朱夏天。通过亲和扩散的无监督深度学习。在AAAI,第11029-11036页[24] Xu Ji,Joao F Henriques,and Andrea Vedaldi.无监督图像分割和聚类的不变性信息提取。arXiv预印本arXiv:1807.06653,2018。[25] Dahun Kim,Donghyeon Cho,and In So Kweon.用时空立方体谜题进行自我监督视频表示学习在AAAI,第33卷,第8545-8552页[26] Diederik P Kingma和Jimmy Ba。Adam:随机最佳化的方法。arXiv预印本arXiv:1412.6980,2014。[27] Diederik P Kingma和Max Welling。自动编码变分贝叶斯。arXiv预印本arXiv:1312.6114,2013。[28] Alex Krizhevsky,Geoffrey Hinton,等.从微小的图像中学习多层特征。2009年[29] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。在NIPS,第1097-1105页[30] 黑律和贾
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功