没有合适的资源?快使用搜索试试~ 我知道了~
深度聚类方法:挖掘未标记数据相关性
8150用于图像聚类的吴建龙123张科宇龙2王飞2陈倩2程莉2周晨林3查宏斌31山东大学2商汤科技研究3北京大学机电工程学院机器感知教育部重点实验室jlwu1992@sdu.edu.cn,corylky114@gmail.com,{wangfei,qianchen,chengli} @ sensetime.com,zlin@pku.edu.cn,zha@cis.pku.edu.cn摘要最近开发的深度无监督方法允许我们共同学习表示和聚类未标记的数据。这些深度聚类方法主要关注样本之间的相关性,例如,选择高精度对来逐渐调整特征表示,这忽略了其他有用的相关性。 在本文中,我们提出了一种新的聚类框架,称为深度综合挖掘(DCCM),用于从三个方面探索和充分利用未标记数据背后的各种相关性:1)代替仅使用成对信息,提出伪标签监督来调查类别信息并学习区分特征。2)充分挖掘了特征3)提出了特征间的三元组互信息用于聚类问题,(b)第(1)款(c)第(1)款深度综合关联挖掘将实例级深度互信息转换为三元组级结构,这进一步有助于学习更多的判别特征。在几个具有挑战性的数据集上进行的大量实验表明,我们的方法具有良好的性能,例如,达到62。CIFAR-10上的聚类准确率为3%也就是10比最先进的结果高1%1.1. 介绍聚类是计算机视觉和机器学习的基本任务之一。特别是随着互联网的发展,我们每天可以轻松地收集到成千上万的图像和视频,其中大多数都是未标记的。手动标记这些数据非常昂贵且耗时为了充分利用这些未标记的数据,并研究它们之间的相关性,无监督聚类方法近年来受到了广泛的关注,它的目的是根据相似性度量将相似的数据归为一类。同等贡献和工作是在商汤科技实习期间完成的1项目地址:https://github.com/Cory-M/DCCM图1.综合相关性挖掘。(a)各种相关性;(b)在较高的语义层次上逐步连接成对项;(c)在CIFAR-10 [ 27 ]上,DCCM的结果优于最先进的DAC [8]。最好看的颜色!图像聚类是一项具有挑战性的任务,由于图像的形状和外观在野外的变化。Tra-聚类方法[55,19,6],如K-均值,谱聚类[35,48]和子空间聚类[31,16]可能会因为两个主要问题而失败:首先,手工特征具有有限的容量并且不能动态地调整以捕获先验分布,特别是当处理大规模真实世界图像时;第二,特征提取和聚类的分离将使解决方案次优。最近,随着深度学习的蓬勃发展[28,21,46,30,51],许多研究人员将注意力转移到深度无监督特征学习和聚类[42,23,8],这可以很好地解决上述限制。通常,为了学习更好的表示,[3,50,52]采用自动编码器[22]最大化特征之间的互信息。 DAC [8]结构(样品B不同样本间局部鲁棒性特征对应性互相关其他样本样本低级高级变换A特征图特征向量特征向量转化的ADCCMDAC8151正负对来指导网络训练。然而,对于这些方法,仍然缺少几点首先,只考虑重构或互信息的特征表示缺乏区分能力。其次,传统的聚类方法如K-means有效地利用了数据的类别假设。与此相反,DAC只关注两两之间的相关性,忽略了类别信息,这限制了其性能。第三,还有其他有助于深度图像特征学习的相关性,例如,[29]表明测量特征等方差有助于图像表示理解。为了解决上述问题,如图1(a)所示,我们提出了一种新的方法,即深度综合相关挖掘(DCCM),该方法全面探索了不同样本之间的相关性(红线)、对几何变换的局部鲁棒性(黄线)、同一样本的不同层特征之间的相关性(红线)、对几何变换的局部鲁棒性(黄线)、对几何变换的局部鲁(蓝线),以及它们的相互关系(绿线),以学习区分性表示并以渐进的方式训练网络。首先,对于不同样本之间的相关性以生成输入图像的预测特征。在适当的约束下,学习的预测特征将倾向于是独热的。然后我们可以计算余弦相似度并构造相似度图。在相似图和预测特征的基础上,通过设定较大的阈值,得到高置信度的伪图和伪标签,指导特征学习。其次,对于小扰动的局部鲁棒性,我们在原始输入图像上添加小扰动或变换以生成变换图像。在局部鲁棒性假设下,变换后图像的预测应与原图像的预测一致。因此,我们可以利用原始图像的预测来指导变换后图像的特征学习。第三,深层的特征表示应该保留输入的独特信息从而最大化同一样本的深层特征和浅层特征之间的互信息。为了使表示更有区别性,我们通过合并上面的图形信息将其进一步扩展为三元组形式最后,我们结合这三个不同方面的损失函数,并以端到端的方式共同研究这些相关性。图1(c)中的结果显示了我们的方法(紫色曲线)优于最先进的方法DAC [8](红色曲线)。我们的主要贡献总结如下:1) 我们提出了一种新的端到端的深度聚类框架,全面挖掘各种相关性,并选择高置信度的信息以渐进的方式训练网络;2) 本文首先推导了伪标号的合理性,并引入了伪标号损失的高置信度,直接调查类别信息,指导深度网络的无监督训练;3) 我们利用局部鲁棒性假设,并利用上述伪图和伪标号来学习更好的表示;4) 我们将实例级互信息扩展到三元组级,并提出三元组互信息损失来学习更多的鉴别特征。2. 相关工作2.1. 深度聚类现有的深度聚类方法[53,50,8]主要旨在将深度特征学习[3,45,54]与传统聚类方法[55,19,6]相结合。自动编码器(AE)[3]是一种非常流行的深度聚类的特征学习方法,并且提出了许多方法来最小化传统聚类方法的损失,以规则化自动编码器的潜在表示的学习。例如,[50,20]提出了深度嵌入聚类来利用KL发散损失。[17]也使用KL-发散损失,但增加了一个噪声编码器来学习更鲁棒的表示。[52]采用了K-means损失,[23,42,41]结合了基于自表示的子空间聚类损失。除了自动编码器外,有些方法直接根据最后一层的输出设计特定的损失函数。[53]引入了一个递归凝聚框架来合并彼此接近的集群。[8]基于标签特征探索不同样本之间的相关性,并利用这种相似性作为监督。[44]将谱聚类扩展到深层公式化。2.2. 深度无监督特征学习而不是集群,几种方法[3,25,34,13,39,2,47,49]主要关注表示的深度无监督学习。基于生成对抗网络(GAN),[12]提出添加编码器来提取视觉特征。[4]直接使用从单位球面均匀采样的固定目标来约束深度特征分配。[7]利用K-means对输出特征计算的伪标签[22]提出了深度信息最大化深度神经网络编码器的输入和输出之间的互信息。2.3. 自监督学习自监督学习[24,26]通常需要设计一个借口任务,其中目标目标可以在没有监督的情况下计算。他们假设学习到的借口任务表示包含高级语义信息,这些信息对解决下游感兴趣的任务(如图像分类)很有用。例如,[11]8152{i}Σz.θx,x∈Xδ(, )=.(五)试图预测图像块的相对位置,并[36,37]预测从完整图像创建的拼图的排列。[14]将每个图像视为一个单独的类,并通过数据增强来生成它的多个图像以训练网络。[18]将图像随机旋转四个不同角度之一,并让深度模型预测旋转。3. 深度综合关联挖掘如果没有标签,相关性在深度聚类中处于最重要的位置。在本节中,我们首先构建伪图来探索样本之间的二元相关性,以开始网络训练。为了充分利用数据背后的类别信息,本文提出了伪标签丢失算法。其次,对输入图像进行加变换前后预测的局部鲁棒性挖掘.我们还将实例级互信息提升到三元组级,使其更具区分性。最后,我们将它们结合在一起,得到我们提出的方法。3.1. 初步:伪图监控该方法首先计算样本间的相似度,通过构造伪图,选择高置信度的成对信息来指导设X=请注意,我们的伪图与DAC [8]中的伪图之间有两个不同之处:1)与DAC中的强2-范数约束不同,我们放松了这个假设,只需要在softmax层之后获取输出。该算法提高了特征的标注能力,并在实验中取得了较好的效果. 2)我们只需要一个固定的阈值thres1,而不是动态降低DAC中的阈值。这就避免了训练过程中噪声假阳性对带来的不利影响。3.2. 伪标签监督在伪图中探索的相关性不是传递的,并且仅限于成对样本。针对这一问题,在本节中,我们提出了新的伪标签损失,并证明了它的合理性。我们首先证明了伪图的K-划分的存在性,它可以自然地看作是伪标号。然后我们指出,这种划分将使方程中的最优解θθ∈。(3)导致单热预测,从而形成伪标签。最后,伪标签丢失将被引入到优化卷积神经网络。K-分割的存在性在等式(1)中定义的样本xi和xj之间的二元关系Wij(3)不属─目的:Wij在给定Wik和Wjk的情况下不是确定性的,i=1是未标记的数据集,其中xi是第i个im,可能导致训练不稳定。因此,我们引入年龄,N是图像的总数。 将K表示为班级总数我们的目标是学习一个基于深度CNN的映射函数f,它由θ参数化。 然后我们引理(1)将其扩展到更强的关系。引理1. 对任意的加权完全图G=(V,E)可以用zi=fθ(xi)∈RK来表示预测fea-对于边e,权为ω(e),如果ω(ei)ω(ej),对于ωi/=j,在CNN的softmax层之后的图像xi它具有以下特性:Kz it= 1,i = 1,···,N,且z it≥ 0,t =1,···,K。(一)t=1基于标签特征z,第i个样本和第j个样本之间的余弦相似度可以通过以下公式计算:zi·zj,其中·是两个向量的点积。I j类似于DAC [8],我们可以构造伪图W通过设置大阈值thres1:则存在一个阈值t,Gt=(V,Et)恰好K分区,其中Et={ei|ω(e)>t,ei∈E}.(四)如果我们假定相似图S中的Sij是彼此不同的,则在引理(1)的假设下,它可以被看作是一个加权完全图然后存在一个阈值t,将X划分为K个分区{P1,P2,···,PK}。伪标签的制定。 让xk表示sam-Wij =1,如果sij≥thres1,0,否则。(二)ple属于划分Pk,我们可以定义一个传递关系δ为:如果两个样本之间的相似度大于阈值,则判断这两个样本属于同一类(Wij=1),并且这两个样本的相似度应该最大化。 否则(W ij= 0),这些样本的相似性应最小化。 伪图监督可以定义为:2minL PG(θ)=Wi g(f θ(xi),f θ(xj); W ij).(三)我 Jxlxk1,如果l=k,i j 0,否则,这指示保证具有高余弦相似性的对在同一分区中。也就是说,随着相似性矩阵S的质量在训练期间增加,该分区变得更接近地面实况分区,因此,可以作为指导和加快训练的指标2对于损失函数blog,有很多选择,例如对比暹罗净损失[5,32]正则化两个样本之间的距离,以及二进制交叉熵损失[8]正则化相似性。因此,我们将每个x的分区k设置为它的伪标签。以下声明揭示了分配的伪标签与softmax之后的预测之间的关系8153骨干伪标签监督损失高阈值预测特征反向传播原始样本的伪标签高阈值反向传播伪图监督损失相似度矩阵原始样本的伪图三重线对FsoftmaxC向量特征图.NLRGθ我θJ我 Lθ我我最小值fθr(fθ(i),fθ()),(11)PG PL原始输入:x转换后的输入:x'伪图积极Concat阴性特征图C矢量F三重引导互惠l信息丢失最大化联合分销产品分销分数图最大化KL-尽量减少分歧两个分布分数图1×1转换正对负对图2.所提出的DCCM方法的流水线。基于理想的one-hot预测特征,计算高置信度的伪图和伪标签来指导原始样本和变换样本的特征学习,研究不同样本之间的相关性和小扰动后的局部鲁棒性。同时,为了研究区分特征的对应关系,利用伪图选择高置信度的正、负对进行三元组互信息优化。权利要求1. 3令θθ表示方程的最优解。(三)、如果W有K个分区,那么预测将是one-hot:f θ(x)=(0,···,0,1,0,···,0), 其中x为0。(6)因此,我们可以将伪标签公式化为:yi= arg max [fθ(xi)]k,(7)K其中[·]k表示预测向量的第k个分量。 其对应的预测伪标签的概率可以通过pi=max [f θ(xi)]k计算。在实际中,fθ(xi)并不严格遵循one-hot性质,因为很难得到问题的最优解由方程式(3)由于非凸性。因此,我们还为概率pi设置了一个大阈值thres2,以选择高度置信的伪标签进行监督:3.3. 局部鲁棒性一个理想的图像表示应该是不变性的几何变换,这可以看作是局部鲁棒性的假设。在数学上,给定图像样本x和几何变换G,我们将x′=G·x表示为变换后的样本,则良好的特征提取器fθ应满足这两个样本具有相同标号,fθ(x)<$fθ(x′)。因此,我们可以将fθ(x)和fθ(x′)之间的距离作为特征不变损失合并为:x x′θii=1其中,Wr是用于测量原始样本和变换样本的预测之间的距离的W2x和G·x可以看作是V=1,如果pi≥thres2,i0,否则。(八)’easy’ positive pair, which can well stabilize the trainingand boost the此外,请记住,对于原始样品,我们Vi=1指示预测的伪标记高度-只有在这种情况下,伪第i个样本的标号yi加入网络训练。伪标签丢失。伪标签监管损失公式为:L(θ)=λV·λ(f(x),y).(九)计算伪图和伪标签作为监督。我们希望基于转换后的样本计算的图和标签信息与这些信息一致,而不是简单地最小化预测的距离原始样本。一方面,给定一个具有高置信伪标签yi的图像xi,我们也强制x′具有PL i l θ i ixi∈X损失函数fl通常由交叉熵损失定义。通过结合高置信度伪图和伪标签的监督,我们通过最小化来探索不同样本之间的相关性:我相同的伪标签。 另一方面,我们也在调查变换后的样本x′与在原始样本xi上计算的高置信度伪图W之间的相关性,这有利于提高网络的鲁棒性。实现上述目标的损失函数可以用公式表示为:LCDS=LPG(θ)+αLPL(θ),(10)其中α是平衡参数。 那些被选中的人-L=N(f(x′),f(x′);Wx′,x′∈X′)+α<$V·<$(f(x′),y)x′∈X′可信信息可以以渐进的方式监督深度网络的训练。(三)证明材料以补充材料形式提供。ij i=L′(θ)+αL′(θ),(12)其中,X′={x′}N是转换后的数据集,W和Vi i=1IJ8154i=1J设置ˆˆ.PGJ12n与方程中的原始集合相同。(2)和(8)。算法1深度综合关联挖掘深度无监督学习可以从输入:未标记数据集X={xi}N,thres1,thres2。高于战略。当我们对国家安全委员会抱有很高的信心时-伪图和伪标号的作用,它可以被看作是简单的样本,这对参数学习的贡献很小[15]。通过加入小扰动,使变换后的样本不像原始样本那样容易预测,这将对预测有很大的贡献。3.4. 三元组互信息在这一节中,我们探讨了每个实例的深层和浅层表示之间的相关性,并提出了一种新的损失,命名为三元组互信息损失,以充分利用特征对应信息。首先介绍了文献[38,22]提出的互信息损失,分析了它的局限性。接下来,描述三元组相关性的概念。最后,我们提出了三重互信息损失,使卷积神经网络学习判别特征。同一样本的深、浅层特征之间的互信息应最大化,以保证表示的一致性类似1:随机初始化网络参数θ;2:对于[1,num epoches]中的t,3: 对于每个小批次XB,4:计算小批量集合XB中的每个样本Xi的预测特征f(Xi);5:计算相似性sij,伪图W和基于Eqs.(2)、(7)和(8);6:基于W选择正对和负对;7:通过等式(十五);8:使用优化器更新θ9:结束10:结束输出量: 通过等式计算聚类标签。(七)、然 后 , 我 们 展 示 了 这 种 方 法 是 如 何 在 理 论 上formulated通过扩展方程。(13)。我们将随机变量D和S的样本设置为集合,而不是实例。将样本j属于第i类的深层特征记为di,将样本j属于第i类的浅层特征记为si,则Di={di,di,···,di}到[38],我们还转换两个随机变量(D)和Si={Si,Si,···,Si}是类i的特征集。Vari-1 2N和S)到来自联合分布J的样本与它们的边际乘积M之间的Jensen-Shannon散度(JSD)。相应地,不同层次的特征只有在属于同一样本时才服从联合分布,否则服从边际产品分布。JSD版本MI定义为:MI( JSD ) ( D , S ) = EJ[−sp ( −T ( d ,s))]−EM[sp(T(d,s))],(十三)其中d对应于深层特征,s对应于浅层特征,T是被训练以区分d和s是否从联合分布中采样的递归函数,并且sp(z)=log(1+ez)是softplus函数。对于递归实现,[22]表明在输入中加入关于局部性的知识可以提高表示请注意,目前,我们不包含任何类别的信息。对于两个不同的样本x1和x2,即使它们属于同一类,x1的浅层表示和x2的深层表示之间的互信息因此,我们考虑通过引入正对的互信息损失来解决这个问题。如图2的右下角所示,利用第3.1节中描述的生成的伪图W,我们选择具有相同锚的正对和负对来构建三元组相关性。类似于监督学习,这种方法将实例级互信息监督提升到表D和S分别由D={D1,D2,· · ·,DK}和S={S1,S2,· · ·,SK}然后我们可以得到下面的Eq的扩展。(十三):LMI=−MI( JSD )(D ,S)= −E ( D , S ) =J[−sp(−T(d,s))]−ED×S=M[sp(T(d,s))]),(14)其中我们基于类相关特征集研究互信息在这种情况下,我们除了考虑同一样本的特征外,还最大限度地利用了同一类样本的不同层特征之间三元组互信息损失的概述如图2的右下角所示。具体来说,我们计算损失函数在方程。(14)通过成对抽样。对于每个样本,我们基于伪图W构造正对和负对,以计算三元组互信息损失,这非常有助于学习更多的区分表示。3.5. 统一模型与优化通过结合以上三个方面的研究,共同训练网络,我们提出了一种深度综合关联挖掘的非监督学习和聚类方法。DCCM的最终目标函数可以用公式表示为:minLDCCM=LPG+αLPL+βLMI,(15)θ其中α和β是平衡贡献的常数三级监管。不同的术语,LPG =LPG+L′是整体8155伪图损失,且L=L +L是总的lPLPL表1.不同数据集的统计数据集训练图像测试图像聚类图像大小CIFAR-10五万一万1032×32×3CIFAR-100五万一万20/10032×32×3STL-10一万三千–1096×96×3ImageNet-10一万三千–1096×96×3ImageNet-dog-15一万九千五百–1596×96×3Tiny-ImageNet十万–20064×64 ×3′PL伪标签丢失。提出了DCCM的体系结构在图2中基于理想的one-hot预测特征,计算高置信度的伪图和伪标签来指导原始样本和变换样本的特征学习,研究不同样本之间的相关性和对小扰动的局部鲁棒性。同时,为了研究区分性特征学习的特征对应关系,利用伪图选择高置信度的正负对进行三元组互信息优化.我们提出的方法可以以基于小批量的端到端方式进行训练,可以有效地优化。在训练之后,预测的特征理想地是one-hot。样本xi的预测聚类标签与伪标签yi完全相同,这很容易通过等式2计算。(七)、我们在算法1中总结了整个训练过程。4. 实验我们把实验分成几个部分。我们首先检查DCCM的有效性进行比较,它对其他国家的最先进的算法。在此基础上,我们通过控制几个影响因素进行了更多的消融研究。最后,通过一系列的分析实验验证了统一模型训练框架的有效性接下来,我们介绍实验设置。数据集。我们选择了六个具有挑战性的图像数据集进行深度无监督学习和聚类,包括CIFAR- 10 [27],CIFAR-100 [27],STL-10 [9],Imagenet-10和ImageNet-dog-15和Tiny-ImageNet [10]数据集。我们在表1中总结了这些数据集的统计数据。对于聚类任务,我们采用与[8]相同的设置,其中联合利用每个数据集的训练和验证图像,并在实验中考虑CIFAR-100数据集的20个超类。我们实验中使用的ImageNet-10 和 ImageNet-dog-15 与 [8] 相 同 , 他 们 从ImageNet中随机选择10个主题和15种狗图像数据集,并将这些图像调整为96×96×3。至于Tiny-ImageNet数据集,ImageNetdataset [10],它总共包含200个类,110,000个图像,这是一个非常具有挑战性的聚类数据集。对于迁移学习分类任务,我们采用与[22]类似的设置,其中我们主要考虑CIFAR-10、CIFAR-100共100个等级。训练样本和测试样本是分开的。评估指标。为了评价聚类的性能,我们采用了三种常用的度量 标准:归一化 互信息(NMI)、准确 度(ACC)和调整后的随机指数(ARI)。这三个度量有利于不同的属性在聚类任务。详情请参阅附录。对于所有三个指标,值越高表示性能越好。为了评估特征表示的质量,我们采用了与[22]相同的非线性分类任务具体来说,在DCCM的训练之后,我们固定深度神经网络的参数,并以监督的方式分别训练一个多层感知网络,该网络在最后一个卷积层和全连接层特征之上具有单个隐藏层(200个实施详情。我们的框架中使用的网络架构是AlexNet的浅版本(不同数据集的详细信息在文档材料中描述)。 类似于[8],我们采用了具有lr = 1e−4的RMSprop优化器。 对于超参数,我们设置α = 5和β=0。对于所有的数据集,都是1,在一定范围内相对稳定。 构造高置信度伪图和选择高置信度伪标签的阈值被设置为0。95和0。9,分别。在实验中使用的小扰动包括旋转、移位、重标度等。为实现互信息估计,在网络结构上,我们采用了与文献[22]相同的三层1×1卷积网络。我们使用pytorch [40]来执行我们的方法。4.1. 主要结果我们首先比较DCCM与其他国家的最先进的聚类方法的聚类任务。结果示于表2中。其他方法的大多数结果直接从DAC [8]复制DCCM显着超过其他方法的大幅度在这些基准下,根据所有三个评估指标。具体而言,即使与最先进的方法DAC [8]相比,DCCM的改进也非常显著。以聚类ACC为例,我们的结果为0。623是10。1%,高于每100。CIFAR-10数据集上的522个DAC [8]。在CIFAR-100数据集上,DCCM的增益为8。比DAC高9%[8]。图3显示了使用t-SNE [33]在CIFAR-10上嵌入DCCM和DAC的特性。我们可以看到,与DAC相比,DCCM表现出更有区别的特征表示。以上结果充分验证了本文提出的DCCM的有效性和优越性。为了进一步评估特征表示的质量,我们采用了分类任务,并将DCCM与其他深度无监督特征学习方法进行了比较。我们将DCCM与几种无监督特征学习进行了8156表2.不同方法在六个具有挑战性的数据集上的聚类性能。最佳结果以粗体突出显示。数据集CIFAR-10CIFAR-100STL-10ImageNet-10Imagenet-dog-15Tiny-ImageNet方法NMIACCAriNMIACCAriNMIACCAriNMIACCAriNMIACCAriNMIACCAriK-means0.087 0.229 0.049 0.084 0.130 0.028 0.125 0.192 0.061 0.119 0.241 0.057 0.055 0.105 0.020 0.065 0.025 0.005SC [55]0.103 0.247 0.085 0.090 0.136 0.022 0.098 0.159 0.048 0.151 0.274 0.076 0.038 0.111 0.013 0.063 0.022 0.004AC [19]0.105 0.228 0.065 0.098 0.138 0.034 0.239 0.332 0.140 0.138 0.242 0.067 0.037 0.139 0.021 0.069 0.027 0.005NMF [6]0.081 0.190 0.034 0.079 0.118 0.026 0.096 0.180 0.046 0.132 0.230 0.065 0.044 0.118 0.016 0.072 0.029 0.005不良事件[3]0.239 0.314 0.169 0.100 0.165 0.048 0.250 0.303 0.161 0.210 0.317 0.152 0.104 0.185 0.073 0.131 0.041 0.007DAE [45]0.251 0.297 0.163 0.111 0.151 0.046 0.224 0.302 0.152 0.206 0.304 0.138 0.104 0.190 0.078 0.127 0.039 0.007GAN [43]0.265 0.315 0.176 0.120 0.151 0.045 0.210 0.298 0.139 0.225 0.346 0.157 0.121 0.174 0.078 0.135 0.041 0.007DeCNN [54]0.240 0.282 0.174 0.092 0.133 0.038 0.227 0.299 0.162 0.186 0.313 0.142 0.098 0.175 0.073 0.111 0.035 0.006VAE [25]0.245 0.291 0.167 0.108 0.152 0.040 0.200 0.282 0.146 0.193 0.334 0.168 0.107 0.179 0.079 0.113 0.036 0.006JULE [53]0.192 0.272 0.138 0.103 0.137 0.033 0.182 0.277 0.164 0.175 0.300 0.138 0.054 0.138 0.028 0.102 0.033 0.006[第50话]0.257 0.301 0.161 0.136 0.185 0.050 0.276 0.359 0.186 0.282 0.381 0.203 0.122 0.195 0.079 0.115 0.037 0.007发展援助委员会[8]0.396 0.522 0.306 0.185 0.238 0.088 0.366 0.470 0.257 0.394 0.527 0.302 0.219 0.275 0.111 0.190 0.066 0.017DCCM(我们的)0.4960.6230.408 0.285 0.3270.1730.376 0.4820.2620.608 0.7100.555 0.3210.3830.182 0.2240.108 0.038(a) DCCM的初始阶段(b)DCCM的中间阶段(c)DCCM的最终阶段(d)DAC图3.CIFAR-10数据集上DCCM和DAC不同阶段嵌入的可视化不同的颜色表示不同的聚类。从(a)到(c),随着时期的增加,DCCM倾向于逐步学习更多的区分性特征。基于(c)和(d),DCCM的特征比DAC的特征更具区分性。CIFAR-100VAEAAEBiGANNATDIMDCCM(我们的)表3. CIFAR-10数据集上DCCM的消融研究。LR、PL和MI分别对应于局部鲁棒性、伪标签和互信息图4.不同深度无监督特征学习方法在两个数据集上的非线性分类精度(前1)结果。’Conv’ denotes the features after thelast convolutional layer, and ’Y(方法,包括变分AE(VAE)[25],对抗AE(AAE)[34],BiGAN [12],噪声作为目标(NAT)[4]和深度信息(DIM)[22]。前1名非线性分类准确度比较见图4。我们还可以观察到DCCM在CIFAR-10和CIFAR-100数据集上取得了比其他方法特别是在CIFAR-10数据集上,我们在卷积和全连接层特征上的结果比第二好的方法DIM高出8%以上。由于我们引入了基于图的类信息,并将实例级互信息转换为三元组级互信息,所以我们的方法可以学习到更多的判别特征,这是显著改进的原因。我们还比较了几个国家的最先进的方法在同一架构下,并分析了不同的抽样策略的影响,在补充材料。4.2. 相关分析我们从三个方面分析各种关联的有效性:局部鲁棒性,伪标签和三重互信息。结果示于表3中。局部鲁棒性影响。方法M2和M1之间的唯一区别在于是否使用局部鲁棒性机制。我们可以看到,M2显著优于M1,这表明了局部鲁棒性的鲁棒性和有效性。由于我们设置了高阈值来选择正对,方法相关性度量LR PL MI NMI ACCAriM1LPG0.304 0.405 0.232M2L^PGC0.412 0.512 0.323M3L^+LPG PLCC0.448 0.583 0.358M4 L^+L+LPG PL MICCC0.496 0.623 0.4088157ACC NMI ARI0.650.5380.4250.313(a) 最大概率0.200.10.20.30.40.50.60.70.80.91阈值(b) Thres2的影响BCubed召回图5.在CIFAR-10上对不同时期的伪图进行了三次查准率和查全率曲线[1].线上的这些圆点对应于固定伪图阈值0。95实验然而,这些简单对对参数学习的贡献有限在局部鲁棒性损失的情况下,构造了大量的硬样本对,以利于网络的训练。所以它显著地提高了性能。伪标签的有效性。在伪标记的帮助下,M3(同时具有伪图和伪标记)在所有度量下都比M2(仅具有伪图)获得更好的结果。具体来说,有一个7。在聚类ACC上有1%的改进。这是因为伪标签可以充分利用特征分布背后的类别信息,有利于聚类。三元组互信息分析。比较M4和M3的结果可以看出,三重态互信息可以使聚类ACC进一步提高4。0%。正如我们在3.4节中所分析的,借助伪图,三元组互信息不仅可以利用同一样本的特征对应性,而且可以通过构造正负对来引入区分性。因此,它可以进一步改善结果。4.3. DCCM的总体研究在本节中,我们在CIFAR- 10 [27]上进行了实验,以研究深度综合相关性挖掘的行为。该模型使用第3.5节中介绍的统一模型优化进行训练。B立方精度和召回的伪图。 BCubed [1]是一个衡量聚类中分区质量的指标。我们验证了我们的方法可以通过使用BCubed [1]精确度和召回率曲线以渐进的方式学习更好的表示,这些曲线是基于图5中不同时期的伪图计算的。很明显,随着epoch的增加,伪图的精度变得更好,这将反过来提高聚类性能。预测特征的统计。根据权利要求1,理想的预测特征具有one-hot属性,因此我们可以使用高置信度的伪标签来指导训练。为了验证这一点,我们比较了图6.在CIFAR-10数据集上,所有预测特征中最大概率的分布以及高置信度伪标签的阈值的影响。初始阶段和最终阶段之间的最大预测概率。CIFAR-10数据集的结果见图6(a)。 对于CIFAR-10数据集,最大概率p在[0. 1,1]。 我们在九个不相交的区间内计算概率,例如[0。1,0。2],[0. 2,0。3],· · ·,和[0. 9,1]。我们可以看到,在初始阶段,所有样本中只有不到10%的概率大于0。7,而训练后,近80%的样本具有大于0的概率。9 .第九条。上述结果意味着最大概率趋于1,其他概率趋于0,这与我们的权利要求1一致。的影响力。在图6中,我们测试了阈值对选择高置信度伪标签的影响,训练我们可以看到,随着阈值的增加,性能也随之提高。这是因为在低阈值的情况下,网络训练时会采用一些不正确的伪标签,从而影响网络的性能。因此,设置较高的阈值来选择高置信度的伪标签进行监管是非常重要的5. 结论对于深度无监督学习和聚类,我们提出了DCCM,通过挖掘综合相关性来学习区分性特征表示。除了利用样本间的相关性外,我们还充分利用了特征间的互信息、对小扰动的局部鲁棒性以及它们之间的相关性。我们进行了广泛的实验,几个chal-challenging数据集和两个不同的任务,彻底评估的性能。DCCM实现了显着的改进,- ment超过国家的最先进的方法。确认Z 的 工 作 国 家 973 计 划 资 助 项 目 ( 批 准 号 :2015CB352502)、中国NSF(授权号:61625301和61731018),高通公司和微软亚洲研究院。H.查博士获 得 国 家 重 点 研 究 发 展 计 划 项 目 ( 批 准 号 :2017YFB1002601)和国家自然科学基金(批准号:61632003和61771026)。时期0第十20世纪30世纪伪对B立方精度性能8158引用[1] EnriqueAmigo´,JulioGonzalo,JavierArtiles,andFelisaVerdejo.基于形式约束的外部聚类评价指标的比较。信息检索,12(4):461[2] Miguel A Bautista 、 Artsiom Sanakoyeu 、 EkaterinaTikhoncheva和Bjorn Ommer。Cliquecnn:深度无监督范例学习。在NIPS,第3846-3854页,2016年。[3] Yoshua Bengio、Pascal Lamblin、Dan Popovici和HugoLarochelle。贪婪的深度网络分层训练。NIPS,第153-160页,2007年[4] Piotr Bojanowski和Armand Joulin。通过预测噪声进行无监督在ICML,第517-526页[5] Jane Bromley、Isabelle Guyon、Yann LeCun、Eduard S ¨ckinge r和RoopakShah。使用“连体”时间延迟神经网络的签名验证NIPS,第737- 744页,1994年[6] 蔡登,何小飞,王宣辉,包虎军,韩继伟.局部保持非负矩阵分解。InIJCAI,2009.[7] Mathilde Caron,Piotr Bojanowski,Armand Joulin,andMatthijs Douze.用于视觉特征的无监督学习的深度聚类。在ECCV,2018。[8] 常建龙,王凌峰,孟高峰,向世明,潘春红。深度自适应图像聚类。在IEEE ICCV,第5879-5887页[9] Adam Coates,Andrew Ng,and Honglak Lee.无监督特征学习中单层网络的分析在AISTATS,第215-223页[10] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。在IEEE CVPR,2009年。[11] Carl Doersch、Abhinav Gupta和Alexei A Efros。通过上下文预测的无监督视觉表示学习在IEEE ICCV,第1422-1430页[12] Je f fDonahue,PhilippK raühenbuühl,和Tr ev或Darrell。对抗性特征学习。在ICLR,2017。[13] Alexey Dosovitskiy , Philipp Fischer , Jost TobiasSpringenberg,Martin Riedmiller,and Thomas Brox.使用示例卷积神经网络进行区分性无监督特征学习。IEEETPAMI,38(9):1734-1747,2015年。[14] Alexey Dosovitskiy , Jost Tobias Springenberg , MartinRied-miller,and Thomas Brox.用卷积神经网络进行判别式无监督特征学习。NIPS,第766-774页,2014年[15] 段跃奇,郑文钊,林旭东,卢吉文,周杰。深度对抗度量学习。在IEEE CVPR,第2780-2789页[16] Ehsan Elhami
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索AVL树算法:以Faculdade Senac Porto Alegre实践为例
- 小学语文教学新工具:创新黑板设计解析
- Minecraft服务器管理新插件ServerForms发布
- MATLAB基因网络模型代码实现及开源分享
- 全方位技术项目源码合集:***报名系统
- Phalcon框架实战案例分析
- MATLAB与Python结合实现短期电力负荷预测的DAT300项目解析
- 市场营销教学专用查询装置设计方案
- 随身WiFi高通210 MS8909设备的Root引导文件破解攻略
- 实现服务器端级联:modella与leveldb适配器的应用
- Oracle Linux安装必备依赖包清单与步骤
- Shyer项目:寻找喜欢的聊天伙伴
- MEAN堆栈入门项目: postings-app
- 在线WPS办公功能全接触及应用示例
- 新型带储订盒订书机设计文档
- VB多媒体教学演示系统源代码及技术项目资源大全
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功