没有合适的资源?快使用搜索试试~ 我知道了~
16640−−基于在线约束K-means的无监督视觉表征学习Qi Qian1Yuanhong Xu2 Juhua Hu3Hao Li2RongJin11 Alibaba Group,Bellevue,WA 98004,USA2中国杭州阿里巴巴集团3华盛顿大学工程与技术学院,塔科马,WA 98402,美国{齐.钱,袁宏.徐,李浩.lh,金荣.jr} @ alibaba-inc.com,juhuah@uw.edu摘要聚类判别是无监督表示学习的一个有效前提集群是指为每个实例分配一个将被使用的伪标签学习辨别中的表征。主要的挑战在于聚类,因为流行的聚类方法(例如,k-均值)必须以批处理模式运行。此外,可能存在一个平凡解,时期:t-1epoch:t集群为了解决这些挑战,我们首先研究基于聚类的表示学习的目标。在此基础上,我们提出了一种新的基于聚类的预文本任务与在线约束K-均值(CoKe)。与均衡聚类算法中每个簇具有相同的大小相比较更重要的是,我们的在线分配方法有一个理论上的保证,以接近全局最优。通过解耦聚类和区分,CoKe可以在优化时仅从每个实例的单个视图在Ima-geNet和其他基准数据集上的大量实验验证了我们的建议的有效性和效率。1. 介绍近年来,许多研究致力于无监督表示学习,旨在利用大量的未标记数据来获得适用的模型。与监督学习不同的是,标签可以为学习提供明确的区分任务,设计合适的借口任务对于无监督表示学习至关重要。已经提出了许多借口任务,例如,实例判别[12],聚类判别[3],不变映射[9,14],解决拼图[20],补丁修复[21]等。其中,将每个实例识别为单个类的实例判别[12]由于其简单的目标而流行。但这图1. CoKe的插图。 当小批量到达时,每个实例将通过我们的在线分配方法分配到一个集群。然后,在时期t中,来自编码器网络的表示通过使用从时期t1获得的伪标签和聚类中心的辨别来优化。存储来自时期t1的伪标签,以便在时期t中使用每个图像的唯一id进行检索。在大规模数据集上,托词任务可能是难以处理因此,开发对比学习是为了减轻使用内存库[15]或使用大量小批量实例[6]进行训练的大规模挑战[6,15,28],这需要额外的计算资源。除了实例判别,聚类判别也是无监督表示学习的有效借口任务[1,3与为每个实例分配唯一标签的实例判别相比,聚类判别将数据划分为预定义数量的组,该数量显著小于实例总数。因此,聚类后的分类任务对于大规模数据变得更加可行此外,使用聚类学习表示将相似的实例推到一起,这可能有助于探索数据中的潜在语义结构。不幸的是,聚类阶段通常需要在整个数据集上运行多次迭代,这必须以批处理模式进行以访问所有实例的表示[3]。因此,采用在线聚类来提高效率,而崩溃问题(即,主导…标签中心焦炭编码器分类标签中心按图像ID检索编码器单一视图图像x图像x16641包含大多数实例的集群)变得需要优化。为了缓解这个问题,ODC [30]必须记住所有实例的表示,并使用传统的批处理模式聚类方法分解占主导地位的大型集群。相反,SwAV [4]结合了一种平衡聚类方法[1],并使用批处理模式求解器为仅来自最后几个小批的实例进行分配,这明显优于ODC [30]中的普通然而,仅使用一小部分数据来生成伪标签可能无法捕获全局分布。此外,平衡聚类限制每个聚类具有完全相同的实例数量,这可能导致数据的次优划分为了利用聚类歧视的好处,但减轻挑战,我们首次从距离度量学习的角度研究了基于聚类的表示学习的目标[22]。我们的分析表明,它确实同时学习表示和实例之间的关系,而耦合变量使优化具有挑战性。通过适当地解耦这些变量,问题可以在两个阶段之间以交替的方式解决,即聚类和判别。在确定表示时,聚类是为了发现实例之间的关系.之后,可以通过使用聚类中的标签进行区分来进一步细化表示。这一发现解释了现有聚类判别方法的成功。然而,大多数现有的方法都必须在批处理模式下进行昂贵的聚类,而我们的分析表明,在线方法是可行的,以优化目标。在此基础上,我们提出了一个新的借口任务与在线约束K-MEans(CoKe)的非监督表示学习。具体而言,在聚类阶段,我们提出了一种新的在线算法约束k-均值,下限每个集群的大小。与平衡聚类不同,我们的策略更灵活地建模固有的数据结构。此外,我们的理论分析表明,所提出的在线方法可以实现一个接近最优的分配。在辨别阶段,我们采用标准的归一化Softmax损失,其中标签和中心从最后一个时期记录以学习表示。通过解耦聚类和判别阶段,CoKe可以有效地从每个实例中学习具有单个视图的表示,并且可以以小批量进行优化。此外,提出了两个方差减少策略,使聚类增强的鲁棒性。图1示出了CoKe的框架,其展示了没有附加组件的简单框架(例如,动量编码器[14,15]、批处理模式解算器[4,30]等)。此外,每个实例只有一个标签保存在内存中,这是一个整数,存储成本可以忽略不计。在下游任务和聚类上进行了大量的实验来证明该建议。由于每个实例只有一个视图用于训练,CoKe已经实现了比需要两个视图的MoCo- v2 [8]更好的性能。通过在优化中包含额外的视图,CoKe在ImageNet和集群上展示了最先进的性能。2. 相关工作已经提出了各种借口任务的非监督表示学习。本文简要回顾了与我们工作密切相关的实例判别和聚类判别方法,其他代表性方法包括BYOL [14]、SimSiam [9]和Barlow Twins [29]。2.1. 实例判别实例区分是无监督表示学习的一个简单的借口任务,它试图将来自同一实例的不同增强拉到一起,但将它们从所有其他实例中推开这一类别的早期工作每个实例都有一个唯一的标签),这意味着一个N类分类问题,其中N是实例的总数[12]。虽然获得了有希望的结果,但这需要用于深度学习的大型分类层。为了提高效率,开发了非参数对比损失以减轻大规模挑战[28]。在此之后,开发了许多变体,如MoCo [8,10,15]和Sim-10 [6],以接近甚至优于下游任务的超监督预训练模型。2.2. 簇区分实例判别只关注实例的个体,忽略了实例之间的相似性。因此,基于聚类的方法被开发出来,以更好地捕捉数据结构,通常包括两个阶段:聚类和歧视。DeepCluster [3]采用标准的k-means进行聚类,而SeLa[1]提出解决平衡分配的最佳传输问题。在获得伪标签后,通过优化相应的分类问题来学习表示。这些方法的瓶颈是标签需要以批处理模式离线分配,并表示所有实例以捕获全局信息。为了降低批处理模式聚类的成本,ODC [30]应用标准的在线聚类以避免在整个数据集上进行多次迭代,而所有实例的表示需要保存在内存中以解决崩溃问题。SwAV [4]扩展了批处理模式最优传输求解器[1],以进行在线分配来解决崩溃问题。SwAV中的分配问题定义在要保存的小批实例中16642----2E∈R22Σ2ΣΣ222Σ2X--我伊吉2我Q 222我2x,C我yi2我K 2K给定一组N个未标记数据xi和聚类数K,约束k均值的目标是∀ ∥−∥ − ∥ − ∥ ≥KK存储表示。为了提高效率,该方法存储来自最后几个小批量实例的表示以捕获附加信息。然而,与整个数据相比,这仍然是一个小的子集,因此可能无法利用全局信息足够了在此之后,DINO [5]建议使用自适应动量编码器来稳定聚类,我们展示了一个流行的策略,优化x和µ,C交替。当确定分配μ和中心C时,子问题变为最小Σ。x-c −我q:q=y记忆表示,并可以实现与ResNet-50的SwAV类似的除了基于聚类的借口任务外,一些工作提出利用每个实例的最近邻居来捕获不同实例之间的语义相似性[13]。然而,需要大的批量大小和存储体来捕获适当的邻居,这对于优化来说是昂贵的在这项工作中,我们的目标是改善聚类阶段与在线约束k均值方法,这给了更好的灵活性,集群大小,并具有理论保证在线作业。其中yi=argmaxkµi,k是第i个实例的伪标签。给定伪标号,它可以用与方程11相同的超改进方法求解1,这是表征学习中的辨别阶段当固定表示x时,子问题可以简化,因为经验观察到单位超球面上学习表示的分布具有接近零的均值[26],Kmin3.该方法ΣΣµi,k∥xi−ck∥2我k=1(三)3.1. 基于验证的方法我们从监督表示学习开始分析给定监督标签信息,距离度量学习[27]已被广泛研究,以通过优化三元组约束(包括一些有效的基于代理的变体[19,22,23])来学习当数据中有K个类时,设C=[c1,. . . .,cK] d×K表示K个代理,每个代理对应一个类。使用代理定义的三元组约束为xi,ck:kyi,xick2Xi振英2δ,其中y i是x i的标号。到最大化的边缘,监督表示学习的优化问题可以被转换为minx−c−x−c(1)我yik:k这是一个标准的k-means聚类问题,作为表示学习中的聚类阶段。分析表明,解耦聚类和判别[3,4]对应于方程2中目标的交替求解器。在这项工作中,我们进一步解耦方程中的μ和C。3用于高效的在线聚类。3.2. 在线约束K-Means由于聚类阶段更具挑战性,我们解决了方程中的问题。第三个。如[1]所示,原始公式可能会导致大多数实例进入同一个集群的平凡解决方案。为了缓解这个问题,我们采用了约束k-means [2],即控制聚类的最小大小以避免崩溃。--这可以通过深度学习有效解决[22]。在没有监督标签信息的情况下,我们假设数据中有K个聚类。除了每个俱乐部的代理人-minC,µ∈Ci=N,k=Ki=1,k=1µi,kxi −c k2S.T. 雷克Nµi,k≥γk(4)i=1ter,我们有一个额外的变量μ,使得μ i,k=1将第i个实例分配给第k个集群。 我们将µ的定义域约束为:|i,k µi,k=1,i,k,µi,k∈{0, 1}}。这意味着每个实例只会被分配给其中γk是k-簇的簇大小的下限。因此,无监督表示学习的最终目标变为一个单一的集群。基于代理的不支持的目标-有指导的表示学习可以写为minx,C,µ∈N ,(K−1)(1−µi,q)<$xi−cq<$2,ik=1q=1minx,C,µ∈N,(K−1)µi,kxi−ck2−(1−µi,q)<$xi−cq<$2,S.T. 雷克Nµi=1i,k≥γk(五)ik=1q=1(二)Eqn中的问题4可以在批处理模式下解决方程中的耦合变量2、优化具有挑战性。因此,我们可以用另一种方法来解决这个问题。应该注意的是,有三组变量x,C,µ,不同的分解可以产生不同的算法。然而,神经网络通常使用随机梯度下降(SGD)进行优化,每次迭代只能访问一小批实例因此,我们提出了一种新的在线算法来处理这个问题的理论保证如下。KKC,µ∈C16643nKRVΣ≥µ∈∆′{1}|联系我们i,ki,kµ而不是离散赋值。因此,委员会认为,∆τB我N其中{ρi−1}是最后一次迭代的对偶变量K√√Σ ΣΣ ΣΣ√O1π[γ,. - 是的- 是的,γ]我 i,k3.2.1在线作业我们考虑方程中问题的交替求解器4.第一章当C固定时,更新μ的问题可以简化为分配问题定理1. 如果随机序列到达,通过设置η=τ/2N,我们有E[R(μ)] ≤O(N),E[V(μ)]≤ O(N)最大值i,k µ i,ks.t.k我 Ki=1话定理1表明,与op-由连续分配组成的最优解,其中μ的值可以从离散空间松弛到连续空间,因为μ∈[0, 1],s是sim。我们的方法与整数分配的gret可以很好地有界此外,违反也有界O( N)第i个实例和第k个集群之间的相似性在在本工作中,我们假设x和c具有单位范数,si,k= x<$ick.令µm表示问题的最优解,等式六、在线学习的标准指标是R(µ)=si,kµi,k−si,kµi,kikikV(µ)= max{γk− µi,k}我其中,(μ)和(μ)分别表示在N个实例上计算的后悔和违规。由于µm可以是具有连续值的解决方案,因此对于µ m的遗憾也不会少说明了对于每一个对齐,最优的差距可以由(1/ N)和我们的分配方法可以实现一个接近最优的结果,即使在线运行。此外,该定理还暗示,通过以较小的因子增加γk,对于使用SGD进行训练,每次迭代都会到达一小批实例,而不是单个实例如果小批量的大小是b,我们将为每个实例分配伪标签8.双变量将使用平均梯度更新为Bρi=<$(ρi−1−η(µs− 1K))(9)s=1如果我们能很好地约束这个遗憾,就能保证最优整数解的性能为了解决Eqn中的问题 6,我们首先为每个约束iµ i,k引入一个对偶变量ρ kγ k为了与深度学习中的训练方案保持一致,我们假设每一个事件都是随机发生的当第i个实例到达当前迭代时,可以通过求解问题maxsi,kµi,k+ρi−1µi,k(7)K3.2.2在线聚类通过提出的在线分配,我们可以在线更新约束k均值的分配和中心具体来说,对于第t个epoch,我们首先固定Ct−1,并为每个小批量实例分配伪标签。在用实例的时期训练之后,中心可以被更新为ntt不µi∈′k kK01-02iµi,kxiNµt)(10)[1],[2],[3],[4]。. .,µ i,K]. Eqn中的问题7具有其中µt是第t个时期的赋值,xt表示封闭解的单一视图我在第t个时期的第i个实例。.1 k = arg max ks i,k+ ρi−10o.w.因为我们的方法并不记忆例如,约束k均值中的变量,特别是注意,赋值的定义域是一个连续空间,但我们的解意味着一个整数赋值。此外,对偶变量控制了对簇大小约束的违反。该方法退化为没有对偶变量的贪婪策略。赋值后,对偶变量将更新为中心,将仅用实例的历元更新一次。然而,k-means需要多次迭代才能收敛为批处理模式方法。幸运的是,将每个时期的数据聚类到最佳状态对于表示学习来说是不必要的根据Eqn. 5,我们可以进一步分解μ和C。 当固定xt和C t−1时,分配可以通过建议的在线更新为-ρi=π(ρi−1−η(μi[γ1,. - 是的- 是的 ,γ K]-N))分配方法当固定xt和µt时,中心有一个封闭形式的解决方案,如方程。10个。因此,一步其中,将对偶变量投影到域<$τ=ρ k,ρ k0,ρ1τ。在线分配算法的性能可由定理1得到保证.完整的证据可以在补充材料中找到可用于优化目标对象,并且可以减轻聚类的成本。直观地说,随着训练次数的增加,表示得到了改善,同时聚类也逐渐优化。τ对于在所有实例上累积的约束 它-µi,k=(八)16644−ΣΣ−我我我ΣΣsi,ki:1我 Jexp(xt<$ct−1/λ2j=1i,kKk=1我Kk:m2)2K此外,受mini-batch k-means [25]的启发,我们可以积极更新中心以加速聚类过程的收敛。具体地,中心可以在每个小批量之后更新,其中,Ct和y_t是在第t个时期获得的,y_t表示y_t的单热向量。 该公式平均了最近T ′时期的聚类结果,以减少增广引起的变异。与keyi不同,yi由于系综而不是独热mµtxt01 - 02- 03-02i i,kimµt(十一)届我们采用软标签定义的损失,i i,kexp(xtCLS我其中,m表示接收到的实例的总数,Rssoft(xt)=−01-02ik)exp(xt<$c<$t−1/从一个小批量。3.3. 歧视利用从第(t1)个时期获得的伪标签和中心,我们可以通过优化第t次迭代时实例的标准归一化Softmax损失来学习表示,如下所示:exp(xt<$ct−1/λ)两个视图学习表征从同一个图像的两个视图是普遍的对比学习。我们提出的方法可以被认为是利用来自不同时期的两个视图,因此单个视图对于每个时期是足够的然而,CoKe可以通过在每次迭代中访问两个视图来进一步改进给定图像的两个视图,分配的约束是两个视图共享相同的标签。因此cls(xt)=−log(iyt−1我)(12)在Eqn中的分配问题7成为哪里yt−1是由下式隐含的伪标号:μt−1,λ为最大1µµi∈′2i,kJi,k +ρi−1µi,k温度 由于µi是一个独热向量,我们可以保持内存中每个实例的单个标签,其中其中,sjkj=1k表示第j个视图之间的相似性,存储成本可以忽略不计。xi和ck具有单位范数。通过解耦聚类和歧视,我们的方法可以的ii,k-th实例和k-th中心。因此,它相当于优化方程中的目标5、以一种有效的方式进行交流。为了初始化表示的伪标签和中心,为了获得在两个视图上平均的平均向量的标签,感知学习,我们扫描一个时期的实例,训练模型以获得μ0和C0。. 1k= arg maxk12sj+ρi−1最后,我们证明了我们的方法是收敛的。推论1.所提出的方法将收敛,如果保持µt−1,当µt不提供损耗降低时。虽然理论需要检查µt的最优性,但我们根据经验观察到CoKe与vanilla实现一起工作得很好。3.4. 鲁棒聚类的方差缩减每个实例的不同视图的差异为表征学习提供了必要的信息。然而,它可能会干扰聚类,使优化0o.w.在《易经》中,12将在两个视图上平均。与单视图相比,多视图可以减小不同增强的方差,使分配更加稳定。除了单热分配的方差减少之外,附加视图的另一个优点是它可以为另一个视图提供参考标签分布令pi:j表示标签上的预测概率exp(xj<$ct−1/λ)pt−1=iq慢了 因此,我们提出了两种策略,以减少i:j,qΣKexp(xj<$ct−1/λ)分配步骤产生的差异。均线围剿是减少我们可以用视图2的引用获得视图1的软标签,方差 因此,我们建议累积聚类yt=αyt−1+(1−α)pt−1第二阶段的结果。具体地说,对于t > T′,当-i:1ii:2分配和中心将被更新为然后,可以优化视图1的交叉熵损失Ct=(1−1 )Ct−1+ 1Ct;关于Y而不是. Alg. 1总结了t−T′t−T′CoKe具有两个视图,可扩展到多个yt=(1−1′)yt−1+1′yt轻松查看t−T t −TK第t个时期。在充分的训练之后,我们可以在每个时期中仅切换到更新中心一次,以减少变化。Kj=1Kk=1Kµi,k=(十三)16645···1Σ算法1CoKe的两视图伪代码# f:输入图像的编码器网络# u:pseudo one-hot labels(Nx 1)# C:集群中心# rho:约束的对偶变量(Kx1)# gamma:簇大小# lambda:temperature# alpha:标签for z in loader:# load a minibatch with b samplesz_1,z_2 = aug(z),aug(z)# two random views from zx_1,x_2 = f(z_1),f(z_2)# encoder representationss_1,s_2 = x_1C,x_2C# logits over centersy = u(z_id)#从最后一个epoch#计算每个视图的引用分布p_1 = softmax(s_1/lambda)p_2 = softmax(s_2/lambda)#获得用于辨别的软标签y_1 = alpha* y +(1-alpha)*p_2y_2 = alpha* y +(1-alpha)*p_1#两个视图loss = 0.5*(-y_1* log(p_1)-y_2* log(p_2))loss.backward()#更新编码器#更新集群x_mean = 0.5 *(x_1+x_2)#两个视图的平均向量u(z_id)=update(x_mean,C,rho)#如等式11所示。13C = update(C,x_mean,u(z_id))11 rho = update(rho,gamma,u(z_id))#,如等式11所示。144. 实验我们在ImageNet [24]上进行了无监督表示学习的实验,以评估所提出的方法。为了公平比较,我们遵循基准方法中的设置[4,6,8]。详情可参阅补充资料。对于CoKe中的参数,我们将学习率设置为1 .一、温度λ= 0。1. 除了模型的学习率之外,CoKe还包含另一个用于更新对偶变量的学习率η,如在Eqn中。9 .第九条。我们凭经验观察到它是不敏感的,并设置η=20。最后,批量大小为1024,这样除了具有多作物的实验之外,CoKe的所有实验都可以在具有8个GPU和每个GPU上的16G内存的标准服务器上实现。CoKe中的一个重要参数是最小集群大小。为了减少参数的数量,我们为不同的聚类分配相同的约束,如γ1=K=γ。考虑到γ=N/K表示平衡聚类,我们引入一个参数γ′作为γ=γ′N/K,并调整γ′代替γ,以便更好地说明。在实验中,我们观察到对偶变量的最大值是有界的,因此我们将对偶变量的更新准则简化为ImageNet. 线性分类器的训练协议遵循MoCo [15]中的协议,只是我们将预训练模型的权重衰减改为10- 6,学习率改为1。4.1.1平衡聚类与约束聚类在以前的工作[1,4]中,平衡聚类将每个聚类约束为具有相同数量的实例,这证明了表示学习的良好性能。约束聚类降低每个聚类的大小是一种更通用的设置,但研究较少。使用所提出的方法,我们比较了表1中的约束聚类和平衡聚类。比率:γ′Accc%缺点数量#最小值最大数量163.14274034450.863.83423381,3010.664.32562541,4040.464.51711682,371041.300449k表1.焦炭中不同比例γ′性能通过ImageNet上的学习表示进行线性分类评估,如MoCo [15]。我们固定中心数为K=3,000,同时改变γ′来评估簇大小约束的影响。当γ′=1时,每个聚类必须包含N/K个实例,这就是平衡聚类。我们让“#Cons”、“#Min”、“#Max”分别表示受约束的集群大小、来自CoKe的最后时期的最小集群的实际大小和最大集群的实际大小。如表1所示,平衡聚类可以达到63. 使用单一视图进行训练时的准确率为1%。它证实了平衡聚类是有效的学习表示。如果降低该比率,则每个集群可以具有不同数量的实例,从而更灵活地捕获固有的数据结构。例如,当γ′= 0时。8,最小聚类数从403个减少到338个,而最大聚类数是平衡聚类的两倍多同时,不平衡划分有助于提高精度0。7%。甚至更小的比率为0。4,我们的方法超过了平衡聚类的显着差距为1。4%,它表明,受约束的俱乐部-ρi= max{ 0,ρi−1−η(µsγ′-)}(14)训练更适合于无监督的表示学习。当γ′=0时,性能将下降,因为kkbs=1i,k K如果没有足够的4.1. 消融研究首先,我们实证研究了焦炭中各组分的作用。本小节中的所有实验都训练了200个epoch,每个实例在每次迭代中都有一个增强视图在获得模型之后,通过学习线性分类器来评估学习的表示。每个集群中的实例数 我们将固定γ′= 0。4在接下来的实验中。除了线性分类的准确性之外,我们还进一步研究了表1中的约束违反。对于均衡聚类,每个聚类具有相同数量的实例,这是一个强约束。与约束相比,我们在线作业的违规率仅为5%B16646联系我们当γ′=1.当γ′小于1时,约束条件被放松,违规率可降低到1%以下,说明了该方法的有效性.与SwAV [4]中仅对一小部分数据进行约束优化的在线分配策略相比,我们对分配进行了全局优化,能够充分探索数据的分布。有趣的是,我们发现即使当γ ′ = 0时,也不存在支配簇。4.在这个例子中,最大的集群只包含2371个实例。它说明了聚类是有效的学习一个合适的分区未标记的数据。当γ′=0时,将有超过449,000个实例被分配到同一个簇中,这说明了簇大小约束对于缓解簇崩溃问题的重要性.4.1.2耦合聚类与判别然后,我们研究了耦合聚类和识别的效果。在CoKe中,我们通过收集上一个时期的聚类结果来区分当前时期的数据,从而将聚类和区分分离表2比较了不同标签和中心的性能,其中Ct-1,yt-1和Ct,yt分别来自上一个历元和当前历元设置t−1t−1{C,y}t−1t{C,y}t t−1{C,y}t t{C,y}Accc%64.50.451.20.1表2.不同时期的标签和中心比较首先,我们可以观察到,使用上一个epoch的标签和中心,CoKe表现出最好的性能。证明了CoKe解决了Eqn中的问题。5、以一种有效的方式进行交流。第二,在当前中心Ct的情况下,性能下降超过10%,这表明在CoKe中保持来自上一个时期的中心最后,其他两个与你不同的人都没有学会一个完整的表达。这与我们对方程中目标的分析是一致的。五、请注意,μ是无监督学习引入的额外变量,解耦x和μ对于基于聚类的表示学习至关重要。4.1.3聚类数聚类数是k-means中的一个关键参数。当K较小时,相似实例之间的关系可能未被充分利用然而,大的K可能引入额外的噪声。当K=N时,实例分类可以被认为是一种特殊情况。表3总结了不同K我们观察到,具有1000个簇的CoKe比K=3000的 CoKe差约1%这是因为由于粒度较粗,小的K很难捕获所有信息模式然而,获得一个适当的K聚类是一个具有挑战性的问题,在k-means。 此外,集群KAccc%缺点数量#最小值最大数量1,00063.45125124,6393,00064.51711682,3715,00064.3102981,982表3. k-means中聚类数K即使具有相同的表示,也可以提供不同的结果,这在多聚类中进行了研究[16,17]。这种现象是由于物体可以以不同的方式相似(例如,颜色、形状等)。在以前的表征学习工作中已经探索了多聚类[1,18],我们也将其应用于使用多任务框架学习表征。每个任务被定义为一个具有不同K值的约束k-means问题,而最终损失将在多个任务上平均。该策略通过同时处理具有不同参数的多个k-means问题来K(×1,000)32+33+43+3+33+4+5Accc %64.565.065.265.265.3表4.不同K组合的多聚类。表4显示了多聚类学习表示的结果当包含一个K=2000的任务时,准确率从64提高。5%至65。0%的百分比。对于K = 4000的更细粒度的任务,学习表示的性能甚至更好,达到65。准确率2%然后,我们用两种不同的设置,即相同的K和不同的K来评估三重k均值任务可以观察到,不同的K我们将在其余的实验中采用该策略进行显式多聚类。更多消融研究可参见补充资料。4.2. 与ImageNet上的最新技术进行比较在本小节中,我们通过学习ImageNet的学习表示的线性分类器来比较我们的建议与最先进的方法。所有方法都以ResNet- 50为主干。具有类似配置的方法的结果(例如,2-层MLP、128维表示等)总结在表5中。解释性的基线方法必须在每次迭代中从一个单独的实例中学习具有两个增强视图的表示,以获得所需的性能。相反,CoKe可以使用在线优化的单一视图。可以观察到,CoKe用800个epoch学习的表示的准确性可以达到71。4%,其表现略好于MoCo-v2,但只有一半数量的视图用于优化。它表明,利用关系,在-16647方法#视图#纪元#暗淡Accc%SimCLR21,00012869.3MoCo-v2280012871.1DeepCluster-v2240012870.2SwAV240012870.1焦炭180012871.4表5.通过线性分类,与ImageNet上具有相似分类的方法进行比较。立场可以学习更多的信息模式比实例歧视。其次,与基于聚类的方法相比,在使用相同数量的视图进行训练时,CoKe的性能优于SwAV和DeepCluster这进一步证明了CoKe的有效性。最后,我们比较了表6中训练一个数据时期的运行时间。通过单一的优化视图,学习效率可以像CoKe一样显著提高。MoCo-v2SwAV焦炭可可 *18.320.811.18.4表6.在ImageNet上训练一个epoch数据的运行时间(分钟)比较所有方法都在同一个服务器上计算。CoKe* 应用PyTorch提供的自动混合精度训练。然后,我们将最近的方法[7,14]提出的更复杂的设置应用于CoKe,并与使用不同设置的方法进行比较。具体地说,我们包括3层MLP,一个额外的2层预测头和1000 epoch的训练。更多详情请参见补充资料。表7总结了比较结果。方法#VBS#D我MBAccc%新加坡[9]SwAV [9]222564,0962,048128✓71.371.8MoCo-v2+[9][29]第二十九话222562,0481288,192✓✓72.273.2MoCo-v3 [10]24,096256✓73.8BYOL [14][第13话]224,0961,024256256✓✓✓74.372.9[第13话]24,096256✓✓75.4[4]第四话84,09612875.2SwAV [4]84,09612875.3DINO [5][第13话]884,0964,096256256✓✓✓75.375.6焦炭11,02412872.5焦炭21,02412874.9焦炭81,02412876.4表7.通过线性分类与ImageNet上最先进的方法进行比较。ME和MB分别表示动量编码器和存储体。首先,我们可以观察到,单视图CoKe的性能再次略好于MoCo-v2,并且它证明了说明单视图优化能够获得适用的预训练模型。其次,通过配备两个视图,CoKe可以实现74. 9%的准确率,这是一个有竞争力的结果,但计算成本要轻得多。此外,NNNN和CoKe的优越性能表明,捕获实例之间的关系可以学习更好的表示。然而,NNNN必须获得适当的最近邻居与一个大的内存库,是敏感的批量大小。相反,CoKe通过在线聚类来学习关系,这对于小批量是可行的,并且导致了一个简单的框架,无需存储库和动量编码器。最后,用标准的多作物技巧,CoKe可以达到76. ImageNet上4%的准确率,接近监督对应物,即,七十六。百分之五总之,CoKe更资源友好(例如,具有8个GPU的标准服务器就足够了),具有卓越的性能。4.3. 下游任务比较除了ImageNet上的线性分类外,我们还在表8中的各种下游任务上评估了CoKe。包括具有公共可用的预训练模型的方法以进行比较。为了进行公平的比较,我们使用MoCo的代码库搜索所有基线的参数。显然,CoKe提供了比具有多作物训练的强基线更好的性能,这证实了我们的方法的有效性。详细的经验设置和额外的实验聚类在补充。VOCCocoC10C100方法AP50ApbbApAccc%Accc%监督81.338.935.497.386.6MoCo-v283.039.635.997.986.1巴洛双胞胎81.540.136.998.087.4BYOL82.940.536.998.187.9swav82.140.437.197.787.5DINO系列82.040.236.897.787.6焦炭83.240.937.298.288.2表8.下游任务的比较。表示多作物训练技巧。前2个最佳模型加下划线。5. 结论在这项工作中,我们提出了一个新的学习目标集群歧视借口任务。提出了一种具有理论保证的在线约束k-means方法来获得伪标签,该方法更适合于表示学习中的随机训练。实验结果表明,CoKe能够利用相似实例间的聚集信息,以较少的计算代价学习有效的表示.最近,Transformer [11]显示了卓越的性能,在新架构上评估CoKe可以是我们未来的工作。16648引用[1] Yuki Markus Asano ,Christian Rupprecht ,and AndreaVedaldi.通过同时聚类和表示学习的自标记。在ICLR,2020年。一二三六七[2] Paul S Bradley,Kristin P Bennett,and Ayhan Demiriz.约 束 k-means 聚 类 Microsoft Research , Redmond , 20(0):0,2000年。3[3] Mathilde Caron,Piotr Bojanowski,Armand Joulin,andMatthijs Douze.用于视觉特征的无监督学习的深度聚类。在ECCV,2018。一、二、三[4] Mathilde Caron , Ishan Misra , Julien Mairal , PriyaGoyal,Piotr Bojanowski,and Armand Joulin.通过对比聚类分配的视觉特征的无监督学习。在NeurIPS,2020年。一二三六七八[5] MathildeCaron , HugoTouvron , IshanMisra , Herve'Je'gou , Julien Mairal , Piotr Bojanowski , and ArmandJoulin.自我监督视觉转换器中的新兴特性。CoRR,abs/2104.14294,2021。一、三、八[6] 陈婷、西蒙·科恩布里斯、穆罕默德·诺鲁齐和葛offrey E.辛顿视觉表征对比学习的一个简单框架。在ICML,第119卷,第1597-1607页,2020中。一、二、六[7] Ting Chen , Simon Kornblith , Kevin Swersky ,Mohammad Norouzi,and Geoffrey E.辛顿大的自监督模型是强半监督学习器。In Hugo Larochelle,Marc8[8] 陈新蕾,范浩琪,Ross B. Girshick和Kaiming He。改进了 动 量 对 比 学 习 的 基 线 。 CoRR, abs/2003.04297 ,2020。二、六[9] Xinlei Chen,Kaiming He.探索简单的连体表示学习。在CVPR 中 , 第 15750-15758 页 。 计 算 机 视 觉 基 金 会 /IEEE,2021年。一、二、八[10] Xinlei Chen,Saining Xie,and Kaiming He.训练自我监督视觉转换器之实证研究。CoRR,abs/2104.02057,2021。二、八[11] AlexeyDosovitskiy、LucasBeyer、AlexanderKolesnikov、Dirk Weissenborn、Xiaohua Zhai、ThomasUnterthiner 、 Mostafa Dehghani 、 Matthias Minderer 、Georg Heigold、Syl-vain Gelly、Jakob Uszkoreit和NeilHoulsby。一张图像值16x16个单词:用于大规模图像识别的变形金刚。在ICLR。OpenReview.net,2021年。8[12] 放大图片作者:Alexey Dosovitskiy,Philipp Fischer,Jost Tobias Springen- berg , Martin A. Riedmiller 和Thomas Brox。使用范例卷积神经网络进行区分性无监督特征学习。IEEE传输模式分析马赫内特尔,38(9):1734-1747,2016. 一、二[13] Debidatta Dwibedi,Yusuf Aytar,Jonathan Tompson,Pierre Sermanet,and Andrew Zisserman.在朋友们的帮助下 : 视 觉 表 征 的 最 近 邻 对 比 学 习 。 CoRR ,abs/2104.14548,2021。三、八[14] Jean-BastienGrill , FlorianStrub , FlorentAltche' ,CorentinTallec,PierreH.Richemond,ElenaBuchatskaya , CarlDoersch , BernardoA'vilaPires ,ZhaohanGuo , Moham-madGheshlaghiAzar, BilalPiot ,KorayKa vukcuoglu,Re'mi Munos,and Michal Valko.引导你自己的潜在-A16649自我监督学习的新方法在NeurIPS,2020年。一、二、八[15] Kaiming He,Haoqi Fan,Yuxin Wu,Saying Xie,and Ross B.娘娘腔。无监督视觉
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功