层次对比选择编码：一种用于图像表示学习的新型对比学习框架

110 浏览量更新于2023-10-25 收藏 14.47MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

97060HCSC：层次对比选择编码0郭元凡1,5�，†徐明浩2,3�，‡李佳文4倪兵兵10朱煊宇4孙振邦4徐毅1,5§0*平等贡献†技术负责人‡项目负责人§通讯作者1上海交通大学人工智能研究所人工智能部重点实验室2Mila-Qu´ebecAI研究所3蒙特利尔大学4字节跳动5上海交通大学重庆研究院0联系人：郭元凡，徐明浩，徐毅0摘要0图像数据集中自然存在层次化的语义结构，其中几个语义相关的图像聚类可以进一步集成到具有更粗粒度语义的更大聚类中。通过图像表示捕捉这样的结构可以极大地有益于各种下游任务的语义理解。现有的对比表示学习方法缺乏这样一个重要的模型能力。此外，这些方法中使用的负样本不能保证在语义上是不同的，这可能进一步影响到学习到的图像表示的结构正确性。为了解决这些限制，我们提出了一种新颖的对比学习框架，称为层次对比选择编码（HCSC）。在这个框架中，我们构建了一组层次原型，并且动态更新这些原型以表示潜在空间中的数据的层次语义结构。为了使图像表示更好地适应这样的语义结构，我们通过一个精心设计的配对选择方案，采用并进一步改进了传统的实例对比和原型对比学习。这个方案旨在选择更多具有相似语义的多样化的正样本和具有真正不同语义的更精确的负样本。在广泛的下游任务中，我们验证了HCSC的最先进性能以及主要模型组件的有效性。我们正在不断建立一个全面的模型库（请参见补充材料）。我们的源代码和模型权重可在https://github.com/gyfastas/HCSC上获得。01. 引言0在过去的几年中，自监督图像表示学习取得了巨大的进展，其中0图1.图像数据集总是包含多个语义层次，例如从粗粒度语义到细粒度语义的顺序中的“哺乳动物→狗→拉布拉多犬”。0基于解决信息谜题的传统方法[12, 16, 32, 33,45]显然被对比学习[6-8, 19,34]超越了。这些对比方法成功地推导出了各种下游任务的有用和可解释的表示。特别是在标准线性评估协议[38]下，它们取得了接近全监督学习的令人鼓舞的结果。现有的对比方法主要分为两类，即实例对比学习[7, 19,34]和原型对比学习[6,26]。实例对比旨在将相似的实例映射到潜在空间中的附近，而将不相似的实例映射到远处，从而保证不同图像表示之间存在合理的局部结构。原型对比旨在推导出围绕相应聚类中心聚集的紧凑图像表示，从而捕捉可以由单个聚类层次结构表示的基本语义结构。然而，当对大规模图像数据集进行建模时，这些方法在表示能力方面存在不足，因为这些数据集往往具有多个语义层次。例如，97070例如，在一个广泛的物种数据库中，狗的聚类总结了拉布拉多犬、贵宾犬、萨摩耶犬等的共同特征，并应该放置在更高的层次上；同样，狗与猫、猴子、鲸鱼等一起被更高级别的聚类，哺乳动物，进一步总结（见图1更直观的说明）。学习包含这种层次语义结构的图像表示可以极大地有益于各种下游任务的语义理解。如何通过对比学习实现这一点仍然是一个悬而未决的问题。此外，现有的对比方法通常通过从某些噪声分布中进行详尽的采样来构建负样本对，而且所有采样得到的负样本对都被使用而没有选择。不能保证以这种方式获得的负样本对具有真正不同的语义。因此，这些方法可能会将一些具有相似语义的样本错误地嵌入到远处，这会影响到学习到的图像表示的质量。为了解决上述限制，我们提出了一种新颖的对比学习框架，称为层次对比选择编码（HCSC）。在这个框架中，我们提出使用层次原型来捕捉数据潜在空间中的层次语义结构，这是一组树状结构的代表性嵌入。在训练过程中，这些原型会动态更新以适应当前的图像表示。在这种层次语义结构的指导下，我们通过选择具有语义正确性的高质量正样本和负样本来改进实例对比和原型对比学习。具体而言，对于每个查询样本，我们搜索其在每个语义层次上最相似的原型，以构建更丰富的正样本对。此外，对于每个负样本对的候选样本，我们进行伯努利采样以保留/丢弃它，如果样本对的语义相关性低/高。通过使用这些选定的实例对比和原型对比，层次原型的语义约束可以嵌入到表示学习的目标中。我们总结了本文的贡献如下：0•我们新颖地提出通过动态维护层次原型来表示图像表示的层次语义结构。0• 我们提出了一种新颖的对比学习框架，HierarchicalContrastive SelectiveCoding（HCSC），通过选择语义上正确的正负对来改进传统的逐实例和原型对比学习。0•我们的HCSC方法在各种下游任务上始终表现出优越的性能。此外，通过广泛的消融和可视化分析验证了关键模型组件的有效性。02.相关工作02.1.自监督表示学习0解决预训练谜题。早期的自监督图像表示学习工作主要旨在解决预训练谜题，例如计数对象[33]，拼图[32]，从灰度图像中恢复颜色[25,45]，旋转预测[16]等。这些预训练任务不能保证为不同的下游任务派生出有区分度的特征表示。逐实例对比学习。逐实例对比方法旨在将相似的实例嵌入到潜在空间中的附近，而将不相似的实例嵌入到远离的位置。标准的逐实例对比方法[7, 19,38]通过优化InfoNCE损失[34]来实现这一目标，该损失通过使用实例间的正对比对[13]，引入更强的数据增强函数[37]或设计预测性预训练任务[9, 17,44]进行改进。然而，这些方法并不意识到整个数据集中的全局语义。原型对比学习。另一系列对比方法旨在通过利用图像聚类的原型表示来明确利用语义结构。它们要么在相关和不相关的原型对之间进行对比[6,27]，要么在关联和不关联的实例-原型对之间进行对比[26,36]，从而得到更具语义紧凑性的图像表示。然而，所有这些方法都将语义聚类表示为单个层次，忽视了图像数据集自然具有的层次语义的重要事实。对现有工作的改进。在这项工作中，我们新颖地提出构建和维护图像表示的层次语义结构，这与最近关于学习层次分子表示的工作[41]相一致。此外，我们通过在精确的语义指导下选择高质量的正负对，改进了逐实例和原型对比学习的效果。02.2.深度聚类0我们的工作还与深度聚类相关，即在潜在空间中执行聚类。一系列研究[18,22]旨在通过利用聚类偏好的潜在空间进行更准确的聚类。另一系列研究[1, 4, 5, 26, 28, 40, 42,43]同时学习聚类分配和图像表示。其中大多数方法[4, 40,43]利用一些标准的聚类算法，如K均值[30]或凝聚聚类[46]，建立一个单一的语义聚类层次，这对于表示一组图像的层次语义是不足够的。对现有工作的改进。与大多数学习单一语义层次的现有工作相比，我们在这项工作中致力于学习具有多个语义层次的图像表示。970803.问题定义和初步工作03.1.问题定义0给定一个包含N个未标记图像的集合X = {x1, x2, ...,xN}，我们的目标是为X中的每个xn学习一个低维向量zn ∈Rδ。除了图像表示之外，我们还维护一个层次原型集合C ={{cli}Mli=1}Ll=1，用于描述数据中的层次语义结构，其中L表示语义层次的数量，Ml是第l个层次中原型的数量。每个原型cli ∈C也表示为一个δ维向量。按照自监督学习协议，图像表示Z= {z1, z2, ...,zN}和层次原型C都是在数据本身的指导下学习或维护的。03.2. 准备工作0逐实例对比学习。为了实现自监督表示学习的目标，一种广泛使用的方法是对比一个正实例对和一些负实例对。具体而言，给定一对相关实例的表示（z，z'），定义了标准的InfoNCE损失[34]，用于最大化这对正实例的相似性，并最小化一些随机抽样的负实例对之间的相似性：0L InfoNCE ( z, z ′ , N , τ ) = - log0z j ∈{ z ′ }∪N exp( z ∙ z0（1）其中 N 是 z 的一组负样本，τ是温度参数。原型对比学习。在这种对比表示学习方式中，每个正实例对由一个实例和其关联的语义原型组成，负实例对由将实例与不相关的语义原型配对形成。在这种配对构建方式中，给定一个正实例对（z，c），ProtoNCE损失[26]基于InfoNCE损失的相同原理定义如下：0L ProtoNCE ( z, c, N c , { τ c } ) = - log0c j ∈{ c }∪N c exp( z ∙ c j0（2）其中 N c 表示实例表示 z 的一组负原型，τ c是一个原型特定的温度参数，可以通过一些聚类统计自适应确定。04. 方法04.1. 动机和概述0最近的许多努力都致力于使用对比方法学习信息丰富的视觉表示。这些工作中的大部分[7，19，34]都集中在探索逐实例的关系，而一些工作[6，26]则进一步尝试0算法1：层次K-means。0输入：图像表示 Z，语义层次 L，第 l 层的原型数量 Ml。输出：层次原型 C = {{ c l i } M l i =1 } L l=1，不同原型之间的无向边 E。{ c 1 i } M 1 i =1 ←K-means ( Z )。0对0{ c l i } M l i =1 ← K-means � { c l -0对的0E ← E ∪ �� c l - 1 i , Parent ( c l - 1。0结束循环0结束循环0在对比学习过程中，发现数据中的语义结构是很重要的。这些方法使用一组或几组独立的聚类中心来表示语义结构，但不能表示图像数据集中自然存在的语义层次结构。例如，拉布拉多犬、贵宾犬、萨摩耶犬等形成了一个更高级别的狗类群，而狗与猫、猴子、鲸鱼等一起可以进一步聚类为哺乳动物。捕捉这种层次性语义有助于提高图像编码器的表示能力，但先前的方法尚未实现。特别是在对比学习的背景下，这些语义结构可以为选择具有相似语义的正样本和具有不同语义的负样本提供有益的指导，这也是现有方法中较少探索的。受到这些限制的启发，我们提出了一种新颖的对比学习框架，称为层次对比选择编码（HCSC）。简而言之，我们使用层次原型来表示数据的语义结构，并在训练过程中动态更新这些原型。基于这种层次语义表示，我们通过选择适应语义结构的更好的正负样本来提升传统的逐实例和原型对比学习，并且我们的整体目标结合了这两种学习方式。我们的方法的图形概述如图2所示。04.2.层次化语义表示0HCSC框架的核心是在潜空间中构建和维护数据的层次化语义结构。与之前只能捕捉单个语义层次或几个独立层次的方法[6,26]相比，我们的方法能够捕捉各种语义聚类之间的层次关系。我们通过一种简单而有效的自下而上的层次K-means算法实现这一目标。详细算法总结如算法1所示。首先，97090图2.HCSC框架的示意图。在潜空间中，一组层次化原型用于表示图像数据集中的层次化语义结构。（b）逐实例和原型对比选择编码根据层次化原型的语义信息选择语义正确的正样本和负样本进行对比学习。0通过图像编码器提取数据集中所有图像的特征表示，并对这些图像表示应用K-means聚类以获得第一层次的原型。然后，通过迭代地将K-means聚类应用于下一层次的原型，得到每个更高层次的原型。为了构建层次化的语义结构，我们进一步将每个低层次的原型c l − 1 i与其上层次的父原型c lj连接起来，在K-means聚类过程中将c l − 1 i分配给c lj。所有这些连接形成一个无向边集E。这样，层次化的原型就构成了一组树（图2（a））。在该算法中，语义层次的数量L和第l层次的原型数量M l在第5.1节中指定，并在第6.2节中进行了敏感性研究。由于图像表示会随着训练过程进行更新，因此还需要对层次原型进行维护，以确保它们是潜空间中具有代表性的嵌入。在我们的实现中，为了在精度和效率之间取得平衡，我们在每个epoch开始之前进行层次K-means算法，根据当前图像表示更新层次原型。基于这样的层次原型，我们寻求促进逐实例和原型对比学习。04.3.逐实例对比选择编码0逐实例对比学习的要点是将相似的实例嵌入到潜空间中的附近，而将不相似的实例嵌入到远离的位置。通过数据增强很容易获得相似（即正样本）实例对，而定义不相似（即负样本）实例对则比较复杂。先前的方法通过在数据集上均匀采样[7, 8, 19]或从偏置数据分布中采样来获得负样本。0去偏数据分布[10]。然而，它们不能保证产生的负样本与查询样本具有完全不同的语义。这种缺陷会阻碍逐实例对比学习，在其中那些与查询样本在潜空间中具有相关语义的正样本可能会被错误地排除，从而在某种程度上破坏语义结构。为了克服这个缺点，我们的目标是选择更精确的负样本，这些负样本与查询样本具有真正不相关的语义。对于特定的查询图像x，我们不是将其与队列中的所有负样本N进行无差别对比，而是通过对每个负样本进行伯努利采样来选择真正的负样本。直观地说，在这样的采样过程中，我们希望消除那些与查询样本具有高度相似语义的候选样本，而保留与查询样本不太相关的样本。为了实现这个目标，我们首先定义了图像与语义聚类之间的相似度度量。按照PCL[26]的方法，对于由原型c ∈C表示的语义聚类，我们使用特定于聚类的点积定义图像表示z与该聚类之间的语义相似度：0s ( z, c ) = 0τ c , τ c =0|| z i - c || 20| Z c | log( | Z c | + ϵ)，(3)0其中 Z c 包含分配给聚类 c 的图像的表示（构建 Z c的详细信息在第 5.1 节中说明），ϵ是一个平滑参数，用于平衡不同聚类之间的温度 τ c的尺度。在此基础上，我们在每个语义层次上进行负样本选择。在第 l层次上，我们将与查询图像具有最高语义相似度的聚类表示为 c l ( z ) = arg max c ∈{ c l i } Ml i =1 s ( z, c )（其中 z是查询的表示）。对于负候选项 z j ∈ N，97100如果其与 c l ( z )的相似度不如其与同一层次上其他聚类的相似度突出，我们更有可能选择它。基于这样的直觉，我们使用以下公式定义了 z j 的0p l select ( z j ; z ) = 1 - exp(s ( z j , c l( z )))0exp(s ( z j , c l i ))，(4)0之后，对每个负候选项进行伯努利抽样，为特定查询导出更精确的负样本：0N l select ( z ) = ∑ B ( z j ; p l select ( z j ; z )) | z j∈ N |，(5)0其中 B ( z ; p ) 表示以概率 p 接受 z的伯努利试验。这样的选择方案在所有 L个语义层次上执行，从而使负样本的组成多样化。这样，对于查询，产生了 L 个负样本集合，即 {N l select ( z ) } L l=1。通过使用这些精细化的负样本，我们定义了实例级对比选择编码 (ICSC) 的目标函数如下：0L ICSC = E x � p d10L0l =1 L InfoNCE ( z, z ′ , N l select( z ) , τ ) ，0(6) 其中 p d 表示数据分布，z 和 z ′ 分别是 x 和 x的增强视图的表示。我们将温度参数 τ 固定为0.2，以便进行实例级对比 [8]。04.4. 原型对比选择编码0原型对比学习旨在在潜在空间中得到紧凑的图像表示，其中每个图像都紧密嵌入其关联的聚类中心。给定一个查询样本，先前的工作 [6, 26]将其与单个原型池进行比较，并将其最相似的原型视为其正样本伴侣，将所有其他原型视为负样本。然而，这种方案忽略了不同聚类之间的语义相关性，并且可能过度惩罚一些语义相关的聚类。例如，对于一张拉布拉多犬的图片，考虑到这些聚类之间的语义相关性，它不应该被强烈地驱逐出其他种类狗的图像聚类。为了减轻这种过度惩罚，我们试图选择与查询语义上相距较远的更精确的负聚类。给定由嵌入向量z 表示的查询图像，我们首先检索其在第 l层次上最相似的原型，即 c l ( z ) = arg max c ∈{ c l i } Mli =1 s ( z, c)，使用与实例级对比中相同的相似度度量（公式(3)）。我们将 ( z, c l ( z ))视为正对，该层次的其余原型作为负聚类的候选项，表示为Nl。由于其中一些负候选项可能具有与正聚类相似的语义，因此我们更有可能选择负候选项 c j ，如果其与 c l ( z )的相似度不如其与同一层次上其他聚类的相似度突出。基于这样的直觉，我们使用以下公式定义了 z j 的选择概率：0c l ( z )，从这些语义相关的聚类中远离嵌入查询是不合理的。因此，我们的目标是与与 c l ( z )更远的候选项进行原型对比。为了实现这个目标，我们利用了由层次原型捕获的语义结构，并在这种指导下对每个负候选项进行伯努利抽样。具体而言，根据层次原型的边，我们首先在其相应的树结构中确定 c l ( z ) 的父节点，表示为Parent ( c l ( z ))。这个父聚类总结了其子聚类在第 l层次上共享的共同语义，例如不同类型的狗的一般特征。用于原型对比的负聚类希望与 Parent ( c l ( z ))的语义相关性尽可能低。因此，如果负候选项 c j 与 Parent( c l ( z )) 的相似度不主导其与第 ( l + 1)层次上其他聚类的相似度，我们更有可能选择负候选项 c j，这导出了 c j 的选择概率如下：0plselect(cj;cL(z)) = 1 − exp�s�cj,Parent(cl(z))��0�Ml+1i=1exp�s(cj,cl+1i)�, (7)0其中相似度度量s(∙,∙)遵循Eq.（3）。然后对每个负样本进行伯努利采样，以选择用于原型对比的负样本：0Nlselect(cL(z)) = �B�cj;plselect(cj;cL(z))�|cj∈Nl�. (8)0请注意，我们在顶层层次上使用所有负样本候选集NL而不进行选择，因为顶层层次上的语义聚类之间几乎没有语义相关性，因此可以安全地将它们视为彼此的负样本。通过将正样本对（z，cl(z)）与这些选定的负样本进行对比，原型对比选择编码（PCSC）的目标函数定义如下：0LPCSC = Ex�pd�10L0l=1LProtoNCE�z,cl(z),Nlselect(cl(z)),{τc}��,0（9）其中pd表示数据分布，z是图像x的表示，我们在顶层层次上有NLselect(cL(z)) =NL。我们为每个聚类使用聚类特定的温度参数τc，其公式遵循Eq.（3）。04.5.总体目标总体而言，实例级对比学习利用局部实例级结构，原型级对比学习在潜在空间中构建全局语义结构。我们的方法充分利用了这两个领域的优势，并通过分层对选择将层次原型的语义约束注入到学习目标中。因此，分层对比选择编码（HCSC）的总体目标是：NPID [38]25658.546.8LocalAgg [48]12858.8-MoCo [19]25660.845.0†SimCLR [7]25661.957.4†MoCo v2 [8]25667.555.8†CPC v2 [34]51267.6-PCL v2 [26]25667.658.1†PIC [3]51267.654.7†MoCHi [24]51267.657.5†DetCo [39]25668.658.9†AdCo [21]25668.657.2†HCSC25669.260.7SwAV* [6]25672.762.4†AdCo* [21]25673.266.3†HCSC*25673.366.697110学习一个图像编码器fθ，使得实例级和原型级对比选择编码的成本最小化：0min fθLICSC + LPCSC. (10)05. 实验05.1. 实验设置0模型细节。图像编码器采用ResNet-50[20]骨干网络，并在MoCo v2[8]之后维护另一个动量编码器。基于faiss[23]，一种高效的聚类软件包，我们实现了分层K-means（Alg. 1）。根据SwAV[6]，我们将第一层次（即M1）的原型数量设置为3000，这符合ImageNet[11]的统计模式，即我们的预训练数据库。我们递归地进行另外两轮K-means聚类，以获得两个更高级别的语义层次。聚类超参数为L =3和（M1，M2，M3）=（3000，2000，1000），关于L和{Ml}Ll =1的敏感性分析在第6.2节中进行。为了避免微不足道的解决方案，那些样本少于10个的聚类被丢弃。我们直接从分层K-means结果中获得每个聚类的分配Zc。平滑参数ϵ设置为10，遵循PCL[26]。请注意，在每个时期的训练过程中，分层原型和聚类分配是固定的，这简化了优化目标并有利于图像编码器的收敛。训练细节。我们使用SGD优化器[2]（权重衰减：1×10-4；动量：0.9；批量大小：256）和余弦退火调度器[31]进行200个时期的训练。在前20个时期中，模型仅使用实例级损失LICSC（Eq.（6））进行热身。使用与MoCo v2[8]相同的一组增强函数生成正样本对，并利用16384个负样本候选集进行实例级对比选择编码（Sec.4.3）。在8个Tesla-V100-32GBGPU上，200个时期的训练大约需要4天（无多裁剪）和7.5天（有多裁剪）。性能比较。我们将提出的HCSC方法与优秀的对比学习方法进行比较，包括NPID [38]，LocalAgg[48]，MoCo [19]，SimCLR [7]，MoCo v2 [8]，CPC v2[34]，PCL v2 [26]，PIC [3]，MoCHi [24]，DetCo[39]和AdCo[21]。为了公平比较，在主要论文中，我们报告这些方法在ImageNet [11]上进行200个时期的训练的性能。05.2. 实验结果05.2.1 线性分类和KNN评估0评估细节. 采用标准的线性分类协议 [ 38]，在固定的编码器上学习一个线性层来对ImageNet [ 11]图像进行分类.0表1. 线性分类和KNN评估性能比较.0方法批大小 Top1-Acc KNN-Top1-Acc0* 使用多裁剪增强. † 我们使用官方发布的模型权重进行评估.0使用PCL [ 26]，采用SGD优化器（权重衰减：0；动量：0.9；批大小：256）对模型进行100个epoch的优化. 在KNN评估 [ 38]中，每个样本的标签是通过聚合其最近邻的标签来预测的.按照NPID [ 38 ]的做法，我们报告了这种KNN分类器在 K∈ { 10 , 20 , 100 , 200 } 上的最高准确率. 结果. Tab. 1的第二列比较了不同方法在线性分类上的表现.在使用和不使用多裁剪增强 [ 6]的两种常用设置下，HCSC优于所有基线方法.特别是，HCSC超过了也采用实例级和原型对比学习的PCLv2 [ 26 ].这种性能提升说明了我们的对比对的选取方案对于选择高质量的正负对以进行实例级和原型对比学习的有效性.在KNN评估（Tab. 1的第三列）中，当不使用多裁剪增强时，HCSC相比之前的方法性能提高了3.5%.添加多裁剪增强后，HCSC也优于最先进的方法AdCo [ 21 ].05.2.2 半监督学习0评估细节.编码器和线性分类器在ImageNet的1%或10%标记数据上进行微调. 如NPID [ 38]，采用SGD优化器（权重衰减：0；动量：0.9；批大小：256）对模型进行70个epoch的优化. 结果. Tab. 2展示了各种方法在半监督学习上的结果.在所有方法中，HCSC在不同数量的标记数据下始终取得最佳性能.这些结果验证了HCSC学习到的表示具有良好的全局语义结构，有助于从不充足的数据中进行学习.NPID [38]-39.2-77.4MoCo v2 [8]†36.764.460.783.4MoCHi [24]†38.265.461.183.5SimCLR [7]†46.874.263.686.0PCL v2 [26]†46.272.762.684.4AdCo [21]†43.671.661.884.2HCSC48.075.664.386.0SwAV* [6]†51.376.765.587.5AdCo* [21]†54.479.966.987.4HCSC*55.580.968.788.6NPID++ [38]76.646.479.1-MoCo [19]79.248.981.1-MoCo v2 [8]84.050.182.440.6†PCL v2 [26]85.450.378.541.0†AdCo [21]†92.051.182.641.2HCSC92.852.282.541.4SwAV* [6]87.651.274.5†38.6†AdCo* [21]†93.153.982.741.4HCSC*93.355.083.241.697120表2. 半监督学习性能比较.0标记数据 1% 10%0方法 Top1-Acc Top5-Acc Top1-Acc Top5-Acc0* 使用多裁剪增强. † 我们使用官方发布的模型权重进行评估.0表3. 迁移学习性能比较.0任务物体分类物体检测0数据集 VOC07 Places205 VOC07+12 COCO 方法 mAPTop1-Acc AP 50 AP0* 使用多裁剪增强。†由我们使用官方发布的模型权重进行评估。05.2.3 迁移学习0评估细节。我们在PASCAL VOC [ 15 ]和Places205 [ 47]上采用两个分类任务，以及在PASCAL VOC [ 15 ]和COCO[ 29]上采用两个检测任务来评估迁移学习。这两种类型任务上的微调范式完全遵循MoCo [ 19]中的方法。结果。表3对迁移学习中不同方法进行了比较。与最先进的方法AdCo [ 21]相比，HCSC在八个实验设置中有七个取得了更好的性能。这些结果表明，HCSC学习到的图像编码器成功地捕捉到了不同图像数据集之间共享的关键视觉模式。05.2.4 聚类评估0评估细节。我们采用两个聚类评估的标准指标，即归一化互信息（NMI）[ 14 ]和调整互信息（AMI）[ 35 ]。按照PCL [26]的方法，分别进行了25,000个和1,000个聚类的评估。结果。在表4中，我们报告了聚类评估的结果。PCL [ 26]将MoCo v2 [ 8 ]作为基准线。0表4. 聚类评估性能比较。0方法 # 聚类数目 NMI AMI0DeepCluster [ 4 ] 25000 - 0.281 MoCo v2 [ 8 ] 25000 -0.285 PCL v2 [ 26 ] 25000 0.616† 0.410 HCSC 250000.629 0.4620PCL v2 [ 26 ]† 1000 0.629 0.606 HCSC 1000 0.638 0.6160† 由我们使用官方发布的模型权重进行评估。0表5.HCSC不同组件的消融研究。所有结果都是基于线性分类报告的。0HP IL PL IS PS Top1-Acc0� � 67.6 � � � 68.1 � � � � 68.2 � � � � 68.9 � � � � � 69.20� � � 65.7 � � � 68.20HP: 分层原型；IL: 实例对比损失；PL: 原型对比损失；IS: 实例对选择；PS:原型对选择。0通过对MoCov2学习到的图像表示进行K-means聚类，我们也采用这个基准线进行比较。在具有25,000个和1,000个聚类的两种配置下，HCSC明显优于其他基准方法，这说明我们方法中建立的语义层次确实可以提高聚类质量。06. 分析06.1. 消融研究0分层原型的效果。在完整模型配置下，我们使用相同数量的原型比较单一原型层次和多个原型层次。通过比较表6的第二行和第四行，我们可以观察到在添加两个更多的原型层次后，性能提升了1.1%，这验证了使用分层原型的好处。对比对选择的效果。在表5中，通过在实例对比学习中添加负对选择方案，获得了0.8%的性能提升（第四行与第二行对比）。当单独应用原型对选择时，效果较差（第三行）。然而，通过结合两种对选择方案，完整模型达到了最高的69.2%准确率（第五行），这证明了两种对选择方案的互补性。实例对比损失和原型对比损失的效果。从表5的最后三行可以看出，当去除实例对比损失（原型对比损失）时，性能分别下降了3.5%（1.0%），证明了这两种对比损失的互补性。300068.0600068.13000-200069.03000-2000-100069.23000-2000-1000-50069.21000-500-20068.73000-2000-100069.210000-5000-100069.230000-10000-100069.397130图3. 从底层（即第一层）到顶层（即第三层）的原型链关联的图像可视化。0表6.对层次数量和原型数量的敏感性分析。所有结果都是线性分类结果。0原型配置 Top1-Acc06.2. 敏感性分析0对语义层次数量的敏感性。在表6的第一部分中，我们发现更多的语义层次（3个或4个层次）明显有助于模型在线性分类上的性能。在这种设置下，可以很好地捕捉到预训练数据库中的层次语义结构。对原型数量的敏感性。根据表6的第二部分，具有足够原型的三个配置（第二到第四行）表现得相当好，而具有不足原型的配置（第一行）表现较差。这些结果说明了使用丰富的原型来充分捕捉数据底层的语义聚类的重要性。06.3. 可视化0层次语义结构的可视化。在图3中，我们可视化了分配给一系列原型的图像，这些原型捕捉到一些有趣的语义层次结构，即“嘴里含有鱼并在水中漫游的灰熊”→“在水中游泳或漫游的熊或狗”→“不同的动物停留在水上”。对配对选择的可视化。图4显示了查询样本和我们的选择方案消除的负候选样本。这些被消除的候选样本中的大多数与查询具有相似的语义，这验证了所提出的基于实例的配对选择的有效性。0图4. 可视化查询样本和我们的配对选择方法消除的负候选样本。07. 结论和未来工作0本文提出了一种新颖的对比学习框架，HierarchicalContrastive Selective Coding(HCSC)。在这个框架中，通过层次原型捕捉数据底层的层次语义结构。在这些原型的基础上，设计了一种新颖的配对选择方案，以更好地选择对比学习的正负样本。对各种下游任务的广泛实验验证了我们HCSC方法的优越性。当前HCSC方法的主要局限性在于在下游任务中丢弃了预训练期间发现的层次原型。然而，这些原型包含丰富的语义信息，它们应该以某种方式有益于下游应用的语义理解。因此，我们未来的工作将主要集中在通过充分利用层次原型来提高模型在下游任务中的性能。0致谢：YiXu受到中国国家自然科学基金项目62171282、111项目BP0719010、STCSM18DZ2270700、重庆市科技创新专项计划(cstc2021jscx-gksbX0032)和上海市科技重大专项计划2021SHZDZX0102的支持。BingbingNi受到中国国家自然科学基金项目(U20B2072,61976137)的支持。作者感谢字节跳动提供的GPU。作者还感谢Jian Zhang、Jie Zhou和HannesSt¨ark的启发性讨论。[29] Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays,Pietro Perona, Deva Ramanan, Piotr Doll´ar, and C Lawrence97140参考文献0[1] Yuki Markus Asano, Christian Rupprecht, and AndreaVedaldi. 通过同时聚类和表示学习进行自我标记.arXiv预印本arXiv:1911.05371, 2019年2月0[2] L´eon Bottou. 基于随机梯度下降的大规模机器学习.在COMPSTAT’2010会议论文集中. Springer, 2010年6月0[3] Yue Cao, Zhenda Xie, Bin Liu, Yutong Lin, Zheng Zhang,and Han Hu. 无监督视觉特征学习的参数化实例分类.arXiv预印本arXiv:2006.14618, 2020年6月0[4] Mathilde Caron, Piotr Bojanowski, Armand Joulin, andMatthijs Douze. 无监督学习视觉特征的深度聚类.在欧洲计算机视觉会议论文集中, 2018年2月7月0[5] Mathilde Caron, Piotr Bojanowski, Julien Mairal, andArmand Joulin. 在非策划数据上对图像特征进行无监督预训练.在IEEE国际计算机视觉会议上, 2019. 20[6] Mathilde Caron, Ishan Misra, Julien Mairal, Priya Goyal,Piotr Bojanowski, and Armand Joulin.通过对比聚类分配进行无监督学习视觉特征.在神经信息处理系统进展中, 2020. 1 , 2 , 3 , 5 , 6 , 70[7] Ting Chen, Simon Kornblith, Mohammad Norouzi, andGeoffrey E. Hinton. 对比学习视觉表示的简单框架.在国际机器学习会议上, 2020. 1 , 2 , 3 , 4 , 6 , 70[8] Xinlei Chen, Haoqi Fan, Ross B. Girshick, and Kaiming He.基于动量对比学习的改进基线. CoRR , abs/2003.04297, 2020.1 , 4 , 5 , 6 , 70[9] Xinlei Chen and Kaiming He. 探索简单的孪生表示学习.在IEEE国际计算机视觉会议上, 2021. 20[10] Ching-Yao Chuang, Joshua Robinson, Yen-Chen Lin,Antonio Torralba, and Stefanie Jegelka. 无偏对比学习.在神经信息处理系统进展中, 2020. 40[11] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, andLi Fei-Fei. ImageNet: 一个大规模的分层图像数据库.在IEEE计算机视觉和模式识别会议上. IEEE, 2009. 60[12] Carl Doersch, Abhinav Gupta, and Alexei A Efros.上下文预测的无监督视觉表示学习.在IEEE计算机视觉和模式识别会议上, 2015. 10[13] Debidatta Dwibedi, Yusuf Aytar, Jonathan Tompson,Pierre Sermanet, and Andrew Zisserman. 在我的朋友的帮助下:最近邻对比学习视觉表示. arXiv预印本arXiv:2104.14548 , 2021.20[14] Pablo A Est´evez, Michel Tesmer, Claudio A Perez, andJacek M Zurada. 归一化互信息特征选择. IEEE神经网络交易 ,20(2):189– 201, 2009. 70[15] Mark Everingham, Luc Van Gool, Christopher KI Williams, John Winn, and AndrewZisserman. Pascal视觉对象分类挑战. International Journal of Computer Vision ,88(2):303–338, 2010. 70Pascal视觉对象分类挑战. International Journal ofComputer Vision , 88

下载后可阅读完整内容，剩余1页未读，立即下载