自监督金字塔表示学习在多标签视觉分析中的应用

130 浏览量更新于2023-10-15 收藏 1.45MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2696用于多标签视觉分析的自监督金字塔表示学习国立台湾大学chengyeh@andrew.cmu.edu，{b06201018，f07942077，ycwang} @ ntu.edu.tw摘要虽然自监督学习已被证明有利于许多视觉任务，但现有技术主要集中在图像级操作上，这可能无法很好地推广到补丁或像素级的下游任务此外，现有的SSL方法可能不足以描述和关联图像尺度内和跨图像尺度的上述表示。在本文中，我们提出了一个自监督金字塔表示学习（SS-PRL）框架。所提出的SS-PRL被设计为通过学习适当的原型来获得补丁级别的金字塔表示，并具有额外的学习者来观察和关联图像内的固有语义信息。特别是，我们提出了一个跨尺度补丁级相关学习SS-PRL，它允许模型聚合和关联跨补丁尺度学习的信息。我们表明，我们提出的SS-PRL模型预训练，可以很容易地适应和微调的各种应用程序，包括多标签分类，对象检测和实例分割的模型。1. 介绍为了理解自然场景中的复杂关系或从图像中探索丰富的信息，许多现实世界的视觉识别任务（例如，语义场景分类[41]或医学诊断[1]）要求学习的模型在给定单个输入图像的情况下预测多于一个的语义标签传统的单标签分类方法主要集中在为每幅图像分配单个类别标签，而没有考虑同一幅图像中的多目标场景，也没有处理不同标签语义之间的关系更具体地说，需要导出的特征来描述图像中多个对象和语义标签依赖性的存在，以处理多标签视觉分析任务。虽然现有的[27，32*作者平均大量的多标签注释数据用于训练。考虑到标签成本，收集完全注释的数据来学习多标签任务的模型在计算上是昂贵的。为了减轻收集和注释大规模多标签数据集的巨大负担，一种有效的方法是以自监督学习（SSL）方式预训练通用模型，然后进行微调过程以促进下游感兴趣任务的学习。最近的SSL预培训方法[3，6，9，10，14，17，19，23，30，38]基于图像级对比学习方案来学习区别性表示，其将来自同一图像的视图拉在一起并将来自不同图像的特征推开。虽然这种训练方式显著提高了单标签图像分类的性能，但上述SSL方法仅在图像级进行训练，这缺乏描述图像中多个对象的能力。因此，将学习到的知识从这样的SSL预训练模型转移到下游的多标签视觉分析任务仍然没有被探索。为了对下游多标签任务进行预训练，我们的目标是以自监督的方式利用固有的语义标签依赖性。在本文中，我们提出了一个独特的自监督金字塔表示学习（SS-PRL）框架。在图像或对象级别上没有观察到任何地面真实标签的情况下，我们的SS-PRL以跨尺度补丁级SSL方式学习，该方式在补丁级上导出金字塔表示和语义原型。这允许人们探索图像中对象和标签依赖性的存在，同时利用跨多个块尺度的相关性来关联和聚集从不同块尺度学习的知识。为了利用图像中的细粒度信息来模仿以各种尺度呈现的对象，我们提出的SS-PRL构造多个分支来从输入图像中提取全局图像级和局部块级特征，以用于学习金字塔表示和相关原型。这些原型被设计用来作为描述的语义线索。2697从而期望改进用于下游多标签任务的模型能力（例如，多标记图像分类或对象检测）。为了进一步整合来自不同块级表示的信息，我们在SS-PRL中提出了跨尺度块级相关学习这加强了来自全局图像和局部块的输出预测的对应性，这引导模型利用多粒度信息。为了验证我们的SS-PRL对不同下游任务的有效性，我们在实验中考虑了多标签图像分类、对象检测和分割基准。我们证实，我们的SS-PRL对SOTA方法表现良好，并实现了有前途的性能。我们的工作贡献如下：• 据我们所知，我们是第一批以自我监督的方式设计借口任务的公司之一，以促进下游多标签视觉分析任务。• 我们提出了自监督金字塔表示学习（SS-PRL），推导出多尺度块级金字塔表示与语义原型发现，以利用其内在的相关性。• 在我们的SS-PRL中引入了独特的跨尺度斑块级相关性，以利用跨多个不同空间尺度的学习知识，确保我们的模型具有足够的表示能力。• 除了对象实例和像素级别的广泛下游任务之外，我们定性地证明了不同尺度的学习原型将描述相关的视觉概念。2. 相关工作2.1. 多标记图像分类多标签图像分类的目的是为每个图像分配一组标签。由于日常生活中的图片本身就具有多标签性，包含了更为复杂的视觉外观和多样的标签语义，因此多标签视觉分析比传统的单标签分类任务更具有实用性和可操作性。将局部图像区域与标签相关联已被证明在多标签分类中是有益的，因为图像通常由位于任意区域中的具有不同尺度的对象组成。SRN [54]学习将相关图像区域与每个标签相关联的注意力地图，以便描绘语义标签之间的潜在空间关系。Gau等人。 [18]通过在图像变换下的视觉注意区域上引入一致性目标来提高多标签分类的性能。此外，Ridnik et al. [33]和Wu et al. [四十三]提出了非对称损耗和分布平衡损耗恢复，以减轻正负不平衡引起的精度下降。虽然很有前途，但大多数现有作品[18，27，32-为了减轻收集和注释大规模多标签数据集的昂贵过程，已经提出了具有有限监督的多标签分类的各种设置。例如，缺少标签的多标签学习[36]考虑了只有部分标签集可用的情况;半监督多标签分类[8]允许少量完全标记数据和大量未标记数据;部分多标签学习[48]讨论了每个实例注释的设置一组候选标签。与上述设置不同，我们的目标是以自监督的方式处理多标签视觉分析，该方式在未标记的数据上进行预训练，同时仅使用少量标记的样本进行进一步的微调。2.2. 自我监督学习最近，自监督学习方法[211、14、16、17、19、23、24、29、30、38、39、51]实现在单标签图像分类方面取得了显著进展，并缩小了与全监督同行的性能差距。一组SSL方法采用对比目标对大量未标记数据执行实例例如， PIRL [29] ，Simplified [9]和MoCo v1/v2 [10，19]共享相同的概念，即将图像的多个视图拉近，同时将不同的实例分开，以获得紧凑但有区别的表示。BYOL [17]和SimSiam[11]声称，当训练过程仅依赖于正对时，使用不对称网络架构和指数移动平均更新策略是防止模式崩溃的关键因素。Bar- low Twins [51]试图通过Siamese网络将来自每个正对的两个嵌入特征之间另一组SSL作品可以被视为基于聚类的方法，通过伪标签预测来学习视觉表示。DeepCluster [5]和SeLa [2]应用k-means聚类和最优传输恢复来生成伪标签。与[2，5]相比，SwAV [6]提出了一种在线聚类方法，该方法通过学习的原型向量将软标签标记到输入图像。我们注意到，上述SSL方法简单地提取单个特征来表示图像，因此不能很好地处理来自图像的多个对象的存在。将从此类预培训任务中学到的知识转移的能力（即，图像级对比学习或聚类）到具有多个标签的下游任务（例如，语义分割，对象检测，2698s=0DD{}s=1S s=0--图1.自我监督金字塔表示学习。输入x被扩充为两个金字塔视图V ={Vs}S和V ′={Vs} S。{V ′}S与在每个尺度上获得的补丁集。对于尺度s，我们使fθ导出金字塔表示Z，其被进一步变换转化为基于原型的表示P，基于该尺度下学习/分配的原型Cs。通过S-K算法[12]从Z推断出的原型分配Q，我们通过跨尺度斑块级自我监督的g_p观察到Q与每个尺度上的聚合P之间的相关性。多标签分类（Multi-label Classification）仍然具有挑战性，而且仍然没有得到充分的探索。为了更好地微调用于促进下游视觉分类任务的预训练模型，许多作品[22，28，31，35，42，45-47，49，53]设计了与感兴趣的下游任务的特征一致的特定借口任务。这些方法通常致力于构建有利于密集预测的借口任务，如语义分割、对象检测或关键点检测。例如，DenseCL [42]在输入图像的两个视图之间的像素级特征处引入了成对对比度损失。DetCo [46]通过跨多尺度和网络层的对比学习，从全局图像和局部补丁中联合学习判别表示InsLoc [49]提出了一种局部化借口任务，通过将前景图像裁剪粘贴到不同的背景图像上来进行对比损失MaskCo [53]将区域级特征与对比掩模预测任务进行对比。我们注意到，虽然[22，28，31，35，42，46，47，49，53]将局部信息集成到实例判别方案中，但它们并不是为了观察对象之间的内在关系而设计的，因此对于下游多标签视觉分析任务来说是次优的。在本文中，我们设计了多标签图像分类的托辞任务，通过推导出多个尺度的金字塔表示，产生多层次的语义原型，利用观察到的训练数据的标签关系。3. 该方法3.1. 问题公式化为了完整起见，我们首先定义在这项工作中考虑的给定一个未标记的数据集u=x1，x2，.，xNof N图像，我们的目标是学习u上的特征提取器fθ，促进与多标签相关的下游任务。如图所示1中，我们提出了一个自监督金字塔表示学习（SS-PRL）框架，该框架由特征提取器fθ和跨尺度相关学习器gθ=gθ ，sS组成。我们应用fθ从视图V的金字塔中导出金字塔表示Z，然后基于在每个尺度上学习的语义原型Cs将其转换为基于原型的表示P 为了进一步利用来自不同尺度的多粒度信息，跨尺度补丁级相关性通过g_p在基于S-K的原型分配Q和跨尺度的聚合P之间实施。一旦学习完成，就可以应用并微调fθ用于下游任务，如多标签图像分类，对象检测或分割。3.2.自监督金字塔表示学习如示于图1、我们提出的自监督金字塔表示学习的框架包括基于块的金字塔表示学习和跨尺度块级相关学习两个阶段。的（0级原型）跨尺度相关性…（S级原型）……………………- 算法（1级原型）…………………2699S∈⊤··Σs=0SSs=0s=0∈S s=0S s=0s（CE（q′，ps，m）+CE（qs，m，p′1Σ联系我们前者是通过在每个补丁级别学习的原型来获得金字塔表示，旨在处理存在基于原型的表示Ps通过将每个表示zs，m分配给原型Cs=[c1，. . . ，cKs]，S s在探索来自未标记数据的标签依赖关系时，对于后一阶段，我们进一步关联和聚合的知识跨越不同的补丁尺度，通过加强之间的一致性，局部块和全局图像的预测。我们现在标度我们推导出基于原型的表示Ps=[ps，1，. . .，ps，M]RKs×Ms，由zs，m和Cs表示概率分布如下：p=softmax（z C），（1）下面详细介绍上述两个阶段的设计s，mτs，ms3.2.1如第2.2节所述，先前的SSL作品[2，6，9，19，29]通常将图像嵌入到单个特征中，并且不是为观察图像中呈现的多个对象而设计的因此，这种衍生的模型和表示不能容易地转移到下游的多标签视觉分析任务。要处理具有多个对象/标签的图像，其中τ是如[44]中所述的温度参数。然而，简单地对齐基于原型的表示Ps和Ps′可能会导致模式崩溃问题[6]。为了缓解这个问题，我们进一步利用迭代Sinkhorn-Knopp算法[12]，表示为S-K（，），来计算两个基于S-K的原型分配的原型分配向量qs，m=S-K（zs，m，CsQs=[qs，1，. . . ，qs，Ms]和Q′s=[qs′，1，. . . ，qs′，M]，其中我们在面片级别得到金字塔表示，作为预测的目标SS.以平等的方式，产生图像级的特征。这允许模型从图像中观察和捕获更细粒度的信息。此外，我们的SS-PRL被设计为在每个补丁级别学习pro-totypes，它以无监督的方式利用潜在的标签依赖性。如图1所示，我们首先构建两个视图金字塔V={V}S和V ={V′}S，其中利用Sinkhorn-Knopp算法所赋予的拓扑性质，ps，m和qs′，m之间的一致性能够减轻模式崩溃问题[6]。因此，我们的金字塔表示学习L pyr的目标定义为：Msα是生成与不同增强系统从输入图像x. 对于每个面片比例s，图像面片Ms=0m=1s，ms，m（二）组Vs=[vs，1，. . .，vs，Ms]是通过将图像x划分为Ms个非重叠的块并利用数据扩充随机变换每个块来产生的。选项。类似的评论可以应用于{Vs′}S的推导。为了导出块级金字塔表示Zs=[zs，1，. . .，zs，M]∈RD×Ms和Zs′=[zs′，1，. . . ，zs′，M]∈RD×Ms，我们给两个金字塔视图VsS和Vs′S 特征提取器fθ包含一个共享的主干网络和S+1个独立的投影头，s= 0，1，...， S.基于原型的自我监督学习。获得金字塔表示Zs和Zs′后，我们要求我们的SS-PRL产生具有区分性的表示，并且能够捕捉到ob-search中的固有语义依赖关系。从训练数据提供，这因此有利于下游多标记任务。受[6]的启发，我们在每个补丁尺度s上学习一组补丁级语义原型CsRD×Ks（其中Ks表示尺度s上的原型数量）来挖掘并反映从未标记训练数据中观察到的标签语义。为了允许特征提取器fθ和语义原型Cs以在线方式联合学习，我们利用zs，m和zs′，m的概率分布之间的一致性作为自我监督[6]。更具体地说，这样的原型Cs可以被视为作为聚类质心，然后我们将zs，m变换为其中CE表示交叉熵损失，αs在不同的斑块尺度s上平衡每个损失项。虽然上述金字塔表示可以在没有标签监督的情况下学习，但每个尺度的自我监督是分开观察的。如稍后在表4中验证的，这将缺乏跨图像尺度关联分块级原型类型的能力，并且因此限制了与多标签相关联的下游分类任务。这就是为什么需要在补丁规模上实施额外的自我监督，正如我们下面介绍的那样。3.2.2跨尺度块级相关学习如上所述，期望训练深度学习模型，其不仅在每个补丁尺度上利用语义依赖性，而且还发现具有跨尺度适当聚合和利用的信息的这种属性。为了实现该目标并使下游多标签分类任务受益，我们唯一地观察在粗图像尺度处导出的原型/聚类分配之间观察到的相关性（即，Q0或Q′0）和基于原型的表示Ps在每个尺度s上聚合。利用所部署的跨尺度相关学习器g，上述相关性可以被强制执行并且被用作用于训练目的的跨尺度更具体地说，我们对来自级别s的Ps和Ps′中的所有M s表示向量执行平均池化，从而得到μ（Ps）和μ（Ps′）。然后我们应用SLpyr=））的情况下，S2700s=1S横S0，sS多标签分类（mAP）在COCO上预训练在ImageNet上预COCO VOC COCO VOC监督62.5 81.8 68.5 86.7[19]第19话67.954.382.5[6]第六届中国国际石油天然气博览会79.260.183.2BYOL [17]52.670.158.480.2DenseCL [42]57.075.260.582.9DetCo [46]密集预测52.770.660.081.3MaskCo [53]SSL51.970.250.375.1InsLoc[49]45.061.849.574.8SS-PRL（我们的）61.380.563.885.4表1. 在VOC和COCO上使用微调的线性分类器执行多标签分类任务。随着骨干网（即ResNet-50）使用不同的监督/自监督方法进行预训练，我们使用微调的线性分类器报告了COCO和VOC的mAP。所有方法都分别在COCO上用200个epoch或ImageNet上用100个epoch进行预训练COCO上的多标签分类（mAP）在COCO上预训练在ImageNet上预预培训方法百分之一标签百分之十标签百分百标签百分之一标签百分之十标签百分百标签随机初始化4.610.742.54.610.742.5[19]第十九话SwAV [6]BYOL [17]35.148.054.838.753.162.5DenseCL [42]42.954.862.243.459.465.8DetCo [46]密集预测32.048.354.737.956.262.7MaskCo [53]SSL31.648.057.424.053.262.1InsLoc[49]29.043.953.536.156.666.5SS-PRL（我们的）45.157.062.941.060.967.4表2. COCO上半监督环境下多标签分类任务的性能。列出的方法分别在COCO上预训练200个epoch或ImageNet上预训练100个epoch。然后，对从COCO中随机选择的1%、10%和100%的标记数据进行20个时期的模型微调。注意，随机初始化。表示从头开始训练的模型。跨尺度相关学习器集g={g，s}S，一个fθ和跨尺度相关学习器gθ可以是求和的。对于每个尺度，将μ（Ps）和μ（Ps′）投影到p0和p′0的表示空间上，即，在全球形象层面。因此，我们的跨尺度相关性损失Lcross可以是下面是rizedL=Lpyr+λLcross，（4）公式为：L=Δβ（CE（Q，g（μ（P）+s=1其中λ作为平衡两项的权重，在我们的工作中设置为1.0。另一方面，在一项研究中，我们在（2）和（3）中选择相同的αs和βs为了简单起见（我们将这些超参数设置为1.0，CE（Q′0，g，s（μ（Ps′），其中CE是交叉熵损失，βs平衡不同尺度上的交叉尺度相关性损失。值得注意的是，学习不同块级尺度对的金字塔表示不仅鼓励特征提取器fθ利用图像中的块级信息，还聚合细粒度语义以匹配图像中呈现的全局语义（通过gθ）。正如我们的实验所证实的那样，这种自监督学习策略允许我们微调与多标记图像相关的下游任务的fθ3.3. 预训练和微调阶段f θ和g θ的自我监督预训练。总的来说，预训练特征提取器的完整目标函数L一般用途34.046.954.226.455.863.7SSL43.656.261.439.358.666.9（三）2701对于其他尺度，s=0和0.25，以平衡不同水平的影响）。每种损失的有效性随后由第4.3节中的消融研究证实，伪代码总结在补充材料中。f θ的监督微调。一旦通过我们提出的SS-PRL对特征提取器fθ进行了预训练，我们就可以以监督的方式将其微调到与多标签图像相关联的下游任务。例如，如第4节所述，我们调整预先训练的fθ（例如，使用ResNet-50 [21]的架构）来使用具有地面实况注释的不同数量的图像请参阅下一节，了解这些任务的详细实验以及与最先进的SSL方法的比较。2702∼∼∼ ∼∼面罩R-CNN R50-FPN COCO 15 k在COCO上预训练在ImageNet上预50 75507550 75 50[19]第十九话SwAV [6]BYOL [17]17.431.517.416.229.216.121.437.522.120.135.120.6DenseCL [42]20.235.420.818.933.019.321.938.022.920.735.821.3DetCo [46]密集预测15.629.714.814.827.314.420.938.120.919.935.319.9MaskCo [53]SSL18.532.918.717.330.717.420.635.621.519.533.420.0InsLoc [49]17.531.517.616.529.316.623.540.524.722.238.122.9SS-PRL（我们的）20.236.720.219.134.319.023.642.524.022.739.723.1表3. COCO上的下游对象检测和实例分割任务。我们报告了用于对象检测的边界框AP（APbb）和用于COCO上的实例分割的掩模AP（APbb）所有方法都在COCO上预训练200个epoch或ImageNet上预训练100个epoch，然后在COCO上针对上述任务进行微调15k次迭代。请注意，随机初始化。表示从头开始训练的检测器（即，编码器被随机初始化而没有任何预训练）。每个类别中的最佳结果以粗体显示，次佳结果以下划线显示。原型mAP基线79.2在所有比额表各量表的学习相关性80.5方法mAP基线79.2SS-PRL w/Lpyr仅79.5SS-PRL w/L仅交叉79.8全SS-PRL（Lpyr+Lcross）80.5表4. 对导出的贴片水平原型类型（顶部）和建议的损失函数（向下）的消融研究。请注意，所有尺度的共享表示在补丁尺度上学习的原型相同（即，图1 中不同斑块尺度下的相同Cs）。我们看到，从每个尺度中学习并通过我们的跨尺度相关性强制执行的原型是可取的。当同时引入Lpyr和Lcross时，4. 实验4.1. 数据集和实验设置预训练数据集。我们认为 MSCOCO[26] 和ImageNet[13]第10段。对于MSCOCO [26]，包含83k图像的COCOtrain2014[26]用于SSL预训练，我们训练了200个epoch的所有方法，批量大小为128。至于ImageNet [13]，我们利用具有1.28 M训练图像的训练集进行SSL预训练，并以256的批量大小训练100个epoch的方法。我们的图像金字塔包含三个补丁规模（即，s=0，1，2）。斑块集由尺度s=1的4个斑块（M1=4）和尺度s=2的9个斑块（M2=9）组成。进一步的训练细节，如数据生成和超参数选择，在我们的补充材料中提供。评估方案。我们评估预先训练的模型-通过使用MSCOCOtrain2014 [26]和PASCAL VOC[15]对下游多标签分类、对象检测和分割任务进行微调。为多标签分类任务，我们遵循线性评价，在固定的预先训练的骨干网络之上训练线性多标记分类器（例如，Resnet-50），然后在COCOtrain2014[26] 和 VOCtrainval07 [15] 上报告平均精度（ mAP ）。我们还遵循半监督设置，并从COCOtrain2014 [26]（即0.8k，8k和83k图像）中随机抽取1%，10%和100%标记数据，以微调整个网络20个epoch，然后在COCOval2014[26]上报告mAP。至于对象检测和实例分割任务，我们在COCOtrain 2014 [26]上预训练和微调具有FPN [25]骨干的 Mask R-CNN [20] 检测器，并在 COCOval2014 [26]上进行评估。请注意，在训练期间，同步批量归一化应用于骨干网络、FPN和预测头我们报告的检测器的结果与15k训练迭代，以com-considering每个SSL预训练方法的传输能力。由于页面限制，我们在补充材料中提供了下游语义分割任务的4.2. 定量评价使用微调线性分类器的多标签分类。我们首先使用微调的线性分类器执行下游多标签图像分类，并将我们的结果与现有的通用[6，17，19]和基于密集预测[42，46，49，53]的自监督学习方法，基于两个常用的公共基准，COCOtrain2014 [26]和VOC [15]。在表1中，我们观察到我们的SS-PRL在多标签分类基准测试中优于最先进的SSL方法方法APbbAPbbAPbbAP标记 AP标记AP标记APbbAPbbAPbbAP标记AP标记AP标记75随机初始化11.521.311.310.819.710.711.521.311.310.819.710.7一般用途17.030.617.215.928.415.921.136.721.819.934.420.4SSL18.133.717.617.331.517.123.141.223.422.138.622.52703（a）图像级（尺度0）（b）贴片级（尺度2）图2. 在COCO上学习原型的t-SNE可视化。我们将学习到的原型以相应的比例可视化，并选择与每个原型相关的图像。（a）在尺度s= 0时，附近的原型显示出相似的场景语义（例如，雪场）。(b)在尺度s= 2时，附近的原型是语义相关的对象级信息（例如，汽车）。在COCO数据集上进行预训练[26]。此外，SS-PRL在ImageNet [13]上进行预训练时，通过分别在COCO [26]和VOC [15]上获得63.8%和85.4%的mAP，远远超过了所有SSL方法。通过提出的金字塔表示学习，我们能够获得比以前的SSL方法更好的结果[6，17，19]，这些方法不是为了处理补丁或对象级信息而设计的。可以看出，我们的方法也优于SSL方法，该方法集成了本地信息，用于利用具有较大裕度的数据区分[42，46，49，53]。半监督环境下的多标签分类。表2通过采样1%和10%标记数据，在多标记分类的半监督设置中比较了SS-PRL结果与先前的SSL方法。SS-PRL在大多数情况下都比最先进的技术有了显着的改进，在传输到具有有限注释的数据集时表现出了强大的能力。我们还提供了使用100%标记数据进行微调时的结果，其中我们的表现优于随机初始化模型20.4%和24.9% mAP。从这个实验中，我们的多标签图像分类模型的有效性可以成功地证实。对象检测和实例分割。报告了COCO [26]上具有15k训练迭代的对象检测和实例分割任务的结果表3所SS-PRL优于现有的通用SSL方法，并且在COCO [26]和ImageNet [13]上进行预训练时，与基于密集预测的SSL方法实现了相当甚至更好的结果。上述结果展示了SS-PRL在对象或实例级别上用于下游密集预测任务的令人印象深刻的能力。4.3. 消融研究我们现在进行消融研究和参数分析，以更好地了解SS-PRL的每个组成部分如何有助于下游多标签分类任务的整体性能。我们在COCO [26]数据集上预训练模型，并报告VOC [15]上的mAP以进行评估。我们采用仅用全局图像训练的SS-PRL（即，s=0）作为基线。学习补丁级原型。第3.2节中介绍的块级原型Cs提供了在训练数据中观察到的继承标签依赖性的语义线索，并确保特征提取器fθ在图像的每个块尺度上利用有意义的区域信息。在表4中，我们报告了使用在尺度内和跨尺度学习的原型C训练的S.可以看出，当原型在不同规模上共享时，mAP下降了1.1%。这表明不同补丁尺度的原型捕获了数据集的分层语义/标签依赖关系，这对具有多标签数据的下游任务至关重要。图2和图3将显示这些学习的原型集的其他可视化，并在第4.4节中进行讨论。损失函数。为了分析每个开发的损失函数的有效性（即，金字塔表示学习损失Lpyr和跨尺度相关性损失Lcross），我们对VOC数据集进行了消融研究[15]。表4报告了使用线性评估协议的多标签图像分类任务的性能。当模型仅使用金字塔损失L pyr进行训练时，我们观察到有限的性能提升（+0.3%）。这是由于在每个尺度上实施的目标不能保证相互关联，从而限制了区分能力。当包括跨尺度相关损失Lcross时，2704映像级原型前3位预测值补丁级原型图3. 不同层次的原型之间的相关性。我们从COCO中随机选择一个图像级（尺度0）原型（标记为绿色），并在尺度2（标记为红色，黄色和黑色）可视化其前3个对应的补丁级原型预测通过底行所示的三个选定的补丁级原型的示例，我们观察到补丁级原型明显地表示与图像级原型相关的细粒度视觉概念。我们观察到，与基线相比，性能提高了0.6%mAP这表明了探索每个层次上金字塔特征的对应关系以获得有区别但连贯的表示的重要性。最好的结果（+1.3%）是通过我们的完整SS-PRL获得的，它考虑了Lpyr和Lcross，利用了补丁尺度内和补丁尺度之间的语义概念和对应关系。4.4. 可视化在每个尺度上学习的原型为了进一步可视化和关联在不同尺度上学习的原型，我们使用t-SNE [37]可视化学习的全局图像级和局部块级原型，并分别在图2（a）和（b）中显示示例结果。在这两种情况下，附近的原型显示语义相关的视觉概念，与相距甚远的原型在图像级别（a），附近的原型共享相似的场景语义（例如，滑雪和滑雪板）。在补丁级别（b），原型彼此接近显示对象的相关语义概念（例如一辆车的两个不同部分相反，两个相距甚远的原型在两个层面上代表着不同的语义（例如：斯诺菲尔德vs.草地和汽车与海洋）。这表明，我们的方法将能够发现在不同的补丁尺度的语义依赖。不同层次的原型依赖性。最后，我们在图3中可视化图像级原型和相关补丁级原型之间的相关性依赖。具体地说，我们把所有的图像从一个随机选择的图像级原型到补丁，并产生相应的补丁级原型类型的预测SS-PRL。所有的预测结果都被统计出来，最常被预测的前3个补丁级原型将被可视化。贴片-级别原型对应于三个不同的图标元素（即，场、观众和玩家），其进一步从图像级原型中挖掘细粒度语义（即，棒球比赛），示出了跨图像和补丁级别的预测的语义对应性。5. 结论在本文中，我们提出了用于预训练深度神经网络的自监督金字塔表示学习（SS-PRL），其目标是促进对象，实例或像素级别的下游视觉任务。通过推导金字塔表示和学习每个补丁级别的原型，我们的SS-PRL能够通过自我监督利用图像尺度内和跨图像尺度的固有语义信息这是通过我们引入的跨尺度补丁级相关性学习来实现的，该学习聚合并关联不同尺度上的知识，观察并加强补丁级上金字塔表示之间的依赖性。我们进行了广泛的实验，包括多标签图像分类，对象检测和实例分割的任务通过可视化学习的表示和消融研究，可以适当验证所提出的SS-PRL的设计。鸣谢本工作部分由台湾科技部资助，资助号为MOST110-2634-F-002-052。我们还要感谢国家高性能计算中心（NCHC）提供的计算和存储资源。2705引用[1] Qaisar Abbas，M Emre Celebi，Carmen Serrano，IreneFon-don Garcia，and Guangzhi Ma.皮肤镜图像的模式分类：一个统一的模型。Pattern Recognition，46（1）：86[2] Yuki MAsano，Christian Rupprecht，and Andrea Vedaldi.通过同步聚类和表征学习的自我标记在2020年国际学习代表会议（ICLR）上[3] PhilipBachman ， RDevonHjelm ， andWilliamBuchwalter.通过最大化跨视图的互信息来学习表示神经信息处理系统的进展，32，2019。[4] Adrien 巴德斯， Jean 庞塞和 Yann 乐存。维-creg：Variance-Invariance-Covariance Regularization for Self-Supervised Learning（自监督学习的方差-不变-协方差正则化）arXiv预印本arXiv：2105.04906，2021。[5]玛蒂尔德·卡隆彼得·波亚诺夫斯基阿曼德·朱兰，还有Matthijs Douze用于视觉特征的无监督学习的深度聚类。在欧洲计算机视觉会议论文集（ECCV）中，第132-149页[6] Mathilde Caron，Ishan Misra，Julien Mairal，PriyaGoyal，Pi-Otr Bojanowski和Armand Joulin。无监督学习视觉特征对比聚类分配。2020年。[7] Mathil de Caron，HugoT ouvron，Ishan Misra，Herve'Je'gou，Julien Mairal，Piotr Bojanowski，Armand Joulin.自我监督视觉转换器中的新兴特性。IEEE/CVF计算机视觉国际会议论文集，第9650-9660页，2021年[8] 陈刚，宋阳秋，王飞，张长水通过求解sylvester方程的半监督多标签学习。2008年SIAM 国际数据挖掘会议论文集，第 410-419 页。SIAM，2008年。[9] Ting Chen，Simon Kornblith，Mohammad Norouzi，andGe-奥弗里·辛顿。视觉表征对比学习的一个简单框架国际机器学习会议，第1597-1607页。PMLR，2020年。[10] Xinlei Chen，Haoqi Fan，Ross Girshick，and KaimingHe.通过动量对比学习改进基线。arXiv预印本arXiv：2003.04297，2020。[11] Xinlei Chen，Kaiming He.探索简单的连体表示学习。在IEEE/CVF计算机视觉和模式识别会议论文集，第15750-15758页[12] 马可·库图里 Sinkhorn距离：光速计算最佳运输。神经信息处理系统的进展，26：2292[13] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，还有李飞飞Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议，第248-255页。Ieee，2009年。[14] Debidatta Dwibedi，Yusuf Aytar，Jonathan Tompson，PierreSermanet 和 Andrew Zisserman 。在朋友们的帮助IEEE/CVF计算机视觉国际会议论文集，第9588-9597页，2021年[15] Mark Everingham ， Luc Van Gool ， Christopher KIWilliams，John Winn 和 Andrew Zisserman 。 pascal 视觉对象类（ voc ）的挑战。 International Journal of ComputerVision，88（2）：3032706[16] PriyaGoyal ， Mathilde Caron ， Benjamin Lefaudeux ，Min Xu，Pengchao Wang，Vivek Pai，Mannat Singh，Vitaliy Liptchinsky，Ishan Misra，Armand Joulin，et al.野外视觉特征的自我监督预训练。arXiv预印本arXiv：2103.01988，2021。[17] Jea n-BastienGrill，FlorianStrub，FlorentAltche'，Corentin皮埃尔·塔列克Richemond，Elena Buchatskaya，CarlDoersch，Bernardo Avila Pires，Zhaohan Daniel Guo，Moham-madGheshlaghiAzar ， BilalPiot ， KorayKavukcuoglu ， Re´miMunos ， and Michal Valko.BootstrapYour Own Latent：A New Approach to Self-SupervisedLearning（引导你自己的潜意识：一种2020年。[18] 郭浩、郑康、范小川、于宏凯、和宋望。图像变换下多标签图像分类的视觉注意一致性在IEEE/CVF计算机视觉和模式识别会议论文集，第729-739页[19] Kaiming He，Haoqi Fan，Yuxin Wu，Saining Xie，andRoss娘娘腔。用于无监督视觉表示学习的动量对比。在IEEE/CVF计算机视觉和模式识别会议论文集，第9729-9738页[20] Kaim ing He，Geor gia Gkioxari，Piotr Dolla'r，and RossGir-真恶心。面具R-CNN。在IEEE计算机视觉国际会议论文集，第2961-2969页[21] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings of theIEEEconferenceoncomputervisionandpatternrecognition，第770-778页[22] Oli vierJHe' naf f，SkandaKoppula，Jean-BaptisteAlayrac，AaronvandenOord，OriolVi n yals，andJo aBazoCarreira.有效的视觉预训练与对比检测。IEEE/CVF计算机视觉国际会议论文集，第10086-1009

下载后可阅读完整内容，剩余1页未读，立即下载