排名信息噪声对比估计：RINCE监督下的自我监督表征学习

140 浏览量更新于2023-12-01 收藏 3.46MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2255获取更多论文排序信息噪声对比估计：通过排序的积极因素David T. Hoffmann*，1，2 Nadine Behrmann*，1 Juergen Gall3 Thomas Brox2 Mehdi Noroozi11博世人工智能中心2弗赖堡大学3波恩大学摘要本文介绍了排名信息噪声对比估计（RINCE），一个新的成员在家庭的InfoNCE损失，保持了排名排序的正样本。与标准的InfoNCE损失相比，它需要将训练对严格地二进制分离为相似和不相似的样本，RINCE可以利用有关相似性排名的信息来学习相应的嵌入空间。我们表明，建议的损失函数学习有利的嵌入相比，标准的InfoNCE，只要至少有噪音的排名信息可以获得或当定义的积极和消极的是模糊的。我们demonstrate这一监督分类任务与额外的超类标签和嘈杂的相似性分数。此外，我们表明RINCE也可以应用于无监督训练与实验的无监督表示学习视频。特别是，嵌入产生更高的分类精度，检索率和执行更好的分布外检测比标准的InfoNCE损失。介绍对比学习最近引发了自我监督表征学习的进展。大多数现有的变体需要严格定义InfoNCE损失中使用的阳性和阴性对，或者简单地忽略无法明确分类为其中一种或另一种的样本（Zhaoet al. 2021年）。对比学习迫使网络在特征空间中施加类似的结构，将正对拉得更近，同时将负对分开。当正负之间的界限模糊时，这种二元分离可能会受到限制例如，来自相同类的不同样本被用作实例识别的否定，这阻止了网络利用它们的相似性。解决这个问题的一种方法是监督对比学习（ SCL ）（ Khoslaetal.2020），其在配对时考虑类别标签：来自同一类别的样本被视为阳性，而不同类别的样本构成阴性。然而，即使在使用地面实况标签的最佳设置中，问题仍然存在-语义相似的*这些作者贡献相同。Copyright © 2022 ， Association for the Advancement ofArtificial Intelligence（www.aaai.org）. All rights reserved.有些样品不能明确地分类为阳性或阴性，例如图1中的狗品种。将它们视为阳性，使网络对样本的不同属性保持不变。因此，该网络很难区分不同的狗品种。如果它们被视为负面，网络就无法利用它们的相似性。将学习转移到其他任务，例如分布外检测，嵌入空间的干净结构，s.t.共享某些属性的样本会更接近，这是有益的。另一个例子来自视频表示学习：除了对于图像的空间裁剪之外，视频允许创建时间裁剪，即，从同一视频的不同帧创建样本。到目前为止，来自同一视频的时间上不同的剪辑是否应该被视为阳性是一个开放的讨论点（ Feichtenhoferet al. 2021）或阴性（ Daveet al. 2021年）。将它们视为积极的会迫使网络随着时间的推移而保持不变，但将它们视为消极的会鼓励网络忽略保持不变的特征。总之，对于大多数应用，正和负的二元分类将导致次优解决方案。据我们所知，缺少一种方法，该方法受益于对消极、积极和介于两者之间的各种状态的细粒度作为补救措施，我们提出了排名信息噪声对比估计（RINCE）。RINCE支持阴性和阳性的细粒度因此，使用RINCE训练的方法可以利用各种相似性度量。例如，相似性度量可以基于类别相似性、视频内内容的逐渐变化、预训练的特征嵌入，甚至是多视图设置中的相机位置等。在这项工作中，我们展示了类的相似性和逐渐变化的视频作为例子。RINCE比SCL和交叉熵更强调相关样本之间的相似性，从而产生更丰富的表示。我们表明，RINCE学习表示语义相似性的嵌入空间，S. T。更多相似的样本比更少相似的样本更接近。这一点的关键是一个新的基于InfoNCE的损失，它强制随着样本等级的增加逐渐降低相似性。在Cifar-100上使用RINCE学习的表示在分类、检索和OOD检测方面显著优于交叉熵，并且优于更强的SCL基线（Khosla等人，2020）。在这里，改进是arXiv：2201.11736v1 [cs.CV] 2022年1月+v：mala2255获取更多论文图1：对比学习不应该是二元的。在许多情况下，不可能将样品严格分离为到目前为止，这个灰色区域（左）被忽略了，导致了次优结果。我们提出了一个解决这个问题的方案，它在嵌入空间中非常接近地嵌入相同的样本和相似的样本（右）。对于检索和OOD检测来说尤其大。为了获得RINCE的阳性排序，我们使用Cifar-100的超类。此外，我们证明了RINCE适用于大规模数据集和更一般的应用程序，其中样本的排名最初没有给出，并且包含噪声。为此，我们证明RINCE在ImageNet-100上的表现优于我们的基线，仅使用现成的自然语言处理模型提供的噪声等级（Liuet al. 2019年）的报告。最后，我们展示了RINCE可以应用于完全无监督的设置，通过在视频上训练RINCE无监督，将时间上远的剪辑视为弱阳性。这使得视频动作分类的下游任务比我们的基线更准确，甚至优于最近的视频表示学习方法。总之，我们的贡献是：1）我们提出了一个新的InfoNCE为基础的损失，取代了二进制定义的积极和消极的相似性的排名定义2）研究了在受控监督环境下RINCE的性质在这里，我们展示了Cifar-100分类的轻微改进和OOD检测的明显改进3)我们表明，RINCE可以处理显着的噪声相似性分数，并导致大规模数据集的改进。4)我们证明了RINCE在视频表示学习任务中具有噪声相似性的自监督学习的适用性，并在所有下游任务中显示了对InfoNCE的改进。5)代码在1可用。相关作品对比学习。对比学习最近推进了自监督学习领域当前最先进的方法使用实例识别，最初由（Dosovitskiy etal.2016）提出，其中任务是在各种变换下识别实例。现代实例识别方法利用InfoNCE（v anden Oord，Li和Vinyals2018 ），它首先被提出为 N 对损失（Sohn2016）。它最大化正对1https://github.com/boschresearch/rince对，即不同实例的视图。不同的视图可以从多模态数据（Tian，Krishnan和Isola2020），排列（Misra和van derMaaten 2020）或增强（Chen et al.2020 a）中生成。否定对在对比学习中起着至关重要的作用，因为它们可以防止捷径和崩溃的解决方案。为了提供具有挑战性的否定，（He et al.2020）引入了一个内存库，一个动量编码器，它允许存储大量的底片。其他方法明确地从同一图像中的补丁构建硬否定（ v anden Oord ， Li 和Vinyals2018）或视频中的时间否定（Behrmann，Gall和Noroozi2021）。最近的作品完全省略了负对（Chen和He2021;Grill et al. 2020年）。在上述情况下，肯定对是从同一实例中获得的，而不同的实例即使共享相同的语义也可以用作否定先前的工作通过允许多个阳性样品来解决这个问题：（Miechetal. 2020）允许在视频中有几个阳性候选者，（Han，Xie和Zisserman 2020）和（Caronet al. 2020）通过聚类特征空间获得阳性，而（Khosla et al. 2020）使用类别标签来定义一组阳性。通过（Huynhet al. 2020），使用标签或启发式。在对比学习中集成多个阳性并不简单：阳性集可能是嘈杂的，并且包括一些比其他样本更相关的样本。在这项工作中，我们提供了一个工具，以适当地将这些样本。监督对比学习。标记的训练数据已被用于许多最近的作品对比学习。（Romijnders等人，2021）使用从检测器获得的伪标记，（Tian等人，2011）使用从检测器获得的伪标记。2020）使用标签来构建更好的视图，（Neill和Bollegala2021）使用类词嵌入的相似性来绘制硬否定。术语监督对比学习（ SCL ）在（ Khosla et al.2020），显示SCL优于标准交叉熵。在SCL设置中，地面实况标签可用，可用于定义阳性和阴性。通常，来自同一类的样本被视为阳性，而来自所有其他类的样本被视为阴性。（科斯拉+v：mala2255获取更多论文.Σ.h（q，n）.n（q，n）expN{}PN.Σ（四）τi=1.τ1RΣ因此，我们省略这些索引。为了强加所需的排名ΣΣ.Στi等人2020）发现SCL损失函数在监督设置中优于交叉熵。相反，（Huynh et al. 2020年）的目标是无监督地检测假阴性。他们建议仅从信息损失中消除假阴性，这导致噪声标签的最佳结果。沿着这些路线，（Winkenset al. 20 2 0 年，在...注销阳性。一个简单的方法，包括多个积极的是计算方程。（1）对于每一个，即，对对数之外的正数求和。这在训练期间加强了所有阳性之间的相似性，这很适合一组干净的阳性foNCE损耗更适合于分布外检测出射exp. h（q，p）τ而不是交叉熵在这里，我们介绍一种方法来处理非二进制相似性标签，并研究它的不同版本L=−p∈P日志 exph（q，p）τ+ n∈N exp. （二更）τ在SCL设置中不受标签噪声的影响，并表明我们在更嘈杂甚至无监督的设置中得到了类似的结果榜学习排名已经被广泛研究（Burgeset al. 2005;Cakir等人2019;Caoet al. 2007;Liu2009）。这些工作的目标是下游应用程序，需要排名，例如。图像或文档检索，自然语言处理和数据挖掘。相比之下，我们对排名本身不感兴趣，而是使用排名任务来改进学习的表示。领域度量学习中的一些方法使用排名损失来学习特征嵌入：对比损失，如三重损失（Weinberger，Blitzer和Saul2006）或N对损失（Sohn2016）可以被解释为排名正的较高w.r.t.锚比负。例如，（Tschannenet al. 2020）使用三重损失来学习表示，但专注于学习不变性。（Ge2018）从数据中学习层次结构，以进行硬示例挖掘三重损失此外，这些方法仅考虑两个然而，肯定的集合可能是有噪声的，例如，由于视频中的剧烈变化，对时间上遥远的剪辑进行采样可能包括次优的肯定登录正面。另一种对噪声或不准确样本更鲁棒的方法（Miech等人，2020）是在对数内取和，公式为：（三）、为了最大限度地减少这种损失，网络不会被迫为所有对设置高相似度。它可以忽略噪声/误报，因为为真阳性设置足够大的相似性，见表1。4. 然而，如果正之间存在差异，则其导致丢弃硬正的退化解。例如，考虑监督学习，其中增强和类阳性都可用于给定查询：类阳性，这是很难优化，可以忽略。经验值h（q，p）在p∈P排名，而我们的方法可以与多个排名。L=−log经验值 h（q，p）+.（三）τ方法p∈Pn∈NInfoNCE我们从InfoNCE的最基本形式开始。在这种情况下，同一数据的两个不同视图-例如同一图像的两个不同增强在特征空间中被拉到一起，同时将不同样本的视图推开。更具体地说，对于查询q，单个正p和一组负=n1，. . . nk是给定的。这些观点被提供给编码器网络f，其后是投影头g（Chen等人2020年a）。为了测量一对fea之间的相似性-上述方法假设阳性和阴性的二元集合。因此，他们不能利用肯定和否定的相似性。在下文中，我们讨论了InfoNCE的拟议排名版本，该版本允许我们保留阳性结果的顺序并从额外信息中受益。RINCE：排名InfoNCE让我们假设对于给定的查询样本q，我们可以访问以Pi的形式的一组排名的肯定。. .，P，其中我们使用余弦相似度cos_sim。总的来说，任务是使用损失来训练评论家 h （ x ， y ） = cos_sim g （ f（x）），g（f（y））：i包括秩i的正数。我们也假设，一组底片。我们的目标是培养一个评论家h这样：exp. h（q，p）τh（q，p1）>···>h（q，pr）>h（q，n）n∈N.、（1）τL= − log exp. h（q，p）+exp. h（q，n）请注意，Pi可以包含多个正值。为了不-其中τ是温度参数（Chen等人，2020 a）。上述损失依赖于一个单一的正对可用的假设。这种方法的一个缺点是，所有其他样本都被视为否定，即使它们在语义上我们以递归的方式使用InfoNCE，从第一个阳性集开始，将剩余的阳性集视为阴性集，丢弃当前的阳性集，然后移动到下一个。我们重复这个过程，直到没有阳性结果。更准确地说，损失函数为靠近查询。潜在的解决方案包括删除它们从底片（Zhaoet al. # 2 0 2 0 1 ;或将其添加到L秩=rli，在哪里阳性（Khosla et al. 2020），我们表示为P =经验值h（q，p）{p1，. . . ，p 1}。在其他情况下，我们自然可以获得更多li=−logp∈Pi比一个积极的，例如，我们可以从一个单一的视频采样几个剪辑，见图。3. 每个查询有多个肯定结果留下了两个选项，我们将在下面讨论。p∈Sj≥ iPjexph（q，p）τi+n∈Nexph（q，n）τi（五）τn∈N+v：mala2255获取更多论文L→→→和τi τi+1。当量（5）表示相同等级阳性的InfoNCE版本;其他变体总结在表中。1. 这种损失背后的原因很简单：当I）exp（h（q，pi）/τi）0，II）时，第i个损失被优化。exp（h（q，pj）/τi）0（对于j>i和III）exp（h（q，n）/τi）0表示所有i，j，n。I）和II）在损失上竞争：l i需要exp（h（q，pi+1）/τ i）0，但l i+1需要exp（h（q，pi+1）/τ i+1）0。这要求模型权衡相应的损失项，导致正项h（q，pi）> h（q，pi+1）的排序。在下文中，我们解释了我们选择背后的直觉基于（Wang和Liu2021）的分析的τ值;有关更详细的分析，请参见Sup.Mat. InfoNCE损失中的低温导致高相似性区域上的较大相对惩罚，即，硬底片随着温度的升高，相对惩罚分布得更均匀，使所有负值相等。li中的低温允许网络集中于迫使h（q，pi）> h（q，pi+1），忽略简单的负面影响。lr上的温度越高，相对于pr的否定的相对惩罚，使得网络可以强制h（q，pr）> h（q，n）。命名每个等级损失RINCE-uni单个当量（一）冲洗多当量（二更）淋入多当量（三）冲洗-输出-输入多方程（2）（11）;当量（3）（li，i>1）表1：RINCE的不同变体。对于确切的损失函数，请参见Sup。Mat.实验我们首先研究了RINCE在受控监督环境中的属性，研究了Cifar-100上的分类精度，检索和分布外（OOD）检测接下来，我们展示了RINCE在大规模数据集ImageNet-100上的准确性和OOD方面的显着改进，即使有更多的噪声相似性得分。最后，我们通过无监督视频表示学习展示了RINCE可以在无监督环境中使用的示例对于所有实验，我们遵循MoCo v2设置（Chen等人，2020 b），其具有动量编码器、存储库和投影头。在本节中，我们将比较不同版本的RINCE（Tab.1）、研究他们在不同环境下的行为。更多的消融术。Mat.从类层次结构中研究所提出的损失函数的最佳测试平台是监督对比学习（SCL）设置。所提出的损失函数的效果可以在没有混杂噪声的情况下使用地面真值标签和地面真值排名来研究。在SCL中，具有相同类别的所有样本都被视为阳性，因此Eq. （2）或Eq. （3）使用。然而，语义相似的类共享相似的视觉特征（Deselaers和Ferrari2011）。当严格地被视为否定时，该模型并不反映可用的结构在其特征空间中的标签然而，这有利于转移到其他任务。RINCE允许模型保持这种结构，不仅学习类之间的差异，而且学习类之间的相似性。我们通过对线性分类、图像检索和 OOD 任务的评估，在 Cifar-100 和ImageNet-100上展示了RINCE学习比交叉熵和SCL除非另有说明，否则我们报告ResNet-50的结果。更多的实现细节在Sup. Mat.数据集。Cifar-100（Krizhevsky，Hinton等人，2009）提供了类和超类标签，定义了语义层次结构。我们使用这个层次结构来定义第一等级的阳性（相同的类）和第二等级的阳性（相同的超类）。TinyImageNet （ Le and Yang2015 ）包括 200 个ImageNet（Denget al. 2009年，在低分辨率。ImageNet-100（Tian，Krishnan和Isola2020）是ImageNet的100类子集我们使用RoBERTa（Liu et al.2019）模型来获得所有类名的语义词嵌入第二等级肯定是基于词嵌入相似性和预定义的阈值。细节在楼上。Mat.基线和SOTA。作为基线，我们使用交叉熵，交叉熵具有与RINCE相同的增强（交叉熵 s.a. ）、三重丢失（Weinberger、Blitzer和Saul2006）和SCL（Khosla等人，2020），用Eq. （2）（SCL-输出）或等式（3）（SCL-1）。与这些基线相比，RINCE的一个优点是它受益于超类提供的为了表明利用这些知识并不简单，我们与以下基线进行了比较：1）我们在Cifar-100上用20个超类训练SCL ，用 SCL 超类表示。 2)HierarchicalTriplet（Ge2018），它使用超类来挖掘困难的例子。3）快速AP（Cakiret al. 2019年），一个“学习排名”的方法，直接优化平均精度。 4）标签平滑（ Szegedy etal.2016），降低网络过度自信，可以提高OOD检测（Lee andCheon2020）。我们给来自同一个超类的类分配一些概率质量。5)一个多分类基线，称为两个头，共同预测类和超类标签。6)SCL双头，双头的变体，使用SCL损失而不是交叉熵。所有基线的详细信息见附录。Mat.Cifar的分类与检索。对于分类评估，我们在冻结的预训练网络的最后一层上训练线性层非参数检索评估涉及经由简单的相似性度量（例如，余弦相似性）在类别标签方面找到预训练网络的特征空间中的相关数据点RINCE优于所有实验的基线，Tab。二、请注意，Tab. 2基于相同的预训练权重，使用Cifar-100精细标签作为排名1，如果适用，超类标签作为排名2。这些实验表明，使用RINCE的训练保持了排序顺序，并产生了一个更结构化的特征空间，其中同一类的样本与其他类很好地分离。这进一步证实了图中嵌入空间之间的定性比较。二、此外，我们发现，类的分组是学习的+v：mala2255获取更多论文∗∗∗∗∗∗± ±±± ±±± ±±± ±±± ±±± ±±± ±±± ±±± ±±± ±±± ±±± ±±DD××DDD×DCifar100 fine Cifar100 superclass精度R@1R@1SCL输出76.50 N/A N/A软标签76.90 N/A N/AODIN<$N/A N/A N/AMahalanobis†N/A N/A N/A对比OOD不适用不适用Gram矩阵N/A N/A交叉熵74.52 0.32 74.84 0.21 83.99 0.21交叉熵s.a.75.46 1.09 76.03 1.04三重68.44 0.18 47.73 0.14 72.29 0.27分层三重组69.27 1.64 65.31 2.69 77.41 1.55快速AP66.960.88 62.03 0.51 69.56 0.54平滑标签75.66 0.27 74.90 0.06 85.59 0.12两个头74.08 0.40 73.62 0.31 81.92 0.21SCL-in超类74.41 0.15 69.83 0.28 85.35 0.51新加坡标准普尔76.86 0.18 73.20 0.19 82.16 0.24SCL输出76.70 0.29 74.45 0.39 82.94 0.39SCL-双头77.15 0.14 74.36 0.10 83.31 0.09SCL-出双头76.91 0.08 74.87 0.37 83.74 0.16对比OODN/A N/A N/A冲洗76.94±0.16 76.68±0.09 86.10±0.25冲净率77.59±0.2177.47±0.16 86.20±0.23冲洗-入77.45±0.0577.56±0.03 86.46±0.21AUROCD输出：Cifar-10D输出：TinyImageNetN/A N/A不适用67.5077.20 85.2077.50 97.4078.30不适用67.90 98.9075.32± 0.65 77.76± 0.7775.91± 0.10 79.44± 0.5070.33± 0.54 80.76± 0.2471.97± 2.48 76.22± 1.2769.14± 1.02 72.44± 0.9474.35± 0.65 80.10± 0.7777.99±0.0778.35± 0.3974.40± 0.72 80.20± 1.0574.63± 0.16 78.96± 0.4575.32± 0.59 79.80± 0.7075.41± 0.16 79.34± 0.1975.27± 0.34 79.64± 0.5374.20± 0.40 N/A77.76±0.0981.02± 0.1476.82± 0.4481.40±0.3877.03± 0.5381.78±0.05表2：Cifar-100预训练的分类、检索和OOD结果。左：分类和检索;细粒度任务（fine）有100个类，超类任务（superclass）有20个类。右：OOD任务，内点数据集：Cifar-100和离群数据集：Cifar-10和TinyImageNet。我们报告了3次运行的平均值和标准差。对比OOD平均超过5次运行。最好的方法用粗体，第二好的用下划线。注意，用†表示的模型不能直接比较，因为它们使用明确标记为OOD样本的数据进行调整。表示我们训练的其他人的方法，表格的下半部分使用ResNet-50。正文中未引用的方法：软标签（ Lee 和 Cheon2020 ）、革兰氏矩阵（ Sastry 和 Oore2020 ）、三重（ Weinberger 、 Blitzer 和Saul2006）。MLP的头。与SCL相比，RINCE的排名任务的难度增加Mat.图第七章分发外检测。为了进一步研究RINCE的学习表示的结构，我们评估了分布外检测（ OOD ）的任务正如（Winkens et al.2020）中所指出的，用交叉熵训练的模型只需要区分类别，并且可以忽略不相关的特征。对比学习的不同之处在于，它迫使网络区分每对样本，从而产生更完整的这种表示有利于OOD检测（Hendrycks等人，2019年;Winkens等人，2019年）。2020年）。因此，OOD性能可以被看作是对表示质量的评估，而不是像准确性和检索这样的标准度量。RINCE激励网络学习更丰富的表示。除此之外，OOD受益于对齐和均匀性之间的良好权衡， RINCE 管理得很好（图 9 ，Sup.Mat.）。我们遵循 OOD 的常见评估设置（ Leeet al.2018;Liang，Li，and Srikant2018;Winkens et al.2020）。这里使用Cifar-100作为内点数据集in，Cifar-10和TinyImageNet作为离群数据集。请注意，Cifar- 100和Cifar-10具有不相交的标签和图像。对于这两种协议，我们只使用测试或验证图像。我们的模型与前一节中的模型相同启发通过（Winkens et al.2020），我们遵循一种简单的方法，并将类条件多变量高斯拟合到训练集的嵌入中。我们使用对数似然来定义OOD得分。因此，如果每个类内样本在嵌入空间中大致遵循高斯分布，则识别OOD样本的可能性很高，比较图2a和2c。为了进行评估，我们计算了受试者工作特征曲线下面积（AUROC），详见Sup。Mat.结果和与最相关的先前工作的比较显示在表中。2. 请注意，我们的目标是通过RINCE将学习的表示空间与其对立面（即交叉熵和SCL）进行比较，但显示了众所周知的方法作为参考。最重要的是，RINCE在交叉熵、所有SCL变量、对比OOD和我们自己的基线（使用相同的OOD方法）方面都明显只有，双头优于所有其他方法在近OOD设置与出：Cifar10。但是，在所有其他设置上的性能都很低，表现出较弱的泛化能力。这强调了我们的假设，即使用RINCE进行训练会产生一个更结构化和通用的表示空间。与相关作品相比，RINCE不仅优于使用相同架构的对比OOD（Winkens et al.2020），甚至接近4 Cifar 10上更广泛的ResNet，出去ODIN（Liang，Li和Srikant2018）和Mahalanobis（Lee等人，2018年）要求标记为OOD的样本调整参数，方法+v：mala2255获取更多论文DDDLL(a)（b）（c）图2：嵌入空间的定性比较。Cifar-100上的（a）监督对比学习（SCL-in）和（b）RINCE-in（c）RINCE-out-in的最好的颜色，在屏幕上和放大。颜色和标记类型相结合表明类。为清楚起见，省略了标签。辅助核算Mat.包含此图的一个版本，其中颜色指示超类。RINCE学习比SCL更结构化的嵌入空间，例如。类是线性可分的，可以用高斯模型很好地建模AUROC方法精度ImageNet-100Dout：†交叉熵s.a.83.94AwA279.04Dout：SCL输出84.1879.076± 1.47779.779± 1.27479.05冲净率84.90 80.473±1.210 80.73表3：ImageNet-100的分类准确度和OOD检测： In：ImageNet-100 和 Out ： ImageNet-100100t 和 AwA2（Xian et al. 2018年）。ImageNet-100 †表示具有非重叠类的三个ImageNet-100数据集。OOD的方法。在这里，我们评估在更现实的设置没有标记的OOD样本。尽管使用的信息少得多，但RINCE与它们兼容，甚至在Dout：Cifar10上表现优于它们。大规模数据和噪声相似性此外，我们对ImageNet- 100（ImageNet的100类子集）进行了相同的评估3. 在这里，我们使用ResNet-18。我们通过RoBERTa（Liu et al.2019）类名嵌入的相似性获得给定类的第二等级类与之前的实验（其中地面真实层次是已知的）相比，这些相似性得分是嘈杂的和不准确的-但它仍然为模型提供了有价值的信息。我们通过ImageNet-100上的线性分类和两个OOD任务来评估我们的模型：AwA 2（Xian et al.2018）作为out和ImageNet-100†，其中我们使用剩余的ImageNet类来定义三个不重叠的分割并报告平均OOD。结果显示在选项卡中。3. 同样，RINCE在线性评估和OOD任务中显着改善了SCL和交叉熵这表明1）RINCE可以处理嘈杂的排名和2）RINCE导致IM-在大规模数据集上进行验证接下来，我们转向一个更少控制的设置，并定义一个基于时间排序的排名，用于无监督视频表示学习。无监督RINCE在本节中，我们通过将RINCE应用于无监督视频表示来证明RINCE可以用于具有噪声层次结构的完全无监督设置受（Tschan-nenet al.2020）的启发，我们为给定的查询视频构建了三个排名，相同的帧，相同的镜头和相同的视频，见图。3.第一个正的xf是通过增加查询框架来获得的。第二个正xs是与查询帧连续的剪辑，其中发生对象的小变换、照明变化等。第三个正xv是从同一视频的不同时间间隔采样的，其可以示出视觉上不同但语义上相关的场景。自然地，xf显示与查询框架最相似的内容，然后是xs，最后是xv。我们比较了时间排序与RINCE不同的基线。基线。我们比较基本的InfoNCE，其中一个单一的积极的是通过增强（陈等。2020 a;He et al.2020），即仅帧正xf。当考虑来自同一个视频的多个片段时，例如xs和xv，有几种可能性：我们可以将它们都视为阳性（硬阳性），我们可以使用遥远的xv作为很难否定或忽略它（容易肯定）。在这两种情况下，Eq。（2），在，Eq。（3）有可能。此外，我们还比较了在可比环境中训练的两种最新方法，即VIE（Zhuang et al.2020），LA-IDT（Tokmakov，Hebert和Schmid2020）。对帧、镜头和视频级别的阳性进行排名。我们对视频的短片段进行采样，每个片段由16帧组成。我们用一组标准视频增强来增强每个剪辑。有关更多详细信息，请参阅Sup。Mat. 为+v：mala2255获取更多论文NL LLLLLLLL图3：视频中的积极因素。对于给定的查询剪辑，我们使用帧正像x f，镜头正像x s和视频正像x v。方法损失阳性底片前1名精度HMDB UCF检索mAPHMDB UCFVIE---44. 872. 3--LA-IDT---44. 072. 8--InfoNCE硬正片易正片硬负RINCELinLoutLinLoutLinLoutRLINCE-uni{xf}{xf，xs，xv}{xf，xs，xv}{xf，xs}{xf，xs}{xf，xs}{xf，xs}xf>xs>xvN无无无无无无无{xv} N{xv} NN41岁571岁。30。05000。068842岁674岁30。06850。111941岁4七十三。60。06660。120442岁774岁50。05810。1257四十7七十三。50。05930。129743. 674岁30。06780。114143. 5七十五。20。06750。119344. 9七十五。40。07190。1395表4：UCF和HMDB的微调。，in和out对应于Eq.（1），Eq. （3）Eq. （2）分别。PositivesandNegatives表示xf，xs，xv如何被纳入对比学习，其中表示来自随机剪辑的否定对的集合。由于我们只考虑每个秩的一个正，因此我们使用RINCE-uni损失变量来计算RINCE。锚定剪辑x，我们定义为图中的阳性3：p1=xf由与x相同的帧组成，p2=xs是与x相邻的16帧的序列，p3=xv是从与xf和xs不同的时间间隔采样的。负数xn是从不同的视频中采样的由于每个秩i仅包含单个正pi，因此等式（2）= Eq.（3），我们称这个变体为RINCE-uni。通过对肯定的排序，我们确保相似性满足sim（x，xf）> sim（x，xs）> sim（x，xv）> sim（x，xn），从而遵守视频中的时间结构数据集和评估。对于自我监督学习，我们使用Kinetics-400（Kayet al. 2017年），并取消标签。我们的数据集版本由234个组成。584个培训视频。我们通过对UCF （ Soomro ， Zamir 和 Shah2012 ）和 HMDB（Kuehne）进行等人2011年），并报告前1名的准确性。在此评估中，预训练的权重用于初始化网络并使用交叉熵进行端到端此外，我们通过最近邻检索和报告mAP评估表示。精确度-召回率曲线可以在Sup.Mat.试验结果对于所有实验，我们使用3D-ResNet-18主干。培训细节可以在Sup中找到。Mat.我们在Tab中报告RINCE的结果以及基线。4. 向InfoNCE添加镜头级和视频级样本可以提高下游精度。我们观察到，将xv添加到一组消极因素中以提供一个硬消极因素，而不是将其添加到一组积极因素中会导致更高的性能，这表明这不应该是一个真正的积极因素。第二行和第三行进一步支持了这一点，其中所有三个阳性都被视为真阳性。主动性。在这里，out迫使所有的积极因素都是相似的，与in相比，它会导致更差的性能。由于假阳性的微弱影响，IN允许在阳性集合中有更多的噪声。使用RINCE，我们可以施加时间排序xf>xs> xv并正确处理xv，从而获得最高的下游性能。RINCE的改善在UCF上不太明显这是由于UCF的强静态偏倚（Li，Li和Vasconcelos2018），并鼓励静态特征。首先，RINCE在HMDB上的改进是实质性的，这是由于对静态特征的偏好较弱。最后，我们将我们的方法与最近两种使用相同骨干网络的无监督视频表示学习方法进行了比较。四、我们在两个数据集上都优于这些方法。结论我们介绍了RINCE，它是信息损失家族中的一个新成员。我们表明，RINCE可以利用排名来学习一个更结构化的特征空间与所需的属性，缺乏与标准InfoNCE。此外，通过RINCE学习的表示可以提高准确性，检索和OOD。最重要的是，我们证明了RINCE可以很好地处理噪声相似性，适用于大规模数据集和无监督训练。我们比较了RINCE的不同这里存在一个限制：不同的变体对于不同的任务是最佳的，必须根据领域知识进行选择。未来的工作将探索获得相似性分数的进一步应用，例如。基于预训练的嵌入空间中的距离、多视图设置中的相机之间的距离或集群之间的距离。+v：mala2255获取更多论文致谢JG得到了Deutsche Forschungsgemein- schaft（DFG，德国研究基金会）-GA 1927/4-2的支持。引用Behrmann，N.;Gall，J.;和Noroozi，M.2021年基于双向特征预测的无监督视频表示学习在WACV。Burges ， C.;Shaked ， T.;Renshaw ， E.;Lazier ，A.;Deeds，M.;Hamilton，N.;和Hullender，G. 2005.学习使用梯度下降排序。在ICML。Cakir，F.;他，K。Xia，X.;库利斯湾;和Scaroff，S. 2019.深度度量学习排名。在CVPR。曹，Z.;秦，T.;刘德铭Y的; Tsai，M.-F.地; 和Li，H.2007年学习排序：从成对方法到列表方法。在ICML。Caron ， M.; 米斯拉岛 ;Mairal ， J.; 戈亚尔，P.;Bojanowski，P.;和Joulin，A. 2020.基于对比聚类的视觉特征无监督学习。在NeurIPS中。Cer ， D.; Diab ， M.; Agirre ， E.; Lopez-Gazpio ， I.; 和Specia，L. 2017. Semeval-2017任务1：语义文本相似性-多语言和跨语言重点评估。arXiv预印本arXiv：1708.00055。Chen ， T.; Kornblith ， S.; Norouzi ， M.; 和 Hinton ， G.2020年a。视觉表征对比学习的简单框架。在ICML。陈X;范，H.;格希克河;他，K。2020年b。改进动量对比学习的基线。arXiv：2003.04297。陈X;他，K。2021年探索简单的连体表征学习。在CVPR。戴夫，我。Gupta，R.;里兹韦湾N.的; 和Shah，M.2021年THERM：视频表示的时间对比学习。arXiv预印本arXiv：2101.07974。邓，J.;董，W.;Socher，R.;李湖，澳-地J.道：李，K.;还有飞飞L. 2009年Imagenet：一个大规模的分层图像数据库。在CVPR。Deselaers，T.;和Ferrari，V. 2011. imagenet中的视觉和语义相似性。在CVPR。Dosovitskiy ， A.; 菲舍尔， P.;Springenberg ， J.T.;Riedmiller，M.

下载后可阅读完整内容，剩余1页未读，立即下载