抗噪声视图

55 浏览量更新于2023-10-25 收藏 2.3MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

166702抗噪声视图庄敬尧<$R Devon Hjelm <$王欣<$Vibhav Vineet<$ NeelJoshi<$ Antonio Torralba<$ Stefanie Jegelka<$ Yale Song<$†麻省理工学院CSAIL 微软研究院https://github.com/chingyaoc/RINCE摘要对比学习依赖于这样的假设，即肯定对包含共享关于实例的某些基础信息的相关视图，例如，图像的补丁或视频的共同出现的多模式信号。如果这个假设被违反了呢？文献表明，对比学习在噪声视图的存在下产生次优表示，例如，没有明显共享信息的假阳性对。在这项工作中，我们提出了一个新的对比损失函数，对噪声视图是强大的。我们提供了严格的理论理由，显示连接到强大的对称损失噪声二进制分类，并建立了一个新的对比界限互信息最大化的基础上的Wasserstein距离措施。所提出的损失是完全模态不可知的，并且是InfoNCE损失的简单替代我们表明，我们的方法提供了一致的改进，在国家的最先进的图像，视频和图形对比学习基准标记，表现出各种现实世界的噪声模式。1. 介绍对比学习[1，2，3]已成为学习高维信号表示的最突出的自监督方法之一，对图像[4，5，6，7，8，9]，文本[10，11，12，13]，dio [14，15，16]和视频[17，18，19]。其中心思想是学习能够捕捉数据的不同“视图”之间共享的底层信息的表示对于图像，视图通常通过应用常见的数据增强技术来构建，例如抖动、裁剪、调整大小和旋转[6]，并且对于视频，视图通常被选择为相邻帧[21]或共存的多模态信号，例如视频和相应的光流[22]、音频[19]和转录的语音[17]。设计正确的对比视图已经证明清洁视图2噪音视图2View1图1. 嘈杂的观点会恶化对比学习。我们提出了一个新的对比损失函数（RINCE），根据估计的噪声水平在梯度空间中重新调整样本的重要性。通过简单地转动旋钮（q（0，1]），我们可以增加或减少具有低共享信息的样本对的权重。对比学习的一个关键要素[6，23]。这通常需要领域知识，直觉，试错（和运气！）。如果这些观点被错误地选择，并且没有提供有意义的共享信息，会发生什么先前的工作已经报道了在各种场景下的对比学习中这样的噪声视图的恶化影响，例如，由于极端增强而导致的不相关图像补丁[20]，由于配音而导致的不相关视频-音频对[24]，以及未对齐的视频-字幕对[17]。噪声视图的主要问题是，即使没有有意义的共享信息，不同视图的表示也被迫彼此对齐。这通常会导致次优的表示，仅捕获虚假的相关性[25]或使它们崩溃为微不足道的解决方案[26]。更糟糕的是，当我们试图从大规模的未标记数据中学习时，- 即，自我监督学习被特别期望大放异彩的情况下166712因为真实世界数据中的噪声增加[27]，阻碍了对比学习的最终成功。因此，已经进行了一些尝试来设计噪声容忍的对比方法例如，Morgado等人。[24]优化了软实例区分损失，以削弱嘈杂视图的影响。Miech等人。[17]通过对齐视频的多个相邻片段来解决视频和字幕之间的不对齐问题。然而，现有的方法通常与特定的模式相联系，或者做出可能不适用于一般情况的假设MIL-NCE[17]不是为了解决不相关的视听信号问题而设计的。在这项工作中，我们开发了一个原则性的方法，使对比学习对嘈杂的意见鲁棒。我们首先将对比学习与监督学习中的经典噪声二进制分类联系起来[28，29]。这使我们能够探索大量关于噪声标签学习的文献[30，31，32]。特别是，我们专注于具有对称属性的鲁棒损失函数家族[29]，这提供了强大的理论保证，以防止二进制分类中的噪声标签。然后，我们展示了一个功能形式的对比学习，可以满足对称条件，如果给定一个适当的对称损失函数，激励设计新的对比损失函数，提供类似的理论保证。这使我们提出了RobustI nfoNCE（RINCE），一个满足对称性条件的对比损失函数。RINCE可以被理解为对噪声视图具有鲁棒性的对比目标的一般化形式然而，它的对称属性提供了一种隐式的手段，在梯度空间中重新加权样本的重要性，而不需要显式形式的噪声估计。它还提供了一个简单的从保守到在可能有噪声的样本上冒险）。我们还提供了对所提出的RINCE目标的理论分析，并表明它将Ghosh等人的分析扩展到了自监督对比学习机制。此外，我们提出的损失函数的依赖性测量。类似于InfoNCE损失，这是两个视图之间的互信息的下界 [3] ，我们表明 RINCE 是 Wasser-sein 依赖性度量（WDM）的下界[33]，即使在噪声环境中。通过用Wasserstein距离替换相互信息估计器中的KL发散，WDM能够经由配备的度量空间捕获表示空间的几何形状，并且在理论和实践中提供比KL发散更好的对噪声视图的鲁棒性。特别是，使用RINCE学习的特征实现了更好的类分离，这被证明是提高泛化的关键[34]。尽管有严格的理论背景，实施-使用RINCE只需要几行代码，可以作为InfoNCE丢失的简单替代品，使对比学习对噪声视图具有鲁棒性由于InfoNCE为许多现代对比方法奠定了基础，例如Simplified [6]和MoCo-v1/v2/v3 [5，7，35]，因此我们的方法可以很容易地应用于许多现有的框架。最后，我们提供了强有力的经验证据，证明了RINCE在不同模态和噪声类型的各种场景下对噪声视图的鲁棒性。我们表明，RINCE在图像[36，37]，视频[27，38]和图形[39]自监督学习基准方面优于最先进的技术，证明了其在不同模式中的通用性。我们还表明，RINCE对不同类型的噪声具有很强的鲁棒性，例如增强噪声[20，40]，标签噪声[28，41]和嘈杂的视听对应[24]。这种改进在不同的数据集规模和训练时期都得到了一致的观察，证明了可扩展性和计算效率。简而言之，我们的主要贡献是：• 我们提出了RINCE，一种新的对比学习对象，对数据的噪声视图具有鲁棒性;• 我们提供了一个理论分析，提出的损失，对称损失和相关性测量;• 我们展示了我们的方法对图像，视频和图形对比学习的真实场景。2. 相关工作对比学习对比方法在无监督表示学习中非常突出[1，2，42]。InfoNCE [3]及其变体[5，6，8，9]实现状态-不同模态的最新技术[10，14，17，18，19]。现代方法从不同的方向改进了InfoNCE。一项工作重点是修改培训机制，例如，附加投影头[6]，具有动态字典更新的动量编码器[5，7]，具有停止梯度技巧的暹罗网络[8，43]和在线聚类分配[44]。另一种工作是改进损失函数本身，使其更有效，例如，提高硬否定[12，45]，纠正假否定[11]，减轻特征抑制[46]。沿着这第二条工作线，我们提出了一个新的对比损失函数对噪声的意见。在这个方向上的一些先前的工作[17，24]仅在有限的模态上进行了演示;我们在图像[37]，视频[27，38]和图形[40，47，48]对比学习场景中展示了其通用性我们的方法与第一条工作线正交;我们表明RINCE可以很容易地应用于一些现有的训练机制，如Simplified [6]和MoCo-v1/v2/v3 [5，7，35]。近年来，人们一直在积极探索噪声标签学习[28，29，31，32，49，50，51，52，53，54，55]。一行工作16672⇠-⇠Pe+太棒了！2FX我8 2我i=1i=1我i=1K尝试开发鲁棒的损失函数，是噪声容忍[29，30，56，57]。Ghosh等人。[29]证明对称损失函数对噪声标签是鲁棒的，例如，平均绝对误差（MAE）[30]，而常用的交叉熵（CE）损失不是。基于这一思想，Zhang和Sabuncu [56]提出了广义交叉熵损失来结合MAE和CE损失函数。在[57]中采用了类似的想法，将反向交叉熵损失与CE损失相结合。在下一节中，我们通过将对比学习解释为二进制分类，将嘈杂的视图与嘈杂的标签联系起来，并开发了一种具有类似理论保证的鲁棒对称3. 从嘈杂的标签到嘈杂的视图我们首先将两个看似不同但相关的框架连接起来：带噪声标签的监督二进制分类和带噪声视图的自监督对比学习。然后，我们引入一个家庭的对称损失函数，是噪声容忍，并显示我们如何可以trans-form对比目标的对称形式。3.2. 走向对称对比目标上述结果表明，如果可以以满足二元分类框架中的对称条件的形式为此，我们首先将对比学习与二进制分类联系起来，然后以可以实现对称的形式表达它。对比学习作为二元分类。给定两个视图X和V，我们可以将对比学习解释为在样本对（x，v）上操作的噪声二进制分类，如果它是从联合分布（x，v）PXV中采样的，则标签为1，如果它来自（x，v）P XV的乘积，则标签为1。marr ginals，（x，v0）PXPV。在存在噪声视图的情况下，一些n ∈iv e对（x，v0）PXPV可能被错误地标记为正，从而引入噪声标签。为了更具体地了解这一点，让我们考虑InfoNCE损失[3]，这是最广泛采用的对比对象之一[4，6，11，58]。它最小化以下损失函数：es+3.1.噪声标签LInfoNCE（s）=-logs+Ki=1 es-i将输入空间表示为二进制输出ef（x）Tg（v）/t空间Y={-1，1}，令S=X{x， y}m成为联合国：=-logef（x）Tg（v）/t+PK、（二）ef（x）Tg（v）/t观察到干净的数据集，该数据集是i.i.d.绘制的从数据分布D. 在嘈杂的环境中，学习者获得其中s={s+，{s-i}K }，s+和s-i是re-噪声数据集S={xi，yi}m，其中yi=yi，lated（阳性）和无关（阴性）对，t是概率i=11-羟丙基甲基纤维素 y∈i=-y i的概率为引入温度参数以避免梯度饱和，第损失的期望值被（x，v）P请注意，噪声率是依赖于数据点的。F或分类器f2F：X！R，下XV和K个独立样本viPV，其中PXVde-无噪声情况是R`（f）=ED[`（f（x），y）]，其中RR是一个二元分类损失函数。当噪声存在时，学习器最小化噪声前预期风险R（f）=ED[`（f（x），y）]。注意到在视图对上的联合分布，例如相同图像的变换或共同出现的多模态信号。虽然InfoNCE具有（K+1）路softmax交叉熵损失的函数形式，但该模型的最大熵损失为：*学习分类一对（x，v）是否为正Ghosh等人。[29]表明对称损失函数对二进制分类中的噪声标签具有鲁棒性特别地，如果损失函数的和为常数，则损失函数是对称的：`（s，1）+`（s，-1）=c，8s2R，（1）其中s是来自f的预测得分。注意，对称条件也应该适用于梯度w.r.t.S.这表明，如果噪声率是100倍，最大值为<0。5、x并且如果损失是对称的且非负的，则噪声风险的最小化器f_i=arginffR（f）近似值可将清洁风险降至最低：R（fλ） λ/（1-2λmax），其中，R（f）= inff2FR（f）是最优清洁风险。这个...在对称损失下的噪声风险是一个很好的保证，或者通过在i v e得分s-i处最大化/最小化正得分s+/n g来为负。因此，噪声视图下的InfoNCE可以被视为具有噪声la的二进制分类贝尔斯我们承认，类似的解释已经在不同的背景下，在以前的作品[4，59，60]。对比学习的对称形式。现在，我们转向可以实现对称属性的对比学习的函数形式假设我们有一个噪声容限损失函数，它满足方程1的对称条件。我们说一个对比学习目标是对称的，如果它接受下面的形式L（s）=`（s+，1）+λX`（s-i，-1）（3）i=1清洁风险的风险。在附录A.2中，我们进一步放宽了对损失的非负约束及其推论。1P|osi t{ivzePa}ir|KN eg{a tzivePair s}[1]这对于我们提出的RINCE损失很重要，它涉及一个指数函数`（s，y）=-yes，它可以产生负值。16673它由（K+1）个二进制分类的集合组成，损耗;λ >0是控制密度的密度加权项16674-！P（λ·（e+2-！！q！RINCE0！！Q++·123456图2. RINCE的伪代码。该实现只需要对InfoNCE代码进行一个小的修改。类别1（阳性对）和类别1（阴性对）之间的比率。减小λ会增加正分数s+的权重，而将λ设置为零会恢复无负对对比度损失，例如BYOL [8]。满足对称形式的对比目标享有对Ghosh等人[29]中描述的噪声标签的强有力的理论保证，只要我们插入满足对称条件的正确对比损失函数。不幸的是，InfoNCE损失[3]不满足梯度w.r.t.中的对称条件。S+/-(we在附录A.5中提供完整的推导）。这个莫-激励我们开发满足对称条件的新的对比损失函数，如下所述。4. 健壮的InfoNCE丢失基于鲁棒对称分类损失的思想，我们提出了以下鲁棒InfoNCE（RINCE）损失：图3. 损失可视化。我们可视化（a）损失值和（b）梯度尺度相对于不同q的正分数s+，同时设置λ= 0。五、当正分数较小时（硬正对），InfoNCE（q0相反，对于完全对称的RINCE（q= 1），当正分数大（容易的正对）时，4.1. RINCE背后的直觉现在，我们通过探索-开发权衡的镜头来分析RINCE的行为特别地，我们通过考察RINCE在不同q值下的梯度，揭示了一个隐式的易/难正挖掘方案，并表明我们以潜在有用的代价获得了更大的q值的λ，qRINCE （s）=eq·s++QS+Ki=1Qes-i））q、干净的硬阳性样品（较少探索）。为了简化分析，我们考虑InfoNCE和其中q，λ（0，1].图2显示了RINCE的伪代码;它很容易实现。当q=1时，RINCE成为完全满足对称性用单个负对RINCE（K=1）：LInfoNCE（s）=-log（es/（es+es-）））;性质以等式3的形式，其中`（s，y）=-yes：Xλ，q（s）=-eq·s+Q（λ（es++es-））q+。i=1请注意，指数损失满足等式1中定义的对称条件，其中c=0。因此，当q1时，我们以与带有噪声标签的二进制分类相同的方式实现对噪声视图的鲁棒性。在q0的限制下，RINCE变得渐近等价于InfoNCE，如以下引理所述：引理1. 对于任何λ >0，它认为，limLλ，q （s）=LInfoNCE（s）+log（λ）;lim@Lλ，q（s）=@LInfoNCE（s）。我们在图3中可视化损失和相对于正分数s+的梯度的规模。虽然每个q的损失值不同，但它们遵循相同的原则。ple：当正分数达到最小值时，s+被最大化并且负分数s-被最小化。有趣的地方在于梯度。InfoNCE损失（q0）更强调硬正对，即，具有低阳性分数s+的配对（图中最左边的部分）。相比之下，完全对称的 RINCE 损失（q=1）在容易的正对（最右边的部分）上放置更多的权重。这揭示了一个隐含的权衡-tween exploration（收敛）和exploitation（鲁棒）-q！0@sRINCE@sness）。当 q！0，损失执行硬正挖掘，我们把证据放在附录A中。请注意，收敛性也适用于导数：在q的限制下优化RINCE！0在数学上等价于op-优化InfoNCE。因此，通过控制q2（0，1]，我们在InfoNCE损失（q！ 0）和RINCE损失在其完全对称的形式（q！1）。从而在无噪声设置中提供更快的收敛。但在存在噪声的情况下，探索是有害的;它错误地将更高的权重赋予假阳性对，因为噪声样本往往会导致更大的损失[24，55，61，62]，这可能会阻碍收敛。当q1、我们进行简单的正向挖掘。这提供了鲁棒性# pos：exponent表示正例# neg：负数的指数和# q，lam：RINCEinfo_nce_loss = -log（pos/（pos+neg））rince_loss = -pos** q/q +（lam*（pos+neg））**q/q(b)梯度比例(a)损耗值LLKλ，q=1s+LRINCE（s）=-（1-λ）e+λRINCEe s-i。-166752⇥2RINCEXVPXVXVXVXVRINCEXVXV⌘$美元美元XV⇥⇤十五.特别是针对假阳性;但这是以用干净的硬阳性进行探索为代价的这里的一个重要方面是RINCE不需要显式形式的噪声估计器：分数s+和s-，以及两者之间的关系（这是损失函数测量的WDM基于Wasserstein距离，这是通过最佳传输成本定义的概率分布之间的距离度量。Letting µ and µ概率（ RdRd ）是两个概率测度，我们定义了Wasserstein-1距离，欧氏成本函数为作为噪声估计。在实践中，我们设置q[0]。1，0。5）在勘探和开发之间取得平衡。请注意，两个q！0和q！1自然执行（μ，μ）= inf2E（X，V）（X0，V0）h？-X0？+？V-V0？i硬否定挖掘;它们的导数都在硬否定对上放置指数更多的权重在附录C.1中，我们提供了关于s+和s-的梯度的扩展分析，并表明RINCE可以执行简单的正挖掘和困难的负挖掘。4.2. 理论基础接下来，我们提供了一个信息理论的解释是什么使RINCE强大的噪音的意见。特别地，我们表明RINCE是以Wasserstein依赖性度量（WDM）表示的互信息（MI）的对比下界[33]，由于Wasserstein度量的强几何性质，与Kull-back-Leibler（KL）发散相比，其提供了对样本噪声的更高鲁棒性我们进一步表明，即使在噪声的存在下，RINCE是一个干净的WDM下界，表明其对嘈杂的意见的鲁棒性。MI估计中KL发散的局限性为了不失一般性，设f=g，考虑f=f0，其中，（µ，）表示主要为µ和的测度耦合的集合，关于v。由于 q=1时的对称性，如果λ>1/（K+1），Kantorovich-Rubinstein对偶性[65]意味着（附录A.3中的完整定理）：-EhLλ，q=1（s）iL·IW（$（X），$（V））：=L· W（P，P P），（4）其中，IW（$（X），$（V））是在[33]中定义的WDM，L是取决于t、λ和投影头f的Lispchitz常数的常数。请注意，我们不知道任何这项工作表明，有可能建立一个类似的范围与WDM的InfoNCE损失。这提供了另一种解释是什么使RINCE对噪声视图具有鲁棒性。与最大化KL发散的InfoNCE不同，优化RINCE等同于使用Lipschitz函数最大化WDM。配备适当的公制，这使得RINCE能够测量-确定两个分布P $之间的差异和其中$是表示编码器，f0是投影头[6]。另外，设P$=$#P是P关于$的前推测度。事实证明，InfoNCE用KL-散度表示的表示空间中MI的变分下界[20，63]：-ELInfoNCE（s）+log（K） I（$（X），$（V））=DKL（P $，P $P$）。直觉上，最大化MI可以解释为最大化正负对之间的差异。然而，先前的工作[33，64]已经确定了使用KL散度最大化MI的理论局限性：因为KL散度不是度量，它对数据样本中的小差异敏感，而不管底层数据分布的几何形状如何。因此，编码器$可以捕获X和V之间共享的有限信息，只要差异足以最大化KLP$ P$，而不会对单个样本噪声过于敏感，只要噪声不会改变分布的几何形状。这也允许编码器学习更完整的表示，因为最大化Wasser-stein距离要求编码器不仅对两个分布之间的密度比进行建模，而且还对将一个分布传输到另一个分布的最佳成本进行建模。RINCE仍然是WDM的一个下界，即使有噪声。最后，我们表明，RINCE仍然最大化无噪声WDM下加性噪声，证实了RINCE的鲁棒性。让XV=（1-）PXV+PXPV，其中，R2是噪声率，噪声联合分布是无噪声正分布P XV和负分布P X P V之间的加权和。注意，P的边缘仍然是P X和P V。分歧。注意，这在混合噪声模型背后的直觉是，当我们噪声视图的存在，因为学习者可以快速地从P中设置-由于缺乏实际的共享信息，导致假阳性对中的虚假相关性RINCE是WDM的一个下界。我们现在建立RINCE作为WDM的下限[33]，它被提议作为MI估计中KL发散的替代。从P X P V得到的概率是通过对称性对比损失，我们可以扩展界（4）如下（证明在附录A.4中）：-EPhLλ，q= 1（s）i（1-λ）·L·IW（$（X），$（V））.WP16676$-XV！-监督[67]N/A76.5-(a) 标签噪声（b）增强噪声图4. 噪音CIFAR-10。我们展示了RINCE在不同噪声率下不同q值的顶级精度。大q（q= 0. 5，1）导致更好的鲁棒性，而较小的 q （ q= 0. 01 ）的性能类似于 InfoNCE（q！ 0）。MOCO [5]动量编码器60.6-MoCo-v2 [7]动量编码器71.1 90.1[35]第三十五话动量编码器73.8-+RINCE（Ours）对称控制器q74.2 91.8表1. ImageNet上的线性评估。所有方法都使用ResNet-50 [67]作为具有24 M参数的骨干架构。噪音= 0噪音= 0.4噪音= 0.8标签噪声。我们从监督对比学习的情况开始[41]，其中正对是相同标签的不同图像。这使我们能够控制传统意义上的噪声学习噪声标签。与[56]类似，我们将真实标签翻转为语义相关的标签，例如，CA T狗的概率是1/2。这通常被称为类相关噪声[55，56，57]。增强噪声。我们认为自我监督图5. CIFAR-10上的t-SNE可视化，带有标签噪声。颜色表示类别。RINCE导致更好的类明智的分离比InfoNCE损失在无噪声和噪声的情况下。与界（4）相比，右边界被加权为（1）。这意味着最小化具有噪声视图的RINCE仍然最大化无噪声WDM的下限。尽管分析简单，但它直观地将依赖性度量和噪声视图与可解释的边界联系起来。将分析扩展到更复杂的噪声模型将是一个有趣的未来方向，例如，P=（1P×V+<$Q×V，其中Q是正分布上的未知扰动。5. 实验我们在涉及图像（ CIFAR-10 [36] ， ImageNet[37]），视频（ACAV 100 M [27]，Kinetics 400 [38]）和图形（TUDataset [39]）的各种对比学习场景上评估RINCE。根据经验，我们发现RINCE对λ的选择不敏感;我们简单地设置λ=0。01，且λ=0。025、做实验。5.1. 噪音CIFAR-10我们首先在CIFAR-10上进行了控制实验，通过控制噪声率来验证RINCE对合成噪声的鲁棒性。我们考虑两种噪声类型：学习场景并在类似于[20]的数据增强期间改变裁剪大小，即，在应用Simplified [ 6 ]中的所有变换之后，图像以概率1 / 5被进一步裁剪成其原始大小。这有效地控制了噪声率，因为裁剪的补丁很可能太小而无法包含任何共享信息。图4显示了使用In-foNCE和RINCE训练的Simplified的结果，其中q和λ的选择不同。当存在增强噪声时，例如，=0。4、InfoNCE的准确率从91. 14%至87。百分之三十三而RINCE算法的鲁棒性随着q的增大而增强，达到了89. 当q=1时，0的情况。InfoNCE也未能解决标签噪声问题，并遭受显着的性能下降（93。87 . honey.11%，当？（八）。相比之下，RINCE即使在噪声率很大的情况下也能保持性能（91。q=1时为59%。0）。在这两种情况下，降低q值使RINCE的性能更接近于In-foNCE，验证了我们在引理1中的分析。图5显示了使用InfoNCE和RINCE（q = 1）学习的表示的t-SNE可视化[ 66 ]。0）在不同的标签噪声下。随着噪声率的增加，不同类的表示开始纠缠在InfoNCE上，而RINCE仍然实现了良好的类分离。5.2. 图像对比学习我们在完善的Ima-geNet基准上验证了我们的方法[37]。我们采用相同的培训原型-[6]第一个问题前5SimSiam [43] No negative pairs 71.3-BYOL [8] Nonegative pairs 74.391.6巴洛双胞胎[9]减少红细胞73.291.0 SwAV [44]集群识别75.3-(a)InfoNCE(b)RINCESimCLR [6]没有一69.389.0+RINCE（Ours）对称控制器q70.089.816677InfoNCE（我们的）R（2+1）D-18RINCE（Ours） R（2+1）D-1832⇥224232⇥224230⇥112257.8 88.661.6 88.862.3磅90.9磅二-⇥[68]第六十八话R3D-18R3D-18S3DMC3-18（2+ 1）D-18（2 + 1）16⇥112216⇥112225⇥128216⇥112225⇥224232⇥112232⇥224232⇥224232⇥224232⇥224233.730.935.744.656.947.152.655.059.960.862.972.475.779.585.883.186.885.686.987.5[第69话]DPC [70]CBT [71]AVTS [72][73]第七十三话XDC [74][24]第二十四话[19]第十九话[19]第十九话基于预训练期间的高级分层数据增强。表2. Kinetics 400-在UCF 101和HMDB 51上的预训练性能（前1精度）。我们使用相同的数据扩充方法作为交叉AVID和AVID+CMA，而GDT使用分层采样过程，以获得良好的性能。col和超参数设置Simplified [6]和MoCo-v3 [35]，并简单地将InfoNCE替换为我们的RINCE损失（q=0. 1，q=0。6），如图2所示。表1显示RINCE以非平凡的余量改进了InfoNCE（Sim-Core和MoCo-v3）。我们还包括来自SOTA基线的结果，其中它们通过引入动态字典加动量编码器（MoCo-v1/v2/v3 [5，7，35]），删除负对加停止梯度技巧（SimSiam [43]，BYOL [8]）或在线聚类分配（SwAV [44]）来改进Simpletion。相比之下，我们的工作与最近的发展是正交的，现有的技巧可以与RINCE一起应用。图6示出了来自Simpleaugmentations的正对和由训练的RINCE 模型输出的相应正分数s+=f（x） Tg（v）具有较低正分数的示例包含信息量较少的对而语义上有意义的对往往得分更高。这意味着正分数是很好的噪声检测器，并且降低具有较低正分数的样本的权重在训练期间带来了鲁棒性，验证了我们在第4.1节中的分析。5.3. 视频对比学习我们使用两个视频数据集来检查我们在视听学习场景中的方法：Kinetics400 [38]和ACAV100M [27]。在这里，我们发现简单的q-预热改善了RINCE的稳定性，即，q从0开始。01，线性增加到0。4直到最后一个时代。我们将此应用于本节中的所有RINCE型号。如下所示，RINCE在Kinetics400上优于SOTA噪声鲁棒对比方法[19，24]，同时与InfoNCE相比还提供了可扩展性和计算效率。图6. 正对及其得分。正分数s+[ 1，1]由训练的RINCE模型输出（温度=1）。得分较低的对在视觉上是嘈杂的，而信息对通常得分较高。为了与SOTA进行公平的比较，我们遵循相同的实验方案和超参数设置，[19] 并简单地将其InfoNCE损失函数替换为RINCE，如图2所示。我们使用相同的网络架构，即，18-层R（2+1）D视频编码器[75]、9层VGG类音频编码器和3层MLP投影头产生128-dim嵌入。我们使用ADAM优化器[76]进行400次迭代，批量大小为4，096，1 e- 4学习率和1 e-5权重衰减。预训练的编码器在UCF-101 [77]和HMDB-51 [78]上进行微调，剪辑由32个大小为224224的帧组成。我们把全部实验细节推迟到附录B。表2显示RINCE优于大多数基线，包括Robust-xID[24]和AVID+CMA [19]，这是最近提出的基于InfoNCE的SOTA方法，用于解决视听对比学习中的噪声视图问题。考虑到所需的唯一变化是用我们的RINCE损失简单地替换InfoNCE，结果清楚地表明了我们方法的有效性。简单性意味着我们可以轻松地将RINCE应用于各种基于InfoNCE的方法，例如使用高级数据增强来实现SOTA结果的GDT [23ACAV100M我们在ACAV100M [27]上对RINCE进行了深入分析，ACAV100M是最近用于自监督学习的大规模视频数据集。与仅限于人类动作的Kinetics400相比，ACAV100M包含“野外”视频，展示了各种各样的视听模式。数据集的无约束性质使其成为研究RINCE对各种类型的真实世界噪声的鲁棒性的良好基准，例如，背景音乐、配音音频、演播室旁白等。我们专注于评估（a）可扩展性和（b）转换-方法主干微调输入大小HMDB UCF16678(a) 扩展性(b) 收敛方法[81][82][83][84][85][86][87][87][88]RDT-B NCI 1蛋白DD-54.9± 1.6 57.5± 3.6-71.5± 0.452.8± 1.5 53.0± 5.675.8± 1.073.2± 1.8 73.3± 2.182.5± 1.476.2± 1.1 74.4± 0.3 72.9± 1.889.5± 0.877.9± 0.4 74.4± 0.5 78.6± 0.485.3± 1.478.1± 0.5 74.6± 0.4 77.3± 0.5JAOv2 [83]86.4 ± 1.578.4± 0.5 74.1± 1.1 77.4± 1.2InfoNCE的平均值（我们的）89.9 ± 0.478.2± 0.874.4± 0.5 78.6± 0.8图7. RINCE优于InfoNCE，在不同尺度上具有更少的epoch结果基于转移到UCF-101的ACAV 100 M预训练模型。RINCE（Ours） 90.9±0.678.6±0.4 74.7±0.8 78.7±0.4RINCEGraphCL [40]，但使用与RINCE相同的数据增强表3.TUDataset上的自监督表示学习：基线结果摘自已发表的论文。BZR IMDB-BRINCE的Gence率，从而回答了这个问题：它是否会重新训练它对InfoNCE的优势（a）即使在大规模的制度和（b）与更长的训练时间？我们遵循与上述相同的实验设置，但将批次大小减少到512，并仅报告UCF-101第一次拆分的结果，以使我们的实验易于处理。干扰速率干扰速率图7（a）显示了RINCE和InfoNCE在不同数据规模和训练时期的前1名准确率。RINCE在每个数据规模上都远远优于InfoNCE。在收敛速度方面，RINCE可以与完全训练（200 epochs）的InfoNCE模型相媲美，甚至优于只有100或更少epochs的模型。图7(b)详细介绍了50K和200K尺度下的收敛有趣的是，InfoNCE在epoch 150之后饱和甚至退化，而RINCE则不断改进。这验证了我们在第 4.1 节中的分析：InfoNCE由于其探索特性，可以过拟合噪声样本，而RINCE则对它们进行降权，并继续从干净的样本中获取学习信号，从而实现对噪声的鲁棒性。5.4. 图对比学习为了了解RINCE的模态不可知性质是否适用于图像和视频数据之外，我们检查了我们在TUDataset [ 39 ]上的方法，TUDataset [39]是一种流行的分子（BZR，NCI 1 ），生物信息学（ PROTEINS）和社交网络（RDT-B，IMDB-B）的图形推理基准套件。与视觉数据集不同，图形的数据增强需要使用领域知识进行仔细的工程设计，限制了InfoNCE类型对比目标的适用性。为了公平比较，我们遵循[40]的协议，并使用四种类型的数据增强来训练图同构网络[79]：节点丢弃，边缘扰动，属性掩蔽和子图采样。我们使用ADAM [76]训练模型20个epoch，学习率为0.01，并报告平均值和标准差超过5个独立审判我们设q = 0。对于本节中的所有实验表3显示RINCE优于SOTA InfoNCE-图8. 性能与扰动率：我们将节点丢弃、边缘扰动和属性掩蔽的扰动率从10%提高到60%。当扰动增强时，RINCE在精度和方差方面优于InfoNCE。基于GraphCL和JOAO/JOAOv 2的对比方法，在所有四个数据集上都创造了新的记录。GraphCL为不同的数据集应用不同的增强，而JOAO/JOAOv 2需要求解双层优化来为每个数据集选择最佳增强。相比之下，我们在所有四个数据集上应用相同的增强，并实现了具有竞争力的性能，证明了其通用性和鲁棒性。在图8中，我们通过将三种增强类型（节点丢弃、边扰动、属性掩蔽）应用于不同的%的节点/边。我们展示了对增强最敏感的两个数据集的结果。同样，RINCE始终优于InfoNCE，并且在噪声率增加时具有相对较小的方差6. 结论我们提出了Robust InfoNCE（RINCE）作为对比学习中InfoNCE损失的简单替代品。尽管它很简单，但它有很强的理论依据，并保证不会出现嘈杂的观点。从经验上讲，我们在图像、视频和图形对比学习场景中提供了广泛的结果，证明了其对各种现实噪声模式的鲁棒性致谢这项工作得到了NSF Convergence Award 6944221和ONR MURI 6942251的部分支持。50K200KTop1准确度16679引用[1] S.乔普拉河Hadsell和Y. LeCun，1.一、IEEE，2005，pp. 539-546. 一、二[2] R. Hadsell，S. Chopra和Y. LeCun，IEEE，2006年，第1735- 1742年。一、二[3] A. v. d. Oord，Y. Li和O. Vinyals，一、二、三、四[4] Y. Tian，中国粘蝇D. Krishnan和P. Isola，施普林格，2020年，第776-794. 第1、3条[5] K. 他，H.范，Y。Wu，S.Xie和R.Girshick，9729-9738.一、二、六、七[6] T. Chen，S.科恩布利斯，M。Norouzi和G. Hinton，PMLR，2020，pp. 1597-1607. 一、二、三、五、六、七、十七[7] X. Chen，H.范河，巴西-地Girshick和K.他在2020年IEEE 计算机协会计算机视觉和模式识别会议（CVPR'20）上发表了IEEE，2020年。一、二、六、七[8] J. - B. 格里尔湾，澳-地斯特鲁布角，澳-地Alt che'，C.塔莱克山口H. 里奇蒙德E.布恰茨卡亚角多尔施湾A.皮雷斯岛，巴西-地D.Guo，M. G. Azar等人，一二四六七[9] J. 兹邦塔尔湖京岛，澳-地米斯拉湾，巴西-地LeCun和S.Deny，PMLR，2021年。一、二、六[10] L. Logeswaran和H. Lee，一、二[11] C.- Y. Chuang ， J. Robinson ， L. Yen-Chen ， A.Torralba，以及S. Jegelka，一、二、三、十七[12] J. Robinson，C.- Y.庄，S. Sra和S. Jegelka，一、二、十九[13] J. M. 乔治岛尼茨基湾D. Bader和B.Wang，1[14] A. Baevski ， H. Zhou ，中国古柏 A. Mohamed 和 M.Auli，一、二[15] A. Saeed，D.Grangier和N.Zeghidour，IEEE，2021年，第3875-3879. 1[16] L. Wang和A. v. d. Oord，1[17] A. Miech，J.B. 阿莱拉克湖斯迈拉岛Laptev，J.西维克，还有A. Zisserman，9879-988

下载后可阅读完整内容，剩余1页未读，立即下载