最大边缘对比学习：简化计算负担的有效无监督表示学习

137 浏览量更新于2023-12-01 收藏 1.04MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2255获取更多论文最大间距对比学习3*Anshul Shah酒店，伊斯坦布尔-这里1约翰霍普金斯大学，马里兰州巴尔的摩2麻省理工学院，马萨诸塞州剑桥3三菱电机研究实验室，马萨诸塞{ashah95，rchella4}@ jhu.edusuvrit@mit.educherian@merl.com摘要标准的对比学习方法通常需要大量的否定来进行有效的无监督学习，并且通常表现出缓慢的收敛。我们怀疑这是由于用于提供阳性对比度的阴性的次优选择。我们从支持向量机（SVM）中获得灵感，提出了最大边缘对比学习（MMCL），从而克服了这一困难。我们的方法通过二次优化问题选择否定作为稀疏支持向量作为SVM优化MMCL阳性底片支持向量（SupportVectors）移动化可能需要计算，特别是在端到端设置中，我们提出了减轻计算负担的简化我们在标准视觉基准数据集上验证了我们的方法，在最先进的无监督表示学习中表现出更好的性能，同时具有更好的经验收敛特性。介绍学习有效的数据表示对于任何机器学习模型的成功都至关重要。近年来，利用大量未标记数据的无监督表示学习算法激增（ Chen etal. 2020a;Gidaris ， Singh ， andKomodakis 2018;Leeet al. 2017;Zhang et al.2019;Zhan etal.2020）。在这样的算法中，辅助学习目标通常被设计为产生捕获数据的一些高阶属性的可概括的表示假设这些属性可能在（监督）下游任务中有用，这些任务可能具有较少的注释训练样本。例如，在（Noroozi andFavaro2016;Santa Cruz et al.2018）中，文本前任务是解决补丁拼图游戏，因此学习的表示可能会捕获图像的自然语义结构。其他流行的辅助对象包括视频帧预测（Oord，Li和Vinyals2018），图像着色（Zhang，Isola和Efros2016）和深度聚类（Caron等人2018），仅举几例。在通常用于表征学习的辅助目标中，最近获得显著发展的一个是对比学习，它是标准噪声估计（NCE）（GutmannandHy v？rinen 2010）过程的变体。在NCE中，目标是学习*同等贡献。†通讯作者。更快的收敛需要很少的底片更高质量的表现图1：我们的Max-Margin对比学习框架的说明。对于每个正例，我们通过求解SVM目标计算判别超平面来计算（硬）负的然后，该超平面被用于学习以最大化正的表示之间的图中的负数是我们的方案为相应的正数选择的实际负数。通过对未标记的数据进行分类以对抗随机噪声来进行数据分布。然而，最近开发的对比学习方法通过设计捕获数据不变性的目标来学习表示。具体而言，这些方法不是像NCE中那样使用随机噪声，而是将数据样本转换为样本集，每个集由样本的转换变体组成，辅助任务是将一个集（阳性）与其余集（阴性）进行分类。令人惊讶的是，即使通过使用简单的数据变换，例如颜色抖动、图像裁剪或旋转，这些方法也能够学习更好的和可推广的表示，有时甚至在下游任务中优于监督学习算法CMC（Tian、Krishnan和Isola，2020）、MoCo（Chen等人，2020 c;He等人，2020）、Simplified（Chen等人， 2020 a）和BYOL（ Grill等人，2020 a）。 2020年））。通常，对比学习方法使用NCE损失作为学习目标，这通常是一个将阳性与阴性分开的逻辑然而，正如在NCE算法中经常发现的那样，对于所学习的表示，否定应该在分布上接近于肯定arXiv：2112.11450v1 [cs.LG] 2021年12+v：mala2255获取更多论文是有用的-在实践中经常需要大量否定的标准（例如，16K in Simplified（Chen et al. 2020 a））。此外，标准的对比学习方法做出了隐含的假设，即积极和消极属于下游任务中的不同类别（Aroraet al. 2019年）的报告。这个要求在无监督的训练机制中很难执行，并且由于忽略了有益的区别性线索，无视这个假设可能会损害下游性能。在本文中，我们探索了超越标准逻辑分类器的对比学习的替代公式我们的关键见解是设计一个目标，而不是将阳性样本与一批中的所有阴性样本进行对比：(i) 选择一个合适的否定子集进行对比，以及（ii）提供一种方法来放松假否定对学习表示的影响。图1呈现了该想法的概述。在这方面，一个自然的目标是经典的支持向量机（SVM），它产生一个有区别的超平面，最大的边缘分离的积极从消极的。受支持向量机的启发，我们提出了一种新的目标，最大利润对比学习（MMCL），学习数据表示，最大限度地提高支持向量机的决策利润。MMCL为表示学习带来了几个好处。例如，内核技巧允许使用丰富的非线性嵌入，可以捕获所需的数据相似性。此外，决策裕度与支持向量直接相关，支持向量形成加权数据子集。在SVM公式中使用松弛变量的能力允许自然控制假阴性对表示学习设置的影响。直接使用MMCL目标实际上可能具有挑战性。这是因为支持向量机涉及求解一个约束二次优化问题，当在标准深度学习模型中使用时，解决这个问题可能会大大增加训练时间。为此，受坐标下降算法的启发，我们提出了一种新的SVM目标的重新表述，使用通常用于对比学习设置中的参数。特别是，我们建议使用一个单一的正数据样本来训练SVM对负面的情况下，有效的近似解决方案，一旦获得超平面，我们建议将其用于表示学习。因此，我们制定了一个目标，使用这个学习的超平面，以最大限度地提高剩余的阳性和阴性之间的分类边际。为了证明我们的方法在无监督学习中的经验优势，我们用建议的MMCL目标替换了先前对比学习算法我们在标准基准数据集上进行了实验;我们的结果表明，使用我们的最大边缘目标可以更快地收敛，并且比以前的方法需要更少的负面影响，并且可以更好地推广到几个下游任务，包括多镜头识别的迁移学习，少镜头识别和表面法线估计。下面，我们总结了这项工作的主要贡献• 我们提出了一种新的对比学习公式使用支持向量机，称为最大利润对比学习。• 我们提出了一种新的简化的SVM目标使用的问题设置中常用的对比学习• 我们探索两个近似求解SVM超平面：（i）使用投影梯度下降和（ii）封闭形式使用截断最小二乘。• 我们在 ImageNet-1 k 、 ImageNet-100 、 STL-10 、CIFAR-100和UCF 101等标准计算机视觉数据集上进行了实验，证明了与现有技术相比具有优异的性能，同时只需要较小的阴性批次。此外，在各种各样的迁移学习任务中，我们的预训练模型比竞争方法表现出相关作品虽然对比学习的关键思想是经典的（ Beck erandHinton1992;GutmannandHyvérinen2010;Hadsell，Chopra，and LeCun2006），但由于其在自我监督学习中的应用，它最近变得非常流行。可以说，基于对比学习的目标优于几个手工设计的文本前任务（Doer-sch，Gupta和Efros2015;Gidaris，Singh和Komodakis2018;Larsson，Maire和Shakhnarovich2016;Noroozi和Favaro 2016;Zhang， Isola和Efros 2016）。除了视觉表示学习之外，对比学习的概念正在迅速扩散到机器学习的其他几个子领域，包括视频理解（Han，Xie和Zisserman2020），图形表示学习（Youetal. 2020;Sun等人2020），自然语言处理（Lo-geswaran和Lee2018），以及学习音频表示（Saeed，Grangier和Zeghidour2021）。在对比预测编码（Oord，Li和Vinyals2018）中，这是将对比学习应用于自监督学习的首批作品之一，通过序列中未来预测的预文本任务，从经验上看，反义词的质量对所学表征的有效性有很大的影响。为此，对于视觉表征学习任务，Simmons（Chen et al.2020 a，b）提出了一个框架，该框架使用一组增强来生成正面和负面。由于底片的数量在NCE中起着至关重要的作用，因此许多方法还利用记忆库（ Chen et al.2020 c;He etal.2020;MisraandMaaten2020;Zhuang ， Zhai ， andYangzhou2019）来有效地记录大批量底片。其他对比学习目标包括：聚类（Caron等人，2018年，2020年;Li等人，2020年a），预测增强视图的表示（Grill等人，2020年），以及学习不变性（Tian，Krishnan和Isola2020年;Xiao等人，2020年）。2020年）。在对比学习中缺乏对类标签的访问可能导致不正确的学习;例如，因为假阴性最近的研究试图通过避免采样偏差来解决这个问题（Chuanget al. 2020），并调整对比损失对假阴性的影响（Robinson et al.2021;Huynh et al.2022;Kalantidiset al.2020;Iscen et al.2018）。与这些调整方法相比，+v：mala2255获取更多论文K∈ ∈\D {}T {T}→+−∈logg（f（x），f（x+））+、g（f（x），f（x−））NCE损失，我们提出了一种替代方法，通过使用支持向量机的最大边缘方法的镜头来查看对比学习;允许将SVM的丰富文献与现代深度无监督表示学习方法合并。在我们的设置中，一个关键的想法是通过最大化决策裕度将支持向量视为对比学习的硬否定从概念上讲，这个想法让人想起经典监督学习设置中使用的硬否定挖掘，例如可变形零件模型（ Felzenszwalb et al. 2009年），三重损失（Schroff，Kalenichenko和Philbin+MMCL物镜支持向量机内核图2：我们的MMCL方法的说明给定一个正数（+）和一组负数Y-，MMCL学习2015）和随机负面挖掘方法（Reddi骨干网络f的参数θ通过提取fea-等人2019年）的报告。然而，与这些方法不同的是，本文探讨了自监督损失，这需要tures z+和Z−使用视图x+θ积极的+和新的最大利润目标的重新制定，使设置计算上易处理。我们提出的对MMCL的近似导致一个一点对所有SVM分类器，这类似于示例SVM（Malisiewicz，Gupta和Efros2011）;然而，我们的目标不是为特定任务学习一组分类器，而是学习可推广且对其他任务有用的嵌入。预赛在本节中，我们将回顾我们的符号，并访问对比学习，支持向量机及其潜在联系的原理，这将为介绍我们的方法奠定基础。我们使用小写字母表示单个实体（如x），使用大写字母（例如，X）表示矩阵（与实体集合同义）。我们使用小写粗体（例如，z）对于向量。对于一个定义在向量上的函数，比如f，我们有时会将它重载为f（X），这意味着我们将f应用于X中的每个实体。对比学习假设D={xi}N是给定的未标记数据集，其中负Y-，分别。然后，这些功能将用于使用RKHS核的SVM找到由αx和αY参数化的决策超平面。接下来，MMCL使用剩余的正视图z来最大化z和z+之间的相似性，同时最小化z和Z-之间的相似性，从而实现对比性。然后，这种随之而来的MMCL损失通过管道反向传播，从而学习目标θ。在具有正x，x+的批次B '上XB，负x−X′，其中X′B X，并使用合适的相似性函数g（例如，一个可学习的投影头，后面跟着一个指数余弦距离，如Simplified（Chenet al. 2020a））。如前所述，从表征学习的角度来看，（1）中的对比学习损失带来了几个挑战。例如，在没有任何形式的监督的情况下，该学习目标需要从负对的（迄今为止学习到的）表示导出训练信号，这可能是非常嘈杂的;从而需要非常大的负批次。然而，具有如此大的批次增加了类冲突的机会，即，每个i=1D d d属于同一类的积极和消极的一个子，xi∈R.设T ：R→R表示随机情况，下游任务;此类冲突已在数据变换映射的层（例如，随机图像裁剪和旋转）。标准的对比学习方法使用T′增加D，从而产生数据点是有害的（Arora等2019）。如前所述，与试图规避该问题的方法不同，例如（Huynhet al. 2022;Robinson等人2021;Chuang等人D={X1，X2，···，XN}，其中每个X是（潜在地）2020），我们寻求探索替代对比学习无限）的变换数据样本集，在每个x上，即，X=（x）。然后，表示学习的任务相当于最小化一个目标，该目标最大化来自一个集合内的点与来自其他集合的数据点之间的相似性-本质上是学习某些表示空间中的数据流形，希望这些表示在后续任务中有用。设fθ：RdRd'表示函数映射a数据点X到其表示，即，fθ（x）. 然后，使用最大化阳性和阴性之间的区别性裕度的公式注意，代替InfoNCE损失，如在（1）中，用于将阳性与阴性对比，替代方案可能是铰链损失（Aroraet al.2019;Chenet al. 2020a），其最小化（相对于θ）：通过噪声对比度ive估计（Gutmann和Hyv？ rinen2010），对比学习方法学习函数fθ 经由t−sim（fθ（x），fθ（x+））+sim（fθ（x），fθ（x−））x，x+，x−最小化经验逻辑损失（相对于θ）：+其中[。 ]= max（0，. ）表示铰链损失，t是fθ（x），fθ（x）θ θX Bx−∈B\Xθθ（一）所提出的方案避免了对该超参数的需要，裕度是优化的目标。必须手动调整的边缘超参数我们+v：mala2255获取更多论文θǁ ǁ不2ΣΣ++∈∈∪KKK⟨⟩2CITDW2XXθ+支持向量机给定两个集合X+和X−，其标签为yx= 1，如果x∈X+，否则为-1，软余量SVM解决了以下目标：最小1周2+C周超参数C;以及（ii）通过允许额外的非线性特征映射φ，使得我们可以使用φ（fθ）（如（3）中所示）在（5）中。使用这些改变，可以（通过重写（5））导出经由最大化SVM分类裕度的对比学习公式：w，b，n≥02xS. t. yx（wTx+b）≥1−<$x，<$x∈X+<$X−，（2）minL（θ）：=<$$>αX<$TK（fθ（X），fθ（B\X））α<$X，其中，w表示分离两个类别的判别超平面，b是偏差，并且x是每个数据点的非负B<$D'X∈B（六）松弛具有在硬点的错误分类和最大化决策裕度之间平衡的惩罚C。众所周知，1/w捕获正和负之间的裕度，因此（2）中的目标试图找到使该裕度最大化的超平面wS.T.ααX= argmin0≤α≤C，α y=01αTK（fθ（X），fθ（B\X））α−αT1，（七）（2）的拉格朗日对偶由下式给出：哪里K（Z+，Z−）=K（Z+，Z+），−K（Z+，Z−）−K（Z−，Z+），K（Z−，Z−）埃里西斯min1αTK（X+，X−）α−αT1，（3）′0≤α≤C，αTy=02其中，|X+X−|表示对称正定核矩阵，其第ij个元素由下式给出：Kij=yxiyxj（xi，xj），对于某个合适的RKHSk内核和x i，x jX+X−。由于（2）和（3）中的公式是凸的，（3）的解α提供了（2）的精确决策超平面，并且由下式给出：w（. ）=α x y xK（x，. ）的。（四）x∈X+ <$X−由于（2）中的偏置项b对于下面的细节不是必不可少的，我们将不需要该项的确切形式，并且将使用w（. ）来参考决策超平面。该方法在本节中，我们将上述方法与MMCL公式相结合。我们的方法概述如图2所示。对比学习与支持向量机从对比表示学习的角度来看，上一节中列出的SVM的优点似乎是值得的，并建议直接使用SVM代替（1）中的逻辑分类器。形式上，使用具有裕度t的（2）的软约束变体，（1）中的优化问题可以重写为：我的天啊1 w<$+[t − w，f（X）<$]+B<$D'X∈BX由RKHS核导出的核矩阵（z，z）=φ（z），φ（z′）.虽然支持向量机在机器学习文献中得到了广泛的研究（ Smola 和Scholkopf1998;Cortes 和Vapnik1995），但我们将支持向量机和对比学习领域联系起来的想法还没有被探索过。在（7）中，我们使用so-far训练的fθ来产生定义决策裕度的αX，然后在（6）中使用它来更新θ，同时努力最大化裕度;这样做，将来自正类和负类的支持向量彼此推开。不幸的是，尽管其直观的简单性，公式（6）-（7）直接使用是不切实际的事实上，这是一个具有挑战性的双层优化问题（ Gouldet al. 2016;Amos andKolter2017;Wang et al.2018），如果我们在深度学习框架内使用迭代SVM求解器来解决较低的问题（7），它可能会导致显着的速度减慢。备注。从对比学习的角度来看，SVM解决方案有几个有趣的方面可能是有益的：（i）对偶解决方案α通常是稀疏的2，并且其活动维度可以用于识别作为定义决策裕度的支持向量的数据点，（ii）松弛正则化控制误分类率，并允许针对类别冲突调整性能，类似于（Chuanget al. 2020），（iii）对于误分类点，α X的维数等于C，这些点可能是硬阴性或假阴性，因此我们的公式允许识别这些点并减轻其影响，以及（iv）核函数的使用提供了丰富的RKHS相似性，例如，允许使用新结构在所学习的表示内（例如，树、图等）。X−ε∈B\Xt+（5）最大间距对比学习求解（6）的主要方法是随机梯度下降（SGD），它计算其中X，X−表示正和负的集合，和wX捕获分离它们的最大裕度超平面。1每个wX上的内部优化转化为训练SVM。我们以两种方式增强这个内部优化问题：（i）通过包括松弛变量来模拟软利润（如（2）），这导致1注意fθ（Λ）我们的意思是将fθ应用于集合Λ中的每一项。批次B'通过反向传播，同时迭代更新θ。然而，正如之前在双层优化中观察到的那样（Amos和Kolter2017;Gould et al. 2016），即使获得单个随机梯度也需要精确地解决下面的问题（7），这是不切实际的。我们克服这一挑战的关键思想是引入一个2、选择合适的KθX+v：mala2255获取更多论文KK- -联系我们KKK∈- -Σ2∇X0≤α≤C2PG≤C2YΣΣ不Σ“随后，我们进行额外的近似，以进行最终的训练算法1：MMCL输入：数据集D、批量大小N、编码器fθ、松弛惩罚C、内核K、增强映射Tprocedure.对于小批量B={xk}ND，不失一般性，假设X由对（x，x+）组成;如果我们允许X中有多个这样的正对，同样的想法也适用。而不是使用所有的损失：= 0对于k = 1，. . . ，N do绘制t1T，t2Tk=1“coordinates”, we 这种分裂与对比学习很好地结合在一起，在对比学习中，人们通常只使用一对必须与消极因素对比的积极因素。下面的命题说明了我们如何执行分裂的第（i）部分来估计α<$X，此后我们将其表示为αx以指示其对分裂样本的依赖性。提案1.设（x+，Y-）是一个由一个pos-#获取阳性和阴性的嵌入z+=fθ（t1（xk）），z=fθ（t2（xk））Z−=fθ（t1（Bxk） t2（Bxk））#计算核相似度kxY=（z+，Z−），KYY=（Z−，Z−）#求解SVMT=11T+KYYkxY1T1kxTYαx=svm solver（C，C）#使用PGD或INV#计算损失损失+=αT（K（Z−，z）− K（z+，z）1）正点x+∈Rd和一组n个负点Y−∈X端Rd×n.此外，令z+=fθ（x+）和Z−=fθ（Y−）。Sup-pose k xx、kxY和KYY分别表示（z+，z+）、（z+，Z-）和（Z-，Z-）。考虑由下式给出的新点z的SVM决策函数：w（z）=αTx. K（z+，z）1−K（Z-，z）<$。（八）更新模型以最小化损失端使用Prop。1、我们可以重新定义对比学习设T=11T+KYY−kXY1T−1kT，并设P[0，C]表示（6）在分类中最大限度地提高边际，区间投影XY[0，C]。通过适当选择αx分裂的另一部分，即正的点x，正确地相对于负的。在这里，我们介绍一个额外的SIM卡-在（8）中，我们得到以下近似的最大边际解决方案：(i) （块）坐标最小化αcm=通过使用决策超平面（8），根据x和Y-之间的间隔重写边距来进行简化。令α表示从命题1得到的解，Xxarg ming（α）：=1αT<$α−2αT1(ii) m步投影梯度（MMCLPGD）：αx：=最大边际对比学习目标为：αm=P[0，C]（αm−1η（<$αm−121）），对于某些初始猜测α0[0，C]n，η >0是步长，以及minθxK. fθ（Y−），fθ（x）<$−1K. fθ（x+），fθ（x）好吧(iii) 贪婪截断最小二乘（MMCLINV）：αx=P[0，C]（2 <$−11）.各种解满足g（n−11）≤g（αc m）≤（x，x+）<$B∈D'Y−=B\（x，x+）（九）Xmin {g（αpg，g（αls）}.此外，g（αpg）−=X当优化θ时，（9）寻求表示映射fθ..XXλmin（λ）xg（αcm）cm这提高了正数（x，x+）之间的相似性，Oexp−m λmax（λ）（g（α0）−g（αx））。以及x和Y−中所有点之间的相异性，证据选择（一）是显而易见的。为了获得（ii）和（iii），考虑以下双SVM公式：实现与（1）中的标准对比学习目标类似的效果，但是具有选择核、选择对决策标记重要的支持向量minY1<$αx<$T<$kxx−kxTY<$<$αx<$−<$α+αT1β，杜松子酒，以及寻找点，也许是硬否定（那些在框约束的上界处的），全部在一个公式中。注意，使用Prop中的精确求解器（i）1其中αx=αTY1。代入αx，我们得到3：在标准的骗局中，min0≤αY≤Cg（αY）=1αTY<$αY−2αTY1。因此，我们在实验中不使用该在算法1中，我们提供了一个伪代码，设 g （ αY ） = 0 ，我们得到无约束最小二乘解2<$−11，我们可以将其截断到区间[0，C]中，得到（iii）。解决方案（ii）运行投影梯度下降的m次迭代，因此它也满足线性收敛速度，这取决于条件数λmax（λ max）/λmin（λ min），以众所周知的速度迅速将其带入最优解α cm。3注意，αx是与数据点z相关的标量拉格朗日对偶，而αx是与批次B相关的所有对偶变量的向量（当将x视为正值时）。α、正的点x。然后，我们将（6）改写为我们的建议0≤ααY−kxYKY YXαY+v：mala2255获取更多论文强调我们方法中的关键步骤。实验和结果在本节中，我们系统地研究了MMCL中的各种组件，并通过线性评估比较了MMCL学习表示的质量，以及它们在迁移学习任务中的可推广性。视觉表征学习实验。我们的实验设置基于流行的Simplified（Chen et al. 2020 a）基线，这是广泛使用的，特别是评估+v：mala2255获取更多论文方法多镜头分类少镜头分类表面法线估计飞机加州理工学院101汽车CIFAR10CIFAR100DTD花食品作物病害EuroSatNYUv2（角度误差）监督83.591.0182.6196.3982.9173.3095.5084.6093.09± 0.4388.36± 0.4427.91InsDis（Wu et al. 2018年）73.3872.0461.5693.3268.2663.9989.5176.7891.95± 0.4492.04± 0.4380.74± 0.5792.58± 0.4490.01± 0.4891.93± 0.4686.52± 0.5186.55± 0.5175.19± 0.6787.94± 0.488.06± 0.488.26± 0.427.35MoCo（He et al. 2020年）75.6174.9565.0293.8971.5265.3789.4577.2828.63PCL-v1（Li等人（2020年a）74.9787.6273.2496.3579.627090.8378.333.58PCL-v2（Li et al. （2020年a）79.3788.0471.6896.580.2671.7692.9580.3428.67MoCo-v2（Chen et al. 2020年c）†82.4682.3185.196.0672.9969.4195.6277.1924.49MoCHI（Kalantidis et al. 2020年）83.0384.4585.4995.6877.0770.8594.878.931.75我们85.3887.8289.2396.2482.0973.5195.2482.3993.1± 0.4588.75± 0.424.69表1：迁移学习结果。我们在一系列下游任务和数据集上传输ImageNet预训练模型（使用MMCL）我们与使用类似批量大小和时期预训练的模型进行比较竞争方法的结果来自（Ericsson，Gouk和Hospedales2021）。*使用公开可用的检查点评估的模型。“学习损失”相对于自监督算法中的其它因素的有效性（例如，数据扩充、队列的使用、多个裁剪）。我们使用ResNet50主干，然后是两层MLP作为投影头，然后是单元归一化。我们使用LARS优化器（You，Git-man和Ginsburg2018）在ImageNet-1 K（Deng et al.2009）上预训练我们的模型，初始学习率为1.2 100个epochs。我们还展示了ImageNet- 100（Tian，Krishnan和Isola2020）（ImageNet-1 K的子集）和较小数据集（如STL-10（Coates，Ng和Lee2011）和CIFAR-100（Krizhevsky，Hinton等人））的结果。2009），特别是对于我们的消融研究。在我们的研究中，我们在ImageNet- 100上预训练了200个epoch，而在较小的数据集上预训练了我们使用Adam优化器，学习率为1 e-3（Chuanget al. 2020;Robin-son等人2021年）。除非另有说明，否则我们对所有ImageNet-1 K、CIFAR-100和STL-10实验使用256个批量，对ImageNet-100实验使用128个批量。此外，我们还介绍了使用S3D骨干的视频表示学习的结果（ Xieet al. 2018 ）在 UCF-101（Soomro，Zamir和Shah 2012）数据集上，使用MMCL预训练300个epoch。超参数：我们主要使用RBF核用于SVM。对于CIFAR-100实验，我们从内核带宽σ2= 0开始。02，并在75和125个时期将其增加10倍。对于STL-10实验，我们使用内核带宽σ2= 1。我们使用σ2= 5进行ImageNet实验。我们将SVM松弛正则化C设置为100。对于MMCL的投影梯度下降优化器，我们最多使用1000步。附录中提供了更多详细信息实际考虑：在这里，我们注意到在实现MMCL时需要解决的一些重要但微妙的技术问题具体来说，我们发现，当使用PGD迭代时，通过αY另一方面，对于最小二乘变量，通过αY的梯度被发现是有害的。这也许并不令人惊讶，因为注意，αY项包括项-1。为了提高决策裕度，我们需要使矩阵成为单位矩阵，使得非对角元素在优化期间变为零，这表明训练梯度应该降低这些项的幅度。然而，另一方面，由于αY使用的是π−1，我们也可以通过使π病态，通过使非对角元素变为1，来最大化裕度。如此用力-梯度之间的战争本质上会使训练不稳定。因此，我们发现避免通过α的任何反向传播对于MMCL学习产生表示是必不可少的。我们还发现，使用小的正则化α+ βI（β = 0. （1）学习开始的必要性这是因为，最初的表示可能接近零，因此内核可能条件不佳迁移学习实验最近，使用各种自监督学习方法预训练的模型在转移到各种下游任务时表现出令人印象深刻的性能。在本节中，我们评估了这些下游任务的MMCL-ImageNet预训练模型。对于这些实验，我们遵循（Ericsson，Gouk，andHospedales2021）中提供的实验方案。我们在微调设置中评估模型，并使用（Erics-son，Gouk和Hospedales2021）中提供的基准测试脚本，无需任何修改。首先，我们将 MMCL 预训练的主干模型转移到Ericsson，Gouk和Hospedales2021中使用的多镜头分类数据集的集合中，即 FGVC Aircraft ， Caltech-101 ，Stanford Cars，CIFAR-10，CIFAR-100，DTD，OxfordFlowers和Food-101。该设置涉及使用预训练模型作为初始检查点，并将特定于任务的头部附加到骨干模型。然后，针对下游任务对整个网络进行微调。与ImageNet图像相比，这些数据集在内容和纹理方面此外，基准数据集包括训练图像的数量（2K-50 K）和类的数量（10-196）的显著为了进行公平的比较，我们只包括那些经过相当数量的epoch和batch大小训练的模型的对于少拍实验，我们遵循（Ericsson，Gouk和Hospedales2021）中描述的设置，用于跨域少拍学习（CD-FSL）基准（ Guoet al. 2020 年）。我们评估了作物疾病（ Mohanty ， Hughes 和 Salsons '2016 ）， EuroSAT（Helber等人2019）数据集的5路20次传输。最后，我们评估了我们的模型在NYUv2上表面法线估计的密集预测任务中的性能（Silberman et al.2012），并报告了中值角度误差。在表1中，我们提供了迁移学习实验的结果。我们看到，MMCL在各种各样的迁移任务和所有数据集上的表现始终此外，本发明还+v：mala2255获取更多论文∞MMCL 在几个数据集上的性能也优于有监督的MMCL。这些结果表明，MMCL学习高质量的泛化功能。线性评价对于这些实验，我们冻结了骨干的权重（ ResNet-50），并附加了一个线性层（Chenet al. 2020 a），其使用数据集可用的类标签来训练。我们训练这个线性层100个epoch。表2和表3显示了我们的结果。我们看到，MMCL预训练模型在ImageNet-1 K上使用相同数量的负数时，性能优于Simplified 6.3%。我们还比较了最近的基于记忆的方法，如MoCo-v2（Chenet al. 2020 c）和MoCHI（Kalantidis等人，2020），证明了竞争性性能，同时使用了更少的阴性（510 vs 65536）。我们还在ImageNet-100上建立了一个新的技术水平，仅使用510张底片（0.008x），并且没有内存库，性能优于MoCHI 1.7%。变体负的源极底片top-1Moco存储器队列1600075.9CMC存储器队列1600075.7MoCo-v2存储器队列1600078.0MoCHI存储器队列1600079.0我们批25480.7表2：ImageNet-100线性评估。变体负的源极底片top-1SimCLR批25457.5SimCLR批51060.62MoCo-v2存储器队列6553663.6MoCHI存储器队列6553663.9我们批51063.8表3：ImageNet-1 K线性评估。图表示学习实验回想一下，我们的MMCL公式通过修改对比学习损失函数来工作;因此，我们的方法一般适用于各种任务。在本节中，我们将评估我们使用对比学习学习图表示的方法。我们使用五个常见的图形基准数据集MUTAG（Kriege和Mutzel2012）进行实验-一个包含诱变化合物的数据集我们的实验使用GraphCL（You et al.2020）对于这些实验，我们遵循在（You et al.2020）。具体而言，我们使用标准的十倍交叉验证，使用SVM，并报告平均性能及其标准偏差。我们使用Adam优化器来训练这些模型。表4显示了使用MMCL代替NCE损耗的结果。我们看到，对于这些数据集，添加MMCL与GraphCL相当或更好。在MUTAG上，我们获得了比GraphCL 1.62%的绝对这些结果表明，我们的方法在学习更好的代表性的有效性。考虑到GraphCL的唯一变化是基本目标，结果还表明我们的方法是通用的，可以很容易地取代基于NCE的损失。视频动作识别实验在这个实验中，我们使用了S3 D 骨干模型（ Xieetal.2018），该模型使用来自UCF-101数据集的RGB和光流图像的MMCL进行了预训练。我们对网络进行了300个epoch的预训练，然后进行了100个epoch的动作识别任务的线性评估。我们报告了标准的10作物测试精度分裂1，以及最近邻检索。如表5所示，在线性评估中，MMCL 在 RGB 上比基线高出 5.65% ，在流量上高出1.21%，在Retrieval@1上高出12.5%和5.74%，证明了我们的方法对视频域的通用性。消融研究和分析对于一些消融实验，我们使用较小的数据集：STL-10和CIFAR-100，并报告使用k=200的k-NN在200个历元计算的读出精度，除了标准评估。内核的选择：与传统的NCE目标不同，我们的方法自然允许使用内核来更好地捕获数据点之间的相似性。在表6中，我们比较了CIFAR100和STL 10上针对各种流行内核选择的读出精度。从表中可以清楚地看出，RBF内核在两个数据集上都表现得更好。最佳核超参数σ、γ是根据经验找到的我们在随后的实验中选择了RBF核。松弛的影响：我们的MMCL公式的一个关键好处是可以使用松弛，这可能会控制假阴性或硬阴性的影响为了评估这种效果，我们将松弛惩罚C从0.01（即，错误分类的低惩罚）到C=。图3中的读出精度结果表明，C在实现良好性能方面起着关键作用。例如，C = 0。01，这两个数据集的性能似乎一直很低，可能是因为硬底片的权重不足。我们还发现，使用大的C可能并不总是有益的。批量大小的影响：我们使用STL-10数据集进行实验，并训练所有模型400个epoch。我们报告此实验的线性评估结果。从表7中，我们看到我们的模型始终优于Simplified基线，同时比其他方法表现得更好。事实上，我们发现MMCL比HCL好大约1-3%， HCL重新加权了硬底片。我们还发现，MMCL使用的批量大小仅为128达到接近HCL的性能（Robinsonet al. 2021）使用256的批量大小进行训练，这表明拟议的选择+v：mala2255获取更多论文−∈方法DDMUTAGREDDIT-BINREDDIT-M5KIMDB-BINGraphCL78。62± 0。4086. 80± 1。3489. 53± 0。8455. 99±0。2871. 14±0。44我们的78。74± 0。3088. 42± 1。3390。41± 0。6056. 18± 0。2971。62±0。28表4：与GraphCL的比较我们在五个图基准数据集上比较了图表示学习比较的数字是从原始文件（你等。2020年）。图3：松弛惩罚C的效果。图4：计算（ImageNet）。图5：收敛（STL-10）。损失变量模态负向top-1 R@1MoCo-v2 RGB 2048 46.8 33.1我们的RGB 25452.45 45.6MoCo-v2流量2048 66.8 45.2我们的流量25468.01 50.94表5：UCF-101数据集上的视频自监督学习Kernel（K（x，y））CIFAR100 STL 102019-04 -2200：00：00 00：00 00：00 γxT y+η）54.53% 80.5%2STL-10 64 128

下载后可阅读完整内容，剩余1页未读，立即下载