没有合适的资源?快使用搜索试试~ 我知道了~
可视化特征变换提升对比学习
10306通过可视化特征变换改进对比学习朱瑞1、2*,赵秉臣3*,刘金根2†,孙正龙1,车昌文41香港中文大学深圳分校2JD AI Research3同济大学4香港理工大学ruizhu@link.cuhk.edu.cn,{zhaobc.gm,jingenliu}@ gmail.com,sunzhenglong@cuhk.edu.cn,changwen. polyu.edu.hk摘要对比学习是一种以最小化正特征对之间的距离,最大化负特征对之间的距离为目标的学习方法,在无监督特征学习中得到了广泛而成功的应用,其中正、负特征对的设计是其关键之一在这^ _联系我们^_ +本文中,我们试图设计一个功能级的数据操纵-(a) 观察(b) 该方法(c)性能增益与数据增强不同,增强了通用对比自监督学习。为此,我们首先设计了一个可视化方案的pos/neg得分1分布,这使我们能够分析,解释和理解的学习过程。据我们所知,这是此类尝试的第一次。更重要的是,利用这个工具,我们获得了一些重要的观察,这启发了我们新的特征变换建议,包括外推的积极。该操作创建更硬的正以促进学习,因为硬正使得模型能够更具视图不变性。此外,我们还提出了否定词之间的插值,提供了多样化的否定词,使模型更具鉴别力。这是同时应对这两个挑战的第一次尝试。实验结果表明 , 我 们 提 出 的 特 征 变 换 可 以 提 高 至 少 6 。 在ImageNet-100上的MoCo基线上的准确率为0%,并且在ImageNet-100上的MoCo基线上的准确率为2. ImageNet-1 K在MoCoV 2基线上的准确率为0%。成功地转移到下游任务-充分证明我们的模型是较少的任务偏见。可视化工具和代码:https://github.com/DTennant/CL-Visualizing-Feature-Transformation.1. 介绍从ImageNet [34]监督预训练网络[16,37,19]进行微调,但最近的自我监督对比学习-*同等贡献,这项工作在JD AI Research完成。†通讯作者。1阳性/阴性分数表示阳性/阴性对的余弦相似性。图1.将分数分布可视化的动机(a)它绘制了m(MoCo[14]中的动量)为0.99和0.9的正对的分数分布(b)受(a)的启发,我们对阳性对应用外推法以略微降低分数,产生更难的阳性。(c) 利用阳性的外推,我们将性能从71.1%(蓝色)提高到72.8%(橙色)。性能的提高与分布的变化是一致的。阳性对的平均评分从蓝色图(外推前)变为橙色图(外推后)。ing在没有人工提供的注释的情况下实现了相当的传输性能。对比学习的关键问题之一是设计阳性和阴性(阳性/阴性)对来学习嵌入空间,使得阳性在空间中保持更接近,而阴性被推开。大多数现有方法[4,6,40,7]通过数据增强来获取pos/neg对,其利用同一图像的各种视图来形成正对。例如,CMC[39]使用图像的亮度和色度颜色通道作为两个视图。InfoMin [40]证明了增量数据扩充确实会导致视图之间的互信息减少,从而提高传输性能。换句话说,一个有效的正对更倾向于传达一个实例的更多变化。通过一系列的提升,基于数据增强的对比学习方法[4,6,40,7]正在接近ImageNet[6]上的完全监督性能。大多数以前的数据增强(例如裁剪、颜色失真)直接来源于人的直觉,这可能缺乏很多可解释性,因此它们不能保证它们的有效性。然而,我们认为,特征级数据操作(即、特征变换)可以提供更可解释的或有效的阳性/阴性对公司简介10307增强特征嵌入。为此,我们首先设计了一个方案来可视化训练过程中的阳性/阴性对分数分布。我们相信,从这些分数分布,我们可以揭示和解释模型参数值如何影响其性能。可视化可以帮助我们追溯训练过程。此外,它使我们能够观察的pos/neg对的特性,然后发明更有效的特征变换(FT)。图1展示了分数可视化的动机。 通过绘制不同MoCo动量值下的分数分布[14],我们可以清楚地观察到m=0的情况。99具有较小的正分数,同时实现更好的性能。一个小的积极的分数indi-在该对之间具有较小的相似性,这意味着该正对实际上携带一个示例的大的视图变化。实际上,这与特征学习的目标是一致的,特征学习的目标是更加视图不变的视觉表示。因此,我们推测,受这一观察的启发,我们引入了一个外推操作的积极对增加视图方差,从而获得硬积极的。图1(c)显示,正的外插可以将模型性能从“蓝色”提高此外,为了充分利用负特征,提出了负特征间的随机插值,直观地为每一步训练提供了多样化的负特征,使模型更具鉴别力。与传统的数据增强不同,我们的特征转换不会带来额外的训练示例。相反,它的目的是重塑的功能分布,通过mannipulating积极和消极的对。基本上,我们的特征变换将创建硬阳性和多样化阴性,以学习更具视图不变性(硬阳性)和更具鉴别力(多样化阴性)的表示。它直接由学习表示的性能驱动,而数据增强对性能是盲目的。此外,我们的特征变换使模型更少的实验结果表明,该算法在目标检测、实例分割和长尾分类等方面都有明显的改进。我们的可视化工具和特征变换都是通用的,可以应用 于 各 种 自 监 督 对 比 学 习 , 包 括 MoCo[14] ,SimCLR[6],InfoMin[40],SwAv[4],SimSiam[8]。在下面的章节中,我们采用经典模型MoCo来演示我们的框架。总之,我们的贡献包括:• 我们是第一个设计一个可视化工具来分析和解释得分分布的阳性/阴性对如何可视化还帮助我们得出一些重要的观察结果。• 受模型可视化观察的启发,我们提出了一种简单而有效的特征转换,它创建了“硬阳性”和“多样化的阴性”来增强训练。特征变换使得能够学习更多的• 我们进行了深入的实验,我们的模型达到了国家的最先进的性能。此外,在下游任务上的实验成功地证明了我们的模型是较少的任务偏差。2. 相关工作对比学习:对比损失已广泛用于自监督学习,并对分类带来了显着改进[13,1,14,39,40,6,7,10]。12、4、18、2、57、47、50、9、3、39、43、49、54、45、44、23]和检测[46,51,52,53]。InfoMin [40]使用NCE的下限来证明增量数据增强导致视图之间的互信息减少,从而提高传输性能。换句话说,用于对比学习的相对较难的数据增强提高了迁移性能[20,6]。我们表明,我们提出的特征变换可以很容易地采用当前最先进的模型。用于对比学习的MixUpMixup [56]及其众多变体[42,55,21]在与监督和半监督学习的交叉熵损失配对时提供了高效的数据增强策略。Mani-fold mixup [42]是用于监督学习的特征级正则化,而Un-mix [36]提出在图像/像素空间中使用mixup进行自监督学习;在MoChi [20]中,作者提出在嵌入空间中混合阴性样本以进行硬阴性增强,但会损害分类精度。i-Mix [24]提出了一种策略,在输入和虚拟标签空间中混合实例,以正则化对比训练。在本文中,我们建议使用特征变换,而不是数据增强。正特征被外推以增加正特征的硬度,并且内存队列中的负特征被内插以增加多样性。我们的FT提供了更多的功效相比,增强。生成用于度量学习的示例:生成度量学习的新示例的想法已经由[26,10,22]探索。嵌入扩展[22]工作在两个正和负点之间使用均匀插值,创建一组合成点,然后选择最难的一对作为负。[26,10]通过生成器生成新的硬示例,并提高度量学习的性能。与监督度量学习的方法[26,10]不同,我们的pos/neg FT旨在自监督学习,10308∥∥−≤0.5-0.60.70.80.90.99 0.9991行政开支(%)崩溃21.2 32.8 39.3 46.5 56.2 53.131.2L图2.特征转换对比学习管道。3. 对比学习3.1. 预赛让我们从对比学习的基本过程开始,如图2所示。每个数据样本x通过两个单独的数据增强流水线tq和tk,其从相同的数据增强池中随机采样,并且将获取两个视图vq和vk以构建正对[6,12]。编码器q和k2将分别将两个视图映射到特征嵌入空间中。对特征向量hq和hk应用2归一化以投影对应的向量hq和hk(即,,zq=hq/hq2)的方法,得到zq和zk。它们的内积将产生cos相似性分数,即一个正态对得分Sq·k+和K_n∈g在i个正态对得分Sq·k-处。这些配对分数被输入到InfoNCE loss 1表1. 在MoCo(τ = 0. 07)。然而,Sq·k是一维的并且限于[ 1,1],这适合于在对比过程中观察。请注意,这个实用的可视化工具是离线的,即使有更大的数据集和批量大小,它仍然是可行的。可视化工具的详细信息见附录A。3.3.使用MoCo的我们选择计算效率高的模型MoCo[14]作为一个例子来展示我们的可视化设计。动量更新机制:存储器队列[49]是用于解决大批量计算负担的初始方法,其在存储器中存储K个负特征,这些特征将在每个训练步骤使用编码器的输出进行更新。然而,编码器(fq和fk)的快速变化可能会将不一致性带入通常包含过时特征的存储器队列MoCo通过利用动量更新机制[38]解决了不一致性问题,其中只有fq通过反向传播更新,fk通过动量机制更新:对比学习:θfk ←mθfk +(1−m)θfq(二)Σexp.Sq·k+/τΣ(1)其中m∈[0,1)是动量系数并且具有L=−logexp.Sq·k+/τΣ+ΣKexp.Sq·k−/τΣ对最终的传递精度影响很大。然后使用来自fk的特性更新内存队列,因为在这里,我们粗略地将特征转换过程定义为对编码器嵌入h q和h k进行某些操作,以重塑输出pos/neg 对 得 分 ( Sq·k+ 和 Sq·k- ) 的 分 布 , 在 后 续InfoNCE损失中进行更好的对比学习当前SOTA中最常见的FT是[4,6,40,7,14]单位球项目。2归一化。我们提供了这种常规FT的实证研究,并说明了它的重要性,显着收缩的特征长度(102)在增刊F。3.2. 分数分布可视化我们选择可视化阳性/阴性对的分数分布,而不是损失曲线和转移准确性,因为内部训练动态可以挖掘模型的学习能力。具体而言,有两个实际原因:(1)InfoNCE 损 失 的 基 本 思 想 是 以 log-softmax 方 式 比 较pos/neg分数,因此可视化输入分数对可以帮助研究对比学习过程。(2)归一化的特征向量zq和zk是高维的,这对于存储和可视化是具有挑战性的;分数的指数放大太大,无法观察pos/neg分数的特征细节2编码器q和k可以是相同的[6]或不同的网络[14,12]。fk的动量更新带来了更平滑的特征改变,这可以减少存储器队列中的不一致性在下面的章节中,我们提供了全面的实验和可视化分析,以显示参数m如何影响对比学习过程。我们尝试在ImageNet-100(表示为IN-100)[39]上使用线性读出协议对MoCo进行各种m以进行评估(详见补充B)。如表1所示,随着m的减小(增加编码器f k的更新速度),精度呈现倒U形,并且max为56。24%位于m = 0处。99当m = 0时,模型坍缩30的情况。五、这些趋势结果与BYOL相似[12]。我们选择三个重要的统计数据来可视化分数分布:阳性/阴性分数的平均值(表示阳性/阴性对距离的近似平均值)和阴性分数的方差(表示存储器队列中阴性样本的波动程度)。如图3(a)所示,当m变小时,编码器k的更新速度增加,导致训练步骤之间的特征差异增加,这反映为队列的负分数的方差增加3模型崩溃意味着使用线性读出协议的传输精度不能达到来自随机初始化的训练精度,即,,15。90%,说明前期培训带来的负面影响。ℎ������������1+���������∗���−������������−��� ℎ���������ℎ���������10309≤αex累积(%)-0.2 0.4 0.6 1.4 1.6 2.071.1 71.6 71.8 71.9 72.7 72.472.8(a) 阴性评分的方差(b)阴性评分平均值(c)阳性评分图3. MoCo培训中各种m的阳性/阴性得分统计(a) m=0。99 |五十六2%(b)m=0。6 |21岁2%(c)m=0。5 |崩溃图4.各种m的梯度(2表2.正外推的各种α ex,最佳结果以粗体标记。我们使用ResNet-50 [16] 进 行 结 果 分 析 。 ’-’ indicates MoCo baselinewithout using硬正提升性能:小m不仅指示更快的更新速度,而且指示编码器fk和fq之间的更大相似性,即在极端情况下,当m = 0时,参数θ k与θ q在每个训练步骤中完全相同。编码器fq和fk的相似性的增加将降低zq和zk+之间的不相似性,并且仅保留由数据增强带来的视图方差,从而导致更高的正得分。 图3(c)示出了m〇. 9将在特征空间中产生具有近距离和小视图变化的容易的正对然而,在图5(c)中,当我们从 0 增加m时。9(绿色)为0。99(橙色),容易的pos对变硬0.200.150.10负方差0.20.10.0负平均值正均值1.00.90.80.70.6pos对(从非常相似的0. 9到不太相似0。7),导致更高的转移精度(46. 5%对56。2%,9. 增长7%)。请注意,这种观察(转换容易的位置-可以用InfoMin原理0.050.10.20.50.4[40]:提高zq和zk+corre之间的视图方差。0.00010k20k30k40k5万次培训迭代010k20k30k40k5万次培训迭代0.3010k20k30k40k5万次培训迭代响应于增加用于对比学习,这迫使编码器学习更鲁棒的EM。(a) 阴性评分的方差(b) 阴性评分平均值(c)阳性评分从而提高了传送精度。图5. 2D视图,显示各种类型的即不一致性。具体来说,当m=1时(在训练期间没有更新f k),方差接近于零(蓝线),而m的方差=0。9(红色)较大,但相对不稳定。m=0。5(灰色)在内存队列中带来更剧烈的波动/不一致性,导致较差的传输精度甚至模型崩溃。模型崩溃的内部分析模型崩溃是由各种原因造成的。小m(fk更新速度快)带来的不仅是不一致性,还有负分的混乱。对于neg得分的平均值(图3(b)中的线),m的波动度=0。6(粉红色)和m=0。5(灰色)比最佳模型m = 0清晰得多。99(绿色)。负分数的平均值反映了内存队列中所有负对如果它在训练过程中剧烈波动,相应的损失值和梯度将剧烈波动,导致收敛性差 如图4所示,m =0的平滑且稳定的梯度景观。99(图4(a))随着m(图4(b),对于m=0)的减小而变得尖锐和杂乱。图6和图4(c)对于m=0。(五)。有关梯度景观的详细信息,请参见附录C。基本上,为了学习一个更好的预训练模型,我们需要准备负对,它可以保持训练过程中分数分布和梯度的稳定性和平滑性,这类似于监督学习[35]。在保证分数分布和梯度稳定、平滑的前提下,可以采用一些特征变换方法,通过减少易正分数来生成难正分数。因此,我们在4.1节中提出了一种正特征外推方法来提高传输精度。4. 提出的特征转换方法Info-NCE的学习目标是拉近正对(zq和zk+),同时推开负对(zq和所有zk−)。 在存储器队列中)在嵌入空间中。因此,我们可以直接对阳性/阴性特征应用特征变换,以便提供适当的正则化[42]或使学习更困难[40]。具体地,我们开发了正外插以将原始正对进一步变换以增加存储器队列的硬度和负内插以增加负样本的多样性,如图6所示。值得注意的是,我们的方法不改变损失项,因为它仅用新的变换的pos/neg分数替换原始对分数以用于计算损失项。4.1. 正外推根据第3.3节中的讨论,在训练期间降低易正对得分以创建硬正对可能有利于最终的转移性能。因此,我们想探索一种方法m= 0.999 |53.1m= 0.99 |56.2m= 0.9|四十六点五10310q·k设q·kq·k≤Q∼≥·−≤≤∼联系 我们方法αexpos内插/外推(a) 负插值(b) 正外推联系我们钼钴0.2 69.1 /71.6(基线:71.1)2.0 67.4 /72.8表3.正外推与插值内插会降低性能,而外推会提高性能。图6.我们提出的负插值和正外推的过程。对于负插值,我们随机插值内存队列中的两个特征,以产生一个新的负。对于正外推,使用外推将两个正要素彼此推开,从而容易改变证明了正外推的有效性。有趣的是,αex>1将得到比αex<1更好的结果。因为α ex<> 1的β分布提供极大或极小的λ ex的概率很高,例如,1. 1或1。9,而αex>1的beta分布给出中性从正面到硬正面,这对对比学习更好λex =1时。5、概率很大5。根据等式操纵正特征Zq和Zk+以在训练期间增加它们之间的视图方差。首先,我们简单地对两个正特征采用加权相加来生成新功能:z<$q=λexzq+(1−λex)zk+zk+=λexzk++(1−λex)zq(3)其中zq和zk+是变换后的n个新特征。同时,考虑到混合的设计原则[42,56],我们确保权重之和等于1.一、更重要的是,我们应该保证比转换后的pos得分S+小于原始pos得分Sq·k+,即zqzk+zqzk+。将等式3转化为转换后的分数:S·k+=2λex(1−λex)(1−Sq·k+)+Sq·k+≤Sq·k+(4)因为Sq·k+∈[−1,1],因此(1−Sq·k+)≥0。为了确保下面的分数S +S+,我们需要λ ex1来让2λ ex(1 λ ex)0。所 以 我们选择λ exBeta(α ex,α ex)+14是从beta分布中采样的,然后加上1会得到(1,2)的范围。转换后的pos得分的范围为S+∈[−4+5S+,S+]。4、极端的λex会带来太多/太少的硬度,因此相应的性能不如中性的稳健。如果是正插值呢 为了进一步验证我们的猜想,即外推可以创建硬阳性,而内插不会,我们还进行了实验,内插的积极特征,如表3所示。我们可以观察到明显的性能下降(5. 中性下降4%αex=2)。原因在于,正要素之间的极化拉动正对从而降低了训练过程中的难度。换句话说,正对的视图方差正在减小,并且因此容易导致非鲁棒特征。4.2. 负插值以前的对比模型[6,14]没有充分利用阴性样本。例如在MoCo中,有许多重复的负特征存储在存储器队列中,一次又一次地迭代。因此,我们可以设计一种新的策略,以充分利用负特征,增加内存队列的多样性。在具有足够随机性的情况下,我们提出了内存队列中的负插值,它直观地为每个训练步骤提供了多样化的负。具体来说,我们表示的负内存队列MoCo作为Z负={z1,z2,. . . 其中K是q·kq·kq·k的内存队列,而Z作为随机变量直观上,它可以被看作是一个简单的方法,推出zq和zk+的特征空间。在外推之后,外推的特征向量之间的距离被扩大。因此,外推可以用作特征变换,以从容易的特征变换创建硬阳性如图6(b)所示,它为两个正向量带来较小的方向变化,同时传递样本的较大视图方差通过外推法降低pos评分的可视化显示在图1(c)中我们评价了阳性外推法对IN- 100的有效性,并在表2中尝试了各种αex。使用各种α ex的正外插一致地提高了基线MoCo(71. 1%),显然4我们选择将beta分布的两个参数αex设置为相同,因为两个混合特征是对称的。这同样适用于负特征插值。染Z阴性我们建议在两个内存队列之间使用简单的插值来创建一个新队列Z?neg={z?1,z?2,. . . ,zK}:Zneg=λin·Zneg+(1−λin)·Zperm(5)其中λ inβ(α in,α in)在(0,1)的范围内,如图6(a)所示。转换后的内存队列Zneg提供了对于逐迭代的对比损失迭代,其中随机置换和λin确保每个训练步骤的Zneg的密度Di versitymak es与更多的线性组合5 αex>1的β分布显示出倒U形,其以更大的概率采样0.5,从而使λex有更大的机会为1。五、^联系我们(1 −���)���_���������+^公司简介(1 −���)���+���������(1 −���)������������10311αin-0.2 0.4 0.6 1.4 1.6 2.0行政开支(%)71.1 73.3 74.1 74.2 73.574.674.1表4.中的各种α用于负插值,最佳结果以粗体标记。我们使用ResNet-50 [16] 进 行 结 果 分 析 。 ’-’ indicates MoCo baselinewithout using negative0.050.000.050.100.150.200.250.30负平均值在epoch 30中添加FT| 63.0在时期50中添加FT| 61.8在epoch 80中添加FT| 59.2基线(无FT)|56.20 20406080100训练时期0.90.80.70.60.50.4正均值0 20 40 60 80100训练时期(a) 阴性评分平均值(b)阳性评分表5.使用不同的阴性特征队列的消融结果(Res50)。变换后的 队 列 Z_ ( ? ) neg 可 以 完 全 代 替 扩 展 后 的 队 列 Z_(?)neg,且计算量小。在每个训练步骤中的先前否定正外插增加了两个位置特征之间的视图方差我们推测原始队列Z-负提供离散分布(c)基线MoCo景观图7.可视化何时添加FT,包括分数分布和梯度(2范数)景观。表4中的IN-100负插值和尝试各种α的有效性负插值对不同的α in具有相当的鲁棒性,其改进为2。2%-3%。5%(71。1%)。关于负特征变换(硬负负外推)的更有趣的讨论在增刊G中显示。以前的工作已经探索了在对比学习中利用图像级[36]和特征级[20]混合的方法。我们的方法在三个方面与以前的工作不同,首先是动机,我们是由我们在第3.2节中的观察提出的特征转换策略。其次,我们在两个积极特征之间进行外推的方式是新颖的,并且在表8和表9中的几个实验中优于其他两种方法。第三,负插值旨在充分利用每个训练步骤中的负样本。两种FT方法都专注于探索执行特征变换的有效方法,而不是简单地将硬底片扩展到存储器队列[20],也不是图像级混淆[36]。 在下面的部分中,我们提供针对所提出的FT的内部讨论,包括(1)如果扩展存储器队列而不是FT会怎么样。(2)什么时候加入FT?(3)维度级混合而不是线性混合. (4)如果训练时间更长,FT带来的收益会消失吗?4.3. 讨论扩展内存队列而不是FT:以前的工作[14,6]表明,在对比学习中增加否定示例(K)的数量可能有利于最终的表现,因此它们要么使用记忆表6.何时添加特征变换。我们采用Res-18(共100个历元)和Res-50(共200个历元)的IN-100的结果。’-’ indicates MoCobaseline without using any[14]或大批量[6],以获得更多的负面例子。具体来说,[30,17,40]表明增加K将提高互信息的下限。也可以利用负插值法来扩大负示例的数量:我们使用原始底片和插值队列的联合队列,Z〜neg=Zneg∪Zneg,其中包含的数量是neg at ie examples(2K)thanZneg.在表5中,我们比较了仅使用插值队列Zneg、原始Zneg与i个样本处的K/2Kneg以及它们的组合Z〜neg的性能。我方发现使用组合队列显示出对性能的可忽略的改进(74.73%)单独使用插入队列(74. 64%)。我们认为,插入的负特征包含足够的多样化的否定相比,原始队列。所以即使是斗-扩展队列(Z ~ neg)的负样本(更多的互信息)不能提高性能。不-值得注意的是,对于每个对比损失,扩展队列需要双倍的计算。因此,我们建议特征变换计算量更少,但更有效,而不是功能增强。何时添加特征变换?本文通过对不同训练阶段开始FT的分析,提出FT的有效性如表6所示,从各个历元开始FT(正外推+负内插)可以如下:方法αinZn队列大小ACCmoco+原始队列-Z阴性K71.10moco+原始队列-Z阴性2K71.40moco+ Neg FT队列1.6ZnegK74.64moco+阴性FT+原始1.6Z型2K74.73但我们的方法可以填补FT开始时期0 230 5080-分布的全部样本点通过随机插值Res18 accc(%)62.663.362.9 61.859.256.2lation,导致一个更具歧视性的模型,我们评估Res50 accc(%)七六点九七六点四75.9 74.072.271.110312∼⊙∈明显提高基线的准确性,从早期开始可以提高更多(7。1%/5。使用Res-18/Res- 50增强8%通过图7中的分数分布和梯度景观的可视化,我们可以看到,当组合的FT被插入各个阶段时,我们的FT同时带来硬阳性(图7(b)中降低的阳性分数)和硬阴性(图7(a)中上升的阴性分数此外,通过比较梯度(2范数)景观,我们可以观察到我们的FT为训练带来了更大的梯度,这使得模型逃离局部极小值并避免过拟合。这些分析表明我们的FT是一个插头-方法MoCov1 MoCov2 simCLR Infomin swav SimSiam昏暗表7.各种对比模型上所提出方法的消融研究。模型在IN-100上用Res 50预训练200个epoch。*表示复制的基线结果。预训练IN-1 k inat-18 CUB 200 FGVC飞机和播放方法,并带来持久的视图不变性和用于训练对比模型的区分。更详细的讨论和可视化放在附录D中。维度级混合如何: 除了亲-mocov1+我们的61.9 67.3 83.2 84.0上的线性要素内插外推特征级(128-d向量),我们还将变换扩展到维度级,其中参数λ是向量而不是标量数,这种维度级混合可以描述如下:znew=λ<$zi+(1−λ)<$zj(6)其中表示Hadamard乘积,并且λ[0,1]n是与特征向量具有相同维度λ的每个维度的值从beta分布λi Beta(α,α)中随机抽样。该公式用于负插值;对于正插值,λ加1以执行外推。对于负/正特征,维度级混合可以引入更多的多样性/更多的视图变化(硬度),因为每个维度都是利用变换来执行的在IN-100上进行的维度级混合实验表明,与特征级混合相比(表7中的第5行)有所改进。如果训练时间更长,FT带来的收益会消失简单地训练更长的时间可以显著提高对比预训练的性能。因此,在这里我们提供了IN-100上的MoCov 2/MoCov 2 +FT( 500 个 时 期 ) 的 结 果 : 80.7%-> 81.5% 。 与 200 个epoch结果相比(75.6%->78.3%(表7),较长的训练实际上使基线的改善最小化。更多的训练时期可以导致比较更多的阳性/阴性对以增加多样性。然而,我们提出的FT通过提供多样性加速了这一过程,并导致快速收敛,这响应了学习多样化和歧视性表示的动机5. 实验在本节中,我们从四个角度评估我们的特征转换方法:(1)消融研究(2)各种对比模型的FT。(3)评估ImageNet-1 k上的表示(4)对各种下游任务进行微调我们保持了实验的公平性,特别是与其他方法相比。注意到mocov2[7] 67.5 66.8 82.983.6mocov2+我们的69.6 67.7 83.1 84.1[20]第二十届全国人大代表mocov2+UnMix[36] 68.6---表8.分类结果。*表示我们复制的结果。用基线方法进行数据扩充实验和数据集的详细信息见附录B。5.1. 消融研究我们采用线性读出协议[14]来比较IN-100上的图像分类性能,其中我们冻结了特征并使用softmax训练了一个监督线性分类器。表7总结了消融研究的结果。我们观察到,正外推和负内插分量是互补的,当在MoCoV 1/MoCoV 2上组合时,这可以将前1准确度提高5.77%/2.72%维度级混合还显示了基于两个组件已经很高的性能的改进。在MoCo上的消融研究的性能提升显示了我们的FT的功效。注意,变换的特征不一定在单位球体上(即,,具有1的范数),我们不需要对变换后的特征重新执行102范数,因为性能差异可以忽略不计(76. 87%,高于常模后76。68%)。关于向量长度的2的更多讨论放在增刊F中。在这里,我们强烈建议对所有数据集上的变换特征重新执行2范数,以便对比单位球上的所有得分。5.2. 各种对比模型我们将FT应用于表7中的各种对比模型它提出,我们的FT带来5. 77%,3. 93%,1. 3%、1. 百分之一乙腈-0.比MoCo [14]、SimCLR [6]、In-[40][41][42][43][44][44]][45][46][47]IN-100数据集(200 epoch)。值得指出的是,我们的FT的一系列消融研究可以提高Sim-监督76.166.181.9*82.6 *MOCOV1[14]60.665.682.8*83.5*基线*71.1075.6174.3281.9 82.177.1+正FT72.8076.2275.80- -77.8+阴性FT74.6477.1276.71- -+两个76.8778.3378.2583.2 83.2+两个77.2179.2178.81- -10313预训练IN-1kTop-1[33] R50-C4 VOCAP AP50AP75面罩R-CNN [15] R50-C4 COCOAPbbAPbb50APbb75AP标记AP标记50AP标记75随机初始化 *-33.860.233.126.444.027.829.346.930.8监督的 *76.153.581.358.838.258.241.233.354.735.2信息*70.157.682.764.639.058.542.034.155.236.3mocoV1[14]60.655.981.562.638.558.341.633.654.835.6mocoV1+我们的61.956.182.062.039.058.742.134.155.136.0mocoV2[7]67.557.082.463.639.058.641.934.255.436.2mocoV2+我们的69.658.183.365.139.559.242.134.655.636.5[20]第二十话68.057.182.764.139.459.042.734.555.736.7DetCo[51]68.657.882.664.239.459.242.334.455.736.6InsLoc[53]-57.982.965.339.559.142.734.556.036.8表9.目标检测。所有模型都在ImageNet-1 k上预训练了200个epochs这意味着结果是从各自的论文[14,40]。mocoV2的COCO结果来自[20]。使用5次运行的平均值报告我们的结果。CLR模型。实验表明,我们的FT是通用的和强大的各种对比模型。5.3. 在ImageNet-1 k在IN-100数据集上进行消融后,我们使用αin和αex的最佳设置在ImageNet-1 k(IN-1 K)上训练模型。请注意,未使用维度级别混合 IN-1 K上的实验,由于计算约束。我们将我们的方法应用于基线MoCo [14]和MoCoV 2 [7],它们都是在IN-1 K上训练的,具有200个epoch 。结 果和 比较总 结见 表8 。我 们的 方法将MoCoV 1和MoCoV 2的Top-1准确度分别提高了1.3%和2.1%,这在像IN-1 K这样的大型数据集上是显着的。UnMix [36]和MoCHi [20]也是利用混合来更好地帮助对比学习过程的方法。值得注意的是,我们可以观察到 , 我 们 的 方 法 与 MoCoV2 相 比 可 以 分 别 提 供 比UnMix和MoCH1更大的性能增益。5.4. 下游任务细粒度图像分类我们评估了对真实世界细粒度分类数据集的有效性,例如。、大型长尾iNaturalist 2018[41]、CUB-200 [48]和FGVC-飞机[29]。如表8所示,我们的FT显著提高了iNat-18上的转移性能,其中1. 7%和0。基于MoCo和MoCo-V2的9%改进。此外,我们的FT还为CUB-200和FGVC飞机带来了持续的改进。最近的工作[46,51,52,53,57]已经表明,关于分类和检测的最新技术(SO-TA)模型[4,6,40,7,14]的传递准确性是不一致的,并且具有低相关性,表示为一个重要的原因是SOTA的预任务是专门为分类而设计和优化的,例如实例判别[49,14]和聚类[4],导致分类上的实质性增强,但轻微增益检测。因此,我们评估我们的FT检测/实例分割任务。如表9中所总结的,我们的FT可以分别在各种数据集和度量上提升基线模型MoCo-V2。我们的FT大大提高了VOC [11]和MSCOCO [25]的传输精度。此外,我们使用MoCo-V2的FT可以获得比专门为检测任务设计的那些对比模型稍好的准确性,例如。[51]和InsLoc[53]。此外,我们的FT可以得到更好的分类结果比DetCo。注意,我们的FT不是针对预任务设计期间的局部信息,而是更多地针对特征变换的不变性。这些实验表明,我们的FT比基于前任务的对比模型更少的任务偏见性能提升表明我们提出的FT的有效性和鲁棒性,并使我们能够学习更多的6. 结论在这项工作中,我们已经开发了一个可视化工具来可视化的分数分布的积极和消极的一对。利用这个可视化工具,我们可以了解对比学习过程的内部。更具体地说,我们发现了启发我们的新颖特征变换的重要观察结果,包括正外插,使得为训练创建了更多的硬阳性。此外,我们还提出了底片间的插值,充分利用底片,提供多样化的底片。特征变换使得能够学习更多的视图不变和判别表示。实验结果表明,本文提出的特征变换方法至少可以提高6. ImageNet- 100在MoCo上的准确率为0%,约为2. ImageNet-1 K在MoCoV 2基线上的准确率为0%转移到下游任务成功地证明了我们的模型是较少的任务偏见。在我们未来的工作中,我们将探索更多的功能操作策略的帮助下,我们的可视化工具。10314引用[1] Philip Bachman , R Devon Hjelm , and WilliamBuchwalter.通过最大化跨视图的互信息来学习表示神经信息处理系统进展,第15509-15519页,2019年[2] 齐彩、王宇、潘英伟、姚婷和陶梅。联合对比学习,无限可能。神经IPS,2020年。[3] Yue Cao,Zhenda Xie,Bin Liu,Yutong Lin,ZhengZhang,and Han Hu.用于非监督视觉特征学习的参数化实例分类。神经IPS,2020年。[4] Mathilde Caron , Ishan Misra , Julien Mairal , PriyaGoyal,Piotr Bojanowski,and Armand Joulin.通过对比聚类分配的视觉特征的无监督学习。神经IPS,2020年。[5] Liang-ChiehChen , GeorgePapandreou , IasonasKokkinos,Kevin Murphy,and Alan L Yuille.使用深度卷积网络和全连接crf的语义图像分割arXiv预印本arXiv:1412.7062,2014。[6] 陈婷,西蒙·科恩布里斯,穆罕默德·诺鲁齐,和葛offrey Hinton.视觉表征对比学习的一个简单框架。在ICML,2020。[7] Xinlei Chen,Haoqi Fan,Ross Girshick,and KaimingHe.通过动量对比学习改进基线。arXiv预印本arXiv:2003.04297,2020。[8] Xinlei Chen,Kaiming He.探索简单的连体表示学习。CVPR,2021年。[9] Ching-Yao Chuang,Joshua Robinson,Lin Yen-Chen,Antonio Torralba,and Stefanie Jegelka.
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功