没有合适的资源?快使用搜索试试~ 我知道了~
无监督视觉表示学习中的时态知识一致性维信丰酒店1* 元江王2*†马丽华2叶远2张驰2北京邮电大学1旷视科技2网址:fengweixin@bupt.edu.cn,wangyuanjiang@megvii.com{malihua,yuanye,zhangchi} @ megvii.com摘要实例判别范式在无监督学习中已成为它通常采用教师-学生框架,教师提供嵌入式知识作为对学生的监督信号。学生学习有意义的表征,通过加强立场的空间一致性与教师的意见。然而,在不同的训练阶段,教师的输出可以在相同的实例中显著变化,引入意外的噪声,并导致由不一致的目标引起的灾难性的本文首先将实例时态一致性问题融入到现有的实例判别范式中 , 提 出 了 一 种 新 的 时 态 知 识 一 致 性 算 法 TKC(Temporal Knowledge Consis- tency)。具体来说,我们的TKC动态地集成的知识的时间教师和自适应地选择有用的信息,根据其重要性学习实例的时间一致性。实验结果表明,TKC可以学习更好的视觉表示在ResNet和AlexNet上的线性评估协议,同时很好地转移到下游任务。实验结果表明,该方法具有较好的有效性和推广性。将提供代码。1. 介绍深度卷积神经网络(DCNN)[23,28,46]的兴起在计算机视觉基准测试中取得了重大成功[8,13,33]。监督DCNN的优异性能总是依赖于大量的手动标记数据,这是昂贵的收集[18,51]。无监督表示学习因其具有良好的学习效果而受到越来越多的关注*同等贡献。†通讯作者。本文得到了科技部国家重点研发计划(项目编号:2020AAA0104400)的资助图1.主流的无监督方法采用教师-学生框架,其中教师是先前学生编码器的EMA集合该图说明了教师中以前的学生相对于培训步骤的比例。红色曲线显示EMA教师通过预先设计的因子α集成了先前的编码器,其中仅集成了非常接近的步骤中的alomst编码器。我们的TKC(绿色曲线)重用早期模型,并自适应地学习每个模型的重要性ω,从而产生时间一致的表示。没有人工注释的表示。这些方法通常是手动设计一个借口任务来学习表示,例如图像修复[42],着色[9,60,30,31],旋转预测[18,6,14]和聚类[2,62,4]。所有这些借口任务都基于特定的领域知识,其在各种下游任务上具有较差的生成最近,实例判别[51,21,5,19,36]范式在无监督表示学习方面取得了显着进展,甚至超过了广泛下游任务的监督预训练[36,21]。实例判别范式将每个样本本身视为其自己的类别,并训练CNN分离。10170比例(%)1$%12$迭代次数(k)210171将所有不同的样品彼此分开。当前的范例可以被表述为教师-学生框架,该框架强制两个网络的实例空间一致性,这两个网络是学生网络和EMA教师网络[7,19,5]。实例空间一致性约束来自同一实例的不同空间视图的相似性,其最终目标是学习实例可区分的和空间不变的表示。在这些实例歧视工作的关键点之一是EMA教师。例如,MoCo [21]使用EMA教师为学生输出一致的负样本; BYOL [19]训练学生模仿EMA老师的陈述; SimCLR [5]维护学生的实时EMA教师。然而,我们认为目前的EMA老师是次优的,如图所示.1:(1)教师仅通过手工比例来集成最近编码器的稀有知识,这意味着它仅集中于实例空间一致性,而忽略实例时间一致性。因此,同一样本的输出在不同的训练阶段之间可能会发生显着变化,这可能会引入意想不到的噪声,并最终导致灾难性的遗忘[34,61]。(2)EMA方式它假设后期模型的输出在很大程度上比早期模型更重要,尽管在以前的作品中已经观察到了以前时代的好处[29,61]。在本文中,我们集成实例的时间一致性的实例歧视范例,并提出了一种新的和强大的算法,即时间知识一 致 性 ( TKC ) , 其 中 包 含 时 间 的 教 师 和 知 识Transformer。具体地说,时态教师通过引入以前模型的时态知识来知识Transformer动态学习不同时态教师的重要性,然后根据重要性自适应地提取有用信息,生成实例时态一致性目标。此外,我们提供了一个计算经济的实现,它可以提供时间的知识,而不保留服务多个以前的模型。我们在不同任务和基准上的实验结果表明,TKC可以学习更好的视觉表示,具有良好的可移植性和可扩展性。具体来说,我们在ResNet和AlexNet主干上实现了线性评估协议的最先进性能。此外,我们评估了TKC在许多下游任务和架构上学习到的表示。结果表明,TKC是有效的。总体而言,在这项工作中的主要贡献包括:• 我们是第一个将实例时间一致性集成到实例距离中的当前EMA教师中的犯罪范式• 我们提出了一种新的和强大的算法,称为临时知识一致性(TKC),它可以动态集成来自不同的临时教师的知识• 在多个基准测试和体系结构上进行了大量的实验,实验结果表明TKC在主流基准测试中具有优异的性能和可扩展性。2. 相关作品无监督的Pretext任务。无监督表示学习的目的是通过构建广泛的借口任务来从大量的数据样本中学习有意义的表示,而这些借口任务通常以不同的形式变化其中,这些典型的借口作品中的一个家族是基于生成的,其依赖于自动编码器[44]或GAN [35,12],例如着色[9,60,30,31]和图像修复[42]。其他的是基于判别的,如预测图像的旋转或增强[18,6,14],解决拼图[38],定位相对补丁[10,11],排序视频帧[15,54,50],匹配对应的音频[41,17,40,27],和聚类[2,3,62,58,1,52,56,55,16]。所有的借口方法都是基于特定领域的知识,不能推广到不同的下游任务。无监督表示学习的最新进展主要得益于实例判别,引起了研究者的广泛关注。实例识别。实例判别方法[51,21,7,5,19,39,14,36]在过去几年中主导了无监督学习领域,它将每个样本本身视为自己的类别,并训练CNN将所有不同的样本彼此分离。该范例通常包括用于提供监督信号的教师模型Wu等[51]是第一个提出无监督学习中的实例判别,它将最后一个时期的学生模型视为教师模型。它通过经典的InfoNCE损失[20,39]和教师生成的目标来学习有意义的表示。MoCo [21,7]将学生的EMA集合作为教师模型,以提供一致和稳健的目标,并通过在EMA教师的帮助下解决知识过时问题带来突破。它还维护一个阴性样本队列并保持其新鲜。SimCLR [5]在学生和教师之间构建对称架构,同时使用更强的数据增强来强制网络学习实例空间一致性。BYOL [19]还使用学生的EMA集合实现了教师,并利用L2损失来提取正对的嵌入特征,同时210172--n−1不n→ ∞0n删除明确的负样本。我们的TKC明确集成实例时序一致性的实例歧视范式,使教师产生的目标更加准确和稳定。时间知识。时态知识广泛应用于半监督学习和优化。在半监督学习领域,大量的研究工作采用EMA集成来利用前一个训练阶段的知识,学习半监督学习算法。时间一致的表示。时间集成[29]集成不同时期的输出,以产生更好的预处理。其中n是训练步长,α是控制教师的更新速度。我们把这位老师称为EMA老师。在当前训练步骤n+ 1中,教师由具有比率α的最后一个教师Tn和具有比率1α的最后一个学生Sn组合。最后一个老师Tn也是以前学生的集合。为了探索EMA教师中的时间知识,我们将等式1中的Tn扩展如下:T n+1=(1−α)·Σ(αmSn−m)+αn·Tm=0字典Mean teacher [47]则将前一个学生作为教师进行整合,以防止不正确的目标,并权衡错误分类的成本。Tian等人[61]指出了半监督学习中的灾难性遗忘问题,在优化领域,时间知识在训练期间通过不同的高级优化策略来集成。SGD仅使用由小批量计算的梯度来反向传播,这是嘈杂且不准确的。Momentum [43]和NAG [37]通过梯度的动量在小批量中使用梯度来加速模型训练的收敛并抑制冲击。Adam [26]是另一种动量更新策略,它进一步引入第二个动量来利用不同的渠道。所有这些工作都使用时间知识来减少噪声和加速收敛。3. 方法在本节中,我们首先指出3.1节中当前EMA教师的局限性。其次,我们在第3.2节中建议临时教师改进它。第三,我们引入了知识Transformer,以动态地利用3.3节中不同模型的重要性。然后,我们在第3.4节中提出了一个时间损失来学习实例的时间一致性。最后,我们在第3.5节描述了我们的整体框架和算法。3.1. EMA教师实例判别范式总是涉及两个编码器,教师编码器T和学生编码器S。对于训练样本X,将来自增广分布的增广应用两次以获得两个增广样本X0,Xn。教师输出rT=T(xn)作为目标以提供实例空间知识。学生网≈(1 − α)·[S n+ αSn−1+... + α n S0]其中Sm表示步骤m处的学生模型,α是更新因子。在等式2中,我们可以发现当前教师Tn+1是从步骤0到步骤n的学生S的序列的集合。然而,我们注意到EMA教师只能保存来自最新编码器的知识一方面,当m趋于无穷大m时,学生Sn−m的权重趋于0,因为α小于1。当在ImageNet上训练 MoCo [21]时,只有一个时期内的学生模型可以提供知识,如图所示1.一、这种仅从邻近步骤获得的知识是不够的,这会导致不同训练阶段之间的显著变化,并妨碍学生学习实例时间一致性。另一方面,EMA的策略也过于简单。它假设早期模型的重要性随时间呈指数下降,即使早期模型可以提供有用的信息来减轻catastrophic遗忘。总之,这两个缺陷阻碍了实例判别范式充分利用时序知识和学习实例时序一致性。3.2. 临时教师Eq老师2只重视最近的模型。然而,由于低学习率和动量优化器,这些模型的输出是平滑和相似的。因此,它们不能提供实例时间一致性以减轻模型的剧烈变化,这容易导致训练失败和catastrophic遗忘。我们主张,联合利用来自先前模型的知识可以提供更一致和鲁棒的目标。为了实现这一点,我们建议去掉以前的模型,这些模型在EMA取另一个样本x0,然后输出rS=T(x0),以及老师,来建造我们的临时老师。 那我们就充分利用通过限制其与rT相似性来学习知识。在这个教师-学生框架中,教师编码器具有与学生相同的架构,并且其参数由模型的指数移动平均(EMA)更新:Tn+1=αTn+(1−α)Sn(1)使用它们来减轻灾难性的遗忘和学习实例辨别范例中的实例时间一致性。我们明确地保留了一组以前的教师作为临时教师,以重用以前的编码器的知识为了表达我们的建议,我们使用Tn来表示1(二)210173----J- -J∈J学生图2. 我们TKC的整体框架。对于每个训练图像x,TKC从EMA教师生成目标,并且从时间教师生成h个目标。时间教师是来自先前训练阶段的编码器的集合知识Transformer被附加在临时教师的后面,以动态地利用它们的重要性。TKC框架中的每个教师都可以提供监督信号,然后将其馈送到时间损失中并向后更新学生和知识Transformer。绿色虚线表示反向传播。当前EMA教师,和Tn−1,Tn−2,… 代表世俗的教师较低的下标表示较早。 为每个训练步骤保存这些教师中的每一个,包括主要来自该训练步骤的知识。注意,下标η意味着与等式(1)中的上标不同1.一、Tj−1和Tj−2之间的距离是s个训练步数。远在现在的老师太落伍了,他的知识对现在的老师来说可能是不一致和嘈杂的。因此,我们只保留相邻的教师作为临时教师,而丢弃前一个教师。我们使用h来表示时间教师的数量,并通过Tn−1,Tn −2,... Tn−h。我们在图中的棕色虚线框中说明了时间教师。二、对于训练集中的样本x,我们应用来自增强分布的h次数据增强,则得到xj,j∈[n−h,n−1]。 节奏-Tj 历史库是时态教师的一种近似实现,二者都能提供时态知识。以这种方式,计算成本大大降低,并且附加的GPU存储器分配是可忽略的。详细信息参见补充材料。3.3. 知识Transformer在EMA教师中,不同集成模型的权重随时间呈指数下降然而,不同模型的重要性可能不符合EMA规则。在这一部分中,我们提出通过知识Transformer来动态预测在职教师知识Transformer如蓝色框图二、它取粗糙目标zT,j∈[n−1,n−h],从所有教师都设置停止梯度,并采取增广老师JTj作为输入,然后将视图作为输入以产生表示zT=Tj(xj),j[nh,n1]作为时间预测目标。z_T的下标j指示目标对应于对应于z_T的下标j。以发挥其重要性。配方如下:T T老师JTjrj=Kj(zj)(3)在实现中,我们提出了一种更加高效的临时教师实现方法。我们不是从以前的教师那里获得目标,而是将前h阶段中所有训练数据的表示保存在名为历史库的内存中。对于每个训练样本x,我们可以其中rT表示在利用重要性之后的目标,其已经从其抛出有害信息并且仅保留时间一致性知识。该策略可以自适应地学习和调整时间教师在前或后编码器中的重要性,优于得到zT从历史银行而不是从老师那里再加上EMA老师的手工比例。x0的(0($落后XnEMA教师0n($临时教师知识Transformer电话:+86-21-xn*+0n*+0n*+n*+($)n*+($)xn*h0n*+0n*hn*h($)n*h($).........210174S T20联系我们J0J∈ − −∈ − −nR0J0J0JS00nj=n−h0JLtem=j=n−h−logsim(rS·rT)+Σ−sim(rS·r−)(5)0RJJ0JJ····ΣJJ∈ − −∈ − −前10个时期中的预热阶段,其中线性地在实现中,我们使用一个MLP与一个隐藏层,以转移每个时间的教师的知识在培训过程中,知识Transformer正在进行培训-与学生同时。3.4. 时间损失算法1时态知识一致性input:S(),Tn(),K()超参数:α,h,s1:对于每个样本x do相似性如下:sim(r S·r T)= exp(r S·r T/τ)(6)其中τ是温度系数。由方程式5、项j=n估计MI与当前目标,其他条款估计MI与时间目标。InfoNCE依赖于负样本来估计概率分布。此外,我们的方法也可以在没有阴性样品的方法上工作,如BYOL [19]。我们最小化L2距离以最大化这些工作的MI:n2:绘制h+2增强3:#原始模型4:rS=S(X0)5:rT=Tn(xn)(二)tem||(七)||(7)j=n−hn6:对于所有j n1,n hdo7:#临时教师8:zT=Tj(xj)3.5. 总体框架与前人一样,TKC也引入了学生S(·)和EMA教师Tn(·)。或者训练样本x来自数据分布,我们从S得到rS,从T得到rT。9:#知识Transformer10:rT=Kj(zT)11:结束12:#暂时性损失13:计算等式中的损失。414:向后更新S和K15:通过等式15 更新Tn。一个16:结束17:反式S(·)不同于以往的作品,只有最大化的学生输出rS和目标rT的EMA老师的互信息(MI),我们建议结合最大的MI之间的rS和每个rT,j[n h,n1]。这在直观上是希望学生能够从时态知识中同步学习实例的时态一致性。我们的目标如下:Ltem=max(I(rS;rT)+Σn−1I(rS;rT))(4)0nn为了学习一致的知识,我们还从时间教师z T,j[nh,n1]中。 这些目标应该传输到知识Transformer以过滤重要知识为r T,j[nh,n1]中。然后,所有的表示被馈送到Eq.4.第一章在培训过程中,所有教师都设置了停止梯度。损失将被反向传播以更新学生S和知识Transformer Kj ,j[nh,n1]中。算法1总结了TKC过程的算法流程。4. 实验在本节中,我们评估了我们提出的TKC在几个无监督基准上学习我们首先遵循标准线性评估协议来评估ImageNet [8]上的学习表示。然后,我们将预训练的特征转移到不同的下游任务,包括对象检测,实例分割和半监督分类。Fi-最后,我们进行了一系列的分析研究,以直观地了解其性能。简单来说,所有的实验-第一项最大化当前阶段的MI,如以前的工作做[39,24,21,19],它只能学习不同视图之间的空间一致表示。第二项最大化具有先前知识的MI,以鼓励不同训练阶段之间的时间一致性表示,以减轻振荡和灾难性遗忘。因为众所周知,相互信息很难估计,所以我们通过InfoNCE [39,21,5]来最大化它的下限:iments基于MoCo v2 [7]框架和ResNet-50[23]骨架,除非另有说明。4.1. 线性分类我们基于MoCo v2实现了我们的TKC,MoCo v2由标准ResNet-50 [23]骨干和师生框架中的MLP层并且临时教师的数量h被设置为2。我们在8个NVidia-1080tiGPU上训练了TKC模型,小批量大小为256和256。(1)Σnsim(rS·rT)0J设α为0.999,τ为0.2。 此外,我们还设置了基础学习-其中rj-表示来自相同的教师Tj,sim(rS·rT)表示它们的余弦将学习率从0.01提高到0.03。 所有其他超-参数,训练设置的借口任务和线性评估-L将lr速率设定为0.3,权重衰减设定为0.0001,并且引入=210175该时间知识还可以通过最大化时间目标的相互信息而有益于不同的实例鉴别方法。由于采用了非人工复制的BYOL,BYOL的计算结果与官方结果不一致。我们进行这个实验只是为了证明TKC可以改善不同的实例识别方法。有关此复制的更多详细信息,请参阅补充材料。表1.在ImageNet上使用MoCo框架和ResNet-50主干的线性分类协议下的前1和前5准确率。我们报告了不同时期的结果。在[7]中的实现严格保持一致。表1总结了我们的方法的前1和前5准确度。我们报告了预训练的不同时期的结果,并列出了表现最好的方法。TKC在200个epochs结果上将MoCo v2改进了1.5%,这表明时态教师可以提供更准确的目标来学习一致性表征。我们的研究结果也优于以前的作品在不同的借口任务,包括所有其他实例歧视范式。这表明,时间知识可以从稳定的训练中受益,同时减轻灾难性遗忘的影响为了验证TKC的可扩展性,我们分别在BYOL [19]基线和AlexNet [28]主干上进行TKCAlexNet的教师数量 h 更 改 为 3 。 具 体 来 说 , 我 们 使 用 Momentum2Teacher [32]中BYOL的PyTorch实现作为BYOL基线,并在8个Nvidia-1080ti GPU上以128个批次大小训练模型100个epoch至于AlexNet,我们采用了深度聚类[2]中的实现,其中我们在4个NVidia-1080ti GPU上用1024的小批量训练网络,学习率初始化为0.24,余弦解码时间表为200个epochs。更多细节见补充材料。方法架构历元Top-1Top-5[19]第十九话R5010070.190.6BYOL† + TKCR5010072.4(+2.3)91.7(+1.1)表2.使用BYOL框架的ImageNet上的线性分类协议下的前1和前5准确率。†表示来自非官方重新实现的结果。表2显示了我们在BYOL [19]基线上的结果。我们发现TKC可以自举BYOL为2.3%,这表明表3.在ImageNet上使用AlexNet主干的线性分类协议下的前1名准确率我们从不同层的顶部微调fc层。对于AlexNet,如表3所示,TKC在conv 1到conv 4上实现了最先进的top-1准确度,在此轨道上执行所有自监督方法。尽管来自conv 5的TKC的性能低于Rot-decouple[14]通过0.3%,我们的最佳结果来自conv 4,其超过Rot-decouple 的 最 佳 结 果 1.9% 。 结 果 表 明 , TKC 在AlexNet线性分类基准上也是领先的方法。我们注意到TKC在AlexNet上的改进比ResNet-50多。这可能是因为AlexNet中的dropout层可以提供各种时间知识,这在学习实例时间一致性方面可能更有效。4.2. 转移到下游任务自我监督学习的主要目标是学习在下游任务中传输良好的良好表示。在本小节中,我们将200历元TKC的表示转移到三个基准:对象检测、实例分割和半监督学习。我们表明,TKC学习更好的可转移表示在所有三个下游任务。物体检测。我们都转移到VOC [13]和COCO [33]数据集来评估我们的表示。至于Pascal VOC,我们使用更快的R-CNN [45]和ResNet 50骨干作为检测器。我们在Pascal VOC [13]训练集上以8的最小批量大小微调候选预训练模型用于48k迭代。学习率从0.001开始初始化,然后在36k和44k迭代时衰减。权重衰减设置为0.0001,训练图像比例范围在480到800之间。我们使用AP50、AP、AP75作为VOC测试2007集的评价指标。对于COCO [33]数据集,我们训练Mask R-CNN [22]来学习对象检测和实例分割任务方法架构历元Top-1Top-5随机-2005.6-监督-20075.5-200 epoch训练洛杉矶[62]R5020060.2-CMC [48]R50(2x)20064.488.2[24]第二十四话R5020063.885.3MOCO [21]R5020060.6-[25]第二十五话R5020068.0二氧化碳[49]R5020068.0MoCo v2 [7]R5020067.5-TKCR5020069.0(+1.0)88.7400 epoch训练SwAV [4]R5040070.1-TKCR5040070.8(+0.7)89.9800 1000 epoch训练&PIRL [36]R5080063.6-MoCo v2 [7]R5080071.1-SimCLR [5]R50100069.389.0方法conv1conv2conv3conv4conv5随机11.617.116.916.314.1监督19.336.344.248.350.5Jigsaw [38]19.230.134.733.928.3旋转[18]18.831.738.738.236.5DeepCluster [2]12.929.238.239.836.1NPID [51]16.826.531.834.135.6AET [59]19.232.840.639.737.7洛杉矶[62]14.930.135.739.440.2ODC [58]19.632.840.441.437.3[14]第十四话19.333.340.841.844.3TKC20.3(+1.1)34.2(+0.9)42.6(+1.8)46.2(+4.4)44.0210176预训练AP50APAP75随机初始化60.233.833.1监督81.353.558.8NPID++[51]79.152.356.9PIRL [36]80.754.059.7[21]第二十一话81.555.962.6TKC81.8(+0.3)56.5(+0.6)62.8(+0.2)表4.使用Faster-RCNN在PASCAL VOC上微调对象检测。根据托词任务学习的内容。在冷冻背骨上的结果表明,TKC确实学习了更好的语义表示。培训详情见补充材料。实例分段。我们评估COCO数据集上的实例表7示出了通过微调和冷冻的结果。微调结果在MoCo v2基线上获得0.5%AP75,表明时间一致性预训练AP50AP AP75监督59.8 40.2 43.8微调MoCo v2 60.0 40.1 43.4可以更好的定位目标,提高实例的IOU而且,当只训练分割头时,增益进一步扩大到1. 9%。我们注意到以这种方式AP50提高了3.0%,表明TKC也可以学习更好的Rep。表5. COCO上的物体检测。检测框架是Mask R-CNN。我们报告的结果微调和冻结的骨干。监督56.7 34.9 37.1微调MoCo v256.835.0 37.2TKC56.8 35.2(+0.2)37.7(+0.5)同步。我们训练它180k次迭代,并衰减冻结监督MoCo v251.148.130.629.231.730.8在120k和160k次迭代时,学习率为0.1。 输入TKC51.1(+3.0)30.9(+1.7)32.7(+1.9)在训练阶段,图像大小介于640和800之间800个在测试阶段。该微调方案的所有超参数与MoCov2基线一致。如表4所示,我们的TKC在PASCAL VOC数据集上实现了81.8AP,优于竞争对手的所有预训练模型,包括监督模型。我们的TKC显示出AP50、AP、AP75的一致改进,这表明TKC确实比MoCo v2学习到更多的一致 性 和 可 转 移 表 示 。 表 5 的 上 半 部 分 示 出 了 关 于COCO、TKC表7. COCO上的实例分割。检测框架是Mask R-CNN。我们报告的结果微调和冻结的骨干。也超过MoCo v2AP75 0.5%。结果在这两个数据集上的实验表明,综合的节奏知识可以导致可转移的表征,并在不同的场景和任务上学习更好的表征。预训练AP50APAP75随机初始化24.611.69.7监督80.251.455.5[21]第二十一话79.051.756.2TKC80.9(+1.9)52.7(+1.0)57.6(+1.4)表6. 在PASCAL VOC上通过 冻结脊椎 并且仅训练 Faster-RCNN的检测头来进行对象检测我们还以另一种方式评估TKC检测。我们冻结了Faster R-CNN主干,只从检测头进行训练来挑战它。这有点像线性分类。表6显示了VOC数据集的结果。对于AP、AP50和AP75两者,TKC超过MoCo v2基线超过1.0%,并且还超过监督的对应物。表5显示,在COCO数据集上,改进甚至超过5.5%。在冻结的主干上训练可以更好地反映预训练模型TKC60.1(+0.1)40.4(+0.3)43.9(+0.5)监督54.334.336.5冻结MoCo v248.129.230.8一个简单的任务。TKC54.2(+6.1)34.7(+5.5)37.1(+6.3)数据集预训练AP50AP AP75方法模型历元标签框架百分之一横断面百分之十监督R50v248.480.4NPID [51]R5020039.277.4PIRL [36]R5080057.283.8MoCo v1[21]†R5020061.384.0SimCLR [5]†R5020064.582.6MoCo v2 [7]‡R5020061.784.6210177表8. ImageNet上的半监督学习。我们用1%和10%的标签微调模型。据报道,与以前的方法相比,中心裁剪前5名的准确性。†表示乐谱来自本作品[53]。‡意味着我们使用官方发布的预训练模型在相同的策略下实施半监督学习。 然后,我们通过在ImageNet上执行半监督学习来评估TKC在数据高效设置中的效用。在这个基准测试中,我们遵循[5,36]的实验设置该数据集以类平衡的方式从标记的ImageNet-1 k训练数据中抽取1%和10%的样本。我们在这两个标记的子集上微调TKC预训练模型,并在整个ImageNet验证数据上对其进行验证。 为了为了与以往的工作进行比较,我们报告了前5名的准确性。来自[57]的监督基线仅使用1%和10%的标签进行训练,具有更强的ResNet 50-v2架构,训练了1000个epochs。表8显示,我们的TKC超过了之前训练了200个epoch的所有方法当只有1%的数据被标记时,TKC超越21017849TKCMoCo v242我们的MoCo v2基线的9.6%的大幅度,表明当缺乏标记的数据时,时间知识更有益。此外,主流的半监督学习方法采用一致的正则化来学习光滑流形。这一领域的直觉与我们相似,他们认为相似样本之间的一致表示可以带来准确的分类边界。类似地,TKC还鼓励在不同训练阶段之间的一致表示以获得更平滑的流形。半监督基准测试的显着改进表明,我们确实学习了时间一致的表示。4.3. 分析消融研究。我们的方法引入了两个新的超参数,每个教师的步长s和教师的数量h。我们使用s作为一个时期之间的步骤,并且不调整它。对于h,我们在AlexNet主干上进行消融。在表9中,第一列h= l意味着仅使用EMA老师,这是MoCo v2的实现。我们看到,当只引入一个临时教师时,临时教师可以将准确率从39.9提高三位教师的教师培训效果最好,因为这种设置可以获得最多的时间性知识来稳定目标。当进一步增加h这可能是因为当涉及太老的教师时,他们的代表变化太大。和这些老师一起学很难。尽管如此,这再次证实了我们的动机,即不同训练阶段之间的不一致性减轻了收敛。H12346Top-139.942.243.541.941.8表9.教师人数效应的消融研究收敛性比较在第3.4节中,我们认为TKC可以最大化来自不同阶段的目标的互信息,因此将强制网络学习时间一致性表示并减轻灾难性遗忘。为了证实我们的建议,我们使用kNN分类器来验证模型在训练过程中的如图3、TKC在早期训练中准确率较低,这是因为模型在早期阶段不一致性和噪声较大,导致临时教师和当前教师之间存在较大差异。这种差异阻止TKC提供一致的信号。然而,TKC从中间阶段赶上MoCo v2,并且最终在训练结束时超过它4.6%,这表明TKC可以从中间训练稳定地提供一致的信号。这种一致的信号可以引导一个更准确的训练指导和加速收敛。图3示出了在160个时期处的TKC满足完全训练的MoCo的准确性,通过减轻灾难性遗忘减少了80%的训练时间时代图3. MoCo v2和TKC之间的验证准确度比较。前1个准确度来自kNN分类器。5. 结论我们总结了现有的实例判别方法到一个教师-学生的框架,并指出,教师只能提供实例空间一致性。然而,当仅涉及空间一致性时,同一实例的输出可以在不同时期之间显著地变化。相反,我们提出了一种新的和强大的方法命名为时间知识一致性(TKC),它集成了以前的教师的知识,以提高模型的鲁棒性,并防止可能的TKC包含三个模块。临时教师从以前的模型中引入实例时间一致性,知识Transformer利用这些教师的知识,并且临时损失减少学生和临时教师之间的MI时态教师是对不同实例判别方法的正交改进。我们的实验结果表明,TKC可以改善不同的框架MoCo,BYOL,和架构ResNet-50,AlexNet。它还提供了下游任务的可转移表示,如对象检测,实例分割和半监督学习。此外,我们希望我们的研究能引起人们对解决无监督学习中不稳定性的关注,并寻求有效的方法来生成无标签的稳定输出。引用[1] Yuki Markus Asano , Christian Rupprecht, and AndreaVedaldi.通过同时聚类和表示学习的自标记。在国际会议上学习- ING代表(ICLR),2020年。二个[2] Mathilde Caron,Piotr Bojanowski,Armand Joulin,andMatthijs Douze.用于无监督学习的Top1准确度210179的视觉特征。在欧洲计算机视觉会议论文集(ECCV)中,第132-149页,2018年。1、二、六[3] 马蒂尔德·卡隆、彼得·博亚诺夫斯基、朱利安·麦拉尔和阿尔芒·儒林。在非策划数据上对图像特征进行无监督预训练在IEEE计算机视觉国际会议论文集,第2959-2968页,2019年。二个[4] Mathilde Caron , Ishan Misra , Julien Mairal , PriyaGoyal,Piotr Bojanowski,and Armand Joulin.无监督学习 视 觉 特 征 对 比 聚 类 分 配 。 Advances in NeuralInformation Processing Systems,33,2020。1、6[5] 陈婷,西蒙·科恩布里斯,穆罕默德·诺鲁齐,和葛offrey Hinton.视觉表征对比学习的一个简单框架。arXiv预印本arXiv:2002.05709,2020。一、二、五、六、七[6] Ting Chen , Xiaohua Zhai , Marvin Ritter , MarioLucic,and Neil Houlsby.通过辅助旋转损失的自监督gans。在IEEE计算机视觉和模式识别会议论文集,第12154-12163页,2019年。一、二[7] Xinlei Chen,Haoqi Fan,Ross Girshick,and KaimingHe.通过动量对比学习改进基线。arXiv预印本arXiv:2003.04297,2020。二五六七[8] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议,第248-255页。Ieee,2009年。一、五[9] Aditya Deshpande,Jason Rock和David Forsyth。学习大规模自动图像着色。在IEEE计算机视觉国际会议论文集,第567-575页一、二[10] Carl Doersch、Abhinav Gupta和Alexei A Efros。通过上下文预测的无监督视觉表示学习在Proceedings of theIEEE international conference on computer vision,pages1422-1430,2015中。二个[11] Carl Doersch和Andrew Zisserman。多任务自监督视觉学习。在IEEE国际计算机视觉会议论文集,第2051二个[12] 杰夫·多纳休和凯伦·西蒙尼扬。大规模对抗表示学习。神经信息处理系统进展,第10542-10552页,2019年。二个[13] Mark Everingham , Luc Van Gool , Christopher KIWilliams,John Winn,and Andrew Zisserman.pascal视觉 对 象 类 ( voc ) 的 挑 战 。 International Journal ofComputer Vision,88(2):303-338,2010。1、6[14] 风泽宇,常旭,大成涛。通过旋转特征解耦的自监督表示学习。在IEEE计算机视觉和模式识别会议论文集,第10364-10374页,2019年。一、二、六[15] Basura Fernando,Hakan Bilen,Efstratios Gavves,andStephen Gould.自监督视频表示学习与奇一网络。在IEEE计算机视觉和模式识别会议论文集,第3636-3645页,2017年。二个[16] Wouter Van Gansbeke,Simon Vandenhende,StamatiosGeorgoulis,Marc Proesmans,and Luc Van Gool. 扫描:学习对没有标签的图像进行分类,2020。2[17] Ruohan Gao,Rogerio Feris,and Kristen Grauman.通过观看未标记的视频学习分离物体声音。在欧洲计算机视觉会议(ECCV)的会议记录中,第35-53页,2018年。二个[18] Spyros Gidaris,Praveer Singh和Nikos Komodakis。通过预测图像旋转的无监督表示学习。在国际学习代表会议(ICLR),2018年。一、二、六[19] Jean-BastienGrill , FlorianStrub , FlorentAltche´ ,CorentinTallec,Pierre Richemond,Elena Buchatskaya,Carl Doersch , Bernardo Avila Pires , Zhaohan Guo ,Mohammad Ghesh- laghi Azar,et al.引导你自
下载后可阅读完整内容,剩余1页未读,立即下载



















安全验证
文档复制为VIP权益,开通VIP直接复制
