基于不确定性表示的双重监督学习协议的有效性

123 浏览量更新于2023-10-15 收藏 700KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

2799模糊不确定的自我监督学习Salman MohamadiWest VirginiaUniversityMorgantown，WV，USAsm0224@mix.wvu.eduGianfranco DorettoWest VirginiaUniversityMorgantown，WV，USAgianfranco. mail.wvu.eduDonald A. 美国西弗吉尼亚州摩根敦西弗吉尼亚donald. mail.wvu.edu摘要自监督学习（SSL）已经成为一种非常有效的技术，可以利用未标记数据的力量，而无需注释。许多成熟的方法正在发展，目标是超越相对成功的监督替代方案。与深度表示学习中的其他学科类似，SSL的一个主要问题是不同设置下方法的鲁棒性。在本文中，第一次，我们认识到SSL的基本限制，从使用一个单一的监督信号。为了解决这一局限性，我们利用不确定性表示的力量，为任何SSL基线设计一个健壮的和通用的标准分层学习/训练协议，而不考虑他们的假设和方法。从本质上讲，使用信息瓶颈原理，我们将特征学习分解为两个阶段的训练过程，每个阶段都有一个不同的监督信号。这种双重监督方法分为两个关键步骤：1）对数据扩充的不变性强制，以及2）模糊伪标记（硬和软注释两者）。这种简单而有效的协议，使跨类/集群特征学习，是通过初始训练的整体模型，通过不变性强制数据增强作为第一个训练阶段，然后分配模糊标签的原始样本的第二个训练阶段。我们认为，sider多个替代方案的双重监督和评估我们的方法在最近的基线，涵盖四个不同的SSL范例，包括几何，对比，非对比，和硬/软白化（冗余减少）基线的有效性。我们在多个设置下进行了广泛的实验，以表明所提出的训练协议始终提高了以前基线的性能，而与其各自的基本原理无关。1. 介绍自监督学习通常涉及使用借口任务和目标（损失）函数，由此来自未标记数据的超验信号用于学习基于目标函数的适当表示。其目标主要是通过代理任务从大量未标记的数据中学习一系列一般特征然后，可以将学习的特征应用于下游任务的改进性能，例如语义分割、对象检测和图像字幕[16，25]。对于某些应用程序，这种大量的未标记数据通常可以以最低的成本获得。虽然人们可以将SSL的起源追溯到几十年前的工作，如[6]，但直到最近几年，SSL的现代观点才将其分解为两个不可分割的组成部分（借口任务和损失函数）这种通过优化适当的损失（目标）函数来学习借口任务作为代理任务的想法已经在两个方向上发展：新的借口任务以及改进的损失函数。更具体地说，在计算机视觉中，已经提出了许多借口任务，例如，用于图像数据的视图区分任务以及用于视频数据的时间一致性或时间周期一致性，每一个都需要其自身的特殊体系结构设计。然而，最近的工作[10]提出了一个框架-工作没有借口任务特定的网络设计.损失函数也有了发展，但方式不那么多样化。从还原论者的观点来看，SSL中几乎所有损失函数的一般思想是在样本级或聚类级对扰动数据的表示实施不变性在样本级别，对于给定样本X，将经由随机增强过程τ生成两个（或更多个）增强视图，并且取决于损失函数的类型，这些视图（也称为正视图）将仅彼此对比或彼此对比以及来自其他样本的增强视图（负视图）。具体地，对于图像样本x，设x i和x j是两个正例，而x k是负例，每个关于i个潜在空间表示zi、zj和zk。一般来说，早期的损失函数试图在潜在空间中尽可能接近地映射阳性示例，同时通过对比损失来区分阴性示例[10]，尽管存在表征崩溃的可能性。后一种损失函数称为非对比方法[19，11]，消除了对负对的需要。2800TTtrast，同时提供更高的性能，很少或没有表示崩溃的最近，提出了两种无负方法[16，48]还有另一组称为聚类（几何）方法的方法，例如[8]，其利用根本不同的监督信号，消除几何表示中数据增强的影响。尽管SSL帧的两个主要组成部分，借口任务和损失函数，是明显的多样化，我们观察到，这并不是超级信号的情况研究人员转向SSL以消除对监督数据注释的需要，通过用数据衍生的监督信号取代这些信号包括用于样本级不变性强制执行的隐式二进制标记以及对数据增强的基于几何（基于聚类）的不变性强制执行。然而，事实证明，每种类型的监督信号都有其缺点，因为它们主要针对特定级别的特征粒度。更具体地说，一方面，在样本级别对数据增强进行严格的不变性增强会导致下游任务的性能略有恶化[23]。另一方面，基于聚类的超分辨率信号在泛化方面较弱，并且在刚性迁移学习的情况下通常可能表现不佳。在[34，45，47，37，46]中，主要通过使用下游任务特定解决方案或以某种方式修改的借口任务来隐式地解决前监督信号的问题[23]。与这些通常不可推广的解决方案不同，我们的目标是一个通用的解决方案，无论下游任务或借口任务。基于集群的监督信号的问题似乎不太被认识到。我们怀疑这主要是由于基于集群的方法倾向于提供相对更强大和更好的性能，因为它们的目标是学习更高粒度的特征（集群级特征，而不是样本级）。我们认为，上述作为一个联合问题，从信息论的镜头，拿出一个一般的解决方案。因此，在本文中，我们通过设计一个通用的标准训练协议来明确解决这个问题，并在最近的一些基线上对其进行评估工作的主要思想是通过双重监督进行分层培训。事实上，我们整合了两个阶段的训练：（I）通过样本级不变表示执行的低级特征学习（阶段1），以及（II）通过使用不确定性驱动的伪标记数据进行训练的聚类级表示学习的中级到高级特征学习（阶段2）。也就是说，在第二阶段，我们在第一阶段训练之后立即在模糊设置（硬标签和软标签）中执行伪标签从本质上讲，我们表明这种训练范式通过合并高级和低级特征学习来改善每一个先前的基线，从而抵消了这种影响。严格的样本级不变性强制执行以及cluter级非泛化。本文有三个主要贡献：• 我们提出了一个新的标准训练协议的SSL框架的基础上双监督信号，它享有分层特征学习，通过样本级不变表示以及集群级学习使用软伪标签数据的训练。该标准协议适用于所有以前的基线和未来的基线，消除了由于使用单一监控信号而导致的下游任务的每一次下降。• 我们利用不确定性表示的好处，使用一个新的架构设计，以提高鲁棒性的几个最近的基线训练通过我们的新的训练协议。此外，该协议既不受严格的样本级方差执行的不利影响，也不受基于聚类的方法的计算开销的影响。• 我们进行了大量的实验，以显示所提出的训练协议的有效性，以及分析多个场景，以评估不同的算法参数对性能的影响。2. 初步报告和背景Pretext task和loss function是任何SSL框架的组成部分，支持自我监督信号。因此，在本节中，我们从监督信号的角度介绍损失函数的演变，并探讨SSL背景下的不确定性表示2.1. 损失函数下面，我们简要讨论几个目标函数，包括三重损失、典型对比损失和最近的非对比损失函数，所有这些目标函数共享相同的监控信号方法，即样本级监控。然后，我们认识到另一种类型的监督信号嵌入在基于集群的损失，集群级监督。2.1.1样本级监督三重损失：三重损失是一种判别损失[31，44]，其中gi表示三个潜在空间zj，zj和zk，这种损失明确旨在最小化正对（zi和zj）之间的距离;并最大化负对（zi和zk）之间的距离，如下所示L△=max（0，zizj−zizk+m），（1）其中m为边际超参数。此外，多类N-对作为三重损失的推广，用于多个阴性检查之间的联合比较-2801Σ≤−我zzΣ.ΣPle由[39]开发如下：由网络输出的维数和−1≤Lzi，zJ=log1+2Nk=1，kexp（zizk−zizj）<$（2）我Cij1Balestriero和LeCun[3]进行的一项有趣的研究表明，非对比损失函数通常更可取，因为向下的误差范围更好对比损失：直到最近，SSL中一种流行的区别性损失[34，42，20，10，2]是对比损失，这是一种非常苛刻的损失，需要批量大小的负实例来降低其表示崩溃的风险。这种损失的更新版本仍然需要计算或负批量大小。Wang和Gupta[44]重新表述了SSL的基本对比度损失，其中N1个负例子和τ作为温度超参数，如下所示：exp（zTzj/τ）流任务。2.1.2厂级监督与所有直接涉及特征的上述方法不同，基于聚类的不同方法集[8，7，9]已经发展，主要是在几何设置中使用交叉熵损失。它们还对扩充实例强制执行不变性，我们从监控信号的类型上将它们与以前的方法区别开来。L对比度=−logNn=1，n=i我exp（zTzk/τ）.（三）基于加权的损失函数：这些是基于聚类的方法[5，8，7，9，24]，涉及样本非对比损失函数：BYOL [19]设计了一种不使用负实例的损失类型，同时避免了表示崩溃，在使用非对比损失方面做出了关键贡献。后来，他又被关进了监狱[11]。Tian等人[41]研究了依赖于架构更新（添加预测器块）以及新训练协议（停止梯度策略）的这些无负方法的元素，这使得它们能够在避免平凡表示的同时大大优于对比方法。沿着关于无负方法的这条工作线，两种最近的方法被称为白化MSE和Bar- low Twins[16，48]，主要基于白化嵌入或嵌入空间的批次建立了新的基线。Whitening-MSE也称为硬白化[16]应用Cholesky分解对一对网络的嵌入进行白化，然后在每个网络的操作输出之间进行余弦相似性，如下所示：空间表征基本上，这些主要使用几何设置中的交叉熵损失来将聚类分配给以语义类表示为目标的样本，而不是单个样本。在损失函数方面，对于每个原始样本，生成一对增强视图，其中一个用于引导损失函数找到目标，另一个用于预测相同的目标。这通常在几何优化的框架中制定。关于基于聚类的方法的一个有趣的点是，它们也是无负的，类似于非对比方法。然而，他们不guar-antee避免退化的解决方案（表示崩溃），也招致由于聚类过程的计算开销。一个典型的例子包括SwAV[8]，其中多个阳性被用于通过交叉熵损失优化来完成样本到聚类的分配。2.2. 不确定性和SSL：LeCunn[1]认为，深度学习中的不确定性建模，特别是SSL中的不确定性建模尚未得到充分探索，最小E[2− 2 zi，zj]， s.t. cov（z，z）= cov（z，z）= I. 将在未来十年引起人们的极大关注（由于θ zi2.ZZJ-2iijJ（四）立即生效）。SSL中的模型不确定性确实未得到充分探索，除了最近的一些工作最终使用MSEBarlow Twins[48]也称为软白化，对孪生网络输出C的方阵互相关执行白化，其具有相对简单的损失函数，如下所示：LBT（1−Cii）2+λ（Cij）2，（5）例如[22，35，30]。这些主要使用SSL进行模型不确定性估计以及鲁棒性改进，而不是通过该改进SSL比如亨德里克斯[22]特别强调SSL的其他有益方面，以提高下游任务评估的性能因此，他们利用SSL来改善模型的不确定性。我一Mm，i（z）我Bm，jj=i例如处理对抗性实例和注释损坏。另一项工作[35]概述精度在深度估计和预测中的重要性Cij. Σ一个2嗯嗯，我B2m m，j（六）姿势不确定性建模，以进行深度估计更准确。重点介绍SSL的概念.2802其中λ>0是一个权衡常数，其典型值为10−2，m遍历er批样本，i，j是有界指数在机器人和空间感知方面，Nava等人[33]提出，将不确定性适用于以前的基准，2803- -目标是：最小IB=最小（IBs+IBc）p（z|y）p（z|y）minIBsθ<$ min（I（Zθ;Y）−βs I（Zθ;X））p（z|y）p（z|y）（七）minIBcθ<$ min（I（Zθ;Y）−βc I（Zθ;X））p（z|y）p（z|y）图1. 拟议的FUSSL架构的示意图，将使用任何给定的SSL基线构建;集合的每个块仅观察其自己的增强实例集。除了顺序训练，我们还考虑了另一种情况，即消融研究中的渐进式重新标记。状态估计误差。我们的工作部分受到[29]它将可信集（概率分布集）的概念转换为SSL，以便在低状态标记数据中的这项工作提出了使用credal集来模拟伪标签中的不确定性，从而减少SSL方法中的校准误差3. 基于FUSSL的考虑单监控信号SSL的缺点。如前所述，样本级和集群级超能力信号通常具有严重的缺点。在样本级强制执行严格的不变表示往往对一些下游任务有害，而在聚类级寻求不变表示在计算上是昂贵的，并且通常不适应其他数据域。因此，我们有动力设计一个协议，享受这两种类型的监督的好处，同时避免- ing各自的缺点。该方案包括两个阶段的培训。一种由样本级监督引导，以学习低到中等粒度的特征。另一个使用聚类级监督，通过在伪标记样本上训练来学习稍微更高级别的特征，由于第一次训练，伪标记样本在模糊设置中预测最小值最大值（Isc IBs IBc）Is，c IBs，IBc其中I（P;Q）表示P和Q之间的互信息，IBs表示由样本级监督信号引导的学习，而IBc表示由聚类级监督引导的学习，并且Isc=I（IBs;IBc）。现在，为了最大化IB提取的总信息，我们需要最大化IBs和IBc中的每一个，同时最小化它们之间的互信息（相似/相同特征）。最小化确保最终表示不会崩溃到由两个监督步骤学习的相同特征，而是尽可能多样化。值得一提的是，最坏的情况发生在两个监督导致相同的特征表示时，因此集体表示与它们中的每一个一样好。然而，在这里，我们认为时间的元素在顺序学习方面，这是转化为实现作为一个实用的技术。具体来说，我们将学习分解为两个连续的阶段，在第一阶段学习的特征将在启动第二阶段的训练后稍微冻结这种条件学习能够更好地探索表示空间（更多样化的特征），从而避免了两个训练阶段的相同表示。在方程中，最初的IBsθ和IBcθ8共享θ，然而，在我们的实现中，我们使用固定权重的子集进行顺序训练，以避免琐碎的表示。因此，IBcθ最终取决于从阶段1训练中学习的权重，如下所示：相位min（IBs，θs），然后是min（IBc，θc）如果我们从信息论的角度来看待样本级和聚类级方法，这两组方法都可以被p（z|y）拉斯敏p（z|y，θs）IBc，θc最小值p（z|y，θs）p（z|y，θs）（I（Zθc; Y |θs）− βcI（Zθc; X|θs））（八）被证明可以简化为遵循信息瓶颈（IB）原则的一对项[43，32]。我们的通用训练协议是基于将IB原则分解为两对术语而不是一对术语来定义的，其中每对术语表示由不同的监督信号引导的学习范式具体地，在此上下文中，IB原理断言SSL目标函数学习表示Z，该表示Z对于施加到样本的随机失真（在此表示为X）是不变的，而对于样本分布Y是变化的（或提供样本分布Y的信息）。因此，我们认为，3.1. 第一阶段培训在预训练的第一阶段，用m个构建块构建大小为m的集合。每个块都是一个独立的模型，有它自己的一组增强的例子，如图所示。1（第1节）2.2）。数据增强为每个样本提供2m个不同的随机增强视图，并将每对视图分配给每个块。换句话说，根据集合的大小，将随机生成不同数量的失真示例，2804◦--≤≤允许块对于每个原始样本仅观察它们自己的一组样本也就是说，可以合理地预期，对于每个样本，通过集合提取的总信息多于单独的每个块更具体地，对于样本x，将存在增强视图集合（x1 ，x1′），（x2，x2′），.，（xm，xm′），其中g iv en块i，其中f b f p由骨干架构f b和投影器fp 构建，要在（xi，xi′）上训练。这突出了集成搜索表示空间的能力。到目前为止，在我们的框架中，对于给定的基线，我们只在独立设置中训练其模型的m个副本在体系结构和训练样本中都有不确定性表示的元素，这将有助于在特征学习的第二阶段对原始样本进行模糊标记为了详细说明不确定性的架构元素，我们假设在相同的训练样本上训练相同模型的集合。由于控制每个模型参数的随机动力学，每个块的数据表示略有不同。另一方面，另一个不确定性因素来自增强;每个块的输入数据因此，由于体系结构的原因，管道从数据以及模型参数中获得不确定性。稍后我们将看到，这两者的结合可以提高性能，而不管用于构建块的基线如何，这是由于增强了鲁棒性。训练的第一阶段的核心学习思想围绕着在不变性强制过程中固有的监督信号向积极的增强视图演变。3.2. 模糊伪标号在训练的第一阶段，每个块的骨干fb和投影器fp这有助于用硬标签以及软标签对原始样本进行模糊标记，即，（0标签1）。实际上，原始样本被馈送到所有块，并且每个块的投影仪的归一化输出分配标签，其中最终标签将一个类分配给样本或多达m个类，其中m是集合的大小。如果一个类比其他类赢得更多的块，则最终标签是将样本分配给该类的硬标签，否则样本被假定为具有不同成员分数的多个类的集合。在我们的消融研究中，我们考虑了只有软标签的相反情况。请注意，在我们的训练协议下评估的所有基线的输出维度都是1000。由于我们没有注释数据来更好地校准为相同的假设类呈现相同标签的所有块的输出（伪类同步标签分配），所以我们需要用完全相同的初始化权重来初始化所有块3.3. 第二阶段培训还有第二个训练阶段，主要由其监督信号区分。与依赖于不变表示来学习低粒度一般特征的前一阶段不同，在该阶段，训练由伪标签监督，允许学习与类信息相关联的中等粒度特征。实际上，选择集成的一个模型在原始伪标记样本上进行训练。我们从集合中选择块的标准是对伪标记数据进行初始测试的总体误差。具体地，对于具有标签Y的每个样本X，标签与投影仪的输出大小相同，具有至少一个且至多m个非零元素（分别为硬标签和软标签）。所选择的模型被训练以学习由标签引导的聚类（伪类）分配。这里有趣的一点是，分配的标签可能不一定是与样本的实际类别相对应的硬标签事实上，在该模糊注释中，假设训练的有效第一阶段，预期伪标记过程应该找到跨类样本之间的跨类作为持续学习[36，40，15，17，13]或其他领域[4]等问题领域的核心思想，跨任务或类共享的学习不变特征（在类增量设置中）增强了泛化性和鲁棒性。训练的第二阶段主要是学习跨类特征以及类特定的特征，注意每个类可以是一个实际的类或集群。作为第二阶段的监控信号类型训练是不同的，我们期望以前训练的模型的正则化，这些模型仅仅基于严格的不变表示。粗略地说，训练的前一阶段将被归类为对表示的二阶统计约束，而训练的后一阶段将被认为是对表示空间中的样本表示的以前的几何基线（如[8]）被证明在多个设置中非常鲁棒，因为它们自然倾向于学习更高粒度的特征，这是由于它们的监督信号依赖于类/聚类级特征学习而不是样本级不变表示。4. 实验和结果在本节中，我们将介绍我们的实验，重新评估通过FUSSL训练协议预训练的多个基线。这些预训练在ImageNet数据集上进行[14]，并在两种设置中进行评估，ImageNet上的线性评估以及CI-FAR 10和CIFAR100上的迁移学习[27]，以及TinyImageNet上的消融研究[28]。由于新发布的Solo-Learn li-tools[12]，我们使用Solo-Learn执行第一阶段训练的所有实验，而第二阶段则是每-2805×××××也主要是由他们的开放存取代码协助形成的。数据集：CIFAR10是由10类32 32维的60k图像组成的数据集，其中50k图像用于训练，10k用于测试。CIFAR100与CIFAR10大小相同，样本尺寸相同，除了100个类和20个超类。每个样本都有一个精细标签（类标签）和一个课程标签（超类标签）。ImageNet是一个具有多个版本的大规模数据集，其中最常见的版本由超过1.2尺寸为224的100万张训练图像和100k张测试图像224个，1K级。Tiny ImageNet也是一个较小版本的ImageNet，在200个类中有超过10万个维度64 64的基线：基线包括一个对比，两个非对比，对比、一个几何和两个美白（冗余减少）基线，即Simploid[10] 、BYOL[19] 、SimSiam[11] 、SwAV[8]、美白-MSE（d=4）[16]和巴洛双胞胎[48]。Simplified作为对比基线我们遵循原始公式[10]，τ=0。五、按照B-T获胜的原始实现，我们设置λ=510-3 SwA V是一种基于聚类的方法，在许多集合中表示非常稳健的结果东西。与[16]等先前工作类似，我们对所有基线中的潜在空间进行归一化。4.1. 实验环境4.1.1体系结构：根据上述基线[10，19，11，8，16，48]中的细节，我们使用ResNet50[21]作为针对任何基线执行的所有实验的骨干的基础架构，除了最后一层用具有线性层的投影仪头投影仪由两个连续的层组成，每个层后面都有批规范和ReLU，第三层作为输出，所有层的大小都是1000 [48]。投影仪输出的大小在所有基线中是相同的。4.1.2增强方案：如前所述，对于来自ImageNet的给定样本x和集合-m，增强过程的任务是提供2m个增强视图，并为集合的每个块分配一个不同的对。也就是说，第一阶段预训练的增强与随机分布τ下的所有先前基线类似地执行，这使得一组增强技术具有随机性，包括随机裁剪，随机颜色抖动，镜像和具有[10]建议的精确设置的随机纵横比规范。大小为224 224的Ima-geNet图像进行大小在0. 2和整个图像大小，在3/4和4/3之间任意选择的纵横比调整，以及以平均值1/2分布的随机水平镜像，最后是在光谱（0. 四，零。四，零。四，零。1）和灰度化的概率比为8比1。然而，第二阶段在培训和评估中，我们没有进行任何增强。注意，训练样本分配的主要场景是每个块只看到给定样本的一对增强视图，旨在将不确定性注入训练过程。4.1.3实施详情：对于包括消融研究在内的所有实验，使用Adam优化器对 ImageNet 或 Tiny ImageNet 上的预训练以及ImageNet、Tiny ImageNet和CIFAR 10/100上的评估训练会话进行优化[26]。我们遵循[10]中提供的设置，使用CI-FAR 10/100上的预训练ResNet 50进行迁移学习，对所有六个基线进行测试。第一阶段培训：训练的第一阶段在给定基线的集合- m上执行，其中大小m=3，其涉及800个训练时期，其中批量大小为1024，其以0的学习率开始。两个十来个历元并下降到0。001对于剩余的时期。所有实验（包括消融研究中的相应实验）的重量衰减均为10−6 我们前-胺的结果为其他大小的m稍后在第5节。模糊伪标记：在完成第1阶段训练后，我们冻结了所有集成块的骨干和投影机架构的权重，并检查每个原始样本的归一化输出。因此，对于每个样本，将有m个输出，每个输出的大小为1000，作为伪类（集群）。将输出向量中的最大数目视为由块分配的伪类，将最频繁的伪类设置为样本的硬标签，否则在m个不同伪类的情况下，将软标签分配给样本。软标签是针对跨类功能，而硬标签是针对下一阶段训练的类特定功能。第二阶段培训：培训的第二阶段是由一个指导-其它类型的监控信号，即，伪标签，旨在学习中到高粒度的特征。从其中一个块中选择的模型在伪标记样本上训练400个epoch，学习率为0。001，其中前100个时期在主干和投影仪上反向传播误差，而对于剩余的300个时期，仅训练ResNet50的最后一我们修复前41层。因此，在剩余的300个时期期间的训练以这些固定层的权重为条件。在消融研究中考虑了另一种没有固定权重的情况。4.2. 评价在本节中，我们研究了FUSSL训练协议的有效性，我们通过分类任务的标准实践 [18]，在有和没有FUSSL协议的情况下，对基线进行了评估。从技术上讲，这是在第一阶段之后立即评估基线2806框架ImageNet基地1200 epFUSSLSimCLRBYOL69.373.969.474.170.4 （1. 1%↑）74.7 （0。8%↑）SwAV75.4（0. 3%↑）SimSiam70.970.872.1（1. 2%↑）W-MSE 473.173.43%↑）B型双胞胎73.373.474.7（1.4%↑）表1. 使用ResNet50在ImageNet上预训练的ImageNet在三种设置下的最佳线性分类精度。“基础”和“1200ep”分别表示在800和1200eps的预训练下每个基线的评估结果;而“FUSSL”显示了在两个预训练阶段下相同基线的结果，即，预训练阶段1的800个epoch和阶段2的400个epoch（总共1200个epoch）。在第二阶段的培训和第二阶段的培训之后。用于评估SSL预训练技术的最常见的标准过程是在具有固定权重的骨干架构之上训练和测试分类器;即使不太常见的方法是使用K-最近邻域分类器而不进行进一步的训练。在这项工作中，在使用FUSSL的第一阶段和第二阶段预训练之后，所有六个SSL基线都将在用于训练线性分类器的标准协议下进行评估（例如，全连接层和softmax）。我们遵循最新基线的细节[16]，在两个评估阶段，我们训练分类器约500个epoch，然后对其进行测试。评估在两种不同的设置中进行，线性评估以及迁移学习。线性评估仅涉及ImageNet数据集，而迁移学习在CIFAR 10和CI-FAR 100上执行在这两种情况下，预训练阶段都是在ImageNet样本上执行的。与标准线性评估类似，在迁移学习的情况下，固定的每次训练的骨干，然后是线性分类器（完全连接，然后是 softmax ），将在数据集上训练大约 500 个epochCIFAR10或CIFAR100，并测试。精心选择预训练时期和评估时期的两个阶段的数量，但是在消融研究中提供了进一步的实验。4.3. 结果线性评估：表1显示了线性评估的结果，ImageNet上的前1分类准确度，在相同的数据集上进行预训练（没有标签）。如图所示，除SwAV作为聚类方法外，FUSSL非线性改进了其他五个基线的精度，范围从0. 8%（BYOL）至1。4%（B-双胞胎）改善。我们怀疑，原因FUSSL提高SwAV只有0。3%是SwAV作为一种几何方法已经通过聚类技术享受了中到高粒度的特征学习。因此，在FUSSL中使用的双重监控信号并没有为SwAV提供太多的优势为了强调结果的重要性，需要指出的是，除了BYOL作为突破性基线和较小程度的SwAV外，大多数最近的表2.CIFAR 10/100 的顶级迁移学习分类准确性使用ResNet 50在三种设置下在ImageNet上进行预训练。SSL基线要么不提供准确性改进，要么在400个epoch或更多的完整预训练下比以前的基线提供不到1%的改进。例如，SimSiam是在BYOL之后引入的基线，其优点是更快的学习收敛（与以前的基线相比，100个epoch的准确率最高），并且在ImageNet上长时间预训练（400个epoch或更多）下与以前的基线对于W-MSE或B-Twins，同样的行为是明显的，这两者都在400个时期或更多的完整预训练中表现不佳。然而，FUSSL不断提高每个基线的性能，这要归功于它在使用双监控信号方面的创新。迁移学习：迁移学习的结果如表2所示，针对两个数据集，CIFAR 10/100。在B-Twins和SwAV中分别观察到最大和最小的在此设置中，FUSSL还提高了每个基线的性能。5. 消融研究在本节中，我们分析了多个场景下提出的训练协议的组成部分。这些场景包括硬标签与软标签、集合的大小、渐进式伪标签和跨类/聚类特征学习。我们还简要考虑了模型对SSL后门攻击的弹性，如[38]中所描述的。除了在CIFAR 100上执行的跨类/集群特征学习外，所有其他场景都在 Tiny ImageNet 上进行评估[28]，例如三类基线：基于聚类（SwAV）、非对比（BYOL）和白化（B-Twins）基线。除非另有说明，否则合奏的大小为3。硬vs软：表3中的情况1和情况2（第（5）分别给出了硬、软两种情况下的FUSSL结果。由于软标记，FUSSL结果似乎更好，因为与硬标记相比，软标记提供了改进的结果。合奏的大小：我们评估结果的合奏-m与五个不同的m值。图2显示了在第一阶段训练的不同时期数下三个基线上的个体和平均改善的结果，因为m直接涉及第一阶段。注意，在具有大小m=1的系综的情况下，系综本质上是1块，伪标记简化为硬标记，框架CIFAR10CIFAR100基地1200 epFUSSL基地1200 epFUSSLSimCLR89.9790.1190.8375.9175.9976.59BYOL91.2891.4292.1178.4978.7579.53SwAV94.3394.4194.7881.0181.1181.33SimSiam92.7592.9794.0278.3678.4879.21W-MSE 494.8895.1296.1579.0179.2380.15双胞胎95.1295.4096.3380.1880.3581.402807框架Tiny ImageNet基础FUSSL案例1壳体2壳体3BYOL51.4552.5451.8652.1651.84SwAV51.6051.9351.6651.8051.81双胞胎50.8952.2151.6151.9151.39表3. 情况1和2分别表示硬标记和软标记的结果，情况3表示渐进式伪标记的结果（基列：没有FUSSL协议的基线结果）。图2. SwAV、BOL和B的单个和平均精度提高-双胞胎，在不同的合奏大小（计算成本），并使用800和400，以及200个时期的第一阶段预训练。最佳结果m = 3。我们只访问一个块的输出如图二、m=3提供最高的平均改进。渐进式伪标记：一个非常有趣的sce- nario，是评估的情况下，其中一系列的第一和第二阶段的培训是执行。更具体地，在阶段1的每200个时期之后，执行伪标记并将其应用于阶段2的100个时期，等等。在（阶段1）至（阶段2）的每个迭代中，没有固定层，并且从头开始执行伪标记。如表3案例3所示，三个基线上的平均改善下降到0。37%，这强调了我们的策略（第3节）的有效性，以最大限度地减少两个学习阶段的学习特征之间的互信息。跨类/集群学习：受[29，17]的启发，在这种情况下，我们评估了硬伪标记和软伪标记在跨类特征学习中的有效性。我们解释的想法，分配一个以上的标签（这里m标签）的样本，基本上使学习的功能，这是共享的m类之间。为此，考虑到CIFAR100有100个类和20个超类，我们只对所有超类中的一半样本进行预训练，并且只对50个类进行预训练，然后我们在两种设置中评估其他50个类（仍然在所有20个超类中）的性能。换句话说，预训练数据和评估数据来自不同的类，但来自相同的超类。我们怀疑软标签将有助于模型通过对其中一半类进行预训练来学习给定超类的一般特征，从而使另一半类的评估受益于跨类学习的特征。如表4所示，情况4表示仅使用硬标签，而情况5表示仅分配软标签。表4表明，使用软标记显著提高了性能。(See补充材料，以了解更多详情）。无固定重量：如第4.1.3，在训练的第二阶段，在前100个epoch之后，固定ResNet50骨干网的前41层。然而，我们也研究了所有50个层都被训练的情况（没有固定层）。在重新训练ResNet50的所有层的情况下，三个基线的平均改进从0下降。92%，0。28%，显然这表明了我们的实际战略的有效性，在第二节的介绍中提到的学习。3.第三章。表4.跨类/聚类特征学习，情况4表示硬标记的结果，而情况5表示软标记的结果。请注意，Base、FUSSL、Case 4和5都是在50个类上进行预训练，并在CIFAR100的剩余50个类上进行评估。结果符合我们的预期，即为样本分配软标签（这里是m个标签，m=集合的大小）允许学习超类的特征，这些特征在分配的伪类中共享。本质上，这是属于同一超类的类之间的迁移学习。后门攻击：我们还评估了该协议在SSL后门攻击的背景下的鲁棒性，如最近在[38]中介绍的那样，在预训练期间添加少量不健康的数据，在下游任务中欺骗模型。我们的结果（未示出）表明，在仔细设置下，m >1的FUSSL如何提高给定基线对后门攻击的鲁棒性。局限性：这项工作的一个局限性是基于聚类的方法的改进相对较低，例如，SwAV，这可能是由于监督的类型，使他们能够学习中到高粒度的功能，这通常有利于下游任务。事实上，与样本级别相比，集群级别的学习往往提供与更高级别的语义含义相关联的特征。6. 结论在本文中，我们从自我监督信号的角度研究了最近的SSL基线，并确定了每种监督类型的优缺点。因此，基于信息瓶颈原理，我们提出FUSSL作为SSL框架的通用训练协议，基于样本级和簇级特征学习，通过两个自监督信号实现特征学习第一监督信号引导第一阶段，接着是模糊伪标记，然后是学习的第二阶段。我们提供了一个基础，并将其转化为实验设置，以确保在所有以前的基线上实现一致的改进。广泛的实验和详细的消融研究表明，所提出的SSL框架协议的有效性，无论具体的方法。确认这项工作得到了美国国家科学基金会（Award#1920920，#2125872）的部分资助。框架CIFAR100基本FUSSL案例4案例5BYOL62.9363.9763.2063.81SwAV63.1563.4763.2763.32双胞胎62.8964.1963.1164.022808引用[1] Lex Fridman播客，（麻省理工学院AI播客），第258集：智能和自我监督学习的暗物质，2022年。[2] Philip Bachman ， R Devon Hjelm ， and WilliamBuchwalter.通过最大化跨视图的互信息来学习表示神经信息处理系统的进展，32，2019。[3] 兰德尔·巴勒斯特里罗和扬·勒昆对比和非对比自监督学习恢复全局和局部谱嵌入方法。arXiv预印本arXiv：2205.11508，2022。[4] 叶夫根尼·巴特和西蒙·厄尔曼。交叉泛化：通过特征替换从单个例子学习新类.在2005年IEEE计算机协会计算机视觉和模式识别会议（CVPRIEEE，2005年。[5] Miguel A Bautista 、 Artsiom Sanakoyeu 、 EkaterinaTikhoncheva和Bjorn Ommer。CNN：深度无监督范例学习。神经信息处理系统的进展，29，2016。[6] 苏珊娜·贝克尔和杰弗里·E·辛顿。自组织神经网络，发现表面在随机点立体图。Nature，355（6356）：161[7] Mathilde Caron，Piotr Bojanowski，Armand Joulin，andMatthijs Douze.用于视觉特征的无监督学习的深度聚类。在欧洲计算机视觉会议论文集（ECCV）中，第132-149页[8] Mathilde Caron ， Ishan Misra ， Julien Mairal ， PriyaGoyal，Piotr Bojanowski，and Armand Joulin.无监督学习视觉特征对比聚类分配。 Advances in NeuralInformation Processing Systems，33：9912[9] Mathil deCaron ， HugoTouvron ， IshanMisra ， Herve'Je'gou ， Julien Mairal ， Piotr Bojanowski ， and ArmandJoulin.自我监督视觉转换器中的新兴特性。IEEE/CVF计算机视觉国际会议论文集，第9650-9660页，2021年[10] 陈婷，西蒙·科恩布里斯，穆罕默德·诺鲁齐，和葛offrey Hinton.视觉表征对比学习的一个简单框架国际机器学习会议，第1597-1607页。PMLR，2020年。[11] Xinlei Chen，Kaiming He.探索简单的连体表示学习。在IEEE/CVF计算机视觉和模式识别会议论文集，第15750[12] Victor Guilherme Turrisi da Costa ， Enrico Fini ， MoinNabi，Nicu Sebe，and Elisa Ricci. solo-learn：一个用于视觉表示学习的自监督方法库。

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

基于不确定性表示的双重监督学习协议的有效性

基于分布式电源与负荷双重不确定性的配电网综合规划研究.pdf

含电动汽车的配电网双重不确定性网架规划方法.pdf

双重机器学习双重差分

双重机器学习因果推断

R语言 双重机器学习

latex中表示双重积分

怎么建立双重机器学习模型

供应链数字化与企业绿色创新建立双重机器学习模型

双重机器学习的python代码

DDML双重机器学习方法用于政策评估的Stata代码

C语言的双重平方根表示方法

帮我写一段Python代码，使用双重机器学习方法

基于AES和Henon双重加密图像的解密过程详解

永磁同步电机深度强化学习

最简单的基于DQN的路径规划算法

Caffeine redis 双重缓存

帮我写一段Python代码，使用双重机器学习方法（随机森林回归和xgb回归）进行政策评估，并评价变量的因果效应

深度Q学习网络怎么改进

最新资源

R语言双重机器学习