自我监督学习中的特征去相关

6 浏览量更新于2023-10-14 收藏 646KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

9598距离编码器编码器X1X2自我监督学习中的特征去相关华天宇*1、2、王文晓*1、薛子辉2、3、任苏成2、5、王越4、赵航† 1、2清华大学2上海启智研究所3UT奥斯汀4MIT5华南理工摘要在自监督表示学习中，大多数最先进的方法背后的一个共同想法是加强表示对预定义增强的鲁棒性。这个想法的潜在问题是存在完全崩溃的解决方案（即，常数特征），这通常通过仔细选择的实现细节来隐式地避免。在这项工作中，我们研究了一个相对简洁的框架，包含最常见的组件，从最近的方法。我们验证了完全坍缩的存在，并发现了另一种通常被忽视的可达坍缩模式，即维度坍缩。我们将维度塌陷与轴之间的强相关性联系起来，并将这种联系视为特征去相关的强动机（即，标准化协方差矩阵）。从特征装饰关系的收益进行了实证验证，以突出这种洞察力的重要性和潜力。（a）完全塌陷（b）空间塌陷图像x1. 介绍(c) 去相关(d) 简明框架深度学习在广泛的领域中盛行，包括计算机视觉[20]，自然语言处理[13]和语音识别[47]，而最经典的监督方法的实用性有时会受到有限或昂贵的数据标签的限制。最近，自监督学习已被证明能够提供具有高实用性的视觉表示，并因此减少了对大量注释的需求。过去一年，这一领域取得了重大进展：一系列工作集中在确定更适合自我监督方式的增强，包括重新审视典型的增强[43]，使用对抗性扰动[24，32，23]，以及搜索增强策略[36];一系列工作改变采样策略以扩大正源*同等贡献。†电子邮件：hangzhao@mail.tsinghua.edu.cn。图1：这项工作的关键组成部分概述：图1a和图1b是自监督设置中的两个可达的塌陷模式;图1c是特征去相关的目标的图示;1d是本工作中使用的简明框架的草图。对[49，2，44]和校准负样本的贡献[44，38，27];另一条工作线使用基于聚类的机制来表征交叉样本视图的关系[5，6，1，7]。尽管技术多样，但有一个高层次的想法仍然存在于大多数（如果不是所有）最近的方法中，学习对增强鲁棒的表示[35，8，19，43]。这个想法是相当直观的，但它并不排除通过设计的平凡的，崩溃的解决方案。因此，现有的工作必须包含一种有助于缓解该问题的方法9599特征折叠。完全折叠，其中表示折叠成如图1a中的常数，是最知名的折叠类型，并且在现有工作中通过仔细选择的实现细节来不同地解决：举几个例子，SimCLR [8]和Uniformity[45]使用最大化不同样本之间距离的损耗; SwAV [7]包括一个额外的在线聚类分支，将数据聚类到预定义数量的组中; BYOL [18]依赖于预测器结构、适当插入的停止梯度算子和动量编码器; SimSiam [10]通过移除动量编码器简化了BYOL的框架。鉴于它们在防止完全崩溃方面的成功，对自监督学习中其他潜在崩溃问题的研究一直被忽视。同时，特征去相关似乎是机器学习领域中的一个有价值的想法：在判别任务中，[12，48]在目标函数中引入了正则化相关矩阵的附加项，[25，26]开发了标准化协方差矩阵的归一化层以获得更高的准确度;在生成任务中，正是通过特征去相关[41]产生了更真实的合成图像，并且[39]提供了更好的实用性。域适应在这项工作中，我们重新审视了自我监督学习的崩溃问题，并展示了特征装饰关系的想法如何帮助解决这个问题并提高效用，使用图1d中提供的框架，该框架包含现有方法中最常见的组件。我们的贡献包括：• 我们验证了完全崩溃的存在，在自我监督的设置，并成功地解决它的标准化方差。• 我们发现了另一种被现有作品所忽略的可达塌陷模式，即维度塌陷。• 我们揭示了维度崩溃和强相关性之间的联系，这导致了标准化协方差（即特征去相关）的想法• 从经验上讲，在广泛的设置中从特征去相关中获得的性能增益证实了这种见解的重要性和潜力。2. 相关工作对比学习。对比方法通过最大化样本的两个增强视图之间的一致性来学习表示（即正对）和来自不同样本的视图的不一致（即负对）。根据这个想法，已经开发了许多方法[35，22，46，21，19，8，45]。由于它们受益于大量的负样本，对比学习方法需要一个存储库[46]，一个队列[19]来存储负样本，或者大批量[8]才能很好地工作这就引出了是否需要使用阴性样本的问题集群。基于聚类的方法部分回答了这个问题。它们区分具有相似特征的图像组而不是单个图像[5，6，1，7]。SwAV [7]对数据进行聚类，并强制从同一样本的不同视图产生的聚类分配之间的一致性。然而，这些方法需要昂贵的聚类阶段和大批量以具有足够数量的样品用于聚类[18，10]。BYOL和SimSiam。另一项最近的工作通过只使用阳性样品而取得了显著的结果BYOL [37]提出了一个在线网络和一个目标网络，其中目标网络用在线网络的移动平均值更新以避免崩溃。与之相反，SimSiam [10]证明了预测网络和正确插入的停止梯度算子是防止崩溃的关键组成部分。Tian等人分析BYOL和SimSiam中涉及的各种因素如何协同工作以防止崩溃[42]。标准化。不同于以往的工作，在“不对称”，即贡献的崩溃预防。，预测器网络和停止梯度，我们提出了一个新的角度来理解这个作品中的崩溃。基于这一观点，我们在监督学习中引入规范化技术来学习没有负对的表示。批量归一化（BN）[28]是第一个以支持反向传播的方式对每个小批量进行归一化的方法，并且在训练深度神经网络方面表现出了卓越的性能。BN的理念是集中和扩展激活。另一种归一化技术，去相关批量归一化（DBN）[25]提出在每个小批量内白化激活在这项工作中，我们证明了在自监督学习的背景下，BN遇到维度崩溃，而DBN有效地避免了各种崩溃。两个并行的作品[14，51]探讨了类似的想法，我们的预防崩溃。W-MSE [14]通过Cholesky分解在每个批次中白化特征表示Barlo Twins [51]使用额外的损失函数，强制正对的输出之间的互相关矩阵接近同一性这些尝试证实了功能去相关的潜力，并强调了我们的研究结果对理解和解决功能崩溃的必要性。3. 主要结果在本节中，我们将仔细研究自监督学习设置中的两种崩溃模式。我们将展示第一个，一个众所周知的崩溃模式，称为完全崩溃，是可寻址的BN [28]，因为它与消失的方差。此外，在避免完全坍缩的情况下，我们发现了另一种被现有工作所忽视的可达坍缩模式，即维度坍缩。我们联系了迪-9600不DD≈LD···∈R···∈RD∈{· ··}∈{···}D2 2(a) 基线：完全塌陷(b) 批次归一化：三维塌陷(c) 去相关BN：装饰相关空间(d) SimCLR（e）监督图2：CIFAR-10上二维投影空间的直接可视化。不同的颜色对应不同的类别。图2a、2b和2c来自我们使用的简明框架。为了完整起见，我们在图2d和2e中可视化了SimCLR的二维投影空间（通过将投影仪的输出维度设置为2）和监督基线（通过让倒数第二层包含2个神经元）。轴之间的强相关性，并显示与DBN [25]，标准化协方差矩阵有助于减轻维度崩溃。在本节中，我们还介绍了DBN的一个简单的附加组件，该附加组件强制执行进一步的去相关，这将在第4节中与DBN进行经验比较，以支持特征去相关的重要性和潜力。我们将带有此附加组件的 DBN 称为Shuffled-DBN。在本节的最后一部分，我们包括一些细节的阐述，这些细节是为了连贯性而推迟的。3.1. 初步我们在这里利用如下的自监督表示学习的相对简洁的框架，其仅包含现代自监督方法的最常见的组件：定义1（简明框架）在简明框架中，给定训练数据分布和增强分布，模型参数θ被训练以最大化/最小化具有以下形式的目标函数作为基线：编码器f θ是一个ResNet-18骨干加上一个输出维度为2的投影MLP和两个隐藏层，每个隐藏层有64个神经元。ReLU激活和BN被附加到投影仪的两个隐藏层。这里我们将投影仪的输出尺寸设置为2，以便于可视化。稍后我们将证明我们的发现仍然存在于高维投影空间中。由此产生的代表性产生的准确度只有28。56%，我们在图2a中可视化投影空间（即fθ（T（x）），其中x，T）。在图2a中，我们观察到一个坍缩到一个点的投影空间当它发生时，几乎没有梯度可以传播通过投影空间返回（因为fθ（T（x））0）来影响所学习的表示，并且因此其效用被损害。完全崩溃是表示学习中广泛已知的崩溃类型，并且它与消失的方差相关联。因此，使用投影空间中的BN来标准化方差可以是减轻完全崩溃的方式。（θ）=ExT1，T 2T （fθ（x1），fθ（x2）），定义2（批归一化[28]）对于将一批图像作为其输入的批归一化（BN）层，其中 fθ 是包含主干和投影仪的编码器， x1=T1（x），x2=T2（x），是相似度/距离函数。该框架的草图如图1d所示。D维向量X=（x1，B）D×B，其输出是一批向量Y=（y1，yB）D×B，计算如下：xb，d−µd除非另有说明，平方误差（z1，z2）=z1−z2用作距离函数。我们将详细说明yb，d=√σ2+·γd+βd第3.4.1节中的的选择。3.2. 可达塌陷模式及其指标为了建立直觉，我们现在将简明框架的具体实现应用于CIFAR-10，我们参考对于所有的b1，，B和d1，，D，其中γ，β是可学习的仿射参数，ε是最初提出用于数值稳定性的小常数。在训练时间，µ d，σ2是在输入批次X的第d行上计算的均值和方差，在推理时间，使用来自训练时间的运行估计。9601σ2···∈R···∈RR1B第11章Bk=1k=1E∈R第11章我们向基线的投影仪附加没有仿射参数并且ε = 0（即，yi，j=xi√，j−µj，其必要性将在第二节中详细说明J3.4.2），并在图中显示投影空间2b.相应的表示产生69的准确度。线性评价为52%，比28. 56%由完全塌陷的基线获得。完全崩溃解决后，我们注意到另一个通常-200150100500电话：020 - 406080100历元807060504030电话：020 - 406080100历元在投影空间中被忽略的塌缩模式，称为维度塌缩，对于该维度塌缩，投影特征塌缩成低维流形，诸如图2b中的单线。尺寸塌陷可能会损害效用，应适当解决明确地说-图3：简明框架不同变体的学习过程比较对于这两种折叠模式，折叠变体容易地优化损失函数，但提供具有降级效用的表示。在这种情况下，空间塌陷与强烈的相关性有关。轴之间的距离。作为健全性检查，我们采用DBN[25]标准化协方差矩阵，以缓解此问题。定义3（解相关批量归一化[25]）具有组大小G的解相关批量归一化（DBN）层将一批D维向量X=（x1，yB）D×B作为其输入，并且其输出是一批向量Y=（y1，yB）D×B，计算如下：Y[h]= ZCA（ X[h]），acc. （%）标准品Corr. 损失香草35.440.000.130.00BN70.851.000.997.01DBN84.411.000.0039.04表1：具有简明框架的不同变体的最终表示的比较：acc.表示线性评价的准确度; STD. 表示投影特征的128个维度上的平均标准偏差; corr. 表示平均相关强度（即，非对角项的绝对值的平均值其中X[h]=。.X（h−1）·G+1ΣT，···，（Xh·G）TΣT∈的相关矩阵）;loss去注释训练损失。DBN的组大小为128。RG×B和Y[h]=. .Y（h−1）·G+1ΣT，···，（Yh·G）TΣT∈G×B。换句话说，DBN将D特征尺寸划分并将ZCA白化独立地应用于每个组。定义4（ZCA白化[3]）ZCA白化以一批D维向量X=（x1，···，xB）∈RD×B作为输入，其输出是一批向量Y=（y1· · ·，yB）∈RD×B计算如下：Y=QΛ−2QTX，因此，DBN标准化维度的协方差矩阵。以缓解维度塌陷问题。我们在图2c中可视化具有附加到基线的投影仪的DBN层（组大小G=2）的投影空间。相应的表示提供了72的准确度。45%，这在该二维情况下已经揭示了与69的不可忽略的差距。52%由尺寸塌陷型提供。它证实了特征去相关对其中X是X，其中行被归一化为零均值（即，e.自我监督表征学习Xd，b=Xd，b−1ΣBΛ∈ RD×DXd，k=xb，d−1ΣBxk，d），我们观察到的崩溃模式仍然可以用一个高维的投影空间，并保持链接重新-是一个对角矩阵填充的特征值-Σ=XX T和QD×D的使用是相应的标准正交特征向量（即Σ=QΛ QT）。ZCA假设Σ=XX T∈RD×D是满秩的。分别具有消失的方差和强相关性。在图3和表1中，我们包括了当投影仪是具有128个隐藏像素的2层MLP时这些变体的比较。ZCA的输出Y的行den神经元和128维输出。在这个比较中，我们观察到消失的方差（通过标准差）。与香草框架和强大的核心-Y YT=QΛ−1QTXXTQΛ−1不关系（通过更正） ”吴彦祖说。22Q=QΛ−2QTQΛQTQΛ−2QT=QΛ−2ΛΛ−2QT= QQ T= I.完全塌陷和维度塌陷。另一个观察结果是，通过解决这些塌陷模式的效用增益随着投影空间的该观察结果进一步证实了特征去相关的潜力。DBN香草DBNBN香草训练损失kNN加速9602···∈RPPPPP---222z z2cos=zi，j3−i，jz3−i·--i、jzi=k=j，i，k，z3−i3.3. 进一步的去相关，进一步的收益我们在上一节中展示了特征去相关（即标准化协方差矩阵）减轻了被忽视的称为维度塌陷的塌陷模式，因此提高了实用性。然而，由于DBN引入了分组策略（其新的分组策略），因此维度崩溃问题部分地仍然存在。0.080.070.060.05不洗牌不洗牌0255075100 125 150 175 200历元500400300200100不洗牌不洗牌0二十五个50人电话：+86-510 -8888888传真：+86-510 - 8888888历元在第3.4节中详细阐述了仅标准化每个维度组内的协方差。为了揭示特征去相关的潜力，我们提出了一个简单的附加DBN的变体，即洗牌DBN。在本节中，我们示出了Shuffled-DBN提供了进一步的装饰关系。在第4节中包括对来自进一步去相关的进一步增益的更彻底的评估。定义5（混洗-DBN）具有组大小G的混洗-DBN层将一批D-DBN作为其输入。(a) Corr. 表示投影特征的平均相关强度（即，相关矩阵的非对角项的绝对值的平均值）。807060(b)秩表示由512个样本的投影特征所跨越的空间的（估计）秩，其通过检查奇异值来计算。800700600500400300维向量X=（x1，· · ·，xB）∈RD×B及其200100输出是一批向量Y=（y1，yB）D×B计算如下：Y=P−1（ DBNG（P（ X），0255075100 125 150 175 200历元(c) acc.表示kNN分类的准确度。0二十五个50人电话：+86-510 -8888888传真：+86-510 - 8888888历元(d) 损失表示训练损失。其中是随机D阶置换，通过根据和（X）。-1（X）是通过根据的逆排列重新排列行而获得的。换句话说，Shuffled-DBN在应用具有相同组大小G的DBN之前随机地置换D个特征维度，并且针对输出反转置换。直观地，Shuffled-DBN实施进一步的去相关，因为现在每个维度用另一个G1随机选择的维度而不是固定的维度白化，这更好地标准化协方差矩阵我们凭经验验证了直觉，并将结果包括在图4中，其中Shuffled-DBN提供了较低的相关强度，较少的维度崩溃，以及预期的更好的效用这些支持我们关于Shuffled-DBN的进一步去相关的主张图4：DBN（S 卩w/o shuffle）和Shuffled-DBN（S 卩wshuffle）的比较。与DBN相比，Shuffled-DBN更好地标准化协方差矩阵（较低的相关性）。更彻底地减轻了尺寸塌陷（更高的等级），并且提供了更好的实用性（更高的acc.）。在这两种情况下，组大小都是64，并且具有两个隐藏层（分别具有512和1024个神经元）和512的输出维度的MLP被用作投影仪。或不将向量归一化为单位L2范数，因为当z12 = z22= 1时，SE（z1，z2）=22cos（z1，z2）。这种归一化可能与特征去相关相冲突。在平方误差下，对于i ∈ {1，2}，j ∈ {1，···，D}其中z1，z2∈RD，我们有∂ℓSE3.4. 重要的细节zi，j = 2（zi，j−z3−i，j），在本节中，我们将澄清先前为了一致性而跳过的关于选择和解释的细节，包括目标的选择，BN的详细设置以及分组在DBN中的作用。其仅涉及第j维本身。然而，对于余弦相似性，对于i∈ {1，2}，j∈{1，···，D}其中z1，z2∈RD，我们有∂ℓz.1z2Σz3−i，jΣz2这里我们将解释为什么我们选择平方误差SE（z1，z2）=由于归一化，其可能严重依赖于其他维度。这可能会导致不必要的...余弦相似度不（z，z）=1，哪个更投影空间中的投影。cos1二个z1在自我监督表示学习中很流行。最大化余弦相似性cos和最小化平方误差SE之间的主要区别在于我们建议去除这种归一化有利于特征去相关。实验上，Shuffled-DBN在以余弦相似性为目标的去相关中失败。无洗牌w洗牌无洗牌w洗牌Corr.kNN加秩训练损失3.4.1目标的选择zi509603R∈ R∈×个×个×个−dDD--E∈RE∈R256可学习的仿射acc.（%）0否70.850.1否34.470是10.00表2：具有不同设置的BN的比较。可学习的仿射变换和不可忽略的ε都不利于最终效用，因为它们损害方差标准化。3.4.2BN的详细设置在这里，我们将解释使用BN避免完全崩溃的详细设置我们在表2中包括具有不同设置的BN的经验比较，其中可学习的仿射变换和不可忽略的ε两者都不利于学习的表示的效用。可学习仿射变换简单地使方差标准化无效，因为BN的输出的方差与缩放参数γ线性缩放。至于最初为数值稳定性设计的，应该注意到对于给定的一批输入XD×B，方差σ2D，其输出的第d维的方差实际联系我们另一个相对较小的益处是提高的效率。在没有分组的情况下，ZCA白化的单次通过具有O（BD2）的计算成本，其中B是批次大小，D是维度的数量相比之下，具有组大小G的DBN仅需要O（BDG）的成本。4. 评定4.1. 实验装置• 基准。我们在5个流行的基准上进行了广泛的实验。CIFAR-10和CIFAR-100[30]是两个小规模图像数据集，分别由32 32个小图像组成，分别具有10和100个类别。 STL-10[11] 和 Tiny ImageNet[31] 都是来自ImageNet数据集[40]的中等大小的数据集STL-10数据集由10类96 96分辨率图像组成。对于每个类，STL-10具有500个标记的训练样本（总共5 K个标记的训练样本）和800个用于测试的标记样本额外的100K未标记的训练图像是从比标记图像更宽的图像范围中采样的。Tiny ImageNet数据集有200个类，包括100K训练数据和10K测试数据，具有64 64分辨率。ImageNetILSVRC-2012是一个流行的大规模图像数据集，包含1000个类和1280万张训练图像。它有50K图像用于验证，150K用于测试。• 优化器和学习率。大批量优化器，如LARS [50]通常用于自监督d=1联系我们σ2+ε用于视觉表征学习的对比预训练ing [8，18，7]。然而，最近的研究[15，16]表明只要ε >0，它就严格地随σd单调增加，因此零方差保持为平凡的可达解。请注意，在表2中，我们在比较中报告了ε=0的设置。1，它大于典型的选择，仅用作概念证明。4.1.2分组在DBNDBN中的分组策略有两个主要的好处，一个是灵活性，另一个是效率。回想一下，ZCA白化仅在Σ=XX TD×D 是满秩的假设下才起作用。否则，对特征的任何线性变换都不能导致完全独立的特征。dardized协方差矩阵，即单位矩阵I，因为我是满秩的。对于一个秩为D的veΣa矩阵，XD×B的秩必须至少为D。此外，由于X的每个r w都是零-这意味着，我们将其秩限制为B1，这表明允许的最小批量大小B至少为D+1。这极大地限制了ZCA白化的灵活性，因为必须限制特征空间的维度或用其线性地缩放批量大小在分组的情况下，批次大小仅需要与组大小G成比例。这种自适应梯度优化器可以以与批范数相同的方式正则化网络。为了分离优化器的固有归一化属性，我们使用SGD进行预训练。我们将基本学习率设置为0。02的小型和中型数据集上的实验和0。06对于大规模数据集。我们根据批量大小线性缩放学习率：基础LR×批量[17]。学习速率被调度为余弦衰减速率和5个预热时期[34]。我们保持动量参数为0。9 .第九条。重量衰减率为0。001对于中小型数据集，1×10−4对于ImageNet。• 编码器主干。采用ResNet-18作为我们在中小型数据集上的编码器的骨干。对于CIFAR-10和CIFAR-100，我们使用ResNet-18的CIFAR变体[20，10]，其第一个最大池化层被删除，第一个卷积层的内核大小为3。对于中等大小的数据集STL-10和Tiny ImageNet，只有max-pooling 层在 [14 ， 10] 之后被禁用。我们采用ResNet-50作为大规模ImageNet实验的编码器。我们删除了ResNet-18和ResNet-50模型中的最后一个完全连接层，并将全局平均池化后的特征作为投影仪的输入• 编码器投影仪。投影仪是3层投影MLP。BN和ReLU激活应用于所有隐藏的9604CIFAR-10CIFAR-100STL-10微型ImageNetSimCLR [8]86.9655.8685.5042.65BYOL [37]86.6559.3385.5942.75新加坡[10]86.3159.4486.5541.58[51]第五十一话89.0262.8485.4345.33DBN86.3256.4982.3640.37洗牌-DBN89.5062.9586.0245.96表3：在200个时期预训练的线性评估中DBN和Shuffled-DBN的前1准确度（%）为了完整性和参考，我们包括了我们复制的一些代表性方法的结果。为了进行公平的比较，我们使用与第4.1节中描述的相同的投影仪和增强，用于再现中的所有方法。CIFAR-10CIFAR-100dim.641282565121024SimCLR75.0550.42DBN77.1782.1582.4282.9184.39BYOL78.6351.44洗牌-DBN82.9283.1984.5486.0287.22SimSiam78.7750.71表5：DBN的线性评价中的前1准确度（%）DBN78.6052.95洗牌-DBN80.6257.17表4 ：在 Tiny ImageNet 上进行200个 epoch预训练的CIFAR-10 和 CIFAR-100 上的线性评估中 DBN 和Shuffled-DBN的前1准确度（%）为了完整性和参考，我们包括了一些代表性方法的结果。为了进行公平的比较，我们使用与第4.1节中描述的相同的投影仪和增强，用于再现中的所有方法。投影仪的层。我们将隐藏维度设置为输入维度的两倍，并保持输出维度与输入维度相同。最后，我们使用Shuffled-DBN层对输出进行归一化。除非另有说明，否则我们将Shuffled-DBN的组大小设置为批大小的一半。• 数据扩充。我们采用几种常见的数据扩充并随机组合它们：（a）利用在[0. 二一（b）概率为0.5的随机水平翻转;（c）颜色失真，概率为0.8;（d）颜色下降（即，随机地将图像转换为灰度，对于每个图像具有20%的概率）;（e）用于中等和大尺寸数据集的随机高斯模糊。• 训练和评估我们通过在冻结表示上训练监督线性分类器来评估预训练表示的质量，遵循常见协议。我们对训练集进行了200个epoch的无监督预训练然后我们冻结特征并训练监督线性分类器，即。一个全连接层，后面跟着一个softmax层。具体来说，我们在全局和CIFAR-10上的Shuffled-DBN，其具有用于3层MLP投影仪的不同数量的输出维度（dim. ）：在所有情况下，我们使用32的组大小和256的批大小;投影仪的隐藏层每个包含1024个神经元100个epochs的ResNet的平均池化特征。为了测试分类器，我们使用测试集的中心裁剪，并根据预测输出计算准确度我们训练分类器的基本学习率为30，没有权重decay，动量为0。9，批量大小为256。请注意，我们只在STL-10的标记分割上训练分类器，因为大多数STL-10训练数据是未标记的。我们报告了ImageNet的验证准确性。4.2. 进一步去相关的收益在本节中，为了凭经验验证来自进一步去相关的增益，我们在多个基准上评估了DBN和混洗DBN两者，并在表 3 中报告了结果。通过进一步的去相关，Shuffled- DBN在所有4个基准测试上都优于DBN，其性能与所有评估方法中最好的竞争，这强烈支持了这一主张。在表4中，我们还通过评估在CIFAR-10和CIFAR-100上用Tiny ImageNet预训练的表示，比较了DBN和Shuffled-DBN的可生成性。通过进一步的去相关，Shuffled-DBN在两种情况下都比DBN更好地推广，实现了与所有评估方法中的最佳方法竞争的性能，就像在先前的设置中一样。此外，我们研究的收益，从进一步去相关不同的投影空间的维数。结果在表5中，从中可以看出，进一步的去相关一致地产生进一步的增益，而不管9605批量3264128256512方法批量top-1洗牌-DBN 88.2589.17 89.31 88.82 87.92[第46话]25658.5巴洛双胞胎86.89 87.98 88.21 87.57 85.19简体中文[CN]12858.8BYOL88.37 88.44 87.64 85.72 82.63MOCO [19]25660.6SimCLR 85.42 87.41 87.4087.70SimCLR [8]25661.9SimSiam 86.84 87.88 86.47 79.02 67.74CPC v2 [35]51263.8PCL v2 [33]25667.6表6：Shuffled-DBN的前1准确度（%）和我们的方法MOCO v2 [9]25667.5Barlow Twins、BYOL、SimCLR和[29]第二十九话51268.0在CIFAR上进行线性评价的200个时期的SimSiam-PIC [4]51267.610. 培训和评估配置相同。AdCo [24]25668.62-具有隐藏维度和输出的洗牌-DBN51265.18尺寸为1024和512用于所有实验。组大小163264128kNN加速83.4185.9387.0587.59线性加速85.5287.6988.7588.29表7：在CIFAR-10上混洗的DBN的准确度（%）表8 ：在具有ResNet-50 主干和200个预训练时期的ImageNet上的线性评估中的前1准确度（%）。该表主要继承自[24]。简洁框架中的特征去相关实现了次优性能。时间10 20 50 100 150 200不同的组大小。kNN acc.表示精度kNN分类线性acc.表示线性评估中的准确度。投影仪的输出尺寸为512。投影机输出尺寸的具体选择上述收益是否会改变批量大小？为了回答这个问题，我们进行了一个消融研究方面，ING功能去相关的收益，同时使用不同的批量大小。结果在表6中，其中混洗DBN在所有情况下提供最高效用，强烈支持来自去相关的增益的一般性。4.3. 变化的去相关强度验证来自进一步去相关的增益的另一种方式是改变混洗DBN的去相关强度，这在这里通过改变组大小G来实现：组大小G越大，去相关强度将越强。我们在表7中报告了这种消融研究的结果。我们观察到总体趋势与我们在kNN分类和线性评估中的预期一致：该效用随着更强的去相关强度而提高。4.4. ImageNet上的特征去相关ImageNet上线性评估的准确性已经成为以自我监督方式学习的视觉特征的事实上的度量。虽然可访问的计算资源和实现细节（例如，用于超参数调整的资源）的差异不利于直接比较的公平性，但我们在表8中展示了ImageNet上的评估，并将其视为比较特征去相关与表示的一个很好的补充。电话：+86-021- 88888888传真：+86-021 - 88888888前5名72.34 76.93 79.24 80.62 82.88 85.32表9：Shuffled-DBN在ImageNet上线性评估的前1和前5准确度变化的预训练时期。有效的方法为了完整性，我们还在表9中包括中间检查点的混洗DBN的前1和前5准确度。在ImageNet上，尽管Shuffled-DBN没有达到最先进的性能，但它仍然很有希望，因为它在一个简洁的框架中实现了次优效用（即没有预测器，没有动量编码器，也没有其他特殊的实现细节）。5. 结论在这项工作中，我们研究了自监督学习中的特征崩溃问题。首先，我们验证了完全崩溃的存在，并通过标准化方差来解决它。此外，我们发现，一个被忽视的崩溃模式，即维度崩溃，确实是可达到的学习表示在一个自我监督的方式。我们将维度塌陷与轴之间的强相关性连接起来，并认为这种连接是特征去相关的强烈动机（即标准化协方差矩阵）。通过这项工作，我们不仅希望向我们的社区展示关于特征去相关的重要性和潜力的见解，而且还希望通过解决设计缺陷而不是主要的试错来促进9606引用[1] Yuki Markus Asano ，Christian Rupprecht ，and AndreaVedaldi.通过同时聚类和表示学习的自标记。ICLR，2020年。一、二[2] 放大图片作者：Mehdi Azabou，Mohammad GheshlaghiAzar，Ran Liu，Chi-Heng Lin，Erik C.放大图片创作者：John W.威廉·亨根Gray Roncal、Michal Valko和EvaL.戴尔我自己的看法：通过跨样本预测的自监督学习。CoRR，abs/2102.10106，2021。一个[3] Anthony J. Bell和Terrence J. Sejnowski自然场景的“独立组件”是边缘过滤器。Vision Research，37（23）：3327-3338，1997. 四个[4] Yue Cao，Zhenda Xie，Bin Liu，Yutong Lin，ZhengZhang，and Han Hu.用于无监督视觉特征学习的参数化实例分类。在Hugo Larochelle、Marc’Aurelio Ranzato、Raia Hadsell、Maria-Florina Balcan和Hsuan-Tien Lin的编辑中， Advances in Neural Information ProcessingSystems 33：2020年神经信息处理系统年会，NeurIPS2020，2020年12月6日至12日，虚拟，2020年。八个[5] Mathilde Caron，Piotr Bojanowski，Armand Joulin，andMatthijs Douze.用于视觉特征的无监督学习的深度聚类。在欧洲计算机视觉会议论文集（ECCV）中，第132-149页，2018年。一、二[6] 马蒂尔德·卡隆、彼得·博亚诺夫斯基、朱利安·麦拉尔和阿尔芒·儒林。在非策划数据上对图像特征进行无监督预训练。在IEEE/CVF国际计算机视觉会议，第2959一、二[7] Mathilde Caron ， Ishan Misra ， Julien Mairal ， PriyaGoyal，Piotr Bojanowski，and Armand Joulin.通过对比聚类分配的视觉特征的无监督学习。在H. Larochelle，M.兰扎托河哈德塞尔M. F.巴尔坎，以及H. Lin ，编辑， Advances in Neural InformationProcessing Systems，第33卷，第9912-9924页。柯伦联合公司股份有限公司、2020. 一、二、六[8] 陈婷，西蒙·科恩布里斯，穆罕默德·诺鲁齐，和葛offrey Hinton.视觉表征对比学习的一个简单框架国际机器学习会议，第1597-1607页。PMLR，2020年。一二六七八[9] Xinlei Chen，Haoqi Fan，Ross Girshick，and KaimingHe.通过动量对比学习改进基线。arXiv预印本arXiv：2003.04297，2020。八个[10] Xinlei Chen，Kaiming He.探索简单的连体表征学习。arXiv预印本arXiv：2011.10566，2020。二六七[11] Adam Coates，Andrew Ng，and Honglak Lee.无监督特征学习中单层网络的分析第十四届人工智能和统计国际会议论文集，第215-223页。JMLR研讨会和会议记录，2011年。六个[12] 放大图片作者：Michael Cogswell，Faruk Ahmed，RossB. Girshick，Larry Zitnick，and Dhruv Batra.减少深层次通过解相关表示的网络。在Yoshua Ben- gio和YannLeCun ，编辑，第四届学习表示国际会议， ICLR2016，圣胡安，波多黎各，2016年5月2日至4日，会议跟踪程序，2016年。2[13] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。BERT：用于语言理解的深度双向变换器的预训练。在计算语言学协会北美分会2019年会议论文集中：HumanLanguageTechnologies，NAACL-HLT2019，Minneapolis，MN，USA，2019年6月2日至7日，第1卷（长论文和短论文），第4171-4186页，2019年。一个[14] AleksandrErmolov 、 AliaksandrSiarohin 、 EnverSangineto和Nicu Sebe。自监督表示学习的白化arXiv预印本arXiv：2007.06346，2020。二、六[15] 安倍Fetterman和乔什·阿尔布雷希特用“bootstrap”理解自监督和对比学习你自己潜伏”（byol）。https：//generallyintelligent.ai/，2020年。六个[16] Divya Gaur，Joachim Folz，and Andreas Dengel.训练深度神经网络，无需批量归一化。arXiv预印本arXiv：2008.07970，2020。六个[17] PriyaGo yal ， PiotrDolla´r ， RossGirshick ， PieterNoord-huis ， Lukasz Wesolowski ， Aapo Kyrola ， AndrewTulloch，Yangqing Jia，and Kaiming He.准确、大的小批量sgd：1小时内训练imagenet。arXiv预印本arXiv：1706.02677，2017。六个[18] Jean-BastienGrill ， FlorianStrub ， FlorentAltche´ ，CorentinTallec，PierreHRichemond，ElenaBuchatskaya ， Carl Do- ersch ， Bernardo Avila Pires ，Zhaohan Daniel Guo，Moham- mad Gheshlaghi Azar，etal. Bootstrap你自己的潜在：一种自我监督学习的新方法。arXiv预印本arXiv：2006.07733，2020。二、六[19] Kaimi

下载后可阅读完整内容，剩余1页未读，立即下载