对称对比学习方法的问题及一种新方法：将表示与基对齐，提高互信息，解决尺寸塌陷和冗余问题，具有线性复杂度和鲁棒性

117 浏览量更新于2023-10-25 收藏 1.01MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

166001$1$将表示与基对齐：一种新的自监督学习方法张少峰1，邱林1，朱峰2，严俊池1*，张恒瑞1，赵瑞1，2，李红阳2，杨小康11上海交通大学、2商汤科技{sherrylone，lyn qiu，yanjunchi，sqstardust，xkyang}@ sjtu.edu.cn{zhufeng，zhaorui，lihongyang}@ sensetime.com摘要现有的对称对比学习方法遭受崩溃（完全和维度）或二次复杂性的目标。从这些方法出发，最大限度地提高互信息的两个产生的意见，沿实例或特征维，建议2梯度折叠Reddit特征向量基本分布A.A.A.A.(b) 调准基线CIBB零重叠CIBB1范例在特征处引入中间变量水平，并最大限度地提高变量之间的一致性，图1. 直接定线（a）与建议的ARB（b）的比较。zA和zA表示第一和第二维fea，1 2每个视图的表示。具体地说，建议的中间变量是最接近的一组基向量的表示。因此，我们称该方法为观点A。直接对齐容易导致尺寸塌陷（绿色虚线）和冗余（灰色区域）。在ARB中，我们通过引入中间变量--基的最近群（bA和bB）来解决这些问题然后，雷敦-ARB（Align Representation with Base）与12其他对称方法，ARB 1）不需要负对，这导致整体目标函数的复杂性呈线性顺序，2）降低了特征冗余，增加了训练样本的信息密度，3）对输出维度大小更具鲁棒性，在低维度下，在ImageNet-100上表现出超过28%的Top-1准确性设置.1. 介绍深度学习的一个主要瓶颈是标记数据的稀缺性，并且非常关注非监督学习[15，17，30，33]和自监督学习[4、12、14、16、25、40]。在主流的方法中，大多数属于三类之一：生成法，基于前文本任务的方法和对比方法。基于生成的方法[15，30，39]主要使用像素级重建来学习主干。然而，骨干通常学习一个语义特征，因此因此，提出了更多关于判别方法的尝试，通过提供*Junchi Yan为通讯作者。上海交通大学人工智能研究所MoE人工智能重点实验室张少峰、邱琳、严俊驰、杨小康赵瑞也是上海交通大学清源研究院的研究员。变形减小到零而没有尺寸塌陷。借口任务[10，17，31]，其获得明显更好的性能，例如旋转角度[10]和斑点伪影[39]。其中，基于对比的方法[4，5，19]是当前研究的主流。动机是通过随机增强生成的相同图像的视图保留相似的语义信息。因此，对齐两视图嵌入是成功的关键.然而，直接对齐嵌入通常会导致退化的解决方案[35]，这意味着不同的样本被映射到特征空间中的相同点，如图1左侧所示。1.一、这通常是由于缺乏适当的目标函数或架构[6，32]。因此，一种方法是设计一个合适的目标函数。Simplified [4]将每两个嵌入作为一对，其中正对是相同图像的视图，负对由不同图像的视图组成通过扩展正对之间的一致性和负对之间的差异，模型可以避免将不同的样本映射到相同的点。然而，这样的策略计算每两个样本的相似度，这带来了二次复杂度。另一种方法是建立一个适当的架构：BYOL [16]和SimSiam [6]提出了不对称结构，例如，停止-梯度以避免负采样。尽管他们有希望的结果和线性com-2重叠A.A.1B1A.A.$CIBB$(a)直接对齐116601IJΣ Σ Σ√∈复杂性（因为不需要成对距离），这些方法背后的比率仍然不清楚。为此，我们提出了一种新的方法命名ARB来填补这一空白。详细地说，我们最大化的直接变量之间的互信息产生的一个视图和表示的其他视图，并给出了一个理论解释为什么它可以避免退化的解决方案。在技术上，我们提出了洗牌的功能，并将输出空间分为几个组的特征维数，以进一步降低复杂性。简而言之，本文的亮点概括为：1) 我们提出了一种新的方法ARB，以避免崩溃的对比学习，这是直接的，可理解的和有效的（洗牌和分组）。与其他对称结构相比，ARB只要求目标的线性阶复杂度（无负）。2) 我们从理论上分析了所提出的ARB（最大化所提出的即时变量和表示之间的互信息）和先前的特征方法[37]（最大化两个视图的一致性）之间的关系。此外，我们还从理论上分析了ARB如何避免退化解。3) 在CIFAR-10，CIFAR-100和ImageNet上的实验结果表明，该方法可以获得更高或与以前的方法相当的效果。与其他特征对比方法（如Barlow Twins [1，37]）相比，我们的方法对维度大小更具鲁棒性。2. 相关作品由于我们的方法直接将嵌入与最接近的基向量组对齐，这是一种无负样本的方法，我们从是否涉及负样本的角度简要介绍了以前的方法消极的方法。基于InfoNCE的方法[4，19]通常需要大量的负对来提高准确性，这很难存储。因此，Moco[19]提出了一种存储体模块来解决这个问题。此外，他们提出了两个防止塌陷的技巧，即，停止梯度和不对称更新编码器[20]。Simplified [4]提出了一个简单而有效的框架来学习表示，其中一个小批次中的不同因此，需要大批量来提高准确性。受Simplified的启发，Moco V2 [5]使用更强的增强函数来增加视图的方差，从而实现了比Simplified更高的准确性。此外，工作[35]从理论上分析了InfoNCE的组成部分。他们通过权衡对齐部分和统一部分来改进InfoNCE，并找到了对比学习的关键成功是对齐部分。然后，大量的工作集中在生成，挖掘硬负对[22，24，29，34]和硬正对[11，18]以提高准确性。上述工作是沿着实例维度进行的，Barlow Twins[37]首先计算两个视图中特征维度的成对相关性，其中鼓励两个视图样本中由相同特征组成的对对齐，而由不同特征组成的对被迫最小化为0。VICReg [1]建议在Barlow Twins [37]的基础上添加实例（方差）正则化，其实现了与BarlowTwins相似的精度。负自由的方法。由于对齐是对比学习的关键[35]，因此探索方向之一是丢弃负对，正如BYOL [16]中首次探索的那样他们提出了一个预测器模块，并采用EMA[28]算法，停止梯度更新编码器。SimSiam [6]从经验上探索了避免非对称体系结构崩溃的关键该工作[32]用两层模型替换了BYOL中的编码器，并对两个模型（在线和目标）不崩溃的原因进行了理论分析。然而，它仍然是一个悬而未决的问题，为什么他们可以学习信息表示。受经典白化变换的启发，例如，ZCA算法[21]，工作[13]首先在计算损失之前转换学习的嵌入。然而，由于白化（特征方面）和目标函数（实例方面）的不一致维度，性能受到限制。3. 方法作为一种纯粹的无负方法，ARB是一种对称方法，因此比以前的（不对称）无负方法更简洁和有效[6，16]。我们将从以前的特征方法开始描述ARB [37]，然后是框架，目标和其他使用的技术。3.1. 预赛通过特征去相关的自监督学习。与先前通过实例判别的对比方法[4，16，19]不同，基于去相关的方法通过特征级正则化[1，37，38]学习表示，即，最大化来自两个增强视图的图像表示的相同特征维度的相关性，并且同时最小化不同特征维度的相关性。这个目标的一个典型损失是指巴洛双胞胎（BT）损失[37]：LBT=（1−Cii）2+λC2（1）i ij =i1注[32]提供了一个分析他们的学习动态与两层模型，这说明了为什么这两个模型不会失败与平凡的解决方案。然而，为什么他们能够学习信息表征仍然是一个悬而未决的问题。其中C=ZA<$ZB是互相关矩阵，ZA和ZBRN×d是列标准尺度嵌入（0-均值和1/ N-标准差）。 N是批量，16602O∈11∈∈IIM≤i=1M−−1/2阿杰，你的心脏在哪里i=1ΣM−·BG1 AG2方向G3 AA.A.…共享共享随机洗牌…CIBBG1 BG2 BG3B增强MLP编码器MLP编码器增强G3AG2方向G1A最近基地最近基地最近基地交叉对齐交叉对齐交叉对齐最近基地最近基地最近基地G3BG2BG1B图2.ARB的框架：不同分布中的两个增强假设在一个小批次中仅存在三个样本，编码器f和MLPg两者是权重共享的。在得到嵌入矩阵ZA和ZB（每行代表一个样本的嵌入）后，我们首先在每个小批量中随机洗牌特征维度，然后将嵌入矩阵在特征维度上分成p组（图中为三组），最后计算每组中的LARB，总损失为所有（三）组的总和。λ是r型参数r。上述损失（d2）时间/存储器复杂度，并且通常下游任务需要大的特征尺寸d[37]。3.2. 拟议的ARB3.2.1最近正交基在线性代数中 a的标准正交（基）矩阵d-维空间是一个d×d方阵Bo=[b1，···bd]，它们的向量都是单位向量，且正交注意Z是一个满秩的方阵，并且Z是它的相关矩阵，所以我们可以找到另一个矩阵RRd×ds。t. （ZR） <$（ZR）=I，其中RR<$=<$−1。因此，ZR也是d维空间的一个标准正交矩阵，这表明还存在另一个标准正交矩阵T ∈ Rd×d，s. t. BoT =ZR。然后，目标变为：maxtr（Z <$ZRT−1）s.t. T=I（5）不其中R=−=UΛ−U，所以我们有：2 2彼此独立（即BoBo=I）。我们扩展这个概念非正方形的情况：我们称Bo∈RN×d为一个标准正交tr（Z<$ZRT−1）=tr（U <$1/2U<$T−1）矩阵只要B≠oBo=IRd×d。Given标准缩放的嵌入矩阵ZRN×d（例如，矩阵），然后定义其最近的正交基。=Λ1/2（UT−1U）II我（六）定义1（最近正交基，NOB）。标准尺度矩阵Z的最近标准正交基矩阵（称为（Z））具有最小的l2距离，输入矩阵，形式上：由于T−1和U都是标准正交矩阵，所以U<$T−1U也是标准正交矩阵。所以我们有（UT−1U）ii1。注意，U是旋转矩阵，即， UU = I. 因此，我们可以得到最大的方程。 6当且仅当T−1= I。取T−1=I，注意Bo=ZRT−1，R=2分之一-1/2−1/2 − 11M（Z）=min <$Z-Bo <$2S.T. BoBo=I （2） <$，则有M（Z）=Z <$=ZUΛ2个U，Bo当Z是满列秩（即，rank（Z）=d），等式2有其封闭形式的解决方案：由此我们完成了证明。□定理1表明，对于给定的满列秩，Z={zi}N ，其中zi∈R1×d，总是可以找到它的定理1方程（Eq. 2）是1（Z）=Z2=ZUΛ U输入变量Z的关系矩阵，即，=Z U是特征向量矩阵，Λ分别是π的对角特征值矩阵（π=UΛUπ）。M（Z）的最近标准正交基。3.2.2将制图表达与NOB给定一批输入图像X={xi}N，我们第一代-证明1展开等式2、我们有：（Z）=mintr（Z<$Z）2tr（Z<$Bo）+tr（B<$oBo）O（三）由于 Z 是标准 d 标度的，并且 B<$oBo=I ，我们有 tr（Z<$Z）=tr（B<$oBo）=d=constant。因此，最小化问题可以转化为：16603··∈通过随机扩增获得输入数据的两个视图，tion（transformation）[37]，并将这两个视图分别称为XA和XB然后，我们将XA和XB馈送到共享编码器f θ（），然后是投影仪g γ（）[4，19]，以分别获得表示H和输出：H=f θ（X），Z=g γ（H）RN×d.在[1，37，38]之后，输出Z沿着批次维度进一步标准化（Z）= maxtr（Z<$B）S.T.BB=I（4）Z：，i−µiMBooooZ：，i=σi，i=l，···，d（7）16604O·· ··pM∈≥21C1O·OO·CO·· ·122其中µi和σi分别是Z的第i维的平均值和标准差接下来，我们计算两个视图的输出矩阵的最近的标准正交基为BA=M（ZA）和BB=M（ZB），如下所述关于（Nd2+d3+N2d）FLOP，其中ND. 在应用分组对齐之后，复杂性进一步降低到（p（N（ d/p ） 2+ （ d/p ） 3+N2 （ d/p ））），其中d< N）con（Z，Bpseudo）的最大相容性. 由于d> N，至少有dN个特征值等于0，并且当Z的列秩等于N时，获得con（Bpseudo，Z）的最大值。那么最大值其中LARB是中的不变性项的上界，LBT。此外，通过最大化ZA之间的一致性，是（d·Nd+N·λ）-1/2，当所有非零√和BB，我们可以直接丢弃特征值等于d/N。其中一个问题还不清楚，这就是为什么迪-LBT，在线性复杂度的目标函数。直接最小化LARB 可以避免崩溃。平时定理3互信息I（ ZA ， BB）是I （ ZA ， ZB）的上界。此外，使I（ZA，BB）的MI最大化等效于使I（ZA，ZB）最大化：maxI（ZA，BB）=maxI（ZA，ZB）（13）是两种塌缩，其中完全塌缩意味着模型将所有输入数据映射到超球面中的相同点，而维度塌缩意味着数据点没有投影到超球面上，但它们在空间中几乎呈直线分布，使得它们难以区分。f、gf、g内特我们进一步给出了以下理论结果。其中Z和B是嵌入和基的变量。定理5通过优化LARB，模型可以避免col-证明3证明基于：失效（完全和尺寸塌陷）。I（ Z），BB）=H（B）−H（B|Z)（十四）证明4考虑小批量数据的嵌入，注意I（Z，Z）=H（Z）−H（Z| Z）其中H（BB）≥ H（ZB）。考虑满秩条件，即，λ=0且H（ZB| BB）=H（BB| ZB）=0，则I（ZA，BB）≥I（ZA，ZB）. 此外，由于I（ZA，BB）=H（ZA）=H（BB），所以使I（ZA，BB）的MI最大化是最大化I（ZA，ZB）。然后，考虑在维数坍缩是完全坍缩的上界，如果我们避免维数坍缩，就可以避免完全坍缩。在最坏的情况下，考虑我们已经得到了退化解，即。zi= zj，其中zi是样本i的嵌入。通过LARB，我们有：LARB=2·（1−（ZA）非满秩条件。我们知道H（BB |ZB）= 0，即，个zlbZi，：i，：i，：i，：B是单射的，而反演不成立（由于偏置λ）。因此，我们有H（ZB）≥ H（ZB| BB）≥ H（BB |ZB）= 0。根据链式法则，我们有：其中，ZA是由视图A中的第i个特征值组成的向量，并且ΔR B是Zi的偏导数。我们拥有：H（B、ZB|Z ) = H(B |Z ,Z）+H（B|Z)（十五）. L ARB公司简介ARB公司简介ARB¨公司简介+ARB¨= H（ZB |BB，ZA）+H（ZB |ZA）Zi，：Zj，：=0，Zi，：¨2¨Zj，：¨=0其中H（BB| ZB，ZA）≤ H（ZB| BB，ZA）。因此，我们有H（Z B| Z A）≥ H（B B| Z A）。将不等式代入Eq。十四岁（十七）上述公式是根据，即使（ZA）BB=0，（ZA）BB必须为非零值，因为I（ZA，BB）≥I（ZA，ZB）成立。□i，：Bi，：i，：j，：j，：Bj，：巴比湾然后，通过一步优化，我们避免了上述定理表明，当最大化μ-崩溃在更一般的情况下，两个矢量在垂直方向上对AB（ZA）θ和（ZA）θ进行了优化。Z之间的实际信息和B，我们也可以maxi-i，：j，：利用ZA和ZB之间的互信息。定理4定义两组向量的相容性为con（Z，H）=tr（Z<$H）。然后，λ是影响输入数据与伪基之间距离此外，λ越小，一致性con（Z，H）越大。证明是在补充。定理4表明，λ越小，伪基与原始数据之间的距离越小。相应地，（A，B）之间的估计互信息更准确（当ZB满秩时相等），这与我们的实验一致（见图1）。（六）。接下来，一BBBB一B16607×因此，它们只能相交于超球面中的一点，并且如果交点不是原点，就可以很好地避免坍缩。□4. 实验4.1. 实验装置数据集。我们在以下数据集上评估了所提出的方法，如以前的自监督方法中常用的那样[4，6，37]。1) CIFAR-10和CIFAR-100 [26]，两个小规模数据集， 32 32 图像， 10 和 100 类，重新分类。2)ImageNet-100和ImageNet-1 k [9]包括16608××4003503002502001501004003002001004003002001000.950.900.850.800.750.70500255075100125150175200迭代00255075100125150175200迭代00255075100125150175200迭代0.650255075100125150175200迭代图3.20k次迭代中嵌入、基、损失和方差图的欧氏距离表1. 主要比较CIFAR-10、CIFAR-100和ImageNet-100。项目和Pred.表示投影器和预测器中的输出尺寸。阴性意味着是否使用负对（无论是特征还是实例）。M表示视图数。方法项目调暗编号Pred.调暗编号阴性使用过吗？复杂性（客观）CIFAR-10CIFAR-100ImageNet-100Acc@1Acc@5Acc@1Acc@5Acc@1Acc@5不对称BYOL [16]DINO [3]新加坡[6]MOCO V2 [5]ReSSL [41]40962562048256256256–––’’’✓✓O（N）O（N）O（N）O（NK）O（N2）92.6189.1990.5192.9490.6399.8299.3199.7299.7999.6270.1866.3865.8669.5465.8391.3690.1889.4891.4989.5180.0974.8477.0478.276.5994.9992.9294.0295.594.41对称VICReg [1]SwAV [2]W-MSE [13]SimCLR [4][37]第三十七话[37]第三十七话ARBARB204825625625625620482562048––––––––✓✓✓✓✓’O（N+d2）O（NC）O（NM2）O（N2）O（d2）O（d2）O（d）O（d）90.0789.1788.1890.7487.3989.5791.8192.1999.7199.6899.6199.7599.4299.7399.8699.8968.5464.6761.2965.3957.9269.1868.1969.5790.8388.5287.1188.5885.2391.1991.1291.7779.2274.2869.0677.4867.2178.6274.8679.4895.0692.8491.2293.4290.6494.7293.0695.51分别为100和1000级。数据集在类别分布中平衡良好，并且图像包含对象的图标视图，如在视觉中广泛使用的[20，37]。增强。每个输入图像被变换两次以生成前面提到的两个不同的视图。图像增强流水线如下所示：随机裁剪、缩放到224 224（对于CIFAR为32 32）、水平翻转、颜色抖动、转换为灰度、高斯模糊和日晒。最后五个随机应用于具有不同概率的两个视图，这与[37]完全相同。架构根据最近的工作[4，37]，编码器采用ResNet-50（2048个输出单元）或ResNet-18（512个输出单元）[20]架构，没有最终的分类层，然后是MLP模块。MLP的架构与[37]相同。优化. 与以前的工作类似[16，37]，我们在所有数据集上使用LARS优化器[36我们对权重使用0.2的学习率，对偏差和批量归一化参数使用0.005的学习率。我们将学习率乘以批量大小，然后除以256。我们使用前10个epoch的学习率预热期，之后我们使用余弦衰减调度器将学习率降低1000倍。对于 CIFAR-10 和CIFAR-100，我们使用单个1080 GPU。对于ImageNet-100，批量大小为直接对齐调准基线直接对齐调准基线直接对齐调准基线嵌入距离直接对齐调准基线基距损失嵌入标准品16609默认设置为 128 ，我们使用 8 个 Tesla V100 16GGPU。对于ImageNet-1 k，我们在64个1080Ti GPU上评估ARB，分别具有256，2048和8192个输出维度。ImageNet-1 k上的批量大小设置为512作为默认值。评价我们在三个视觉数据集上训练线性分类器，这些数据集是在ARB预先训练的ResNets的固定表示之上的。具体地，线性分类器以0.3的学习速率和余弦学习速率调度器被训练100个时期我们使用SGD优化器最小化交叉熵损失，动量为0.9，权重衰减为1e-6。与之前的技术[4，37]一致，我们将批量大小设置为256。在推理阶段，我们将图像大小调整为256×256，并将其中心裁剪为224 × 224。4.2. 总体评价分类任务。我们主要把对比学习方法分为两部分，即，非对称和对称架构。通过设计停止梯度和预测器模块，具有非对称架构的先前方法[6，16，19]相对于具有对称架构的方法[4，37然而，它们缺乏解释性[32]。因此，我们主要比较我们的方法与对称方法。表1和表2给出了CIFAR- 10、CIFAR-100和ImageNet数据集的分类结果，其中ResNet-18为16610巴洛双胞胎ARB巴洛双胞胎ARBSimplifiedBarlow TwinsARBACC@5ACC@5∼7570 9090 90658585 85608055507580 80457075 7540653570 703264128256512102420484096输出尺寸3264128256512102420484096输出尺寸32 64 128 256 5121024批量32 64 128 256 512 1024批量图4.输出调光：ImageNet-100 w/ 100 epoch pre-train。表2.使用ResNet-50的ImageNet的准确性。方法昏暗50acc@1EPSacc@5100 epsacc@1 acc@5巴洛双胞胎2562048819245.3870.5552.7977.4852.977.9259.1982.2961.0284.1667.7488.3325649.9575.4258.1780.91ARB204858.8481.3164.4285.87819262.0584.4968.2188.91骨干[20]。对于CIFAR-10和CIFAR-100，我们将批量大小设置为256，并使用1，000个epoch训练每个方法。对于ImageNet-100，我们将批量大小设置为128，并使用400个epoch训练每个模型。由于工作[8]，我们可以快速重现以前方法的结果。对于ImageNet-1 k，我们用 100 ， 400 个 epoch 预训练编码器（ ResNet-50[20]），批量大小为512。在CIFAR-10、CIFAR-100和ImageNet-100上，ARB在对称方法中实现了最高的准确度。此外，ARB优于基线Barlow Twins [37]12.27%的 top-1精度，输出维度为256。4.3. 消融研究对齐底座。实验结果表明，所提出的ARB算法可以避免崩溃，并给出了方差和损失轨迹。3 .第三章。具体来说，我们搜索每个视图的最近基础，并报告两个基础之间的欧几里得距离（图2中的第二个图）（3）第三章。“直接对齐”轨道是设计的基线，它直接对齐特征维度上两个然后，我们在1,000个epoch中训练这两种方法（直接对齐和对齐基础），并在表3中报告线性评估和KNN评估下的前1和前5精度。如表3所示，尽管直接对齐两个视图的嵌入回想一下，所提出的ARB将表示与基对齐，这将增加Z的熵和方差（如定理2和图2的右图所示）。3），前1位准确率为71.10%。输出尺寸。由于ARB本质上是一种基于特征的方法（尽管引入了中间变量），因此我们在ImageNet-100上进行了鲁棒性测试。我们主要比较[37]。报告的结果是重复的-图5.批量大小：CIFAR-100 w/50 k迭代预训练。表3. 直接对准与对准底座的比较。L表示线性评价，KNN模型中的k设为5。方法L@1L@5KNN@1KNN@5直接对准16.98 41.26 1.10 10.20对齐底座68.1991.1271.10八十九点六都是在相同的背景下从官方代码中推导出来的。我们将最大epoch设置为100，批量大小设置为128。投影仪尺寸设置为 2048-2048-OutDim ，其中 OutDim 从 324096开始。我们发现Barlow Twins受输出维度的影响很大，而我们的方法更鲁棒（图1）。4）.在top-1精度中，ARB在32维输出下比Barlow Twins高出28.19%，并且在 4096 的相当大的输出维度下仍然比 BarlowTwins高出3.1%。批量大小。与[4，37]一致，我们在小批量下测试了耐用性。我们使用相同的50K迭代来训练所有方法。图5显示了Simplified、Barlow Twins和我们的ARB的前1和前5精度。相似性受到批量的严重影响，这也在[4，6]中得到了验证。Barlow Twins和ARB等方法对批量更具鲁棒性，并且我们的方法在所有测试的批量下都可以获得比[37组如上所述，我们在特征维度上设计了洗牌和分组操作，以减少复杂性，这也可能带来负面影响（不同组中的特征可能不正交），我们在CIFAR-100数据集上进行了广泛的实验，以分析组数的影响，如图所示。六、我们将投影的维度设置为2048-2048-2048。组数和批量大小均设置为256。我们发现，8组的精度比单组的精度要好，这可能是因为，在256维空间中，我们无法找到2048个正交向量。然而，如果我们将2048维分成8组，每组是256维空间。我们可以得到无偏的正交向量（如果嵌入矩阵Z是满秩的）。我们还发现，太多的组（256），准确率下降的范围很大，这是因为在不同的组中的功能带来了很多冗余。在应用随机操作之后，准确性将以慢得多的速率下降。收敛速度我们在图中显示了训练过程中的准确度曲线。7.第一次会议。实验在CIFAR-100上进行，其中我们将最大历元设置为100，并使用SimplifiedBarlow TwinsARBACC@1ACC@116611SimclrBarlowTwins ARBMMM7065605550454012481632集团简介64128256908580757012481632集团简介64128256表4. 损失探索（ImageNet-100线性评估精度，400 epoch预训练）。BN：批量归一化。方法Top-1 Top-5ARB（标准版）加上非对角线74.18 92.91在MLP中没有BN 79.10 94.69MLP中无BN，无归一化64.18 88.16图6.组数：CIFAR-100 w/1 k-epoch预训练。90标准化后MSE损失69.12 91.086080507040 60503040表5.在实例或特征维度上对齐（线性评估精度，1k epoch预训练）。CIFAR-100201000102030405060708090100历元3020100102030405060708090100历元方法尺寸前1前5前1前5图7.收敛速度比较。循环余弦退火学习速率调度器[23]，它通常用于以前的SSL方法[4，37]。在每10个时期将我们的方法与对称方法[4，37ARB在30个时期达到47.94%的top-1准确率，而Simplified和Bar- low Twins（90和100个时期）的最佳top-1准确率分别为46.08%和47.35%。损失函数我们改变了我们在EQ中的损失。8以几种方式测试每个术语的必要性（标准规模，批量或-并评估阴性样本是否可以免疫-通过将一个视图的嵌入与另一个视图的搜索基础对齐来执行操作它可以实现不变性和去相关，如BarlowTwins中的线性复杂度。直观地说，ARB只需要对齐，这使得它对输出维度更鲁棒。与SimSiam的关系[6]。Sim- Siam背后的直觉是最大化h（zA）和zB之间的一致性，我我证明准确性。实验结果报告于表4中。我们考虑使用MSE损失，在特征维度上进行 l2归一化嵌入，并在Barlow Twins [37]中添加非对角项。我们还尝试删除MLP中的Batch Normalization模块。对于非对角项，我们首先通过CA=（ZA）<$BB，CB=（ZB）<$BA计算互相关矩阵。然后，我们改变ARB的损失巴洛双胞胎的损失方程。1，精度略有下降。这证明了我们的方法不需要成对去相关。对于l2归一化，我们首先标准化嵌入ZA。然后，我们使用函数以找到最接近的基，并分别计算L2归一化嵌入和基最后，我们执行MSE损失在标准化矩阵上通过归一化，准确度略有降低，与[37]一致。实例尺寸。虽然实例方法的最优解不是正交表示（Sec. 3.3），我们也尝试将我们的方法应用于实例维。表5给出了在实例和特征维度上应用ARB的准确性，其中ARB（fea）在CIFAR-10和CIFAR-100数据集上的准确性都高于ARB（ins）一个可能的原因是，我们在实例维度上应用的ARB总是试图将实例表示与实例基对齐，从而要求所有实例彼此正交，这可能会在面对应该在特征空间中尽可能接近的硬正对时与巴洛双胞胎的关系[37]。 ARB学习代表-其中h指示预测器模块。与SimSiam相比，ARB代替了预测器模块来实现功能.注意，没有参数需要优化，这使得我们的方法更具可扩展性（更少的存储）。5. 结论我们已经提出了ARB（AlignR epresentation withBase），它将学习到的嵌入与中间变量对齐，以进行自我监督学习。与以前的对称方法相比，ARB不需要逐对解相关，从而导致线性阶复杂度（目标函数）。我们从理论上分析了Barlow Twins [37]和ARB之间的关系，并说明了为什么我们的方法可以避免崩溃。此外，我们在CIFAR-10、CIFAR-100和ImageNet上进行了实验。结果表明，ARB可以实现比以前的对称方法更高的精度[4，19，37]。消融结果表明，ARB比以前的方法[4，37]对维数更鲁棒，收敛速度更快ARB目前只能用于特征尺寸。我们希望在实例维度上扩展它。此外，为了找到最接近的基，我们必须计算逆矩阵，这是耗时的，值得改进。鸣谢。本研究得到了国家重点研发计划（ 2020AAA0107600 ）、上海市科技重大专项（2021SHZDZX0102）和商汤科技合作研究基金的部分支持。组组+洗牌组组+洗牌SimclrBarlowTwins ARBACC@1ACC@1ACC@5ACC@5ARB（ins）25689.1799.2965.5989.81ARB（fea）25691.8199.8668.1991.12ARB（ins）204889.3199.2665.3689.56ARB（fea）204892.1999.8969.5791.7716612引用[1] Adrien Bardes，Jean Ponce，and Yann LeCun. Vi-creg：Variance-Invariance-Covariance Regularization for Self-Supervised Learning。arXiv：2105.04906，2021。二三四六[2] Mathilde Caron ， Ishan Misra ， Julien Mairal ， PriyaGoyal，Piotr Bojanowski，and Armand Joulin.无监督学习视觉特征对比聚类分配。 arXiv 预印本 arXiv ：2006.09882，2020。6[3] MathildeCaron ， HugoTouvron ， IshanMisra ， Herve'Je'gou ， Julien Mairal ， Piotr Bojanowski ， and ArmandJoulin.自我监督视觉转换器中的新兴特性。arXiv预印本arXiv：2104.14294，2021。

下载后可阅读完整内容，剩余1页未读，立即下载