无监督对比学习方法中的特征抑制及其解决方案的研究

111 浏览量更新于2023-10-15 收藏 904KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1411无监督视觉表示中的寻址特征抑制李天虹1，*范丽杰1，袁媛1何昊1田永龙1Rogerio Feris2Piotr Indyk1Dina Katabi11麻省理工学院CSAIL，2麻省理工学院-IBM沃森人工智能实验室摘要对比学习是机器学习中发展最快的研究领域之一，因为它能够在没有标记数据的情况下学习有用的表示。然而，对比学习易受特征抑制的影响-即，它可以丢弃与感兴趣的任务相关的重要信息，并学习不相关的特征。过去的工作已经通过手工制作的数据扩充消除了不相关的信息来解决这个限制。然而，这种方法并不适用于所有的数据集和任务.此外，当一个属性可以抑制与其他属性相关的特征时，数据扩充无法解决多属性分类中的特征抑制。在本文中，我们分析了对比学习的目标函数，并正式证明了它是容易受到特征抑制。然后，我们提出了预测对比学习（PrCL），一个框架，用于学习无监督表示，对特征抑制具有鲁棒性。关键思想是迫使学习的表示预测输入，从而防止它丢弃重要信息。大量的实验验证了PrCL对特征抑制的鲁棒性，并且在各种数据集和任务上优于最先进的对比学习方法。1. 介绍无监督或自我监督的表示学习领域正在迅速发展[12，50，27，2，53，18，35，22，33、16、14、13、15、48、49、28、34、51、52]。它指的是学习-捕获潜在的感兴趣标签的数据表示对比学习越来越多地被认为是无监督表示学习的标准和极具竞争力的方法使用这种方法学习的特征已被证明可以很好地推广到下游任务，并且在某些情况下超过了监督模型的性能[37，3，43，5，6，17，8，31]。*表示平等贡献。这项工作得到了麻省理工学院-IBM沃森研究合作基金的支持(a) 数字Bkgd（b）面属性图1. (a)在Colorful-Moving-MNIST [42]中，输入具有两种类型的信息：数字和背景对象。但是对比学习方法只关注背景对象而忽略了数字。(b)FairFace [30]中的每个图像都有多个属性，如年龄，性别，种族等。现有的对比学习方法集中在种族和部分忽略其他属性。对比学习通过对比正样本和负样本来学习表征在训练期间，选择数据样本作为锚（例如，图像）;选择正样本作为锚的不同增强版本（例如，随机裁剪和颜色扭曲图像），而负样本来自数据集中的其他然而，对比学习容易受到特征抑制的影响[19，40，32]如果简单特征的对比度足以将正样本与负样本分开，则对比学习可以学习这样的简单（或更简单）特征，即使与感兴趣的任务无关，并且抑制其他更相关的特征。例如，[5]的作者表明，颜色分布可以用于区分从同一图像裁剪的补丁，来自不同图像的补丁;然而这种特征对于对象分类是无用的。过去的工作通过设计手工制作的数据增强来解决这个问题，消除不相关的特征，以便网络可以学习相关信息[24，5，6，8，7]。然而，在许多情况下，很难设计增强来解决特征抑制的问题。例如，[42]的作者强调了图1（a）中的场景，其中每个图像显示一个数字（来自MNIST），1412随机选择的背景对象（来自STL-10）。他们表明，与背景物体相关的特征可以创建一个捷径，阻止对比学习学习与数字相关的特征。在这种情况下，不能简单地消除背景信息，因为这样的设计虽然有助于数字分类，但会损害背景分类任务。人脸属性分类的任务中也存在类似的问题，其中每个人脸图像都可以用于包括性别、年龄和种族分类在内的多个下游任务中（图1（b）），但是通过对比学习学习的特征可能只偏向于其中一个属性（例如，种族）并且在其他属性（性别和年龄）上表现不佳，如实验部分所示。很难提出在不损害相应分类任务的情况下消除主导属性的此外，随着机器学习不断扩展到新的模态，设计手工制作的数据增强变得越来越困难，因为许多新的模态难以由人类直接解释（例如，来自可穿戴设备的加速度），或者解释需要领域专家（例如，医学数据）。在本文中，我们首先提供了一个理论分析的对比学习，并证明它是脆弱的特征抑制。我们的分析表明，即使具有大的特征维度，对比学习也具有许多局部极小值，这些局部极小值丢弃了关于输入的重要信息，从而导致特征抑制。此外，损失函数在这种局部最小值处的值非常接近其在全局最小值处的值，使得难以将模型推出这种局部最小值。其次，我们提出预测对比学习（PrCL）作为一种训练方案，防止特征抑制。PrCL同时使用对比和预测学习来学习表示我们使用术语预测学习来指代强制表示预测输入的任务，例如修复，着色或自动编码。这样的任务抵消了特征抑制的影响，因为它们迫使学习的特征保留输入中的信息。更正式地，如果对比损失（即，InfoNCE损失）卡在丢失语义信息的局部最小值中，预测损失自然变得非常高，迫使模型退出这样的局部最小值。PrCL的一个有趣的特性是预测任务仅在训练期间使用，因此在测试期间不会引入计算开销。我们评估PrCL并将其与四个不同数据集上的最先进对比学习基线进行比较： ImageNet ， MPII [1] ，Colorful-Moving-MNIST [42]和Fair- Face [30]。对于所有任务，PrCL都实现了卓越的性能，并通过大幅幅度超过最先进的基线，证明了对特征抑制的鲁棒性。本文做出了以下贡献：• 它提供了一个对比学习的理论分析，证明其脆弱性的特征抑制。• 它引入了PrCL，这是一种无监督学习框架，可以自动避免特征抑制，并提供一种表示，可以学习输入中的所有语义，并可以支持不同的下游任务和多属性分类。• 经验表明，SOTA对比学习基线（例如，Simplified、MoCo和BYOL）遭受特征抑制，并且PrCL在包括对象识别、姿态估计和面部属性分类在内的几个重要任务上优于这些基线。2. 相关工作无监督表示学习的早期工作主要集中在设计借口任务和训练网络来预测它们的伪标签。这些任务包括解决拼图游戏[36]，恢复输入中丢失的补丁[38]或预测图像旋转[20]。然而，借口任务必须手工制作，并且它们的表示的一般性通常是有限的[5]。因此，研究人员最近专注于对比学习，它作为一种竞争性和系统性的方法，在没有人类监督的情况下学习有效的表示学习的特征很好地推广到下游任务，优于通过借口任务学习的表示，甚至在某些任务上超过监督模型的性能[5，6，8，24]。已经提出了多个成功的对比学习框架，它们通常在对负对进行采样的方式上有所不同。举几个例子，Simplified [5]使用大批量，并在每个批次中对负对进行动量对比方法（MoCo）[24]利用移动平均编码器和队列在训练期间动态生成负样本。对比多视图编码[41]维护一个存储库来存储特征并生成负样本。最近的一些方法，如BYOL [21]，不依赖于负对[9，21]。相反，他们使用两个相互学习的神经网络来提高性能。过去的工作也报告了对比学习的问题。它可以专注于不相关的特征，如颜色差异，并抑制更多的相关特征[5]。过去的工作解决了这个问题，通过使用颜色失真作为数据增强。此外，[42]的作者指出，当数据包括多种类型的语义时，对比学习可能会学习一种类型的语义，而无法学习其他语义的有效特征（如图1（b）所示，其中背景对象信息可以抑制与数字相关的特征他们提出了一种解决方案，可以学习适合所需下游任务的对比视图。虽然它们与我们的目标相同，即支持不同的下游任务，但它们的方法需要监督，因为它们从标记数据中学习对比视图相比之下，我们的方法是1413i=1i=1∈不T≤T{}{T}我我TN2我nn我--完全无人监管另一个相关的工作是对比预测编码（CPC）[37，25]。CPC与PrCL有一些相似之处，因为它有一个旨在重建缺失信息的预测任务。然而，CPC旨在重建未来帧的特征，而PrCL重建原始输入数据。因此，CPC学习的表示不需要包含必要的信息来重建输入，这使得它容易受到特征抑制，就像其他对比学习方法一样。自动编码器家族为使用重构损失的无监督表示学习提供了一个流行的它训练编码器生成低维潜在代码，可以重建整个高维输入。有许多类型的AE，例如去噪自动编码器[45]，它破坏输入并让潜在代码重建它，以及变分自动编码器[39]，它迫使潜在代码遵循上面的）可以非常接近它的全局最小值[引理1和图2]，使得很难从这样的局部最小值中逃脱4.上述三点意味着，即使在高维情况下，对比学习也可能陷入局部最小值，从而表现出特征抑制。添加预测损失允许模型退出这样的局部最小值并避免特征抑制。这是因为被抑制的特征丢失了有关输入的信息，导致预测损失变大，并将模型从这种局部最小值推出来，远离特征抑制。3.1.正式证明。设X=x in为数据点的集合。我们使用λ ij来表示数据对x i和x j是正的还是负的。具体地，λ ij= 1指示正对，而λ ij=0指示负对。设Z={zi}n，其中zi=f（xi）=（z1，· · ·，zd）∈ Sd−1，表示学习基于transformer的网络架构在无监督表示学习方面表现出了很好的性能[23，4]。然而，这些工作使用诸如BERT和ViT的架构，其需要比卷积神经网络多得多的计算资源。PrCL可以被视为去噪自动编码器的特殊变体，其迫使潜在代码具有通过对比损失正则化的因此，潜在的代码，由神经网络f生成的超球面上的特征。tR+是标量温度参数。我们考虑在[46]中引入的infoNCE目标函数的以下经验渐近性。定义1（经验信息渐近性）。ElimNCE（Z;X，t，d）不仅有利于重建输入，而且有利于下游分类任务。最后，在Arxiv上发表的几篇并发论文-1λIJzz+1log1ezzj/t也使用了对比和重建损失的组合[11，29]。然而，他们都没有探索这种组合的潜力本文首次证明了对比和预测损失的组合可以用于避免特征抑制并学习支持多个下游任务的一般表示。3.特征抑制在深入研究正式的证明之前，我们提供了我们分析的非正式描述如下：1. 在低特征维数下，对比学习损失（In-foNCE）全局最小值丢失了语义信息.这是因为在小特征尺寸的情况下，不可能保留关于输入的所有信息。2. InfoNCE全局最小值在低维度（其丢失来自（1.）以上），是在更高维度的局部最小值[推论2]。因此，即使对于高维度特征，它也将具有许多丢失关于输入的信息的局部最小值（即，特征抑制）。3. 在这样的局部最小值处的infoNCE的值（来自（2.）我们将把低维的经验信息渐近性与高维的经验信息我们首先定义一个提升算子，它将一个低维向量映射到一个高维向量。定义2（起重操作员）。由索引函数σ表征的提升算子σ将d1维向量映射到d2维（d2>d1）。它的参数σ是一个长度为d2的置换. 给定一个d1维向量z，提升算子通过以下规则将其映射到d2维向量z=σ （z）：zt=zσ（t），如果σ（t）d1，否则z≠t=0。稍微滥用符号，我们允许提升算子将一组低维向量映射到更高维，即σ（zi）=σ（zi）。我们进一步允许提升算子将较低维度的函数f映射到较高维度，即，Tσ（f）（x）=Tσ（f（x））。注意Tσ是一个线性算子。我们强调Tσ的几个有用性质：引理1（值不变性）。经验信息渐近性的值在提升操作下是不变的。形式上，考虑来自先验分布。最近，带IJJ我J1414EE不EET{∈ S|||−||}不EEE∈E不.Σ尺寸d1到尺寸d2。我们有ElimNCE（ Tσ（Z）;X，t，d2）= ElimNCE（Z;X，t，d1）Pr oof. 根据Tσ的定义，有<$zi，zj，zi<$zj=Tσ（zi）<$Tσ（zj ）.因此，ElimNC E（Tσ（Z）;X，t，d2）=ElimNCE（Z; X，t，d1）.引理2（梯度等方差）。经验信息量渐近性的梯度在提升运算下是等变的。形式上，考虑从维度d1到维度d2的任何提升算子T σ。我们有z证据证据在补充材料里。推论1. F或任意提升算子Tσ，若Z∈={z∈i}是ElimNCE（Z;X，t，d1）的一个不动点，则Tσ（Z∈）是ElimNCE（Z; X，t，d2）的一个不动点.图2.最佳信息损耗与不同输出特征尺寸d和温度t的关系。此外，limNCE（Z;X，t，d）的上述鞍点/局部最小值的值非常接近于全局最小值的值这是因为ElimNCE（Z; X，t，d）的最优值在-皱纹。图2显示logF（;d;1）的曲线，证据 Z是ElimNCE（Z; X，τ，d1）的一个驻点014t2意味ZiElimNC E（Z;X，τ，d1）为0的情况。因此，根据引理2，Tσ （Z∈）;X ，τ ， d2 ）=TσziElimNC E（Z;X，τ，d1）=0.推论2. F或任意提升算子Tσ ，若Z∈={z∈i}是 ElimNCE（Z; X，t，d1）的具有正定Hessian矩阵的全局极小，则Tσ（Z∈）是ElimNCE（Z; X，t，d2）的鞍点或局部极小.Pr oof. 由推论1可知，σ（Z∈）是 limNCE（Z;X，τ，d2）的一个驻点.由于limNC E（Z;X，τ，d1）在Z′上的Hessian矩阵是可定义的，r>0，则Z′Br（Z′）s. t.limNC E（Z′;X，τ，d1）>limNC E（Z;X，τ，d2），其中B r（Z）=Z′d−1 ZZ′2ElimNCE（ Tσ（Z）;X，τ， d2）（引理1）.注意，Z′∈Br（Z<$）→Tσ（Z′）∈Br（Tσ（Z<$））. 因此，<$r>0，<$Tσ（Z′）∈Br（Tσ（Z′））S.T.ElimNCE （ Tσ （ Z′ ） ;X ， τ ， d1 ） >ElimNCE （ Tσ（Z）;X，τ，d2）.因此，Tσ（Z∈）不是局部极大值，只能是局部极小值或ElimNCE（Z; X，τ，d2）的鞍点.有了推论2，我们就可以解释为什么对比学习会受到特征抑制的影响。假设f是一个网络，达到limNCE（Z;X，t，d1）的全局最小值。当d1相对较小时（例如， <对于图像为100），f必须丢失关于输入的一些信息，即，压制特征。由推论2可知，σ（f）是limNCE（Z; X，t，d2）的鞍点或局部极小值，其中d2>d1且σ（f）不包含比f更多的信息. 因此，对于任何尺寸d> 1，存在鞍点/局部最小值ElimNCE（Z;X，t，d），它抑制特征。是信息损失的最佳值[47]。如图所示，当d>200时，曲线基本上收敛。因此，σ（f）可以是limNCE（Z;X，t，d2）的鞍点/局部极小值，并且其值也可以非常接近全局极小值，使得难以逃脱。这样的局部最小值。因此，通过抑制特征，可以有效地获得非常接近全局最小值的这激发了我们的解决方案，该解决方案添加了预测损失，以迫使模型从抑制特征的局部最小值中退出4. 预测对比学习（PrCL）预测对比学习（PrCL）是一个自监督表示学习的框架。它旨在学习对特征抑制具有鲁棒性的表示，并且能够支持多种不同的下游任务。PrCL的基本思想如下：特征抑制是有害的，因为表示丢失了输入中可用的重要信息。因此，为了对抗特征抑制，PrCL使用预测损失来确保表示可以恢复输入，即，特征具有在输入处可用的信息然而，将所有信息保持在特征中是不够的;输入已经具有所有信息。通过添加对比损失，PrCL重新组织特征空间中的信息，以使其适合下游分类，即，具有相似属性/对象的样本比具有不同属性/对象的图3显示了PrCL框架，它有两个分支：对比分支和预测分支。(a) 对比分支：对比分支在图3中的橙色框中显示。在这里，我们使用Simplified1415LNΣ∥ ∥ ∥ ∥LL L·L共享参数共享参数图3.PrCL框架的说明PrCL有两个分支：1）预测分支，如蓝色框所示，确保表示有足够的信息来恢复输入中丢失的补丁，2）对比分支，如橙色框所示，确保表示保持阳性样本彼此接近，远离阴性样本。作为一个例子来说明基本的想法。然而，这个对比分支可以很容易地适应任何对比学习方法，如CPC，MoCo和BYOL。对于每幅图像，我们首先通过两个随机扩增τ1和τ2生成一对正样本，然后我们将两个扩增输入分别转发到参数为θ的编码器E和参数为h的多层非线性投影头H，以获得这两个正样本的潜在表示z1和z2我们使用常用的InfoNCE损失[5]作为对比损失c。即，对于一批N个不同的输入图像xi，i =1，.， N，无菌试验sim（z2i，z2i+1）/t更多的收获。另一个需要考虑的问题是选择任务对各种数据集的适用性。例如，彩色化仅适用于彩色RGB数据集，而不适用于灰度数据集，例如MNIST或医学图像数据集。相比之下，像图像修复这样的任务更容易在不同的数据集之间转换。鉴于上述考虑，我们采用修复作为默认预测任务。在补充材料中，我们比较了各种任务，并表明虽然它们都提高了性能，但修复提供了更高的收益。图3显示了PrCL如何使用图像修复任务，给定一个输入图像x，我们首先随机屏蔽几个Lc=−i=1日志2Nk=1k=2i exp. SIM（z2i，zk）/t补丁，以获得掩码输入M（x）。然后，掩码输入通过编码器网络E传递，其中sim（u，v）=uTv/（u2v2）表示归一化的u和v之间的点积（即，余弦相似性），并且z2i，z2i+1是从xi生成的正对的编码特征，即， z2i=Hh（E θ（τ1（xi）和z2i+1= Hh（E θ（τ2（xi）.(b) 预测分支：选择合适的预测任务，我们需要考虑两个方面：它对输入进行总结和抽象的能力，以及它对不同数据集和任务的适用性。事实上，许多自监督学习任务，如自动编码器，着色和修复，都是预测性的，因为它们都旨在恢复输入。但是，这些任务并不具有相同的能力，既保留和抽象的信息。例如，修复是一个比自动编码更强的预测任务，在其抽象和保留信息的能力方面。因此，尽管它们都有助于加强对比学习以对抗特征抑制，但修复很可能提供和解码器网络D，具有参数δ，以获得重构结果Dδ（Eθ（M（x）。预测损失P被定义为原始图像之间的重构误差。输入x和重建的一个Dδ（Eθ（M（x）：Lp=||D δ（E θ（M（x）−x||二、(c) 训练过程：我们根据经验发现，最好分两个阶段训练模型。在第一阶段中，仅训练预测分支在第二阶段，两个分支一起训练。在后一种情况下，总训练损失是预测损失和对比损失的组合，即，=c+λ p。对于所有实验，我们设定λ=10。我们还在补充材料中包括具有不同λ的结果(d) PrCL避免特征抑制：通过预测损失和对比损失的组合，PrCL能够逃脱上述局部最小值/鞍点编码器网络EF…解码网络编码器网络E…项目负责人输入图像编码器网络E…项目负责人特征对比对比损失综合损失预测损失率、11416仅学习部分语义的infoNCE丢失点。这是因为仅学习部分语义可能导致非常高的预测损失。例如，如果网络仅学习与背景对象相关的语义，但忽略了数字（图3），则与数字相关的所有像素都可能被错误地预测，从而引入大梯度，迫使模型脱离鞍点。5. 实验基线。我们使用最先进的对比学习方法作为基线，包括Simplified [5]，MoCo [8]，CPC[25]”[21]。相同的网络结构、批量大小和训练时期用于所有基线和PrCL对于PrCL的对比分支，我们应用与MoCo相同的训练方案。PrCL仅将预测分支用于训练。在推理期间，它只使用编码器，该编码器与对比分支共享因此，PrCL的评价使用与基线完全相同数量的参数。数据集。我们使用以下数据集进行实验：• ImageNet：ImageNet[10]（CC BY 2.0）是一个广泛使用的图像分类基准，包含1000个不同类别的128万张图像。它是评估自监督学习方法的标准基准[8，5，21]。• MPII：MPII [1]（简化版BSD许可证）是人体姿势估计任务中最常见的数据集它包含了人类日常活动的图像。• （CC BY 4.0.）是一个人脸属性分类数据集，其中每个图像包含多个语义，包括性别，年龄和种族。• 彩色-移动-MNIST：这是[42]用来突出特征抑制问题的合成数据集。它是通过为MNIST中的每个数字分配从STL-10中随机选择的背景对象图像来它支持两个下游任务：数字和背景分类。陷阱在ImageNet上，正如文献中常见的那样，我们使用固定的编码器来评估表示，并且只训练线性分类器。在所有其他数据集上，我们在两种不同的设置下评估表示：固定功能编码器设置和微调设置。在固定特征编码器设置中，ResNet编码器是固定的，并且仅训练分类器（FairFace，Colorful-Moving-MNIST）或4层解码器网络（MPII）;在微调设置中，编码器使用预训练的模型初始化有关架构细节和超参数，请参阅附录。5.1. 结果我们报告了所有数据集的主要结果。实验设置、训练细节和超参数设置如下在补充材料中提供了额外的结果。ImageNet. 表1比较了PrCL与不同数据扩充下对象分类任务的对比学习基线。在这里，我们比较PrCL与SimCLR和MoCo，因为它们使用相同的数据扩充集。结果表明，在数据扩充较少的情况下，由于特征抑制，对比学习基线的精度下降很快例如，去除颜色失真增强显著降低了基线方法的性能，因为已知颜色分布能够抑制对比学习中的其他特征相比之下，PrCL显著更稳健。例如，仅使用随机裁剪，PrCL的Top-1准确度仅下降6.9，而Simplified的Top-1准确度下降27.6，MoCo的Top-1准确度下降12.1。我们还将PrCL与预测基线进行了比较[38]。对于预测基线，尽管该模型对不同的增强不敏感，但最佳性能与对比学习不可比拟，这表明仅预测学习不足以从图像中学习细粒度表示。MPII。我们使用PrCL和对比学习基线来学习MPII的表示，并在姿势估计任务上对其进行评估。表2示出了PrCL将最强对比基线上的平均PCKh（用于姿态估计的标准度量）提高了3.7，并且在诸如头部和手腕的重要关键点上实现了甚至更高的增益这是因为对比学习可能会关注与下游任务无关的特征，例如衣服和外表。费尔菲斯表3比较了面部属性分类任务上的对比学习基线与PrCL结果显示了对比学习如何与多属性分类进行斗争。具体来说，种族分类的对比学习基线的性能接近该属性的监督学习（62% vs. 69%）。然而，他们在年龄和性别分类上的结果明显不如这些属性的监督学习（44%和78% vs.54%和91%）。这表明在对比学习中，种族特征抑制了其他特征。这一特征是部分的，因为种族在不同年龄和性别之间的表现方式上存在相比之下，PrCL对这种特征抑制问题更加鲁棒，并且其对年龄和性别分类的性能结果更接近这些属性的全监督分类。色彩缤纷-移动-MNIST。我们使用这个数据集进一步研究对比学习如何在多属性分类上执行回想一下，这个数据集中的每个图像都包含一个来自MNIST的数字，该数字位于从STL-10随机选择的背景对象我们调查是否学习表示支持数字和背景1417我发誓METRICTOP-1 DROPTOP-1 DROPTOP-1 DROPTOP-1 DROP我发誓METRICTOP-5 DROPTOP-5 DROPTOP-5 DROPTOP-5 DROP表1. ImageNet上的性能，逐步删除不同自监督学习技术的数据增强。基线对应于Simplified和MoCo中使用的原始增强集：随机翻转、随机调整大小的裁剪、颜色失真和随机高斯模糊。(a) ImageNet TOP-1精度及其DROPw.r.t.包括所有扩增。方法修复SimCLRMocoPrCL（我们的）基线43.7/67.9/71.1/71.0/-0.1移除翻盖43.4-0.367.3-0.670.6-0.570.8-0.2+0.2删除模糊43.6-0.165.2-2.769.7-1.470.6-0.4+0.9仅裁剪颜色43.2-0.564.2-3.769.5-1.670.1-0.9+0.6消除颜色失真43.5-0.245.7-22.260.4-10.765.9-5.1+5.5仅裁剪模糊42.8-0.941.7-26.259.8-11.365.1-5.9+5.3仅裁剪翻转43.3-0.440.2-27.759.4-11.764.6-6.4+5.2仅限作物42.7-1.040.3-27.659.0-12.164.1-6.9+5.1(b) ImageNet TOP-5精度及其DROPw.r.t.包括所有扩增。方法修复SimCLRMocoPrCL（我们的）基线68.3/88.5/90.1/90.0/-0.1移除翻盖67.9-0.488.2-0.389.9-0.289.9-0.1+0.0删除模糊68.1-0.286.6-1.989.7-0.489.8-0.2+0.1仅裁剪颜色67.8-0.586.2-2.389.6-0.589.7-0.3+0.1消除颜色失真68.0-0.370.6-17.984.2-5.988.3-1.7+4.1仅裁剪模糊67.4-0.966.4-22.183.1-7.088.0-2.0+4.9仅裁剪翻转67.7-0.664.8-23.782.0-8.187.7-2.3+5.7仅限作物67.4-0.964.8-23.781.6-8.587.6-2.4+6.0表2.在MPII上执行人体姿势估计的下游任务↑表示值越大，性能越好M固定特征提取器微调取决(a)Simplified（背景）（b）PrCL（背景）（c）Simplified（数字）（d）PrCL（数字）图4.在Colorful-Moving-MNIST数据集上使用不同方法学习的潜在特征的可视化左边两个图的颜色对应于背景对象标签，右边两个图的颜色对应于数字标签。分类。表4显示了对比学习基线仅学习背景分类任务并且不能学习与数字分类相关的表示。这表明与背景ETRIC头↑肩↑肘↑手腕↑臀部↑膝关节↑脚踝↑PCKh↑SimCLR78.474.656.745.261.851.347.160.8Moco79.275.157.445.962.452.047.661.4中共78.074.356.044.861.251.446.560.3BYOL79.175.057.146.062.452.247.761.4PrCL（我们的）85.778.861.751.364.455.649.265.1一.任命+6.5+3.7+4.3+5.3+2.0+3.4+1.5+3.7SimCLR96.294.787.381.287.581.077.287.1Moco95.994.787.581.687.481.776.987.2中共96.094.587.081.187.380.877.087.0BYOL96.294.887.581.487.681.577.087.2PrCL（我们的）96.394.988.182.387.982.877.887.8一.任命+0.1+0.1+0.6+0.7+0.3+1.1+0.6+0.61418表3. FairFace上不同无监督学习方法的性能。这些模型在年龄、性别和种族分类的下游任务上进行评估。表4.不同无监督方法下Colorful-Moving-MNIST的性能在数字分类和背景对象分类的下游任务上对模型进行评估。防止对比学习捕获数字相关特征。请注意，对比学习和监督学习之间的数字分类性能差距非常大（准确率为15%，而监督学习为15%）。93%）。这比我们在FairFace上看到的差距要大得多，因为与数字和背景相关的信息是完全独立的，而与种族，年龄和性别相关的特征有明显的重叠。相比之下，PrCL学习的表示在背景和数字分类上都达到了非常好的准确性。图4提供了Simplified和PrCL学习特性的t-SNE可视化[44]。为了清晰的可视化，当为背景生成t-SNE时，我们从相同的数字类中选择样本，并且当为数字生成t-SNE 时，我们从相同的背景类中选择样本。对于Simplified和我们的方法都是如此该图显示了预测学习如何补充对比学习。比较图4（c）和图4（d）可以发现，PrCL最后，我们在Colorful-Moving- MNIST上使用不同的特征维度512和1024运行 Simplified和PrCL，如表5所示这些结果表明，Simplified的性能不会随着尺寸的增大而改变事实上，从我们的理论分析中可以看到相同的结果，这证明了当增加特征维数时，对比学习经历了许多局部最小值，这些局部最小值对应于低维的所有全局最小值，这些局部最小值往往会抑制特征，而PrCL可以逃离这些局部最小值。表5.在不同的无监督方法下，不同特征维度的Colorful-Moving-MNIST的性能。特性DIGIT CLSBKGD CLS的方法DIMENSIONACC. （%）CC。（%）SimCLR51216.048.4102415.848.6PrCL51288.146.3102488.246.56. 结论局限性在本文中，我们介绍了预测对比学习（PrCL），一种新的框架，使无监督对比学习更强大，并允许它保留有用的信息，在特征抑制的存在。从理论上分析了对比学习易受特征抑制的原因，指出预测损失有助于避免特征抑制，保护有用信息。在各种数据集和任务上的大量实证结果表明，PrCL在解决特征抑制问题方面是有效的。特征抑制问题比较复杂;并且，虽然PrCL提供了对当前SOTA的重要改进，但是它具有一些局限性。首先，PrCL看到一些性能下降，增加较少然而，其次，PrCL试图抽象和保存输入中的信息，但这些信息中的一些可能是不必要的或与下游感兴趣的任务无关然而，尽管存在这些限制，我们相信PrCL为使自我监督学习更加稳健和提供更丰富的自我监督表示提供了重要的一步，支持多属性分类，并在不同的任务中很好地泛化。METRICAGE CLS一个CC。（%）GENDER CLS一个CC。（%）ETHN。CLS一个CC。（%）METRICD IGIT CLS一个CC。（%）BKGD CLS一个CC。（%）SimCLR43.978.161.7固定特征提取器MoCoCPCBYOL44.543.544.378.676.278.661.961.062.3PrCL（我们的）50.087.261.2一、改进+5.7+8.6-1.1SimCLR14.947.3固定特征提取器MoCoCPCBYOL15.715.815.548.535.249.0PrCL（我们的）88.346.5一、改进+72.5-2.5SimCLR54.391.169.1Moco54.791.369.2FINE-中共54.291.068.8调谐BYOL54.691.569.3PrCL（我们的）55.392.369.0一、改进+0.6+0.8-0.3SimCLR92.454.8Moco92.754.9FINE-中共92.354.7调谐BYOL92.754.9PrCL（我们的）93.354.7一、改进+0.6-0.2S被忽视关于GE55.578.845.1S被忽视关于性别43.392.545.4S被忽视在ETHN上。42.176.869.4S被忽视关于LL54.891.968.8S被忽视关于DIGIT96.111.4S被忽视关于BKGD12.956.7数字BKGD上的SUPERVISED93.054.51419引用[1] Mykhaylo Andriluka，Leonid Pishchulin，Peter Gehler，and Bernt Schiele. 2D人体姿态估计：新的基准和最先进的分析。在 Proceedings of the IEEE Conference oncomputer Vision and Pattern Recognition，第3686-3693页[2] PhilipBachman ， RDevonHjelm ， andWilliamBuchwalter.通过最大化跨视图的互信息来学习表示。arXiv预印本arXiv：1906.00910，2019。[3] Mathilde Caron ， Ishan Misra ， Julien Mairal ， PriyaGoyal，Piotr Bojanowski，and Armand Joulin.无监督学习视觉特征对比聚类分配。 arXiv 预印本 arXiv ：2006.09882，2020。[4] Huiwen Chang ， Han Zhang ， Lu Jiang ， Ce Liu ， andWilliam T Freeman.Maskgit ：屏蔽的生成图像Transformer。在IEEE/CVF计算机视觉和模式识别集，第11315[5] 陈婷，西蒙·科恩布里斯，穆罕默德·诺鲁齐，和葛offreyHinton.视觉表征对比学习的一个简单框架。arXiv预印本arXiv：2002.05709，2020。[6] Ting Chen ， Simon Kornblith ， Kevin Swersky ，Mohammad Norouzi，and Geoffrey E Hinton.大型自监督模型是强半监督学习器。神经信息处理系统的进展，33，2020。[7] 陈婷和李拉拉。对比损失的有趣特性。arXiv预印本arXiv：2011.02803，2020。[8] Xinlei Chen，Haoqi Fan，Ross Girshick，and KaimingHe. 改进的动量对比学习基线 arXiv 预印本 arXiv ：2003.04297，2020。[9] Xinlei Chen，Kaiming He.探索简单的连体表征学习。arXiv预印本arXiv：2011.10566，2020。[10] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei.Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议，第248-255页。Ieee，2009年。[11] Jonas Dippel，Steffen Vogler，and Johannes Höhne.将对比学习与图像重建和注意力加权池相结合，实现细粒度的视觉表示arXiv预印本arXiv：2104.04323，2021。[12] Carl Doersch、Abhinav Gupta和Alexei A Efros。通过上下文预测的非监督视觉表示学习在Proceedings of theIEEE international conference on computer vision，pages1422[13] Lijie Fan ， Wenbing Huang ， Chuang Gan ， StefanoErmon，Boqing Gong，and Junzhou Huang.用于视频理解的运动表示的端到端学习。在IEEE计算机视觉和模式识别会议论文集中，第6016-6025页，2018年[14] 范立杰，黄文兵，甘闯，黄俊州，龚伯庆。可控的图像到视频转换：脸部表情产生之案例研究。在AAAI人工智能会议论文集，第33卷，第3510-3517页[15] Lijie Fan ， Tianhong Li ， Rongyao Fang ， RumenHristov，Yuan Yuan，and Dina Katabi.学习长期表示法，使用无线电信号重新识别人员在IEEE/CVF计算机视觉和模式识别会议论文集，第10699-10709页[16] Lijie Fan，Tianhong Li，Yuan Yuan，and Dina Katabi.使用无线电信号的家庭日常生活字幕arXiv预印本arXiv：2008.10966，2020。[17] Lijie Fan，Sijia Liu，Pin-Yu Chen，Gaoyuan Zhang，andChuang Gan.从预训练到微调，对比学习什么时候能保持神经信息处理系统的进展，34：21480[18] Lijie Fan，Shengjia Zhao，and Stefano Ermon.对抗定位网络。在有限标记数据的学习中：弱监管和超越，NIPS研讨会，第2卷，2017年。[19] RobertGeirhos ， Jörn-HenrikJ

下载后可阅读完整内容，剩余1页未读，立即下载