对比学习在编码器-解码器结构中的应用及其有效性

17 浏览量更新于2023-10-15 收藏 625KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1531基于对比学习的莫神通1，孙准2，*，赵黎31卡内基梅隆大学，2东北大学3日本理化学研究所高级情报研究中心（AIP）shentonm@andrew.cmu.edu zhunsun@gmail.com chao.li @ riken.jp摘要对比学习在图像分类和生成中显示了其有效性。最近的工作将对比学习应用到生成式广告网络的学习中。然而，很少有工作探索，如果对比学习可以应用到编码器-解码器结构，学习解开表示。在这项工作中，我们提出了一种简单而有效的方法，通过将对比学习融入潜在优化，我们将其命名为ContraLORD。具体来说，我们首先使用一个生成器来学习通过潜在优化的歧视性和解开嵌入。然后，一个编码器和两个动量编码器被应用于动态地学习在大量样本中的内容级和剩余级对比损失的解纠缠信息。同时，我们以分期偿还的方式用学习到的嵌入来调整编码器。我们评估了我们的方法在十个基准上关于代表性的纠缠和线性分类。大量的实验证明了我们的ContraLORD学习的有效性，ING歧视和生成表示。1. 介绍近年来，图像因素的解纠缠引起了众多研究者的关注，主要包括两个方面：对抗性和非对抗性方法。对抗方法[33，11，18，39，15]通常应用最小-最大优化框架[16]来解开图像，这在超参数调整上花费了很多时间。在非对抗性模型方面，已经提出了几种变分自编码器[20，23]变体，以无诱导偏差的无监督方式分离生成因子，这并没有达到令人满意的结果，如实证研究[31]所证明的那样。*通讯作者。通过额外的类监督，半监督方法在解纠缠方面取得了令人满意的性能。通常，[32]中的综合实验验证了最先进的无监督解纠缠模型中有限数量监督LORD [14]在内容嵌入上应用了带有噪声调节器的潜在优化框架，以实现优于摊销推理的性能。基于LORD，Over-LORD [15]提出了将图像翻译中的类、相关和不相关属性进行最近的工作[13]采用了预训练的CLIP [38]模型来生成用于图像操作的部分注释。然而，这些方法中存在两个主要缺点：1）对于不同的因素使用不同的单独编码器对于现实世界的应用是资源浪费的，并且需要昂贵的人工设计。2)仅仅学习每个样本中的内容嵌入不足以学习数据集中的多样性表现。由于上述缺点，我们提出了一种简单而有效的方法，名为ContraLORD，其中我们将对比学习纳入潜在优化中，以实现表示解纠缠。最近的作品[10，37]将对比学习应用于GAN的扩展[16]以解开表示。通常，[10]中的3D模仿-对比学习用于通过比较生成的图像对来生成可控制的面部图像。然而，在这项工作中，我们专注于将对比学习应用于编码器，以学习具有解纠缠信息的区分性和生成性嵌入。具体来说，我们首先应用生成器通过潜在优化来学习判别式和生成式嵌入。然后，我们应用一个编码器和一个动量编码器来动态地学习大量样本中的解纠缠信息，这些样本具有内容级和残差级的对比度损失。同时，我们使用学习的判别式和生成式嵌入以摊销的方式调整编码器。我们在两个主要任务上评估我们的ContraLORD：线性分类和解纠缠。大量的实验1532{···}∈{···}X展示了学习的判别嵌入在线性分类上的有效性和生成嵌入在因子解纠缠上的有效性。我们对三个线性分类基准和七个解纠缠基准进行了深入研究，以研究对比自监督模型是否与此同时，与基线相比，我们在线性分类方面取得了优异的性能。我们的Con-traLORD在解缠方面也取得了比最先进的方法更有希望的结果。这项工作的主要贡献可概括如下：• 我们提出了一个简单而有效的方法称为ContraLORD，通过将对比学习到潜在的优化表示解纠缠和线性分类。• 我们正式探索了大量样本的内容级和残留级对比损失的解开功能。• 在十个基准上的大量实验表明，我们的方法来学习解纠缠表示的2. 相关工作辨别性表征学习。由于区分性表征对图像分类的重要性，区分性表征学习一直是研究者关注的焦点。大多数的经典作品都采用监督[28]和无监督学习[21，46，47，45]来学习数据集中类之间最具区分力的嵌入通常，最大编码率降低的原则[44]被应用于最大化整个数据集与每个单独类别之和之间的编码率差异。然而，在前训练阶段，很少有对比学习的工作来探索在这项工作中，我们主要集中在学习线性分类的判别嵌入，通过将对比学习纳入潜在的优化，以提高基线的性能解纠缠表征学习。解纠缠表示学习旨在学习数据集中存在的生成因子，即解纠缠学习。以前的一系列工作集中在使用变分自编码器的无监督学习上，例如β-VAE [20]，Factor-VAE [23]。在这些工作之后，DCI解缠 [12] 、 SAP 评分 [26] 和互信息差距（ MutualInformation Gap，缩写为WGG）[3]通常被用作定量指标来衡量解缠表示的质量。近年来，半监督模型在文献中得到了广泛的应用。添加有限数量的苏-在[32]中证明了对无监督模型的透视在学习真实世界场景的解纠缠表示方面是有效的。LORD [14]利用潜在优化框架和噪声正则化器对内容嵌入进行分类和内容分离。最近，在OverLORD [15]中使用了一个简单的框架来解开标记和未标记属性，以进行高保真图像合成。一项研究[13]使用CLIP [38]预训练模型来注释一组属性以进行解纠缠图像操作。在这项工作中，我们打算通过结合潜在优化和对比自监督学习来学习分解的嵌入。对比学习近年来，对比自监督学习[41，4，5，17，19，6，2，7，29，43，35，36]已经通过许多有效的方法进行了大量的探索。Sim-10 [4]是一种端到端的结构，提出将每个实例的特征从训练集中的所有其他实例的特征中提取出来。在自监督设置中，低级别的图像变换，如裁剪，缩放和颜色抖动用于编码来自样本的InfoNCE损失，即归一化的温度缩放交叉熵损失，通常被优化以最大化正样本之间的相似性并最小化负样本之间的相似性。在这种端到端结构中，总是使用大批量[4，5]，以在对比损失中积累大量负样本。没有大批量大小的PIRL [34]应用内存库来存储负样本并在指定阶段更新MoCo [19]和MoCov2 [6]用存储器编码器替换存储器组，以将新的批次样本排队并将最旧的批次出队。在这项工作中，我们利用内容级和残差级动量编码器来存储一个负样本队列，其中包含用于学习生成嵌入的非纠缠信息，其中内容级和残差级对比损失被应用于捕获内容和残差表示。3. 方法3.1. 问题设置在这一部分中，我们首先从问题设置开始，并为便于阅读而定义符号。关于这个问题，我们的目标是揭开对比自监督学习所学到的解开和区分特征的神秘面纱。为了解决这个问题，我们提出了一个简单而有效的方法，通过结合对比学习和潜在的优化表示解开。为了更好地解释它，我们以统一的方式定义下面的符号。符号。给出一组训练实例=x1，x2，，Xn。对于每个图像xi，i一二，n，我们需要从嵌入的预定义集合中学习一个判别嵌入d和一个生成嵌入gi。1533∈∈联系我们··n·Σ˜˜˜˜˜·钥匙钥匙我·˜M··←·−·∈我我f（xi），hcf（xi），hrf（xi），我我GGR12KKK查询Q从查询样本xi.然后我们计算原始内容嵌入gc与gc，gc我真实图像的视觉损失。 λ是惩罚权重，Q我通过这种方式，我们可以学习解纠缠嵌入Gi（五）rr2关于我们我我我QK丁格1，格2，其中m表示训练数据中生成因子的总数。也就是说，diR1×d，giR1×g，其中d，g分别表示判别嵌入和生成嵌入的维数在我们的设置中，我们将生成嵌入gi分成两部分：内容嵌入gc和残差嵌入gr。为了优化编码器f（），我们用f（）的输出嵌入重建原始图像xi，损失函数计算为Σ。 . .Σ。Σ。Σ Σ Σ内容嵌入包含与鉴别嵌入相关的信息，而残差嵌入则包含与鉴别嵌入相关的信息。i=1G g（三）Ding包括不相关的信息。总的来说，我们的工作目标是学习di，gc，gr其中，VGG（·）表示合成数据的VGG2损失和真实图像的VGG感知损失。hd（·），hc（·），hr（·）表示对于来自训练数据集的每个图像xi未来第二部分介绍了该方法的技术细节。为了从一组训练示例中学习di，gc，gr，我们提供-用于生成区分的内容级别的头，以及剩余水平嵌入。在辨别和分解嵌入中学习更多的分解信息我我提出了一种简单而有效的方法，称为反主，如图1所示。我们的ContraLORD主要包括两个部分：1）嵌入优化：我们首先使用生成器G（）通过潜在优化来学习区分和分解嵌入。2)编码器预训练：我们将编码器f（·）和动量编码器fm（·）应用于动力学，dings，我们使用第一阶段学习的嵌入作为监督，并将目标定义为：nLsup=||hd（f（xi））−di||2+ #歧视i=1通过大量的数据，具有含量和残余水平对比损失的样品3.2. 嵌入优化||2 + #内容级别||2+#content-level||#剩余水平||#residual-levelGi学习辨别和分解嵌入-[14]我们的主，R（四）第一阶段的潜在优化具体地说，我们应用生成器G（）通过使用每个样本的鉴别和解纠缠嵌入来重建原始图像xi。代替在变化自动编码器[25]中使用KL发散，我们同样地将具有固定方差的高斯噪声的正则化器添加到残差嵌入gi。因此，嵌入优化的目标被定义为：ΣLopt=i=1其中di、gi、gi分别表示来自第一优化阶段的学习表示。内容级对比损失。要了解数据集中示例之间的更多分解内容嵌入，我们饲料一内容势头队列X得双曲余切值.、得双曲余切值.、得双曲余切值.的一查询采样x查询到动量编码器fm（）中。内容级对比学习的图示如图2（左）所示。可以看出，我们从动量队列生成内容嵌入gc， k ∈ {1，2，···，K}，并且gc（||GC||2个以上||Gr||2）#sparse reg.（一）用于内容级对比度损失。最后，内容层面对比损失定义为其中，VGG（·）表示合成数据的VGG2损失，L=i=1-日志exp（gc·gc/τ）我Qk=1我K解缠嵌入的能力。zσN（0，σ2I）。conexp（gc·gc/τ）+ΔKexp（gc·gc/τ）di，gc，gr而不涉及任何对抗学习，也就是说，其中，K表示负样本的数量，我我我我我Lopt动量队列τ是温度超参数。在后向过程中，我们更新了en的参数，d，gc，gr=argmin.（二）我我编码器f（·）根据该损失的梯度。这页-di，gc，gr对于带有注释的训练集，给出di3.3. 编码器预培训在学习了优化的嵌入之后，我们需要在预训练阶段训练一个广义编码器在nnℓLrec=G HDCR（G（di，gi，gi+zi）），xi）+#重建1534M动量编码器fc（）的参数由下式更新：fm（）mfm（）+（1m）f（），其中m（0，1]是动量系数。剩余水平对比损失。为了进一步分解后的嵌入中的剩余部分，我们引入了一个剩余动量编码器 fr（·）来接收1535KK∈{···}2·∈··←·−·-logexp（gr·ΣK图1.我们提出的ContraLORD模型的总体框架剩余动量排队并产生一组剩余嵌入Gr，k1，2，、K.因此，剩余水平对比损失用密钥嵌入gr定义，在实例对比学习中，并引入高斯势核[1]来计算平均成对高斯势为：查询嵌入gr，原始嵌入gr为QIsmothness=E（g，g）p[e-t||gi−gj||]的一种nr ri jc（八）2Δexp（gi·gq/τ）gr/τ）+exp（gr·gr/τ）+E（g，g）p[e−t||gi−gj||]的一种我JRi=1iqk=1ik其中p，p表示内容和残差的分布(6)CR其中，K表示负样本的数量，τ是一个温度超参数。该损失的梯度也用于更新编码器f（）的参数。我们通过fm（）mfm（）+（1m）f（）来更新动量编码器fm（）的参数，其中m（0，1]是动量系数。我们的ContraLORD的总体目标是优化的以端到端的方式，L=（Lrec+Lsup）+λcon·Lcon+λres·Lres（7）其中λcon、λres分别表示内容级对比损失和剩余级对比损失的权重。我们将它们默认设置为1。进行了广泛的消融研究，以探索每次损失对我们的ContraLORD最终性能的影响。我们在算法1中总结了我们的训练方法的整体算法。3.4. 嵌入的光滑度为了衡量编码器预训练的嵌入的平滑性，我们借用了均匀性的思想嵌入在超球，和t是一个积极的因素，定义嵌入gi和gj之间的距离的权重。在我们的实验中，我们遵循以前的工作[42]并设置t=2。4. 实验4.1. 数据集根据以前的方法[19，4]，我们在三个广泛使用的基准测试中评估了由我们的ContraLORD预训练的编码器的线性分类，包括CIFAR-10，CIFAR 100，ImageNet-100 [9，41]。在解缠结方面[14，15]，我们评估了四种合成材料上的解缠结包埋：Shapes3D [23]，Cars3D[40]，dSprites [20]，SmallNorb [27];三个真实的数据集：[22]第30话，我是你的朋友！具体来说，Shapes3D [23]包含4个形状，8个尺度，15种方向，10种地板颜色，10种墙壁颜色和10种物体颜色。Cars3D包括183个汽车CAD模型，具有24个不同的方位角方向和4个仰角，其中163个区别性嵌入DG1生成嵌入G+发生器2X1x2xnN（0，Gn嵌入优化编码器预培训…X1X编码器…Xn……………………Lres=1536·M···MM我我M∈{···}我我·····梯度g（内容级对比度损失相似性（（一）（（梯度Gr剩余电平对比损失相似性grgrgr.qg）g*g+q）* +k内容头分享内容头编码器内容妈妈编码器恩图姆恩剩余水头分享剩余水头编码器残余妈妈编码器恩图姆恩xqu$rxk$&xqu$r&xk$&我我我…$xk #$xk #$xk #$xk#$xk#$xk#$xk#$xk#$xk#$$ xk#$12&4（1）2&4（内容动量队列图2.内容级（左）和剩余级（右）对比学习设计在我们的ContraLORD。算法1ContraLORD主学习算法输入：发生器G（·）、编码器f（·）、动量编码器 fc（·）、fr（·）、磁头hd（·）、hg（·）。1：初始化参数G（·）、f（·）、fc（·）、fr（·）、hd（·），32个位置。SmallNorb [27]由50个玩具组成，通用类、6种照明条件、9种仰角和18种方位角。CelebA [30]包括10，177位名人，总共202，599张图像，其中我们使用9，177张图像进行训练hg（·），M m和1,000张图片进行测试 AFHQ [8]是一张动物脸2：初始化嵌入di，gc，gr，i1，2，.，n第三章： #嵌入优化第四章：对于每一个epoch，5：应用G（）重建原始图像6：计算等式中的优化损失17：更新di、gc、gr第八章：端第九章： #编码器预训练十：对于每一个epoch，图11：应用f（），hd（），hg（）来重建原始图像，并计算等式中的损失。3图12：应用嵌入di，gi作为监督，并计算公式中的损失。413：应用f（·）、f c（·）来编码内容特征gc、gc该数据集包含15，000张高质量图像，分为三类：猫，狗和野生动物。CelebA-HQ [22]包含来自CelebA的30，000张高质量图像，性别为类，面具用于发型解开。为了公平比较，我们遵循与先前工作相同的设置在嵌入优化过程中，我们设置 d=256 ， g=128 ，K=12800，λ=0.001。生成器由Adam [24]优化器优化，学习率为0.0001。我们以0.001的学习率训练编码器。对于正则化高斯噪声，我们设置σ=1。对于编码器预训练，我们密切关注MoCo [19]并使用相同的数据增强。此数据扩充包括RandomResizedCrop、RandomGrayscale和RandomHorizontalFlip 。对于编码器网络，我们执行-M并计算损失，如等式。514：将f（·）、fr（·）应用于残差特征gr、grQK和实验与常用的编码器架构，ResNet-50. 我们以200个批次的256个批次训练系统M计算损失，如等式615：计算公式中的总损失。7QK控制培训中求进工作总在ImageNet-100基准测试16：更新f（），hd（），hg（）的参数17：更新fc（），fr（）的动量参数18：更新内容和剩余动量队列19：结束输出：f（·），hd（·），hg（·）模型用于训练，20个用于测试。dSprites [20]包含3种形状，6种尺度，40种方向，32个x位置，对于120 k图像，我们在第一阶段有52小时，在第二阶段有71小时，使用8个V100- 32 G GPU。4.2. 评估指标对于评估指标，我们使用top-1和top-5精度进行线性分类。在评估去纠缠嵌入方面，我们使用文献中三个主要使用的指标： [12][13][14][15][16][17][18][19][1DCI测量解纠缠、完整性和信息-1537表1.比较CIFAR-10、CIFAR-100、ImageNet-100和TinyImageNet-200数据集上的线性分类结果数据集方法架构。时代Top-1 Top-5MoCo ResNet-50 200 93.30 99.85CIFAR-10CIFAR-100ImageNet-100Simplified ResNet-50 200 92.00 99.81Lord ResNet-50 200 85.13 96.22超级领主ResNet-50 200 91.62 98.61ContraLORD（我们的）ResNet-50 20094.01 99.89MoCo ResNet-50 200 71.70 90.23Simplified ResNet-50 200 71.58 90.11Lord ResNet-50 200 63.32 87.05超级领主ResNet-50 200 69.96 89.53ContraLORD（我们的）ResNet-50 20072.67 90.97CMC ResNet-50 200 66.20 88.75MoCo ResNet-50 200 72.80 91.04Lord ResNet-50 200 67.32 89.26超级领主ResNet-50 200 70.16 90.45ContraLORD（我们的）ResNet-50 20076.23 92.52表2.Shapes3D、Cars3D、dSprites和SmallNorb数据集上的解纠缠性能数据集方法D（↑）C（↑）I（↑）SAP（↑）平滑度（↑）Locatelloet al.0.030.030.220.01Shapes3D汽车3D精灵SmallNorb0.54 0.54 0.15 0.43 0.48Gabbay等人1.001.001.000.300.960.82ContraLORD（我们的）1.00 1.00 1.00 0.42 1.00 0.96Locatello等人0.110.170.220.060.26 0.48 0.36 0.13 0.20 0.27Gabbay等人0.560.150.350.33ContraLORD（我们的）0.51 0.56 0.71 0.25 0.41 0.45Locatello等人0.010.010.160.010.010.120.16 0.17 0.43 0.03 0.06 0.18Gabbay等人0.680.130.480.52ContraLORD（我们的）0.85 0.84 0.79 0.24 0.62 0.67Locatello等人0.020.080.180.010.01 0.03 0.30 0.01 0.02Gabbay等人0.270.390.450.140.27ContraLORD（我们的）0.36 0.51 0.56 0.26 0.42 0.48生成嵌入的有效性。SAP分数是指一个单独的属性可预测性分数，它仅在一个未纠缠的维度中捕获一个生成因子。互信息差是计算具有最高互信息的前两个潜在因素之间的差异的互信息差。同时，我们遵循以前的工作 [14 ， 15] 并在 FID 和 LPIPS 上评估我们的ContraLORD。FID测量如何将解纠缠的嵌入转换到目标域，而LPIPS用于根据感知相似性来计算所传输的内容嵌入的质量。4.3. 实验结果在这一部分中，我们进行了大量的实验来评估我们的ContraLORD学习到的区分和解开的嵌入，这证明了我们的方法相对于以前的工作[14，15]的优势，通过内容级别和剩余级别的对比损失来学习区分和解开的表征。判别嵌入的评价。我们评估了线性分类的判别嵌入的质量具体来说，我们在各种自监督方法的冻结特征上训练线性模型，并在表1中报告实验结果。我们的ContraLORD在顶级方面大大优于基线[14，15]1538LLLLLL L LL表3.CelebA、AFHQ和CelebA-HQ数据集上的解纠缠性能方法ID（CelebA AFHQ CelebA-HQ↑）Exp（↓）Pose（↓）FID（↓）LPIPS（↑）FID（F2M，↓）FID（M2F，↓）耶和华0.48 3.23.597.10--霸王0.632.72.516.50.5154.042.9ContraLORD（我们的）0.612.62.315.80.5354.242.6表4.对每种损失的影响进行消融研究LrecLsupLconLresD（↑）C（↑）I（↑）SAP（↑）平滑度（↑）✗✗✗0.02 0.010.13 0.010.010.09✓✗✗0.26 0.290.31 0.080.150.22✓✓✗价格 0.54 0.540.54 0.150.420.48✓✓✓0.91 0.890.88 0.370.850.75✓✓✓✓一点一点1.00 0.421.000.961和前5名的准确性在所有基准。特别是，我们实现了8.88%，9.35%，8.91%的Lord [14]的性能增益。同时，我们使用更高维度的类嵌入超越了并发工作[15]这证明了我们的ContraLORD将内容级和剩余级对比学习纳入潜在优化的优越性此外，我们的ContraLORD优于纯对比自监督方法[19，4]，这也验证了潜在优化在学习更广义和区分嵌入以进行线性分类方面的有效性。解缠包埋的评价。在实验工作[14，15]之后，我们在四个合成数据集上评估了具有100个标签的解纠缠嵌入的解纠缠性能。表2报告了比较结果。可以看出，我们的ContraLORD在所有指标方面仍然优于现有方法，包括DCI，SAP和P2P。这表明，我们的ContraLORD与内容级和剩余级对比损失优于学习更多的解纠缠嵌入中的解纠缠信息。同时，我们遵循OverLORD [15]中的设置，并在表3中的三个真实基准上进行实验。我们可以观察到，我们的Con-traLORD在7个评估指标中的5个方面实现了最佳性能。对于其他两个指标，与Over-LORD [15]相比，我们仍然获得了相当的结果。这些结果进一步验证了我们的ContraLORD在学习具有更多解纠缠信息的解纠缠内容和剩余嵌入的平滑度。我们同时测量内容的平滑度得分，以及由编码器预训练的残差嵌入，并在表2的最后一列中报告结果我们可以观察到，我们的ContraLORD在平滑度得分方面在所有四个基准上都大大优于现有方法（0.14，0.12，0.15，0.19），这表明了优势我们的ContraLORD学习解开嵌入，更均匀地分布在超球体上。同时，我们的平滑度得分与先前的解纠缠度量正相关。这证明了学习解纠缠信息的均匀分布嵌入对于解纠缠表示的有效性。5. 消融研究在本节中，我们将执行全面消融研究到探索的效果的每个损失（rec，sup，con，res）、批量大小和阴性样品数量（K）对我们的对照组最终性能的影响。除非另有说明，否则我们在Shapes3D数据集上进行所有消融研究。每一个损失的影响。为了探索每个提出的损失如何影响我们的方法的最终性能，我们在最终损失上烧蚀每个模块，并在表4中显示解纠缠结果。在编码器预训练阶段没有四个损失，我们实现了最差的性能。仅将sup添加到rec会使结果增加0.24、0.28、0.18、0.07、0.14和0.13。通过将con与sup和rec相结合，我们实现了0.37、0.35、0.34、0.22、0.43和0.27的性能增益。这些结果证明了我们的内容级和剩余级损失在学习解纠缠嵌入中的有效性。最后，我们的ContraLORD在所有损失的情况下，在所有解纠缠指标和平滑度得分方面都达到了最佳性能，这验证了学习解纠缠时每个损失的合理性灰色表达。批量的影响。表5报告了批量的探索研究结果。具体来说，我们在编码器预训练阶段改变批大小，从16、32、64、128、256、512。从结果中，我们可以观察到，当批量大小为512时，我们的方法执行得最好由于批量较小，仅为256，我们的ContraLORD没有1539表5.熔池尺寸影响的烧蚀研究批量D（↑）C（↑）I（↑）SAP（↑）平滑度（↑）32 0.82 0.81 0.79 0.360.82 0.72640.890.870.860.380.880.791280.930.910.910.390.910.852561.001.001.000.421.000.965121.001.001.000.451.000.9710240.990.980.980.410.990.93表6.阴性样本数量的消融研究KD（↑）C（↑）I（↑）SAP（↑）平滑度（↑）1600 0.62 0.630.61 0.26 0.61 0.52SAP评分和平滑度评分方面的性能大幅下降（0.03，0.01）。设置批量大小时到32时，我们的方法有明显的性能下降，这表明合适的批量大小在我们的含量水平和残留水平对比损失中的重要性，通过在同一批次中引入阴性样品。当我们将批次大小增加到1024时，我们的方法在所有解缠结指标和平滑度评分上的性能由于同一批次中过多阴性样品的混淆而恶化。阴性样本的影响。为了探索阴性样本对我们的ContraLORD最终性能的影响，我们将阴性样本的数量从1600、3200、6400、12800、25600、51200变化为内容和剩余动量队列。我们在表6中显示了实验结果。可以看出，随着动量队列中负样本数量的增加，我们的ContraLORD在所有指标方面都取得了更好的性能。然而，太多的阴性样本，即、大量的负样本降低了我们的方法的性能，因为内容级和剩余级对比损失难以区分具有许多负样本的动量队列中的硬这进一步证明了负样本在学习具有分解信息的生成嵌入中的重要性6. 结论摘要在这项工作中，我们提出了一个简单而有效的方法，通过将对比学习到潜在的优化表示disentanglement。具体来说，我们首先使用一个生成器来学习通过潜在的op-最小化然后，一个编码器和两个动量编码器被应用于动态学习解开的信息，在大量的样本与内容级和残留级的对比损失。最后，我们调整的编码器与学习的嵌入在摊销的方式。我们在十个基准上进行了广泛的实验，以证明我们的ContraLORD学习- ING解开表示的有效性全面的消融研究也验证了我们的方法中提出的每个对比损失的合理性。我们还从经验上观察了大量样本中的负样本在学习具有分离信息的生成嵌入中的重要性。局限性。在这项工作中，我们观察到性能改善，而无需微调方程中的损失权重λcon和λres。7（即我们对两个损失项都使用1.0）。因此，目前尚不清楚对比学习方法将如何影响基线解缠模型。我们推测，对比度损失不仅提高了编码器在不可见图像中的泛化能力，而且有助于发现训练数据中的解纠缠因子。我们将在今后的工作中继续研究这一主题。边境影响。在实践中效果良好的表示解纠缠和对比学习的组合有助于在许多下游视觉任务中学习有用的特征表示。特别是，我们提出的方法在用于更大的数据集（如ImageNet）时显示出良好的可扩展性，这有助于对更复杂的真实世界数据进行分析。确认这项工作得到了JSPS KAKENHI的部分支持（批准号：20H04249、20H04208）和国家自然科学基金（批准号：62006045）。32000.81 0.790.770.330.790.6864000.88 0.860.870.370.870.7712800一点一点1.000.421.000.96256000.96 0.950.950.410.950.89512000.87 0.850.850.360.860.751540引用[1] 阿尔伯特湾巴特·奥克和加博尔·克思·安·伊。高斯近似势：一个简短的教程介绍。 arXiv 预印本 arXiv ：1502.01366，2015。[2] Mathilde Caron ， Ishan Misra ， Julien Mairal ， PriyaGoyal，Piotr Bojanowski，and Armand Joulin.通过对比聚类分配的视觉特征的无监督学习。神经信息处理系统进展（NeurIPS），2020年。[3] 瑞奇 ·TQ. Chen ， Xuechen Li ， Roger B Grosse ， andDavid K Duvenaud.分离变量自动编码器中的解纠缠源。在神经信息处理系统进展（NeurIPS）的论文集，2018年。[4] 陈婷，西蒙·科恩布里斯，穆罕默德·诺鲁齐，和葛offrey Hinton.视觉表征对比学习的一个简单框架。在2020年国际机器学习会议（ICML）上[5] Ting Chen ， Simon Kornblith ， Kevin Swersky ，Mohammad Norouzi，and Geoffrey Hinton.大型自监督模型是强半监督学习器。在神经信息处理系统（NeurIPS）的进展，2020年。[6] Xinlei Chen，Haoqi Fan，Ross Girshick，and KaimingHe.通过动量对比学习改进基线。arXiv预印本arXiv：2003.04297，2020。[7] Xinlei Chen，Kaiming He.探索简单的连体表示学习。在IEEE/CVF计算机视觉和模式识别会议，2021年。[8] Yunjey Choi，Youngjung Uh，Jaejun Yoo，Jung-WooHa.Stargan v2：多领域的多样化图像合成。在IEEE计算机视觉和模式识别会议（CVPR）的会议记录中，2020年。[9] 邓佳，魏东，理查德·索赫尔，李佳。李，李凯，李飞飞。ImageNet：一个大规模的分层图像数据库。在IEEE/CVF计算机视觉和模式识别会议（CVPR）论文集，第248- 255页[10] 邓宇，杨蛟龙，陈冬，方文，童欣。三维模拟对比学习之解纠缠与可控人脸影像产生。2020年。[11] 艾米莉湖丹顿和维格纳什·比罗德卡从视频中分离表示的无监督学习。在神经信息处理系统（NeurIPS）的进展，2017年。[12] 作者声明：Christopher K. I.威廉姆斯解纠缠表示的定量评价框架。在2018年国际学习表征会议（ICLR）上[13] Aviv Gabbay，Niv Cohen，and Yedid Hoshen.一张图片胜过千言万语：在野外解开纠缠。在神经信息处理系统进展（NeurIPS），2021。[14] Aviv Gabbay和Yedid Hoshen。揭秘阶级间的分离。国际学习表征会议论文集（ICLR），2020年。[15] Aviv Gabbay和Yedid Hoshen。用于图像翻译的按比例放大解缠。在2021年国际计算机视觉会议（ICCV）的会议记录中[16] Ian J. Goodfellow，Jean Pouget-Abadie，Mehdi Mirza，Bing Xu，David Warde-Farley，Sherjil Ozair，Aaron C.Courville和Yoshua Bengio。生成性对抗网。神经信息处理系统进展（NeurIPS），2014年。[17] Jean-BastienGrill ， FlorianStrub ， FlorentAltche´ ，CorentinTallec，Pierre Richemond，Elena Buchatskaya，Carl Doersch ， Bernardo Avila Pires ， Zhaohan Guo ，Mohammad Ghesh- laghi Azar ， Bilal Piot ， koraykavukcuoglu，Remi Munos，and Michal Valko.BootstrapYour Own Latent --自我监督学习的新方法神经信息处理系统进展（NeurIPS），2020年。[18] Naama Hadad Lior Wolf和Shimon Shahar两步解缠法。第772-780页[19] Kaiming He，Haoqi Fan，Yuxin Wu，Saining Xie，andRoss Girshick.用于无监督视觉表示学习的动量对比在IEEE/CVF计算机视觉和模式识别会议（CVPR）的会议记录中，第9729-9738页[20] Irina Higgins，Lo c Matthey，Arka P.放大图片创作者：Michael M.波特维尼克，沙基尔·莫哈米德，亚历山大·勒施纳。beta-vae：使用受约束的变分框架学习基本视觉概念在2017年国际学习代表会议（ICLR）的会议记录中[21] Pan Ji ， TongZhang ， HongdongLi ， MathieuSalzmann，and Ian Reid.深子空间聚类网络。神经信息处理系统进展（NeurIPS），2017年。[22] Tero Karras ， Timo Aila ， Samuli Laine ， and JaakkoLehtinen.GAN的逐步增长，以提高质量，稳定性和变化。在2018年国际学习表征会议（ICLR）上[23] Hyunjik Kim和Andriy Mnih。通过因子分解法解开。第35届国际机器学习会议（ICML），2018年。[24] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。[25] Diederik P. Kingma和Max Welling。自动编码变分贝叶斯。CoRR，abs/1312.6114，2014。[26] Abhishek Kumar ， Prasanna Sattigeri ， and AvinashBalakr- ishnan.从未标记观测解纠缠潜在概念的变分推理。国际学习表征会议（ICLR），2018年。[27] Y. LeCun、Fu Jie Huang和L.博图具有姿态和光照不变性的通用对象识别的学习方法。在计算机视觉和模式识别（CVPR）IEEE会议论文集，第II[28] Jose'Lezama，QiangQiu，PabloMuse'，andGuillermoSapiro. Ole'：正交低秩嵌入，即插即用的深度学习几何损失在Proceedings of the IEEE1541计算机视觉和模式识别会议（CVPR），第8109-8118页[29] Junnan Li，Pan Zhou，Caiming Xiong，and Steven Hoi.无监督表示的亲典型对比学习。在2021年国际学习表征会议（ICLR）上[30] Ziwei Liu ， Ping Luo ， Xiaogang Wang ， and XiaoouTang.在野外深度学习人脸属性。在2015年国际计算机视觉会议（ICCV）上发表。

下载后可阅读完整内容，剩余1页未读，立即下载