图像间翻译对比学习的语义关系一致性和解耦对比学习的应用

198 浏览量更新于2023-10-26 收藏 3.12MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

18260图像间翻译对比学习ChanyongJung 1Gihyun Kwon1Jong Chul Ye2， 1 KAIST金载哲人工智能研究生院生物与脑工程系1{jcy132，cyclomon，jong.ye} @ kaist.ac.kr摘要最近，已经提出了基于对比学习的图像平移方法，其对比不同的空间位置以增强空间对应性。然而，这些方法往往忽略了图像内部为了解决这个问题，在这里，我们提出了一种新的语义关系一致性（SRC）正则化以及解耦的对比学习，它利用不同的语义，专注于一个单一的图像的图像补丁之间的异构语义。为了进一步提高性能，我们提出了一种利用语义关系的硬否定挖掘。我们针对三个任务验证了我们的方法：单模态和多模态图像翻译，以及用于图像翻译的GAN压缩任务。实验结果证实了我们的方法在所有三个任务的最先进的性能。1. 介绍图像到图像翻译任务的主要目标之一是学习从源域到目标域的映射函数，使得其在转换类似于目标域的外观的通过转换图像的逆映射来加强输入图像和重建图像之间的一致性的循环一致性损失被广泛用于各种框架[8，14，19，36]。然而，它需要一个额外的生成器和学习逆映射。此外，[15，20，26]声称，循环一致性约束可能会由于其过度限制性约束而产生失真。因此，建议单侧图像平移方法通过以各种方式增强输入和输出之间的对应性来绕过循环一致性约束[1，4，9]。近年来，受对比学习成功的启发，CUT[20]首次将对比学习应用于最大化*共同第一作者。图1.提出的方法的概念解耦的对比学习形成嵌入。通过对不同语义关系进行一致性正则化，增强了输入输出之间的对应性。利用输入图像和输出图像相同位置之间的互信息。NEGCUT [26]的作者提出了一种使用负生成器生成的硬负样本的对比学习方法但是，该方法需要从随机向量中额外训练负样本生成器，不能保证其遵循真实的负样本分布，从而导致训练的不稳定性F-LSeSim [34]利用区块相似性图进行对比学习，但他们忽略了区块之间的语义关系，将所有否定区块视为相等的否定。在本文中，我们提出了一种新的对比学习方法，利用图像内的异构语义。具体地，如图1所示，关键思想是在相似性关系上施加一致性正则化，其在相似性关系期间保持空间语义关系18261∈ X ∈ YXY图像翻译任务。具体地说，我们捕获的补丁明智的语义关系与图像的分布相似性，并强制它被保存在图像翻译任务。这种语义正则化防止生成违反语义关系的图像伪影此外，我们提出了一个硬否定挖掘策略的基础上，空间变化的语义关系的图像补丁。该策略通过避免对具有不相关语义信息的“容易”否定样本进行采样，而更多地关注“困难”否定样本，从而进一步提高了性能使用单模态和多模态翻译任务和GAN压缩的实验结果证实，由于其利用语义关系的能力，我们的方法产生了最先进的（SOTA）性能。2. 相关作品2.1. 片面形象翻译为了取代循环一致性，许多片面的图像翻译方法利用了输入图像和翻译图像之间的关系知识和对应关系。例如，GcGAN [9]利用图像几何变换的一致性，DistanceGAN [4]对一组图像内的互信息施加一致性正则化。TraVeLGAN [1]中的方法保留了嵌入向量的算术最近提出了许多对比学习方法，以最大化输入和输出图像的相同位置之间的互信息[20，26，34]。然而，每种方法都有前面所述的主要缺点事实上，我们的方法被设计成通过利用如下所述的关系知识转移来克服现有工作的局限性。2.2. 关系型知识转移捕获数据之间的结构化相互依赖关系的关系知识对于知识蒸馏（KD）任务很有用[21，25，29，35]。特别地，学生模型还利用教师模型学习的样本间关系，因此以更有效的方式进行知识转移。已经提出了各种方法来捕获关系知识，例如角度和距离关系[21]，特征空间内的实例相关性[22]，对比关系[29]，通过网络学习特征和梯度的关系[35]等。因此，我们有兴趣利用语义关系知识来提高图像翻译任务的输入和输出由于许多复杂的KD方法转移了相关知识，以增强学生特征与教师特征，我们匹配语义关系知识，以增强图像翻译任务的输入特征和输出特征之间的对应性具体而言，我们的方法专注于图像块的异构语义属性，这在以前的作品中没有考虑到[20，34]。此外，与NEGCUT [26]相比，负样本是从“真实”数据分布中获得的，并且可以通过课程学习方案来2.3. 对比学习对比学习法是一种利用正负对之间的关系获得有用表征的学习框架。InfoNCE在许多以前的作品中被广泛用于对比学习[3，6，7，11，24]。最近，提出了各种方法来进一步提高性能。一种方法是通过von Mises-Fisher分布[23]，对抗训练[13]和学习对样本进行排名[27]，使用硬负面挖掘对信息性负面进行采样另一种方法是改善信息损失。例如，提出FlatNCE [5]以减轻由少量底片引起的退化。建议将去耦信息NCE损耗[31]作为负-正耦合（NPC）效应的补救措施，这导致FlatNCE的等效损耗函数。由于不应忽视否定词之间的语义关系而将否定词例如，CO2 [28]提出了正对的一致性PCL [17]利用EM算法对数据的语义结构进行编码。3. 主要贡献在自然图像中，来自不同位置的图像块具有异构的语义关系。例如，在图2中，一些斑块来自马，而另一些斑块表示与马无关的背景此外，即使是马的补丁也具有不同的语义信息，因为它们表示马的每个部分，例如头部和腿部。为了实现准确的图像翻译任务，必须考虑并保持图像间的各种语义关系.在下面的小节中，我们提出了我们的方法，利用由补丁明智的异构语义形成的关系知识。3.1. 语义关系分布设z k和w k表示图像块x k的嵌入向量Y K得双曲余切值.和分别是输入图像和平移输出图像。索引k指的是补丁位置。18262Σ∼K JKJ图2.面片间的异构语义关系。黑色的部分是查询，红色的部分是底片。来自马的补丁是语义相关的，但背景补丁不是。为了保持图像平移前后块之间的不同语义关系，我们通过Jensen-Shannon Divergence（JSD）[28]对所有K个采样向量的相似性关系进行一致性正则化KL SRC=JSD（P k||Q k）（3）k=1因此，（3）的最小化加强了不同语义关系的一致性。3.2. 基于语义关系的在本节中，我们将解释如何将语义关系用于硬否定挖掘。设计了硬否定挖掘的分布，并利用相似关系导出了关联.我们使用解耦的信息损耗（DCE）[31]进行分块对比损耗，以防止第3.3节中详细讨论的负-正耦合（NPC）效应。具体而言，对于给定的正对（z，w）pZW，使用具有N个负值和温度参数τ的DCE [31]的硬负对比损耗LhDCE定义为：LhDCE（γ，τ）=E−logexp（w图3.通过相似性分布的语义关系。（z，w）ZpZWNEz−qZ−[exp（w<$z−/τ）]（四）从对比学习是实例分类的角度来看[16，17，28，31]（即为阳性样本分配标签1，为阴性样本分配标签0），分布其中，负采样由von Mises-Fisher分布建模[23]：相似性可以被视为一个软标签，它揭示了样本之间的语义关系的结构[28，30]。我们捕捉的补丁明智的语义关系作为一个分布-z−<$qZ−（z−1;z，γ）=NQexp{γ（z<$z−）}pZ（z−）（5）的相似性，如图所示。3 .第三章。因此，对于输入图像的给定块xk，使用soft-max定义与负块xi其中Nq是归一化常数，γ是用于确定阴性样品硬度的超参数。P（i）=exp（zk<$zi）（一）kkexp（zz）其中zk和zi是相应的嵌入向量。然后，Pk（i）是用于捕获输入图像内的第i个位置和第k个位置块之间的语义接近度的分布。类似地，输出图像相似性关系的分布Qk（i）被定义为：Q（i）=exp（wk<$wi）（二）图4.基于语义关系的硬否定挖掘。颜色表示要采样的概率。kk经验（w/w）其中wi和wk是对应片的嵌入向量。因此，设计的分布qZ-为负数z-分配更高的采样概率，j=1j=118263Z--JK焕光JKKKJ-你好KKJ KJK更接近z，如图4所示。通过采用这种抽样策略，我们可以避免具体地，对于正对（zk，wk），DCE损耗被定义为：非常漂亮相反，通过允许对比机制-在正面和“硬”负面之间LDCE=−logexp（zk<$wk/τ）exp（zw/τ）（六）在实现方面，Ez−<$qexp（w<$z−/τ）用重要性抽样近似[23]：Ez−=Ez−pZpZ（z−）/τ）·zexp（w它去掉了分母中的正对项InfoNCE的损失：LInfoNCEexp（zk<$wk/τ）Σ⊤ −qZ−（z−）=−logexp（zw/τ）+exp（zw/τ）（7）=Nq−1Ez−pexp（w<$z−/τ）·exp{γ（z<$z−）}<$正如[31]中所讨论的，损失函数在（6）和（7）中，对比损失L的ΔkL被给出为：再次，相似关系exp γ（z<$z−）成为重要性抽样的权重为硬负最小值ing. 最后，课程学习的实施、控制-用γ表示底片的硬度。由于语义上的重新-L=−α-exp（zjwk/τ）⊤K·z轴lation在训练的早期是不稳定的，γ被初始化小价值。然后，随着训练的进行，我们逐渐增加γ以采样更难的否定。哪里τj=km=kexp（zmw/τ）与使用负生成器隐式控制硬度的NEG- CUT [26]相比，硬负挖掘的硬度显式控制在补充材料中，我们详细介绍了实验设置和γ对性能的影响。和α：=qNPCifL=L1，如果L=LDCEexp（zk<$wk/τ）（八）（九）综上所述，总损失考虑了贴片式异构语义关系由下式给出：qNPC1−exp（zw/τ）+exp（z<$z /τ）L（γ，τ）=λ L+λ L（γ，τ）我们使用||zj−wj||2=2−2z<$wj对于归一化的语义SRCSRChDCEhDCE2J特征向量其中λSRC和λhDCE是加权参数。如果zj对于jk具有不相关的语义信息，3.3. 分布式计算环境对异构语义提出使用DCE [31]的解耦对比学习以消除负-正耦合（NPC）效应。具体地，NPC效应指的是通过容易的负样本和正样本使InfoNCE的梯度减小，从而阻碍其他信息样本的更新。同样，对于基于InfoNCE的图像翻译方法[20，26，34]，由于图像块之间的异构语义关系，NPC效应是有问题的。由于我们随机抽样的负面，语义无关的图像补丁可以包括作为负面。例如，图中的z4和z52、不容易导致NPC效应的负面因素。为了防止全国人大如前所述，本文应采用解耦的InfoNCE（DCE）本节致力于明确解释为什么经典InfoNCE损失中的NPC效应对图像翻译有害，以及为什么DCE是图像翻译的更好替代方案。.J KKj=kZ18264→zk ，zj将有一个很小的exp（zj<$zk/τ）值。因此，（9）中的分母由exp（zk<$wk/τ）支配，通过（8）减少qNPC和α的值，这再次导致InfoNCE损失的梯度逐渐减小。然而，在DCE的情况下，梯度与qNPC无关，因为α=1，这防止了梯度因容易的负值而消失。因此，在我们的方法中使用DCE损失来防止由语义无关的负样本引起的NPC效应。4. 实验为了展示我们模型的通用性，我们将我们提出的方法应用于图像到图像翻译（I2I）任务的各种框架，包括单模态和多模态图像翻译以及I2I GAN模型压缩。我们实验的简要介绍见图5。此外，我们提供了更多的结果，为单一的图像翻译任务（即绘画照片），在柔软的材料.18265↓ ↑ ↑ ↑↓∗→方法→→→→图5.（a）单模态翻译、（b）多模态翻译和（c）模型压缩的实验示意图。F由子网络Fl组成，子网络Fl是第l层的2层MLP。随机采样256个矢量（即K=256）。图6.单模态图像翻译的定性比较。我们的方法显示出清洁和语义现实的输出与基线方法。4.1. 单模态图像翻译首先，我们评估我们的方法在不成对的图像translation任务，旨在将输入图像转换到一个单一的输出目标域。H Z城市景观FID mAP pAcc cAcc FIDCycleGAN [36] 77.220.4 55.9 25.476.3MUNIT [14] 133.8 16.9 56.5 22.5 91.4[15] 140.0 17.0 58.7 22.2 155.3距离[4] 72.0 8.4 42.2 12.6 81.8GcGAN [9] 86.7 21.2 63.2 105.2[20]2016 - 05 -1500：00：00 4NEGCUT [26] 39.6 27.6 71.4 35.0 48.5LSeSIM [34] 38.0我们34.4 29.0 73.5 35.6 46.4MPLSeSim未报告mAP cAcc表1. 单模态图像变换实验细节：我们的非成对翻译模型的实现是基于CUT1的最新图像翻译模型的源代码。我们评估我们的方法对数据集的马斑马和城市景观标签图像。在CUT [20]的框架中，我们用我们提出的损失（L 语义）替换PatchNCE损失。详细设置见补充资料。评估指标：对于评估，我们计算在以前的作品中使用的对于在马斑马数据集上训练的模型，我们使用Frechet Inception Distance（FID）[12]来评估转换后的图像质量。在城市景观（标签图像）的情况下，我们还测量了输出的分割图与其地面实况图之间的对应关系。具体来说，我们使用DRN的预训练模型[32]进行分割，并计算平均平均精确召回率（mAP），逐像素准确度（pixAcc）和平均类别准确度（class-sAcc）[20]。第 H→ Z是指Horse→ Zebra数据集。我们的方法比-形成基线模型。1https://github.com/taesungp/contrastive-unpaired-translation18266→图7.多模态图像翻译的定性比较。我们的方法可以将源图像转换到具有不同风格的任意域。(a)参考引导翻译：将源图像翻译到目标域，并反映参考风格。(b)隐式引导翻译：每种方法都将源图像翻译到具有随机风格的目标域从顶部开始的行按以下顺序显示转换后的输出：summer2autumn、winter2spring、cloudy2snowy和foggy2sunny。结果：表1显示了定量比较，所提出的方法和以前的作品之间在数据集方法潜在引用FID↓ LPIPS↑ FID↓ LPIPS↑所有的数据集和指标，我们的方法优于基线方法。具体而言，与DistanceGAN等单侧图像平移方法相比，我们的方法优于现有的大幅度模型[4] 和 GcGAN [9] 和双侧模型，如循环 GAN [36] ，MUNIT [14]和DRIT [15]。与最近使用对比学习的方法（CUT [20]，NEGCUT [26]，LSeSim [34]）相比，我们在整体指标上也取得了更好的性能。对于定性比较，我们在图中示出了结果六、当我们将结果与基线的结果进行比较时，在马斑马的情况下，通过我们的方法生成的图像充分反映了目标区域的语义纹理，同时很好地保留了输入源的空间结构。在城市景观的实验中，基线经常产生输入标签和输出之间的类不匹配。另一方面，我们的模型生成与标签正确对应的真实图像。4.2. 多模态图像翻译为了进一步评估，我们将我们的方法应用于多模态图像翻译模型，该模型是一个将输入翻译为具有多个域的不同输出的框架。实验细节：我们的方法是使用官方源代码2的国家的最先进的多样化的transla实现的2https://github.com/clovaai/stargan-v2网站StarGANv2 [8] 63.06 0.413 61.19 0.346季节+LSeSim [34] 61.50 0.378 60.40 0.302+我国54.70 0.496 54.23 0.365StarGANv2 [8] 62.45 0.415 64.20 0.342天气+ LSeSim [34]60.070.33562.170.286+我国54.02 0.470 56.91 0.362表2.多模态图像翻译的定量比较。模型StarGANv2 [8].具体来说，在基本StarGANv2的损失函数之上，我们添加了我们提出的损失（L语义）。与单模态翻译类似，我们通过对输入和输出特征的嵌入向量进行采样来计算损失（图5（b））。为了与LSesim [34] 进行比较，我们使用 LSesim 实现了StarGANv2模型，遵循官方源代码3。数据集：我们选择两个大规模的多域数据集[10][12][13][14][15][16][17][18][19][19][19]季节数据集由4个域（春、夏、秋、冬）组成，每个域有1208、1322、1460和1055张图像。天气数据集由5个区域（晴天、多云、雨天、雾天、下雪）组成，每个区域有4，000张图像。作为验证集，我们为Seasons数据集的每个域选择100张图像，为Weather数据集的每个域选择400张图像。评价指标：我们使用FID测量图像质量，并通过LPIPS[33]测量生成多样性。我们跟着-3https://github.com/lyndonzheng/F-LSeSim网站18267→→ →→→图8. 模型压缩的定性比较（左）马→斑马，（中）地图→卫星天线，（右）城市景观标签→图像。我们的方法表现出高性能与小的网络规模。StarGANv2的评估场景如下：1）基于潜在的图像翻译，其将输入图像的风格转换为随机风格，以及2）基于参考的图像翻译，其中我们将输入的风格转换为参考图像的风格。为了计算指标，我们首先生成10个数据集模型↓ MAC ↓ FID→Z每个输入都有不同的输出。我们计算了40个样本的LPIPS距离，平均得分由下式获得：M→S基线0.667 M 4.495 50.06-+我们的0.667百万4.49548.49-对所有生成的图像重复该过程我们还计算FID生成的目标域输出和相应域的训练图像之间我们报告的平均FID分数为所有领域的情况下。结果：我们在表2中显示了定量比较结果。我们的方法为所有指标产生了卓越的性能更具体地说，用SeSim训练的模型在图像质量方面具有改进的性能，具有较低的FID分数，但是其在多样性方面显示出弱点，具有降低的LPIPS分数。然而，当使用我们的方法时，图像质量和多样性都在两个数据集中得到了很大的改善。图图7显示了两个不同数据集的定性结果我们比较了翻译到各个领域的图像的结果。在基线模型的情况下，输入和输出之间的结构对应性没有保持，并且由于目标域的信息没有被完全反映而在输出中包含一些伪影。另一方面，该方法的结果较好地保留了输入源的空间信息，显示了成功的译文，且风格多样。4.3. 图像平移模型在最近的模型蒸馏方法中，教师模型学习的关系知识的传递改进了学生模型，提供了额外的信息。我们应用我们的方法的GAN压缩框架，从教师到学生的补丁明智的语义关系知识。我们证明了教师11.38男性56.80 60.38 42.86城市基线0.730 M 5.551 85.24 41.42+我们的0.685 M 4.390 72.41 43.06表3.模型压缩的定量比较。HZ是指马斑马数据集，MS是指地图卫星数据集，城市是指城市景观标签图像数据集。我们的方法优于基线方法。我们的方法对GAN压缩的有效性。实验细节：对于实验，我们采用Fast GAN Compression[18]，这是一种用于图像平移模型的SOTA压缩方法。该方法包括两个步骤。在步骤1中，我们首先通过将预训练的教师生成器的特征提取为学生生成器来训练学生网络（也称为超网）。在此步骤中，学生模型是一个一次性网络，它支持不同的通道号。在步骤2中，使用进化搜索，我们基于目标度量（例如FID、mIoU）找到学生的最佳信道数量配置。实验详情见补充材料。我们在模型蒸馏部分的步骤1中包括我们提出的方法。具体地说，在图5（c）中，我们引入了头部网络F，并匹配了教师和学生的嵌入特征之间的语义关系提出的损失（L语义）与快速GAN压缩的基线框架的损失函数一起使用[18]。实验设置详见补充材料。为了实现，我们参考了原始的#参数↓mIOU↑老师11.38男56.80 59.46-H基线2.962 74.39-+我们的2.96264.64-老师11.38男56.80 47.90-18268→→→→→→NCE损失挖掘GAN压缩-快速版本4的源代码。数据集和模型：为了评估性能，我们在3种不同的设置上进行了实验：在Horse Zebra上训练的CycleGAN压缩，在 Map Satellite 天线上训练的 Pix2Pix ，在Cityscapes标签图像上训练的Pix2Pix。我们使用官方代码重新训练了基线模型，以进行公平比较。评估指标：为了比较压缩模型的生成质量，我们测量FID值。在Cityscape的情况下，输出和GT之间的mIoU被额外测量。我们还比较了压缩率与计算乘法累加运算（MAC）和模型参数（#Param）的数量。结果：表3显示了模型压缩的定量性能。结果表明，与基线学生模型相比，我们的模型具有更好的FID和mIoU分数，同时具有相似或更少的MAC和#Param特别是，在城市景观数据集的情况下，我们获得了比教师模型更好的mIoU。这表明，我们提出的方法改进了学生模型，并提供了教师的关系知识。提供图8用于定性比较。虽然我们的压缩模型尺寸比教师模型小得多，但生成的图像质量并没有恶化。与基线输出图像相比，输出图像具有清晰的边界和更好的目标区域纹理。4.4. 消融研究我们比较了在不同设置下使用Horse Zebra和cityscapes数据集进行单模态图像翻译任务训练的模型的定量性能。具体来说，我们逐步添加我们的方法的组件，并观察相应的性能。更具体地说，我们首先使用infoNCE从基本框架开始，它与CUT [20]相同然后，我们将信息挖掘与分布式挖掘进行了比较，依次包括语义关系一致性（SRC）和硬否定挖掘（Hneg）。表4中的结果显示了我们的方法的有意义的改进。具体来说，当每个组件都添加到DCE时，我们观察到两个数据集的改进：马斑马和城市景观。当所有组分都加入时，结果显示出最佳性能。此外，在InfoNCE的情况下，SRC损失和硬负挖掘有助于改进。然而，与我们的最佳模型与DCE相比，结果InfoNCE在所有指标上的表现都更差。为了进一步显示所提出的方法的效果，我们在图9中显示了相似性关系。查询点和其他位置之间的学习相似性被计算并映射用于输入图像（A）和翻译输出（B）。在InfoNCE和基本DCE的情况下，显示出高度相似性4https://github.com/mit-han-lab/gan-compression图9.在马斑马数据集上训练的模型的相似性图。前腿上的红点是查询点。设置H→Z城市景观信息DCESRC Hard NegFID↓ mAP↑ pAcc↑ cAcc↑ FID↓✓× × × 45.5 24.7 68.8 30.7 56.4电话：+86-21 - 6666666传真：+86-21 - 6666666649.第49章：你是谁？9电话：+86-21 - 8888888传真：+86-21 - 88888888× × 37.6 27.3 71.4 33.4 50.149.第49节第49节第49节9��表4.消融研究的定量结果。在与查询不相关的点处（对于infoNCE尤其严重），并且（A）和（B）示出不同的相似性模式。当使用SRC时，（A）和（B）的相似性方面是相同的。(B)变得相似。当进一步应用硬否定挖掘时，仅以与查询点密切相关的点的高相似度嵌入这表明我们达到了我们的目标：（A）和（B）之间的块式语义关系的一致性，并从硬否定中获得优势。更多消融研究和关于我们三个不同任务的其他结果见补充材料。5. 结论在本文中，我们提出了一种新的方法，利用图像补丁的异构语义形成的关系知识的图像翻译任务。我们提出了解耦的信息与硬否定（hDCE）以及正则化的语义关系一致性（SRC）。我们通过各种任务验证了我们的方法，这些任务是图像翻译任务和GAN压缩。结果显示，与基线模型相比，性能显著提高，达到了最先进的分数。关于限制和负面社会影响的讨论在我们的补充材料中鸣谢：这项工作得到了韩国政府（MSIT）资助的信息通信技术规划评估研究所（IITP）资助（No.2019-0-00075，人工智能研究生院计划（KAIST））的支持。这项工作也得到了韩国国家研究基金会的资助，资助号为NRF-2020 R1 A2 B5 B 03001980。18269引用[1] Matthew Amodio和Smita Krishnaswamy Travelgan：通过变换向量学习实现图像到图像的翻译。在IEEE/CVF计算机视觉和模式识别会议（CVPR），2019年6月一、二[2] Asha Anoosheh、Eirikur Agustsson、Radu Timofte和LucVan Gool。Combogan：图像域转换的无限制可扩展性。在IEEE计算机视觉和模式识别研讨会会议论文集，第783-790页，2018年。6[3] Philip Bachman ， R Devon Hjelm ， and WilliamBuchwalter.通过最大化跨视图的互信息来学习表示《神经信息处理系统进展》，第32卷。Curran Associates，Inc. 2019. 2[4] Sagie Benaim和Lior Wolf。单侧无监督的域映射。在重症盖永V. Luxburg，S. Bengio，H.瓦拉赫河Fergus，S.Vishwanathan和R. Garnett，Editors，Advances in NeuralInformation Processing Systems ，第 30 卷。 CurranAssociates，Inc. 2017. 一、二、五、六[5] 陈俊雅，甘哲，李宣，郭庆，陈立群，高舒阳，郑德永，徐毅，曾碧玲，卢文莲，李凡，劳伦斯·卡林，陶晨阳.更简单，更快，更强：打破对对比学习者的log-k诅咒2[6] 陈婷，西蒙·科恩布里斯，穆罕默德·诺鲁齐，和葛offrey Hinton.视觉表征对比学习的一个简单框架。在Hal Daume III和Aarti Singh的编辑，Proceedings of the37 th International Conference on Machine Learning ，Proceedings of Machine Learning Research，第119卷，第1597-1607页。PMLR，2020年7月13日至18日。2[7] Xinlei Chen，Haoqi Fan，Ross Girshick，and KaimingHe. 2020年通过动量对比学习改进基线。2[8] Yunjey Choi，Youngjung Uh，Jaejun Yoo，Jung-WooHa.Stargan v2：多领域的多样化图像合成。IEEE/CVF计算机视觉和模式识别会议（CVPR），2020年6月。1、6[9] Huan Fu ， Mingming Gong ， Chaohui Wang ， KayhanBat- manghelich，KunZhang，and Dacheng Tao.用于单侧无监督域映射的几何一致生成对抗网络。在IEEE/CVF计算机视觉和模式识别会议（CVPR）上，2019年6月。一、二、五、六[10] 林皋。五类天气图像数据集，2019年。6[11] Kaiming He，Haoqi Fan，Yuxin Wu，Saining Xie，andRoss Girshick.用于无监督视觉表示学习的动量对比在IEEE/CVF计算机视觉和模式识别会议录（CVPR）中，2020年6月。2[12] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。第6626-6637页，2017年。5[13] 胡钱江、小王、胡伟、祁国军。Adco：对抗性对比，用于无监督的有效学习自我训练的消极对手的陈述。在IEEE/CVF计算机视觉和模式识别会议（CVPR），第1074二零二一年六月。2[14] Xun Huang ， Ming-Yu Liu ， Serge Belongie ， and JanKautz.多模态无监督图像到图像翻译。在欧洲计算机视觉会议（ECCV）的会议记录中，2018年9月。一、五、六[15] 李欣英、曾鸿宇、黄佳斌、曼尼什·辛格和杨明轩。通过解纠缠的表示进行不同的图像到图像的翻译。在欧洲计算机视觉会议（ECCV）的论文集中，2018年9月。一、五、六[16] Kibok Lee，Yian Zhu，Kihyuk Sohn，Chun-Liang Li，Jinwoo Shin，and Honglak Lee.$i$-mix：一个用于对比表示学习的领域不可知策略。2021年，在国际学术会议上发表。3[17] Junnan Li，Pan Zhou，Caiming Xiong，and Steven Hoi.无监督表示的亲典型对比学习。在2021年的学习代表国际会议上。二、三[18] Muyang Li，Ji Lin，Yaoyao Ding，Zhijian Liu，Jun-YanZhu ， andSongHan.Gancompression ： Efficientarchitectures for interactive conditional gans. IEEE/CVF计算机视觉和模式识别会议（CVPR），2020年6月。7[19] Ming-Yu Liu，Thomas Breuel，and Jan Kautz.无监督的图像到图像翻译网络。在重症盖永联合V. Luxburg，S. Bengio，H.瓦拉赫河Fergus，S.Vish-wanathan和R.Garnett，编者，《神经信息处理系统进展》，第30卷。柯伦联合公司股份有限公司、2017. 1[20] 作者： Taesung Park Efros ， Richard Zhang ， and Jun-Yan Zhu.非配对图像到图像翻译的对比学习。在AndreaVedaldi ， Horst Bischof ， Thomas Brox 和 Jan-MichaelFrahm，编辑，计算机视觉施普林格国际出版社. 一二四五六八[21] Wonpyo Park，Dongju Kim，Yan Lu，and Minsu Cho.关系知识的提炼。在IEEE/CVF计算机视觉和模式识别会议（CVPR）上，2019年6月。2[22] Baoyun Peng，Xiao Jin，Jiaheng Liu，Dongsheng Li，Yichao Wu ， Yu Liu ， Shunfeng Zhou ， and ZhaoningZhang.知识蒸馏的相关同余。在IEEE/CVF计算机视觉国际会议（ICCV）的会议记录中，2019年10月。2[23] Joshua David Robinson ， Ching-Yao Chuang ， SuvritSra，and Stefanie Jegelka.使用硬负样本的对比学习。在2021年学习代表国际会议上。二、三、四[24] Yonglong Tian，Dilip Krishnan，and Phillip Isola.对比多视图编码。arXiv预印本arXiv：1906.05849，2019。2[25] Yonglong Tian，Dilip Krishnan，and Phillip Isola.对比表征蒸馏法。在国际会议上学习代表，2020年。218270--[26] Weilun Wang ， Wengang Zhou ， Jianmin Bao ， DongChen，and Houqiang Li.非成对图像间翻译中用于对比学习的实例硬反例生成。在IEEE/CVF国际计算机视觉会议（ICCV）会议录中，第14020-14029页，2021年10月。一二四五六[27] 王小龙和阿比纳夫古普塔。使用视频的视觉表示的无监督学习。在IEEE国际计算机视觉会议（ICCV）的会议记录中，2015年12月。2[28] Chen Wei，Huiyu Wang，Wei Shen，and Alan Yuille.CO2：无监督视觉表征学习的一致对比度。在2021年学习代表国际会议上。二、三[29] Guodong Xu ， Ziwei Liu ， Xiaoxiao Li ， and ChenChange Loy. 知识升华满足自我监督。 In An- dreaVedaldi，Horst Bischof，Thomas Brox，and Jan-MichaelFrahm，editors，Computer Vision施普林格国际出版社.2[30] Chuanguang Yang ， Zhulin An ， Linhang Cai ， andYongjun Xu.视觉表征学习的相互对比学习，2021。3[31] Chun-Hsiao Yeh ， Cheng-Yao Hong ， Yen-Chi Hsu ，Tyng-Luh Liu，Yubei Chen，and Yann LeCun.分离对比学习，2021年。二、三、四[32] Fisher Yu，Vladlen Koltun，and Thomas Funkhouser.扩张的剩余网络。在IEEE计算机视觉和模式识别会议（CVPR）上，2017年7月。5[33] Richard Zhang 、 Phillip Isola 、 Alexei A Efros 、 EliShechtman和Oliver Wang。深度特征作为感知度量的不合理有效性。第586-595页，2018年。6[34] Chuxia Zheng，Tat-Jen Cham，and Jianfei Cai.各种图像翻译任务的空间相关损失。在IEEE/CVF计算机视觉和模式识别会议（CVPR）中，第16407一二四五六[35] Jinguo Zhu，Shixiang Tang，Dapeng Chen，Shijie Yu，Yakun Liu，Mingzhe Rong，Aijun Yang，and XiaohuaWang.对比蒸馏的互补关系。在IEEE/CVF计算机视觉和模式识别会议（CVPR）的会议记录中，第9260-9269页，2021年6月。2[36] Jun-Yan Zhu，Taesung Park，Phillip Isola，and Alexei A.埃夫罗斯使用循环一致对抗网络的不成对图像到图像翻译。在IEEE计算机视觉国际会议（ICCV）的会议记录中，2017年10月。一、五、六

下载后可阅读完整内容，剩余1页未读，立即下载