非成对图像翻译中用于对比学习的实例硬反例生成

126 浏览量更新于2023-10-13 收藏 1.35MB PDF 举报

对比学习

性能提升

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

14020非成对图像翻译中用于对比学习的实例硬反例生成WeilunWang1，WeenganggZhou1，2*，JianminBao3，DongChen3，HouqiangLi1，2†1中国科学技术大学电子信息系统系GIPAS中国科学院重点实验室2合肥综合性国家科学中心人工智能研究所3微软亚洲研究院wwlustc@mail.ustc.edu.cn，{zhwg，lihq} @ustc.edu.cn，{jianbao，doch} @ microsoft.com摘要对比学习在非成对图像间翻译中显示出巨大的潜力，但有时翻译结果质量不佳，内容保存不一致。在本文中，我们发现，否定的例子中起着至关重要的作用，在图像翻译的对比学习的性能。消极的前-源图像CUT结果源图像NEGCUT结果采样生成现有方法中的样本是从源图像中不同位置的块中随机采样的，这不能有效地将正样本推到查询样本附近。为了解决这个问题，我们提出了实例方式的硬否定示例生成的对比学习，在不成对的图像到图像翻译（NEGCUT）。NegPOS查询Neg位置查询具体来说，我们训练一个生成器来在线生成负面示例。该发生器从两个角度来看是新颖的：1)它是逐实例的，这意味着所生成的示例是基于输入图像的，以及2）它可以生成硬否定示例，因为它是用对抗性损失来训练的。使用生成器，不成对图像到图像翻译的性能得到了显着提高。在三个基准数据集上的实验表明，与以前的方法相比，所提出的NEGCUT框架实现了最先进的性能。1. 介绍图像到图像翻译旨在将图像从源域传输到目标域，保留内容信息，这在各种应用中具有重要意义，例如风格传输[13，24，29，37]，域自适应[4，19，20，33，51]和图像着色-[2，48，58，60]。由于不方便收集成对的训练数据，最近的方法通常是基于非成对的设置。在这种情况下，循环一致性损失已被广泛用于保持源图像和生成的图像之间的一致性，例如，CycleGAN [61]、StarGAN [7]、UNIT [34]和MUNIT [22]。*通讯作者：周文刚，李厚强查询-负余弦相似性图1.我们可视化生成的图像以及CUT [41]和我们的方法中查询和阴性样本之间余弦相似性的分布蓝色直方图是指CUT中的分布，而橙色直方图是指我们的方法中的最近提出的方法CUT [41]在未配对的图像到图像转换中引入了对比学习，并且比使用循环一致性损失的方法[31，34，61]实现了更好的性能。在本文中，我们的目标是进一步提高性能的对比学习的不成对的图像到图像的翻译。我们发现，对比学习的性能在很大程度上依赖于负样本的硬度。如图1所示，方法[41]中的负样本是从图像中不同位置的补丁中随机采样的，这有时会导致翻译结果质量差，内容不能保持一致。我们还计算了查询块和负块之间的余弦相似度，并且我们可以发现它们的余弦相似度在0左右。换句话说，这些负面补丁没有足够的挑战性来推动正面示例接近查询示例，这将导致框架没有充分利用对比学习。频率14021为了解决上述问题，本文提出了一种用于非成对图像到图像翻译（NEGCUT）中对比学习的实例硬否定示例生成方法。更确切地说，我们提出了一种新的负生成器挖掘困难的负例子。对于源图像，我们首先在图像生成器编码器的不同层上提取其特征并将其嵌入特征向量。基于来自源图像的嵌入特征，否定生成器产生与源图像相关的实例式否定示例。此外，负样本应该足够多样化，以使查询补丁更接近正补丁。为此，我们添加噪声作为生成器的额外输入。然而，噪声输入对于生成器可能可以忽略，因此生成器可以针对不同的输入噪声生成类似的示例。这也被称为模式崩溃问题[45]。受MSGAN [38]中的寻模损耗的启发，我们将分集损耗引入发生器，以鼓励发生器针对不同的输入噪声产生不同的硬负样本。为了生成用于对比学习的具有挑战性的负样本，主要思想是以对抗的方式针对编码器网络训练负生成器。框架中的两个组成部分，即编码器网络和负生成器交替更新以玩最小-最大游戏。一方面，编码器网络相对于硬负样本缩小查询和正样本之间的距离以最小化对比损失。另一方面，负发生器产生接近正样本的硬负样本，以最大化对比损失。直觉上，该框架将达到一个平衡，其中编码器学习详细的和有区别的表示，以区分阳性样本与生成的硬阴性样本。在图1中，我们可视化生成的图像以及CUT和NEGCUT中查询和阴性样本之间的余弦相似性分布。据观察，由负生成器产生的负样本比在方法[41]中采样的负样本更难，这推动编码器网络学习区分表示，并最终导致结构和纹理的细粒度对应。我们的贡献总结如下，• 我们发现，实例方面的负面例子，增加训练过程中的硬度发挥关键作用的对比学习的性能不成对的图像到图像的翻译。• 我们提出了一个新的框架NEGCUT挖掘实例明智的硬否定的例子，在不成对的图像到图像的翻译对比学习。• 在三个基准数据集上的大量实验证明了我们的方法的优越性，它实现了新的最先进的性能。该方法生成的图像具有较好的视觉性能，且细节对应一致.2. 相关工作在本节中，我们简要介绍相关主题，包括对比学习，图像到图像翻译和硬负面挖掘。2.1. Image-to-Image Translation图像到图像转换（I2I）[30，35，44，50，52，54，59，61，62]旨在将图像从源域传输到目标域，保留内容信息。早期的方法[5，23，42，52]应用对抗性损失[14]以及重建损失，以基于配对的训练数据来训练他们的模型。然而，由于收集大量配对数据的困难，最近的方法通常基于非配对设置。在这种情况下，循环一致性损失已被广泛用于保持源图像与生成的图像之间的一致性，例如CycleGAN [61]、DiscoGAN [27]、Du-alGAN[55]和U-GAT-IT [26]。基于生成结果应该通过逆映射翻译回来的假设，循环一致性学习从目标到源域的映射，并检查源图像是否被重构。然而，与实际情况相比，该假设过于严格，其中两个域之间的图像不是一对一的映射。鉴于此，CUT [41]涉及未配对图像到图像转换中的对比学习，以学习源图像和生成图像之间的对应关系，其优于使用循环一致性损失的先前方法。2.2. 对比学习对比学习是通过比较相似和不相似对来学习表征的框架。基于最大化互信息理论的最近方法[1，6，16，17，18，40]在无监督表示学习方面取得了广泛的成功。这些方法充分利用了噪声对比估计[15]，将图像映射到嵌入空间中，在嵌入空间中，相关样本与不相关样本形成对比。对于单个查询样本，相关联的样本被称为正样本，而不相关的样本被称为负样本。通过点产生度量相似性，提出了一种称为InfoNCE的对比损失形式，作为噪声对比估计的代表性损失函数。2.3. 硬示例挖掘硬例挖掘是解决样本不平衡问题的经典方法。对象检测和无监督表示学习。在早期的方法中，硬示例挖掘用于优化SVM [11]，浅层神经网络[43]和提升决策树[10]。最近的工作[21，25，32，36，46，47，53]14022n=1·nΣΣ...输入编码器解码器输出编码器图2.我们的NEGCUT框架概述我们在图像生成器编码器的多个层上执行用于对抗性对比学习的硬否定示例生成黑色箭头显示了我们框架的前向传播，而蓝色和红色箭头分别显示了对比损失和对抗性对比损失的后向传播在每一层上，表示网络在空间维度上随机采样源特征和翻译特征，并产生查询样本和正样本。负样本生成器通过表示网络中特征的均值向量生成具有挑战性的负样本。查询样本、正样本和生成的负样本以对抗的方式参与对比学习选择用于训练深度网络的硬样本。在[47]中，学习图像描述符以从大集合中独立地选择硬正样本和负样本。在[36]和[46]中，分别研究了图像分类和对象检测的在线硬示例选择。Lin等人设计了一种新的焦点损失[32]，将训练集中在稀疏的硬样本集上，这解决了对象检测中不同类别之间的不平衡。在非监督表示学习中，使用三重损失[53]来从大集合中挖掘硬负样本。在[21]中，涉及对抗学习以生成用于无监督表示学习的具有挑战性的负样本。3. 方法在我们的框架中使用SEC。三点三3.1. 预备和动机我们首先简要回顾了在CUT中开发的未配对图像到图像翻译中利用对比学习的方法[41]。为了在保持内容信息的情况下生成目标域的图像，主要思想是学习源图像和生成的图像之间的对应关系。与以往的基于循环一致性损失的方法相比，CUT采用对比度损失来学习对应关系，直接最大化源图像和生成图像之间的相互信息。对比损失公式如下，l（q，k+，k−）=在本文中，我们提出了一个新的框架NEGCUT挖掘实例明智的硬否定的例子，在不成对的图像到图像的翻译对比学习。不同exp（qk+/τ）-log[exp（q·k+/τ）+ΔNexp（q·k−/τ）]，（一）从先前的从图像中的块随机采样负样本的工作中，我们的方法通过对抗学习生成实例式的硬负样本。利用所产生的硬负样本，我们的框架可以生成在结构和纹理上具有详细和细粒度对应的图像。本节的其余部分组织如下：我们首先回顾了相关的方法在以前的工作在第二节。3.1.节中3.2，我们概述了NEGCUT框架并介绍了其中q是来自所生成的图像的查询样本，k+是来自源图像中的查询的对应位置的正样本，k-n是来自源图像中的其他位置的第n个查询样本，并且τ是温度因子。CUT以多层分片方式开发对比学习，其公式如下，LSlLPatchNCE（G，H，X）=ExXl （ ql ， s ， k+ ，k−），通过对抗式学习的硬否定示例生成的细节。最后，我们讨论了目标函数l=1s=1l，sl，s（二）负发生器n...样本Nzk副词...推前向对比对抗性对比Q是说拉K+拉表征网络表征网络源生成......雷卢足球会样品样品雷卢足球会CONCAT雷卢足球俱乐14023l，s·我我我n=1H {··· }N {··· }l，ssisiexp（q·k/τ）+exp（q·k−/τ）其中，从源图像X和生成图像Y在生成器编码器的不同中间层l处的特征中提取ql、s、k +和k-。与对比在这种情况下，生成器学习缩小查询和阳性样本之间的距离，以对抗不同层处的阴性样本，这相当于最大化源图像和生成的图像之间的互信息。通过用对比度损失代替周期一致性损失，CUT生成的图像比以前的方法更真实、更符合实际。然而，CUT中随机抽样的反例不能充分利用对比学习。反例的估计方法对对比学习的效果起着至关重要的作用。CUT中的负面示例不足以推动编码器网络-3.2.2硬负例生成在本节中，我们正式提出了在不成对的图像到图像翻译中用于对比学习的硬否定如图2所示，我们在图像生成器编码器的多个层上执行对比学习对于某一层，我们采用表示网络Hi（）来嵌入不同补丁的特征。表示网络是一个2层MLP网络，独立地将来自源图像和翻译图像的每个像素处的特征向量映射到M维向量。基于映射后的特征，我们在空间维度上随机抽取S个位置，并将赋范向量作为查询样本和正样本进行对比学习，公式如下：努力学习区分表示，这导致Hi（FY）Hi（FX）q=si，k+=si，（3）翻译的结果质量差，内容不始终如一地保存。与此不同的是，我们建议一个新的框架NEGCUT挖掘实例明智的硬Hi（FY）其中，FX和FY是源要素，我我用于不成对图像到图像转换的负样本通过对抗性学习。特征分别位于图像生成器编码器的第i层Hi（FX）和Hi（FY）是指第s个正整数，并且H i（F X）和H i（F Y）是指第s个正整数。sisi3.2. 压边3.2.1框架架构图2给出了我们的框架的概述，该框架由图像生成器、表示网络和否定生成器组成。图像生成器G将源图像X作为输入，并且生成平移图像Y。考虑单个图像的两个变体，即，源图像X分别采样的查询示例为了将阳性样本推近查询样本，ple，我们生成挑战性负样品精心设计的多层负极发电机{N0，N1，···，N1}。基于来自表示网络的空间平均特征，负生成器产生具有噪声向量的硬负样本，其公式如下：和所生成的图像Y，我们进行多层分片对比学习以学习对应关系。ka−dv，n=Ni（Hi（FX）;zn）Ni（Hi（FX）;zn）.（四）这两个图像之间。在图像生成器编码器的某一层上，通过将空间采样的特征向量嵌入到高维表示空间中，由表示网络产生查询样本和正样本。为了增加查询样本和阳性样本之间的相似性，阴性生成器针对阳性样本挖掘实例式硬阴性样本。基于源图像的嵌入特征，采用多种chal-对于一个正样本，我们通过从标准高斯分布中采样各种噪声向量来生成多个负样本。为了生成用于对比学习的具有挑战性的负样本，主要思想是以对抗的方式针对编码器网络训练负生成器，其公式如下：minmaxl（q，k+，k−）=否定的例子是通过采取各种随机采样的噪声向量作为输入。在我们的画面里-θH，θGθNAdvexp（q·k+/τ）（五）工作，编码器网络（即，图像生成器和表示网络）和否定生成器交替地用对抗性对比度损失来更新。通过负生成器产生的更具挑战性的负示例，编码器网络将学习区分表示以将正样本与具有挑战性的负样本区分开，这导致源图像与生成的图像之间的细粒度和鲁棒的对应关系。此外，还应用了一种新的方法来确保生成图像的域和真实性。-log[+N]。副词从等式(5)、它是观察到的的编码器网络（即：、的表示网络并且图像生成器G）相对于负样本缩小查询样本和正样本之间的距离以最小化对比损失。相反，负生成器=N0，N1，，N1产生具有挑战性的反例以最大化对比损失。直观地，14024··DGFG我我我→→l，sadv，l，sLH=LAdCont，编码器网络和负发生器将通过交替训练达到平衡，其中负发生器将通过交替引入不同的噪声向量，其公式如下，发生器产生具有挑战性的阴性样本编码器网络学习区分表示以从负样本中辨别正样本。在图2中，我们进一步说明了如何负生成器，代表网络和图像生成器是最新的。负生成器首先用负对比损失更新，其公式如下，l（q，k+，k−adv）Ldiv=− Ni（Hi（Xi），z1）−Ni（Hi（Xi），z2）1，（10）其中z1和z2是从标准高斯分布随机采样的两个不同的输入噪声3.3. 其他目标除了上面提到的对抗性对比损失和多样性损失之外，我们的框架还通过遗传算法进行了θNi←θNi+ηNθNi.（六）对抗性损失生成性对抗性损失。因为地面实况即时-负对比度损失的反向传播在表示网络之前被切断，并且不影响表示网络和图像生成器的权重。之后，用正对比度损失更新表示网络，其公式如下，年龄在未配对的图像到图像翻译中不可用，我们开发了对抗学习[14，57]来约束所生成图像的真实性和域。对于图像生成器G（）和鉴别器D（），我们将LSGAN100损失[39]单位化，其公式如下：l（q，k+，k−adv）L=Ex[（1-D（xr））2] +Ex[D（xf）2]，θHi←θHi−ηHθHi.（七）ganL感R f=Ex[（1-D（xf）2]，（十一）由于对比学习是多层次的以这种方式，负生成器和表示网络的总对抗性对比损失公式化如下，LSl其中，Xr和Xf分别指示真实图像分布和生成图像分布。整体损失。负发生器和编码器网络的总损耗是上述的加权和损失，公式如下，LAdCont=ExXΣ Σl（ql，s，k+，k−l=1s=1）的情况。（八）图像生成器与表示网络一起被训练。通过反向传播对抗LG=LAdCont+λ1Lgan，LN=−LAdCont+λ2Ldiv，（十二）对比度损失，图像生成器在编码器的不同层处接收梯度。用这些梯度的和来更新图像生成器，其公式如下，其中λ1和λ2是平衡不同损耗的折衷参数。在我们的实验中，λ1和λ2分别设置为1和1。θG← θG− ηGL（i=0时l（q，k+，k−adv）<$FXFX（九）4. 实验4.1. 实验装置l（q，k+，k−）数据集。为了证明我们方法的优越性，+advi），FYθG我们在三个基准数据集上训练和测试我们的方法即、城市风景[9]、猫→狗[8]和马→斑马[61]其中F X和F Y是源数据集和跨数据集的特征，其中在各种不同域之间进行转换。我我在编码器的第i层处分别对图像进行分组。然而，当对抗性对比损失是用于更新否定生成器的唯一函数时，观察到生成的否定示例失去多样性并崩溃为一个否定示例。这是因为对抗性对比损失集中于生成硬阴性样本而不是多样性阴性样本，尽管多样性有助于性能。为此，我们引入了多样性损失，以产生具有不同输入噪声的各种具有挑战性的负样本。多样性的损失鼓励产生独特的结果时Cityscapes数据集包含在街道场景中记录的各种图像，具有高质量的像素级注释。Cat Dog数据集是从AFHQ数据集中提取的10，000张高质量猫和狗面部图像的数据集。马斑马数据集由大约2,500张不同场景中的马和斑马图像组成。我们分别在三个数据集上学习从语义掩码到真实图像、从猫图像到狗图像以及从马图像到斑马图像的翻译。对于所有数据集，我们将图像的大小调整为相同的分辨率256第256章训练我们的网络Σ140252源CycleGAN UNITDRITCUT NEGCUT源CycleGAN单元DRIT切负源CycleGAN UNIT DRIT CUT NEGCUT图3. 四种挑战性方法的定性结果，即，CycleGAN [61]，UNIT [34]，DRIT [31]，CUT [41]，在三个基准数据集上。与以前的方法相比，我们的方法生成的图像显示出优越的性能与正确的对应关系之间的源和生成的图像。实施详情。为了进行公平的比较，我们将超参数设置为与以前的方法一致[41]。我们在生成器的第1层、第5层、第9层、第13层和第17层图像集（μY，ΣY）：FID（Y，Y）=μY−μY2+Tr（ΣY+ΣY12（ΣYΣY（）2）。（十三）编码器在我们的框架中，用于对比学习的负样本的数量被设置为256。查询、阳性和阴性样本的维度设置为256。对于整个框架，我们使用Adam优化器[28]。训练总共持续400个epoch。学习率设置到2 e-4，并且在200个时期之后线性减小。整个框架由Pytorch实现，并在NVIDIA RTX 3090Ti上进行了实验。评估指标。我们通过FID度量来评估所生成的图像的真实性。FID测量两组图像之间的距离。为了计算FID度量，我们首先使用Inception模型将生成的图像和地面实况图像嵌入到特征空间中[49]。FID度量由生成的图像集（μY，μY）的平均值和协方差以及地面实况计算此外，为了评估源图像和生成图像之间的相关性，我们在Cityscapes数据集上应用了与FID不同的几个度量。使用预训练的分割模型[56]，我们计算源语义标签和生成的真实图像上的mAP、像素准确度（pAcc）和类准确度（cAcc）度量。较高的mAP、pAcc和cAcc表示所生成的图像与源语义标签更相关。4.2. 与最新方法的我们比较我们的方法与几个国家的最先进的方法的不成对的图像到图像的翻译，即。[41]，CUT [41]，CycleGAN [61]和DRIT [31]。三个基准数据集的定量结果如表1所示。从表中可以看出，我们的方法在三个数据集上实现了新的最先进的性能。相比−14026↓→↑→↓→ →↑源图像发电机负分集数损失底片25625664128256图4.不同设计的负发生器之间的定性比较当采用负片生成器和分集损失并且负片的数量被设置为256时，所生成的图像具有最佳的视觉质量和最正确的对应性。对于最具挑战性的方法，即CUT，我们的方法优于它14。0%，26. 6%和13。在三个数据集上相对于FID度量为0%。此外，由于只有图像生成器在推理时间使用，NEGCUT不引入额外的测试时间消耗相比，CUT。此外，我们还利用CUT、Cy cleGAN、UNIT和DRIT等几种有竞争力的方法对三个数据集进行了定性评价。从图3中可以观察到，与以前的方法相比，我们的方法生成的图像具有更好的视觉性能。特别是，我们生成的图像保持了更好的对应关系与源图像相比，最具挑战性的方法CUT。这得益于负生成器生成的具有挑战性的负样本。CUT中随机抽取的负样本在一开始帮助网络学习源图像和生成图像之间的对应关系，但效果越来越差随着训练过程的进行。相比之下，我们的负样本生成器通过对抗学习保持挑战性，这迫使图像生成器和表示网络学习细粒度的对应关系。由于这个原因，我们的方法生成的图像与源图像在细节上有更好的对应关系，即，、纹理和姿势。方法城市景观猫→狗H→ZmAP↑pAcc↑cAcc↑FID↓FID↓FID↓CycleGAN [61] 20.4 55.9 25.4 76.3 85.9 77.2单位[34]16.956.522.591.4104.4133.8DRIT [31]17.058.722.2155.3123.4140.0距离[3]8.442.212.681.8155.372.0自我距离[3]15.356.920.678.8144.480.8GCGAN [2]21.263.226.6105.296.686.7切割[41]24.768.830.756.476.245.5快速切割[41]19.159.924.368.894.073.4压边27.671.435.048.555.939.6表 1. 与最先进的非配对图像转换方法进行比较，即CycleGAN，UNIT，DRIT，CUT等。 H Z指的是马斑马数据集。表示越高越好，而表示越低越好。值得注意的是，我们的方法优于以前的方法在各种指标。设置城市景观猫→狗H→ Z负分集数发生器损失的Neg。mAP ↑ pAcc ↑cAcc ↑FID↓FID↓FID↓公司简介27.371.934.527.071.1 33.749.7 110.991.5 83.059.672.164C C51227.371.3 34.3 51.2 62.8 44.0CC25627.671.435.048.555.839.6表2.几种不同设计的消融研究，即、负发生器、分集损失和负样本数H Z是指马斑马数据集。表示越高越低越好，而表示越低越好。在没有负生成器或多样性损失的情况下，所产生的负示例不具有足够的挑战性，这导致在三个数据集上的大多数指标下的性能较差4.3. 消融研究我们进行了几个消融实验来验证我们的框架中的几个设计的有效性，即负发生器，多样性损失和负样本的数量。我们在表2中报告了定量结果。为了评估使用负生成器生成实例负样本的必要性，我们设计了一个没有负生成器的变量。作为替代方案，我们在该变型中直接更新特征向量空间中的负样本。在这种情况下，学习的负样本广泛分布在特征空间中，并且与源实例不相关。从表2中可以看出，在没有负生成器的情况下，该框架在大多数指标下获得了较差的性能，这验证了生成逐实例负样本的有效性。之后，我们进行了消融研究的多样性损失，通过比较框架和没有多样性损失。在表2中，它表明具有分集损失的帧优于没有分集损失的帧。这是因为，在没有多样性损失的变体中，所产生的负样本在训练的早期阶段损失多样性并且在训练期间保持较少的多样性。在这种情况下，负发生器无法产生具有挑战性的负样本，这导致性能差。此外，我们还分析了以下条件下512CC×25626.9七十一点一33.749.7 59.359.314027·这些不同的设置。在图4中，可以看出，在没有负生成器或多样性损失的情况下，所生成的图像在源和所生成的图像之间的保真度和对应性方面具有差得多的视觉质量。在具有负生成元和多样性损失的框架下，我们进一步对负样本数进行了消融研究。从表2可以看出，当阴性样本的数量等于256时，性能达到最高。当阴性样本数大于256时，主要挑战性阴性样本已包含在256个阴性样本中(a) 来源图片正面例子(b) 正面例子（红色）反面例子（蓝色）(c) 转换的图像额外生成的负样本可能包含一些不相关的干扰，导致性能较差，并显着增加计算成本。然而，太少的负样本可能导致将正样本推得更靠近查询的无效性。综合考虑性能和计算消耗，本文框架中最佳的负样本数为256。此外，我们比较了不同数量的负例下生成的图像。在图4中，可以观察到，当负样本的数量设置为256时，生成的图像具有最佳的视觉质量和最正确的对应关系。图5.基于区域检索的反例可视化基于生成的特征。我们通过检索图像中最相关的斑块来可视化8个硬阴性结果表明，检索到的图像块与查询图像块在结构和纹理上具有相似的语义切割压边4.4. 硬阴性实例的可视化。(a)转换的图像&查询点(b) 源图像(c) 从两个查询点到输入图像的为了进一步展示硬负例的效果，我们通过基于生成的特征检索区域来可视化硬负例。在图5中，我们首先基于每个查询特征检索8个硬否定示例。在此之后，我们通过检索图像中最相关的补丁来可视化这些困难的负面例子。检索到的硬反例与查询块在结构和纹理上具有相似的语义。这表明生成的硬示例可以鼓励模型生成内容一致的结果。此外，我们还比较了CUT和NEGCUT中表示网络的学习相似性。对于每个查询q，我们通过计算来exp（qk+/τ）在图像的所有像素上。从图6中可以观察到，在CUT的相似性图相应的区域分散在整个图像上，并且几个不相关的区域也相关联。此外，当查询点是从前景的一部分（即马头）采样时，整个前景在CUT的相似性图中是相关联的，这表明CUT中的表示网络在区分前景的不同部分时存在困难.与此不同的是，NEGCUT的相似性映射中的对应区域集中在查询点或具有相同语义的区域的邻域内，这验证了NEGCUT中的表示网络在实例硬负样本的帮助下学习到了更有区别的表示和更准确的对应。图6.通过CUT和NEGCUT中的表示网络对学习到的相似性进行可视化从前景（蓝色）和背景（红色）采样的两个查询点学习两个相似性图与CUT学习的相似度相比，我们的相似度图更集中在查询点的邻域上，这验证了我们的方法是在硬负样本的帮助下学习区分表示5. 结论在本文中，我们提出了一个新的框架称为NEGCUT挖掘具有挑战性的负面样本的对比学习在不成对的图像到图像的翻译。具体来说，我们设计了一个负生成器，以对抗的方式对编码器网络进行训练。我们的框架中的两个组件，即。编码器网络和负发生器交替地更新以学习区分表示，从而区分正样本和所生成的硬负样本。在三个基准数据集上的大量实验证明了我们方法的优越性。我们的方法实现了国家的最先进的性能，并显示出更好的对应源图像和生成的图像与以前的方法相比。鸣谢。这项工作得到了国家自然科学基金61836011，61822208和62021001的部分支持，以及青年创新促进会CAS 2018497的部分该系统还得到了中国科学技术大学信息科学与技术研究所MCC实验室搭建的GPU集群的支持。14028引用[1] Philip Bachman ， R Devon Hjelm ， and WilliamBuchwalter.通过最大化跨视图的互信息来学习表示NeurIPS，2019。[2] FedericoBaldassarre ， Di e goGonz a'lezMo' rin ， andLu-casRo de's-Guirao.深度 koalarization ：使用 cnns 和inception-resnet-v2 的图像着色。arXiv预印本arXiv：1712.03400，2017。[3] Sagie Benaim 和Lior Wolf 。单侧无监督的域映射。NeurIPS，2017。[4] Konstantinos Bousmalis 、 Nathan Silberman 、 DavidDohan、Dumitru Erhan和Dilip Krishnan。无监督像素级域自适应生成对抗网络。在CVPR中，第3722-3731页[5] Qifeng Chen和Vladlen Koltun。具有级联细化网络的摄影图像在ICCV，第1511-1520页[6] 陈婷，西蒙·科恩布里斯，穆罕默德·诺鲁齐，和葛offrey Hinton.视觉表征对比学习的一个简单框架。在ICML，第1597-1607页。PMLR，2020年。[7] Yunjey Choi，Minje Choi，Munyoung Kim，Jung-WooHa，Sunghun Kim，and Jaegul Choo. Stargan：用于多域图像到图像翻译的统一生成对抗网络在CVPR中，第8789-8797页[8] Yunjey Choi，Youngjung Uh，Jaejun Yoo，Jung-WooHa.Stargan v2：多领域的多样化图像合成。在CVPR，2020年。[9] Marius Cordts，Mohamed Omran ，Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。在CVPR，第3213-3223页[10] 皮奥特·多尔、朱·温·图、皮埃特罗·佩洛纳和塞格·贝隆吉。集成通道功能。在BMVC，2009年。[11] Pedro F Felzenszwalb 、 Ross B Girshick 、 DavidMcAllester和Deva Ramanan。使用区分性训练的基于部分的模型进行对象检测。TPAMI，32（9）：1627[12] Huan Fu ， Mingming Gong ， Chaohui Wang ， KayhanBat- manghelich，KunZhang，and Dacheng Tao.单边无监督域映射的几何一致生成对抗网络在CVPR，2019年。[13] Leon A Gatys，Alexander S Ecker，and Matthias Bethge.使用卷积神经网络的图像风格转换。在CVPR中，第2414-2423页[14] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚 · 本吉奥。生成性对抗网。 NeurIPS ，2014。[15] MichaelGutmann和AapoHy v¨ rinen。噪声对比度估计：非归一化统计模型的新估计原理。在AISTATS，第297-304页中。JMLR Work-shop and Conference Proceedings，2010.[16] Kaiming He，Haoqi Fan，Yuxin Wu，Saining Xie，andRoss Girshick.用于无监督视觉表示学习的动量对比。在CVPR中，第9729-9738页[17] 奥利维尔·海纳夫具有对比预测编码的数据有效图像识别。在ICML，第4182-4192页中。PMLR，2020年。[18] R Devon Hjelm 、 Alex Fedorov 、 Samuel Lavoie-Marchildon 、 Karan Grewal 、 Phil Bachman 、 AdamTrischler和Yoshua Bengio。通过相互信息估计和最大化来学习深度表示。arXiv预印本arXiv：1808.06670，2018。[19] Judy Hoffman 、 Eric Tzeng 、 Taesung Park 、 Jun-YanZhu、Phillip Isola、Kate Saenko、Alexei Efros和TrevorDarrell。苏铁：周期一致的对抗域适应。ICML，第1989-1998页。PMLR，2018。[20] Judy Hoffman，Dequan Wang，Fisher Yu，and TrevorDarrell.野生FCNS：像素级对抗和基于约束的适应。arXiv预印本arXiv：1612.02649，2016。[21] 胡钱江、小王、胡伟、祁国军。Adco：AdversarialContrast，用于从自我训练的消极对手中有效学习无监督表示。arXiv预印本arXiv：2011.08435，2020。[22] Xun Huang ， Ming-Yu Liu ， Serge Belongie ， and JanKautz.多模态无监督图像到图像翻译。在ECCV，第172-189页[23] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and AlexeiA Efros. 使用条件对抗网络的图像到图像翻译。在CVPR中，第1125-1134页[24] 贾斯汀·约翰逊，亚历山大·阿拉希，李飞飞。实时风格转换和超分辨率的感知损失。参见ECCV，第694-711页。施普林格，2016年。[25] Yannis Kalantidis，Mert Bulent Sariyildiz，Noe Pion，Philippe Weinzaepfel，and Diane Larlus.用于对比学习的硬负混合。在NeurIPS，第21798- 21809页[26] Junho Kim，Minjae Kim，Hyeonwoo Kang和KwangheeLee。U-GAT-IT：无监督生成注意力网络，具有自适应层实例归一化，用于图像到图像的翻译。arXiv预印本arXiv：1907.10830，2019。[27] Taeksoo Kim 、 Moonsu Cha 、 Hyunsoo Kim 、 JungKwon Lee和Jiwon Kim。学习发现跨域关系与生成对抗网络。在ICML，第1857PMLR，2017年。[28] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。2015年，国际会议[29] NicholasKolkinJasonSalavon和GregoryShakhnarovich。通过松弛的最优传输和自相似性实现风格转移。在CVPR中，第10051[30] Hsin-Ying Lee，Hung-Yu Tseng，Jia-Bin Huang，Ma-neesh Kumar Singh，and Ming-Hsuan Yang.通过解纠缠表示实现多样化的在ECCV，2018。[31] Hsin-Ying Lee，Hung-Yu Tseng，Jia-Bin Huang，Ma-neesh Kumar Singh，and Ming-Hsuan Yang.通过解缠表征实现多样化的在ECCV，2018。[32] 林宗义、普里亚·戈亚尔、罗斯·格希克、何开明和彼得·多尔·拉尔。密集目标检测的焦面损失。在ICC V，第2980-2988页，2017年。14029[33] Jiawei Liu，Zheng-Jun Zha，Di Chen，Richang Hong，and Meng Wang.用于跨域人员再识别的自适应传输网络。在CVPR中，第7202[34] Ming-Yu Liu，Thomas Breuel，and Jan Kautz.无监督图像到图像翻译网络。在NeurIPS，第701-709页[35] Ming-Yu Liu ， Xun Huang ， Arun Mallya ， TeroKarras，Timo Aila，Jaakko Lehtinen，and Jan Kautz.很少拍摄的无监督图像到图像的转换。在ICCV，2019年。[36] 伊利亚·罗希洛夫和弗兰克·哈特。在线批量选择，神经网络的快速训练。arXiv预印本arXiv：1511.06343，2015。[37] Fujun Luan，Sylvain Paris，Eli Shechtman，and KavitaBala.深度照片风格转移。在CVPR，第4990[38] 毛琦、李新英、曾宏宇、马四维、杨明轩。模式搜索生成对抗网络用于不同的图像合成。在CVPR，2019年。[39] Xudong Mao ， Qing Li ， Haoran Xie ， Raymond YKLau，Zhen Wang，and Stephen Paul Smolley.最小二乘生成对抗网络。在ICCV，第2794-2802页[40] Aaron va

下载后可阅读完整内容，剩余1页未读，立即下载