MoNCE:一种用于多功能图像合成的测量方法——MoNCE

19 浏览量更新于2023-10-25 收藏 1.85MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

18280用于多功能图像合成詹方能1，张嘉辉2，余颖晨2，吴荣良2，陆世坚*21南洋理工大学S-Lab2南洋理工大学摘要感知图像之间的相似性一直是各种视觉生成任务的一个长期存在的基本问题主流方法通过计算逐点绝对偏差来测量图像间距离，这往往会估计实例分布的中值，并导致生成的图像中的模糊和伪影。本文介绍了一种多功能的测量方法--MoNCE。负对相似度POSRIC，其引入图像对比度以学习用于感知多方面图像间距离的校准度量与香草对比不同，香草对比不加区别地将阴性样本从锚中推出来，而不管它们的相似性如何。高低Neg锚NegNegNegNeg提出了根据负样本与目标的相似性自适应地对负样本的推力进行重新加权，以便于从有信息的负样本中进行对比学习 . Since multiple patch-level con- trastiveobjectives are involved in image distance measure- ment,we introduce optimal transport in MoNCE to modu- latethe pushing force of negative samples collaborativelyacross multiple contrastive objectives.在多个图像翻译任务上的大量实验表明，所提出的MoNCE大大优于各种流行的度量。该代码可在教育部获得。1. 介绍多种图像生成任务[26，27，30，45，46，50，56，57]通常需要多方面的度量来测量关于不同属性（诸如图像结构、图像语义和图像感知现实主义等）的图像间相似性。定义通用指标以实现多个目标是具有挑战性的，因为不同的视觉属性通常与像素纠缠在一起，并且视觉相似性的概念通常是主观的。图像相似性度量在视觉生成任务中仍然是一个非常开放的研究挑战为了测量和最小化未配对图像翻译中的内容变化，Zhu等人。 [56]设计了一个循环一致性损失，以确保输入图像可以从输出图像中恢复。与未配对图像不同*通讯作者，电子邮件：www.example.comshijian.lu @ ntu.edu.sg香草目标加权目标加权目标调制目标（非配对翻译）（配对翻译）图1.不同对比目标的比较：对于单个图像块的对比目标，vanilla对比目标不加区别地排斥所有负样本。引入加权对比目标，根据对的相似性自适应调整负对的权重。通过对非配对和配对翻译任务的反向加权策略，可以应用加权目标来显著提高生成性能调制的对比对象引入最优传输来调制作为整体的所有图像块的学习对象。在图像平移中，成对图像平移需要某些度量来测量输出图像与地面实况之间的感知相似性在各种距离度量[36，37]中，感知损失[17]通过利用预训练网络的内部激活而成为符合人类感知然而，上述度量是基于逐点偏差设计的，这不期望地最小化了对所有可能实例的平均偏差。例如，语义图对应于许多真实图像，最小化对所有可能的真实图像的平均偏差倾向于产生模糊的生成结果。代替最小化逐点偏差，之前的对比学习[5，14，41]旨在将正样本拉向锚点，并将负样本推离锚点。它最近被采用在图像生成任务中，用于在不成对的图像中保存图像内容。输出图像输入图像输出图像地面实况不成对翻译配对翻译………18281年龄平移[26]，感知成对图像平移中的图像相似性[2]，或在图像去雾中用作对比正则化项[38]。然而，所有这些研究都采用了香草对比，共享一个关键的约束在这项工作中，我们将对比学习制定为各种图像翻译任务的通用度量，如图1所示。在不成对的图像翻译中，对比学习允许通过最大化相应补丁的互信息来保留图像内容[26]。在成对图像翻译中，通过利用预先训练的网络进行特征提取，采用对比学习来测量图像之间的感知相似性，以符合人类的判断。然而，香草对比目标无差别地排斥所有阴性样本，这显然是次优的，因为阴性样本通常与锚具有不同的相似性期望某些加权策略通过自适应地调整负样本的推力来制定更有效的对比度为了提高翻译性能，我们对负样本的不同加权策略进行了比较研究，得出了一些重要的结论，为不同场景下加权策略的选择提供了参考。直观地，硬负样本（即，与锚点高度相似）应分配较高的权重（称为硬加权），符合硬负采样的基本原理[29]。这对于不成对的图像翻译是正确的，其中阴性样本可以很容易地被推开，如图1中阴性阳性对的相似性分布所示二、然而，对于配对图像翻译，阴性样本难以从锚（或阳性对）推开，因为如图1B中所示，阴性阳性对的相似性分布2. 在这种情况下，我们惊讶地发现，直观的硬加权策略往往会损害性能，以及如图2所示的逆加权策略1，可以提高性能。此外，与PatchNCE损失[26]一样，用于测量图像相似性的对比学习涉及多个子目标，因为每个图像块与对比目标相关联。在没有整体协调的情况下单独重新加权每个子目标往往是次优的。我们提出了一种调制噪声对比估计（MoNCE）损失，该损失采用光学传输[28]来调制所有负样本在多个目标之间的协同重加权通过基于负样本对相似性设计的成本矩阵，最优运输允许检索最优运输计划，该最优运输计划用作负样本的权重以达到总体最优目标。本文的贡献可以概括为三个方面。首先，我们制定了对比学习作为一个通用的度量在各种各样的图像翻译任务。秒-其次，我们深入研究了负对加权在对比学习中的作用，并提出了根据负对的相似性差异采用不同的加权策略。第三，我们提出了一个调制的对比度，利用最佳的运输调制所有负对协同跨多个对比目标的重新加权。2. 相关工作图像生成损失图像生成任务需要各种损失来实现图像合成中的专用目的[23，24，32，39，40，43，44，47例如，不成对的图像平移通常与某些损失相关联，以促进输入和输出图像之间的相关性。特别地，Zhu等人。 [56]设计了一种循环一致性损失，通过确保输入图像可以从翻译结果中恢复来保留图像内容。然而，循环一致性损失假设两个域之间的关系是双射，这对于图像翻译任务来说通常过于限制。因此，一些作品[1，3，12]旨在探索单向翻译，并绕过循环一致性的双射约束另一方面，成对图像翻译需要一定的度量标准来衡量图像之间的感知相似性，符合人类的感知。通过利用预先训练的神经网络的内部激活，感知损失[11，13，17，33]成为图像翻译中与人类感知一致的强大度量[53]。然而，所有上述度量都是基于逐点绝对偏差设计的，其倾向于估计所有可能实例的中值随着对比学习的出现，一个流行的研究路线将对比学习引入图像生成[10，18，42，51，52]。特别地，CUT [26]提出通过噪声对比估计[25]最大化对应块之间的互信息，以在不成对的图像平移中保留内容。Ando-nian等人。 [2]引入对比学习来测量配对图像翻译中的图像间相似性。AECR- Net [38]通过将恢复图像拉近清晰图像并将其推离表示空间中的模糊图像，为图像去雾引入了对比正则化。NEGCUT [34]提出了一个实例式硬负样本生成框架，用于未配对图像到图像翻译中的对比学习。然而，所有以前的损失都是基于香草对比学习设计的，该学习不加区别地排斥所有负样本，而不管它们与锚的相似性如何。对比学习对比学习[5，14，41]最近已经成为无监督表示学习中的一个重要工具，导致了最先进的结果。对比学习的目标是学习一个类属特征18282位置对阴性对0.750.500.250.000.250.500.751.005位置对阴性对432100.750.500.250.000.250.500.75一元3.5位置对阴性对位置对阴性对52.5位置对阴性对3.042.02.532.01.51.521.01.010.50.50.00.000.00.20.40.60.81.00.00.20.40.60.81.00.00.20.40.60.81.0ΣN······l=1我我我JLΣL4.063.553.02.542.031.521.010.50.00第四，第八，第十二relu2_2 relu3_2 relu4_2图2. 非配对和配对图像翻译中正负对相似度的直方图。左边的三个图是 CUT模型[26]的第4层、第8层和第12层的结果，用于不成对的图像平移（马到斑马）。右侧的三个图是SPADE [27]中预训练VGG-19的relu2 2，relu3 2，relu4 2层的结果，用于配对图像平移（ADE 20 K）。非常明显的相似性分布导致反加权策略，为未配对和配对的图像翻译。通过将正点拉向锚并将负点推离锚来嵌入。然而，传统对比学习的目标是误导的，因为负样本将被不加区别地用相同的权重推开，而不管它们与锚点的相似性如何。为了减轻相似对的不期望的排斥，一种流行的研究探索通过增加正对的重要性[6]或为负对分配不同的重要性[29]来重新加权NCE损失。此外，Chen et al.[4]提出了大间隔对比学习（LMCL）来区分簇内和簇间对，只推开簇间对。然而，所有描述的方法都探索重新加权单个对比目标，用于评估人类感知相似性。然而，大多数度量都是通过计算绝对平均误差来设计的，这往往会使所有可能实例的平均偏差最小化，并导致生成的图像中的模糊。在这项工作中，我们制定对比损失作为一个通用的度量在各种翻译任务，只是通过适当地选择积极和消极对。对于未配对的图像翻译，先前提出的PatchNCE[26]已经验证了对比学习对内容保存的有效性。PatchNCE旨在最大化来自生成的图像X和地面实况Y的相同空间位置中的块之间的相互信息，如下所示：特征表示，这是不可行的情况下，伴随着多个对比目标，不能推广到图像生成领域。L（X，Y）=−exi·yi/τ日志ex·y/τ+J、（1）ex·y/τ3. 该方法在本节中，我们首先将对比学习公式化为非配对和配对图像翻译任务的通用度量。然后根据正负图像对的相似度分布，分别建立了非配对和配对图像翻译最后，我们推导出我们设计的调制噪声对比估计（MoNCE）损失，该损失能够协调多个目标之间的负对的重新加权。3.1. 图像翻译的通用度量给定两个域中的图像，图像翻译旨在将来自输入域的图像翻译成看起来像来自输出域的图像。用于训练翻译模型的数据集可以是未配对的（即，不成对的图像平移）和成对的（即，成对图像转换），并且对于具有不同数据集设置的图像转换，需要不同的损失项。GAN损失通常在未配对和配对图像翻译之间共享，以对抗翻译图像中的伪影，并且其他损失术语通常专门设计用于实现各种目标，例如，[17]第56话：你是谁？其中，X=[x1，x2，…，xN]和Y=[y1，y2，…，yN]是编码图像特征集，τ是温度参数。ter，N是特征块的数量。通常，在PatchNCE中采用多层特征（编码器的第1层、第4层、第8层、第12层和第16层），其被公式化为m（X，Y）=L（ X1，Y1），其中X1和Y1表示编码器的第1层中的对应特征集合。对于成对的图像翻译，我们的目标是测量翻译图像和地面真理之间的感知相似性，符合人类的与感知损失[17]中的多层设置一致，我们采用预训练的VGG-19网络[31]从翻译的图像和地面真值中提取相同的层特征（relu1 2，relu2 2，relu3 2，relu4 2，relu5 2通过将来自经转换的图像和地面实况的相同空间位置中的特征块处理为正对，并且将不同位置中的特征块处理为负对，Eq.（1）可以用于最大化转换图像和地面实况之间的互信息。根据表3中的实验结果，具有用于特征提取的预训练VGG-19的PatchNCE在各种评估指标中的配对图像翻译方面与众所周知的感知损失[17]相位置对阴性对0.60.40.20.00.20.40.60.81.0Ni=1j=1我18283→IJΣΣΣN̸埃什托IJ我我IJ我J定位性能受益于简单的加权策略，52504846440.1 0.51.0 2.05.0温度35.535.034.534.033.533.032.5ADE20K（语义）不称量硬称量易称量0.1 0.51.0 2.0 5.0温度在完成对比学习之后。如图2、对于非成对图像翻译，对比学习后的正、负图像对的相似度直方图几乎没有重叠，说明正、负图像对很容易被推开。最后，硬加权策略可以有助于提高性能，因为模型可以专注于从更多信息的负样本（硬负样本）中学习，这已经被证明有利于对比学习。图3.使用具有变化的温度β的不同加权策略的图像平移性能（FID）。这两个图分别是未配对图像平移（使用CUT模型[26]和WeightNCE的Horse Zebra）和配对图像平移（使用SPADE模型[26]和WeightNCE的ADE 20K）的结果。考虑到PatchNCE在未配对和配对图像翻译方面的卓越性能，对比学习可以作为各种图像翻译任务中的通用度量。然而，PatchNCE的vanilla目标将不加区别地排斥所有阴性样本，而不管它们与锚点的相似性如何，这往往是次优的，因为阴性样本的固有信息不相等。3.2. 加权对比目标由于每个阴性样品与锚的相似性不同，因此每个阴性样品的推力应ing [29，35].然而，对于成对图像平移，正负图像对的相似度直方图存在严重的重叠，这表明很多负样本很难与正样本区分开来。在这种情况下，硬加权可能不利于对比学习，因为天真地使用太硬的负样本可能会降低中等样本的贡献，从而产生更差的表示[16]。可以合理地推测，在这种情况下，通过向这些硬负样本分配较低的权重，从而降低它们在对比目标中的影响，容易加权可能有助于对比学习。我们分别将硬加权和易加权策略应用于非配对和配对图像翻译，验证了上述猜想对于单个斑块的对比目标，硬加权权重w+和易加权权重-ing权重wi−j由aiv e确定，neg由ive确定与样本yj和锚xi之间的相似性的关系具体如下：为了更好地进行对比学习而进行相应调整[35]。到W+=e（xi ·yj）/βw−=e（1−xi·yj）/β、（3）调整底片的推力，一个简单而可行的方法是调整其重量，ijNj=1 e（xi ·yj）/β ijNj=1 e（1−xi·yj）/βobjective. 根据等式（1）、负对的较高权重（例如， exi·yj/τ）表示在对比目标中更高的重要性，即，加大了对负的推力因此，等式的加权版本。（1）（由─由WeightNCE表示）可以被公式化为：其中β表示加权温度参数。我们将温度β值和生成图像的FID得分分别作为横坐标和纵坐标，如图所示。3.第三章。以不带输出加权的生成性能为基准，我们可以观察到，exi·yi/τ日志ex·y/τ+Q（N−1）、（二）W· ex·y/τ我加权策略，并与β的减小呈现正相关关系。另一方面，配对图像trans-mapping-其中 Q 表示分母中负项的权重（默认情况下Q=1），wij（j=i）表示样本yj和锚点xi之间的权重，并且与β的减小呈正相关，这与我们的推测是一致的。尽管以前的一些工作[29，35]证明了硬负样本对对比学习的有效性，但我们要澄清的是，Nj=1 wij =1，i ∈[1，N].太硬的样品的不良影响已经超过-J I加权策略基本上可以归结为两类：将较高权重分配给硬负样本（称为硬加权w+），并将较高权重分配给容易负样本（称为容易加权wi-j）。为了确定加权策略，不成对和成对的图像翻译，我们说明了SIM-在三个中间层中的正和负对的相似度直方图（对于非配对图像变换为第4、第8、第12层，对于配对图像变换为relu2 2、relu3 2、relu4 2）在成对意象翻译的情况下，它们发挥了积极的作用。在上述实验中，等式（1）中的加权策略是：（3）分别应用于每个对比子目标。然而，所有对比的子目标都有助于最终目标，如等式2中所示二、在没有总体协调的情况下独立地对每个子目标进行加权可能导致不同子目标之间的冲突，并且因此对于最终目标而言往往是次优的。马斑马不称量硬称量易称量FID评分FID评分Ni=1j=1JΣ−18284噪声对比估计Y地面实况生成的图像2 22002年，…2 32 12019年10…1 31 21 1······ΣΣi=1不⟨⟩∈j=1负对权重123…联系我们次级目标最佳运输：NN重量调制min��,��,��∈[1,N]N��=1 =1��≠��N��. -��是的��1个1 个运输计划图4.提出的调制对比度的框架特征集X=[x1，x2，x3，，xN]和Y=[y1，y2，y3，，yN]之间的对比学习有多个子目标。为了调整多个子目标中负对的权重在特征集X和Y之间进行具有成本矩阵C的最优传输（对于非配对翻译，由Cij=exi·yj/β定义，对于配对翻译，由Cij=e（1-xi·yj）/β定义），以最小化总传输成本，从而产生用作最优传输计划的最优传输计划。对应的负对的权重。3.3. 调制对比物镜当我们正在探索重新权衡战略时，对于wij，i，j∈[1，N]：与特征（xi或yj）相关联的权重预计将minΣΣNΣwij·exi·yj/τΣ。（五）是恒定的，因此产生以下约束：wij，i，j∈[1，N]i=1j=1j=iNwij=1，i=1Nwij= 1， i，j∈ [1，N].（四）j=1Eq的形成（5）在Eq. （4）可以被视为具有成本矩阵C的[x1，x2，···，xN]和[y1，y2，···，yN]之间的最优运输（OT）[28]问题考虑到如图所示的对比目标。4，特征yj用作多个子目标的负样本。由于与yj相关联的总权重为con，defined by Cij = exi·yj/β for ij and Cij = inf fori=j。类似于等式中的加权温度成本矩阵C中的β用作指示成本温度的成本温度。最佳运输的平稳性。较小的β趋于Stant（即，ΣNwij=1），则对于为小成本条目Cij 和一个大在不同的子目标中，例如，几个子目标都期望yj的更高权重，而yj的总权重受到约束。因此，我们的目标是调整权重wij（i，j）的分配[1，N]，ij）在总权重不变的约束下跨越多个子目标。为了调整所有负对的权重分配，应确定所有对比子目标共享的权重调整目标。以简单加权策略为例，推导出最终的权重调制目标。通过将较高权重分配给具有低相似性的负对，等式中的对比子目标的容易加权（2）等价β倾向于为所有成本条目分配相同的权重实验部分对β最优运输旨在检索运输计划T，该运输计划T使总运输成本最小化，如下所示：最小C，T，s. t.（T1）=1，（T1）=1，（6）其中C，T表示C和T的内积。因此，求解运输计划T等同于求解权重参数为wij=Tij。Sinkhorn算法[8]可以应用于Eq. （6）为近似最优trans-n-减少负项Nwij ·exi ·yj/τ。为港口解决方案，产生所需的最佳运输计划J I将所有图像块的对比目标相加，从最终目标来看，多个对比目标之间的共享调制目标可锚样品阳性配对负对XN N2013年2012年 121991年2019年10………2013年12…3 33 23 1编码器编码器N1213…中国1N2123…2012年12月2日3132…中国3N………美国123…N18285以被视为减少否定项的总损失。为了从数学上推导表达式，调制目标的目标被表示为最小化负项的总损失，T.以导出的运输计划矩阵T作为权重，在负对的情况下，确定了易加权策略的调制目标对于硬加权策略，可以类似地导出调制目标，仅重新定义等式中的成本矩阵C 6作为Cij=e（1−xiyj）/β，i=j，Cij=inf，i=j。18286·→→•→•→··×输入周期丢失修补程序NCEMoNCE输入循环损失PatchNCEMoNCE输入循环损失PatchNCEMoNCE图5.定性比较不成对图像翻译任务的不同损失，包括城市景观（语义→图像），马→斑马，冬季→夏季。CUT [26]的结构用于翻译。[26]第二十六话城市景观（语义→图像）马→斑马冬季→夏季FID↓mAP↑像素访问 ↑classAcc↑FID↓社署↓FID↓社署↓基线（GAN损失）139.99.70523.4414.17129.874.85136.247.80+循环损失[56]75.9720.5355.8725.2376.3750.5486.1438.79+PatchNCE [26]57.1624.2978.2230.6745.3332.0280.2536.92+重量NCE55.9424.9877.9231.9642.9231.5879.3236.39+MoNCE54.6725.6178.4133.0241.8630.8078.1835.95表1.以CUT [26]作为模型结构的不同任务的未配对图像翻译性能[54]第五十四话马→斑马冬季→夏季FID↓社署↓FID↓社署↓[20]第二十话72.1848.85125.157.48FSeSim43.2636.7779.1435.79LSeSim+PatchNCE40.1234.7778.3034.47LSeSim+WeightNCE38.6732.5976.9833.89LSeSim+MoNCE37.2132.1276.0433.10表2.使用F/LSeSim [54]作为模型结构的未配对图像平移。4. 实验4.1. 实验设置数据集：对于不成对的图像翻译，我们对Cityscapes，Horse Zebra和Winter Summer进行了实验。对于配对图像翻译，我们在ADE 20 K、CelebA-HQ和DeepFashion上进行了实验。Cityscapes [7]包含2，975张在街道上捕获的训练图像和500张验证图像。我们在这个数据集上进行不成对的语义到图像的翻译。Horse Zebra [56]从ImageNet [9]收集了1187张马的图像和1474张斑马的图像用于训练和验证。冬季夏季[56]包含1，200张冬季图像，1，540张夏季图像用于训练和验证。• ADE20k [55]由20k个训练图像组成，类分割掩码。我们进行图像生成，使用其语义分割作为条件输入。CelebA-HQ [22]包含30，000张人脸图像。我们使用它的语义映射和边缘映射的条件生成。DeepFashion [21]包含52，712张人物图像。我们使用它的关键点作为实验中的条件输入。评估指标：实验中采用了几种评价指标来评价图像的平移性能。采用Fre'chetInceptionScoree（FID）[15]和切片Wasserstein距离（SWD）[19]来测量翻译图像和真实图像之间低级别补丁的分布差异和统计距离。对于语义图像翻译任务，我们采用预训练的分割模型来评估分割准确性，例如，平均精度（mAP）和像素精度（Acc）。实施详情：所有实验都是在256 - 256的图像分辨率下进行的。对于对比学习设置，我们与CUT [26]保持一致，例如，256个阴性样本，温度参数τ= 0.07。对于所有任务，WeightNCE和MoNCE中的默认温度β和权重项权重Q分别为0.1和1我们根据上述设置重新训练所有比较方法，以确保公平比较。18287输入感知损失PatchNCEMoNCE输入感知损失PatchNCEMoNCE输入感知损失PatchNCEMoNCE图6.配对图像翻译任务的不同损失的定性比较，包括ADE 20 K（语义），CelebA-HQ（边缘）和DeepFashion（关键点）。SPADE [27]的结构用于翻译。SPADE [27]ADE20K（语义）CelebA-HQ（语义）CelebA-HQ（Edge）DeepFashion（Keypoint）FID↓mIoU↑加计↑FID↓社署↓FID↓社署↓FID↓社署↓基线（GAN损失）87.3231.3276.7986.9125.9384.0427.3528.5722.18+感知损失[17]33.6842.2381.9636.5417.2831.5318.2535.7424.03+PatchNCE [26]33.4244.9181.9233.3821.9030.8123.1438.0423.53+重量NCE32.4745.6983.5232.1518.8630.4921.5136.8322.98+MoNCE31.6246.3084.2930.0117.3929.7518.1133.9621.58表3.使用不同类型的条件输入进行配对图像翻译。SPADE [27]的模型结构用于比较不同损耗的性能。4.2. 不成对图像翻译我们评估我们提出的损失经典的不成对图像翻译任务。我们首先采用 CUT [26] 的模型结构来比较CycleLoss [56]、PatchNCE loss [26]以及我们提出的WeightNCE和MoNCE。按照SEC的讨论。3.2、对硬负样本赋予较高权值的加权策略用于非成对图像平移。如表1所示，仅具有GAN损失的模型用作基线。四种不同的损失分别进一步纳入基线，以作比较。我们可以观察到，所提出的 WeightNCE 和 MoNCE 都优于CycleLoss和PatchNCE在所有比较的未配对翻译任务中一致。与整体权重调制跨多个对比目标，建议MoNCE优于WeightNCE跨所有评估指标。图5示出了未配对图像平移的定性比较。所有比较的方法都采用与CUT相同的结构，唯一的变化来自不同的损耗。除了CUT模型之外，我们还将四种损失与F/LSeSim[54]模型进行了比较，该模型利用自相似性的空间模式来在未配对图像平移中保留图像结构。使用随机采样特征计算自相似性的内容损失[20]F/LSeSim可以使用预先训练的 VGG-16 [31] （即 FSeSim ）或PatchNCE（即LSeSim）来学习空间相关映射。在这里，我们将PatchNCE替换为WeightNCE和MoNCE进行比较。如表 2 所示，可学习自相似性设置（LSeSim+PatchNCE）优于具有预训练VGG-16的固定自相似性设置[31]。与CUT的结果一致，将PatchNCE替换为WeightNCE和MoNCE也显著提高了翻译质量。4.3. 配对图像翻译对于成对图像平移，我们采用SPADE [27]的结构来执行Perce-pLoss [17]，PatchNCE [26]以及我们提出的WeightNCE和MoNCE之间的比较。选择仅具有GAN损失的SPADE模型作为基线。然后将基线与不同的损失组合以执行比较。如表3所示，具有用于特征提取的预训练VGG-19的PatchNCE考虑到vanilla PatchNCE在非配对和配对图像翻译中的性能，对比学习具有很好的潜力，可以作为测量图像相似性的通用度量。此外，我们可以观察到MoNCE优于WeightNCE，并且两者的表现始终优于PatchNCE，这验证了18288马斑马PatchNCE权重NCEMoNCE→→45.545.044.544.043.533.5033.2533.0032.7532.50ADE20K（语义）46454434.534.033.533.0ADE20K（语义）43.042.542.032.2532.0031.754332.532.04231.5电话：+86-510 - 8888888传真：+86-510 - 8888888温度电话：+86-510 - 8888888传真：+86-510 - 8888888温度电话：+86-510 - 8888888传真：+86-510 - 8888888负项权重Q电话：+86-510 - 8888888传真：+86-510 - 8888888负项权重Q图7.改变温度参数β和负项权重Q对非配对图像平移（马斑马）和配对图像平移（ADE 20K（语义））的影响。MoNCE变体性能双向预训练冷冻FID ↓mIoU↑美国31.3146.71✓✓✗30.9444.89✓✗✗40.4738.22✗✗✗42.8636.16✗✓✗31.3745.44✗✓✓31.6246.30表4.配对图像翻译（ADE 20K）上MoNCE变体的消融研究灰色行的配置是MoNCE的默认设置我们的加权策略和调制机制。图6示出了具有不同损失的SPADE的定性实验。我们可以看到，与PercepLoss相比，使用PatchNCE翻译的图像往往呈现更少的伪影，因为对比学习旨在最大化相应图像的互信息，而不是天真地最小化逐点绝对偏差。通过对简单加权状态的整体调制，我们的MoNCE明显优于PatchNCE，生成的图像具有更精细的细节。4.4. 讨论我们对未配对的图像平移（马斑马）和配对的图像平移（ADE 20K（语义））进行实验，以检查等式中的成本温度β的影响。（六）、如图所示。7，当温度β降低时，未配对和配对图像平移的生成性能（FID得分）一致地提高。然而，我们发现模型训练往往是不稳定的，甚至在小的温度β下失败，例如，0.01.我们还消除了方程中的负项权重Q的影响。（二）、如图7，非配对图像翻译和配对图像翻译的性能分别与负项权重Q的增加呈现正相关和负相关。虽然FID随着更大的Q而改善，但是我们观察到，对于不成对的图像平移，保存性能实际上降低了。基于上述观察，我们将温度β默认设置为0.1，负项权重Q默认设置为1我们还探索了配对图像翻译（ADE 20 K）上的对比学习的几种变体，包括没有预训练的VGG-19网络，解冻的预训练VGG-19网络。19网络，以及[2]中介绍的对比学习的双向设计（包括以地面真实补丁为锚的对比目标）。如表4所示，在没有预先训练的情况下从头开始学习特征提取器往往会严重损害生成包括双向设计的建议MoNCE提高发电性能略有改善。解冻预训练的VGG-19网络改善了FID，同时损害了mAP分数。5. 结论我们已经制定了对比学习作为一个通用的度量各种图像翻译任务，这是在相应的任务中设计的普遍损失。以重新加权负对为目标，根据正负图像对的相似度分布，探索并建立了非成对和成对图像翻译为了对与完整图像相关联的所有负对的重新加权进行调制，我们进一步推导出MoNCE，其采用最佳传输来检索跨多个对比目标的负对的最佳权重。我们对负对加权策略的深入和广泛的分析为图像生成中的对比学习的探索奠定了良好的基础。6. 确认本研究得到了RIE 2020产业联盟基金-产业合作项目（IAF-ICP）资助计划的支持马斑马PatchNCEWeightNCEMoNCEPatchNCE权重NCEMoNCEFID评分PatchNCE权重NCEMoNCEFID评分FID评分FID评分18289引用[1] Matthew Amodio和Smita Krishnaswamy Travelgan：通过变换向量学习实现图像到图像的翻译。在IEEE/CVF计算机视觉和模式识别会议论文集，第8983-8992页，2019年。2[2] Alex Andonian、Taesung Park、Bryan Russell、PhillipIsola、Jun-Yan Zhu和Richard Zhang。图像预测的对比特征损失在IEEE/CVF国际计算机视觉会议论文集，第1934二、八[3] Sagie Benaim和Lior Wolf。单侧无监督的域映射。神经信息处理系统的进展，30，2017。2[4] Shuo Chen ， Gang Niu ， Chen Gong ， Jun Li ， JianYang，and Masashi Sugiyama.使用距离极化正则化器的大间隔对比学习。国际机器学习会议，第1673PMLR，2021年。3[5] 陈婷，西蒙·科恩布里斯，穆罕默德·诺鲁齐，和葛offrey Hinton.视觉表征对比学习的一个简单框架国际机器学习会议，第1597-1607页。PMLR，2020年。一、二[6] Ching-Yao Chuang，Joshua Robinson，Lin Yen-Chen，Antonio Torralba，and Stefanie Jegelka. 去偏见对比学习。arXiv预印本arXiv：2007.00224，2020。3[7] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集在Proceedings of the IEEEconference on computer vision and pattern recognition，pages 32136[8] 马可·库图里Sinkhorn距离：最佳运输的光速计算。神经信息处理系统的进展，第2292-2300页，2013年5[9] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议，第248-255页。Ieee，2009年。6[10] 邓宇，杨蛟龙，陈冬，方文，童欣。通过3d模仿对比学习实现分离和可控的人脸图像生成。在IEEE/CVF计算机视觉和模式识别会议论文集，第5154-5163页，2020年。2[11] Alexey Dosovitskiy和Thomas Brox基于深度网络生成具有感知相似性度量的图像。神经信息处理系统的进展，29：6582[12] Huan Fu ， Mingming Gong ， Chaohui Wang ， KayhanBat- manghelich，KunZhang，and Dacheng Tao.用于单侧无监督域映射的几何一致生成对抗网络。在IEEE/CVF计算机视觉和模式识别会议论文集，第2427-2436页，2019年。2[13] Leon A Gatys，Alexander S Ecker，and Matthias Bethge.使用卷积神经网络的图像风格转换在IEEE计算机视觉和模式识别会议论文集，第2414-2423页，2016年。2[14] Kaiming He，Haoqi Fan，Yuxin Wu，Saining Xie，andRoss Girshick.用于无监督视觉表示学习的动量对比。在IEEE/CVF计算机视觉和模式识别会议论文集，第9729-9738页一、二[15] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。神经信息处理系统的进展，第6626-6637页，2017年6[16] Sangryul Jeon ， Dongbo Min ， Seungryong Kim ， andKwanghoon Sohn.挖掘更好的样本用于时间对应的对比学习。在IEEE/CVF计算机视觉和模式识别会议论文集，第1034-1044页，2021年。4[17] 贾斯汀·约翰逊，亚历山大·阿拉希，李飞飞。实时风格转换和超分辨率的感知损失。欧洲计算机视觉会议，第694施普林格，2016年。一、二、三、七[18] 姜敏国和朴载植。ContraGAN：条件图像生成的对比学习。在神经信息处理系统会议（NeurIPS），2020年。2[19] Tero Karras ， Timo Aila ， Samuli Laine ， and JaakkoLehtinen.为提高质量、稳定性和变异性而进行的干细胞生长。arXiv预印本arXiv：1710.10196，2017。6[20] NicholasKolkinJasonSalavon和GregoryShakhn

下载后可阅读完整内容，剩余1页未读，立即下载