图像协调中的自洽风格对比学习方法及其在视觉效果方面的应用

157 浏览量更新于2023-10-25 收藏 1.97MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

19710SCS-Co：图像协调的自洽风格对比学习俞成杭1，刘伟，夏斌1，杨文明1，2，†，廖庆民1，21清华大学深圳国际研究生院2清华大学电子工程系{hangyc20，xiab20} @ mails.tsinghua.edu.cn，{yang.wenming，liaoqm} @ sz.tsinghua.edu.cn(a) （b）DoveNet [5]（c）iS2 AM [35]（d）RainNet [24]（e）Ours（f）Real（Ground Truth）图1.与其他方法的比较。由于提出的SCS-Co，我们的方法可以从动态生成的负样本中获得更明确的失真知识，并进一步从前景自身风格和前景-背景风格一致性两个方面联合约束解空间再加上BAIN，我们的方法产生了一个更逼真的协调结果。摘要图像协调旨在通过调整前景使其与背景兼容来实现合成图像中的视觉然而，现有的方法往往只使用真实图像作为正样本来指导训练，最多引入对应的此外，它们都没有共同约束前景自身风格和前景-背景风格的一致性，这加剧了这个问题。此外，最近的区域感知的自适应实例归一化取得了很大的成功，但只考虑全局背景特征分布，使对齐的前景特征分布偏置。为了解决这些问题，我们提出了一个自我一致的风格对比学习计划（SCS-Co）。通过动态生成多个负样本，我们的SCS-Co可以学习更多的失真知识，并从前景自身风格和前景-背景风格一致性两个方面在风格表示空间中对生成的协调图像进行很好的正则化，从而得到一个*同等贡献。†通讯作者。更逼真的视觉效果。此外，我们提出了一个背景注意力自适应实例归一化（BAIN），以实现注意力加权的背景特征分布，根据前景-背景特征的相似性。实验表明，我们的方法优于其他国家的最先进的方法，在定量比较和视觉分析。1. 介绍图像合成广泛用于图像编辑[6，45]和数据增强[7，46]，其目标是通过提取一个图像的前景并将其粘贴到另一个图像的背景上来合成合成图像。然而，由于前景和背景表现将由于不同的捕获条件而不同，所以合成图像经常看起来不真实，即，存在不和谐的问题。因此，旨在调整前景的外观以使其与合成图像中的背景相容的图像协调是重要且具有挑战性的。已经提出了许多基于深度学习的方法用于图像协调。然而，大多数方法[6，14，15，35，39，48]没有从视觉风格的角度考虑这个问题因此，它们不能确保前景和背面之间视觉风格的一致性19711��መ��ሚ−1��ሚ−动态阴性样本生成策略L1地面[24]。基于域转换的方法[4，5]从域一致性的角度隐式地考虑了这个问题，但不直接转换生成器中的前地特征最近，Linget al. [24]明确引入视觉风格的概念，并首先将图像协调视为背景到前景风格转换问题1。受AdaIN [18]的启发，他们提出了一种用于图像协调的区域感知自适应实例归一化（RAIN）SS-CR拉推CS-CR拉推并取得了巨大的成功。然而，如图1（d）所示，失真仍然存在，或者在某些情况下甚至非常严重。我们认为，导致上述困境的原因有两个：（1）与AdaIN的问题一样，RAIN只考虑了背景中的全局风格分布，并将前景特征分布与之对齐，但作为一种常见的直觉，背景中与前景特征相似的区域需要更多的关注。例如，在图1的第一行中，前景对象在背景中该模型应更多地关注这两个地区的地方风格分布。(2)第二个是一般性的问题，不局限于基于风格的方法，也是我们要解决的核心问题。大多数实验方法[6，14，15，35，39，48]仅使用真实图像通过1损失来指导训练，这过于简单，无法很好地约束解空间[42]。为此，DoveNet [5]和RainNet [24]采用域验证丢失。但它只将真实/和谐图像的前景-背景特征相似性视为正/负，输入的合成图像并未使用，其中包含重要的换句话说，它只是一个正向约束。另外，图像协调的目的是调整前景，为什么不直接约束前景特征呢？考虑到上述问题，Conget al. [4]第四节“三重损失”。但它直接将前台域代码拉到后台域代码，太强，会受到内容信息的干扰。一个更重要的问题是，仅使用输入合成图像作为负样本，导致有限的外部失真知识[41，42]，并且学习的特征分布容易变得有偏差[25，41]。综上所述，为什么不动态生成多个负样本，从前景自身风格和前景-背景风格一致性两个方面进行联合约束，以获得更多的失真知识，减少解空间？基于上述观察和分析，我们尝试解决这两个问题。对于第一个问题，受[26，29]的启发，我们提出了背景注意自适应实例规范化（BAIN）。它可以学习前景和背景之间的特征相似度，并计算出前景和背景之间的相似度。[1]事实上，对于类似的任务，即绘画协调，Luanet al. [27]前面介绍了视觉风格的概念。图2.说明我们的SCS-Co，包括SCS-CR和动态阴性样本生成策略。该策略的细节如图4所示。根据该特征相似度计算背景的注意力加权风格分布最后，前地特征分布与该分布对齐。对于第二个问题，我们试图以对比学习的形式，同时考虑正反两方面的关系来具体来说，我们提出了一种新的自一致风格对比学习方案（SCS-Co）（见图2），包括自一致风格对比正则化（SCS-CR）和动态负样本生成策略（见图4）。对于合成图像I_n，我们将其对应的协调图像I_n和其地面真实真实图像I分别表示为锚点和正样本。我们还将该合成图像I表示为第一个n eg ativ esample l eI−。通过我们的动态负样本生成策略，获得了更多具有相同内容但不同失真的负样本。然后，我们尝试在风格表征空间中将锚样本拉近正样本，并将锚样本推离负样本。具体地说，为了实现更强的约束，我们不仅从前景自身样式表示进行约束，而且以背景样式表示为指导，从前景-背景风格的一致性。我们的贡献可归纳为三个方面：• 我们首次将对比学习引入图像协调。我们的自一致风格对比学习方案（SCS-Co）可以在不增加模型参数的情况下进一步• 我们开发了一个背景注意自适应的立场归一化（BAIN）。它学习前景-背景特征相似性注意图，并通过每个点的注意加权背景特征统计来适当地归一化前景特征• 大量的实验证明，我们的方法是强大的图像协调。与其他国家的最先进的方法相比，我们的方法在定量指标和视觉质量方面都取得了优异的成绩。一致性一致性一致性一致性197121(c)动态阴性样本生成策略(b)自洽风格对比正则化��ሚ−��ሚ−3��ሚ−2��ሚ−1(a)图像协调网络��一致性SS-CR贝恩��ሚ��መL1损失CS-CR��+−正��−−负��+−正��−锚点背景注意自适应实例规范化编码器/解码器/样式表示提取器贝恩图3.该方法的体系结构包括：（a）图像协调网络，（b）自一致的风格对比正则化和（c）动态新样本生成策略。请注意，第一个n eg at iv esampleI-是输入合成图像I。(b) （c）建立自洽的风格对比学习方案。2. 相关工作图像协调。已经提出了用于图像协调的各种方法。传统方法专注于更好地传递手工制作的低级外观统计数据，例如颜色统计数据[31，32，45]，梯度信息[19，30，37]，前景和背景区域之间的多尺度各种统计数据[36然而，它们不能解决前景图像与背景图像具有大的外观间隙的随着深度学习的发展，越来越多的基于深度学习的方法被提出.为了了解合成图像中各种低级特征之间的差异，Cun和Pun [6]设计了一个额外的空间分离注意力模块。在[39]中，他们提出了一个用于图像协调的端到端CNN网络，并结合了一个辅助分割分支来使用语义信息。Guo等[15]首先基于内禀图像理论建立图像协调模型，采用自动编码器将合成图像分解为反射率和光照度两部分进行单独协调。在[35]中，他们将预训练的语义分割模型与编码器-解码器架构相结合，以实现图像协调。随着 Trans-former的兴起，Guoet al.[14]设计第一个协调的转换器框架，不使用和使用分离的表示。在[20]中，他们提出了第一个自监督的归一化框架，它既不需要人类注释的掩码，也不需要专业创建的图像进行训练。任意样式传输。任意风格转换是一种用于渲染具有特定视觉效果的照片的技术。通过在内容图像上均匀地合成来自给定样式图像的全局和局部样式模式，同时保持其原始结构，来实现样式。起源于非真实感绘制[22]，早期的图像风格转换方法与纹理合成密切相关[8采用深度学习的成功，Gatys等人。第一个公式化的风格转移是从预训练的深度神经网络中提取的多级深度特征的匹配，并实现了令人惊讶的性能[11]。Huang等人. 通过匹配内容和风格特征之间的均值-方差统计，创建了一种用于实时风格传输的新方法（AdaIN）[18]。之后，提出了许多方法[1，13，26，43，47]。然而，如[24]中所强调的，这些风格转换方法对于我们的任务来说并不实用，因为我们工作中定义的风格与图像真实性而不是纹理一致，并且我们的任务是区域感知的，否则将引入新的特征偏移问题。对比学习对比学习已经证明了它在自我监督表示学习中的有效性[3，16，17，28，33，38，44]。对比学习不是使用预先定义的固定目标，而是将正样本拉到锚点附近，并将负样本推到表征空间中，从而增加相互信息。然而，不同于高级视觉任务[3，12，16，17]，其固有地适合于对正样本和负样本之间的对比进行建模，由于它们难以构建负样本和对比损失，因此仍然很少有将对比学习应用于低级视觉任务的工作[40在本文中，具体来说，19713小批量随机样品对应真实图像·−··−−−KK.Σk=1简体中文11K−k=1--对于图像协调，我们设计了一个自一致的风格对比学习方案。3. 我们的方法3.1. 问题公式化给定前景图像If和背景图像Ib，合成图像的对象合成过程可以用公式表示为If=MIf+（1M）Ib，其中是逐元素乘法，M是前景掩模，表示要协调的区域，因此背景掩模为M<$=1M.我们的目标是学习一个协调网络G，其输出是协调图像I= G（I，M），并且应该通过Lrec=I− I 1接近地面真实图像I。颜色转移阴性样本3.2. 图像协调网络如图3（a）所示，我们的网络G基于U- Net，具有从编码器到解码器的跳过链接。其详细情况见补充资料。此外，我们提出了在编码器和解码器之间插入的背景注意自适应实例规范化（BAIN），这将在第3.4节中详细解释。3.3. 自我一致风格对比学习方案（SCS-Co）如图2所示，我们的SCS-Co包含SCS-CR和动态阴性样本生成策略。SCS-CR包括自风格对比正则化（SS-CR）和一致风格对比正则化（CS-CR）。我们明确了自我风格是指前景的风格，一致风格是指前景-背景风格的一致性。配方。对于我们的SCS-Co，我们需要解决两个关键问题。一种是构造正样本和负样本。在我们的SCS-Co中，我们选择协调的图像I图4.我们的动态阴性样本生成策略的说明。红色框表示输入的合成图像。通过该策略，获得了更多的相同内容但失真度不同的负样本，提供了更多的失真度知识。相同的小批量并分割其前景区域。如[5，39]所建议的，我们将这些K1个前景区域的颜色信息分别转移到Rf，导致K1个负样本。最后，我们成功获得K个采样，即， Ik−，k=1，2，3，...， K.二是寻找这些样本的风格表征空间进行对比。我们使用固定的预训练风格表示提取器R并引入前景掩码M和背景掩码M<$=1M是O-为不同区域保留样式表示具体来说，称为y，我们输入I，I和I−，k=1，2，3，.， K.然后，我们可以获得锚前景样式表示f=R（I，M），正前景样式表示f = R（I，M），f+=R （ I ， M ），正背景风格表示 b+=R （ I ，M<$），e背景风格表示ne giv e语句f −=R（I−，M），k=1，2，3，.，K.K1由图像协调网络G生成的图像I和对应的真实图像I作为锚和正样品，分别。最重要的任务是，因此，SS-CR可以公式化为：D（f，f+）struct负样本。我们可以简单地使用输入的复合图像作为唯一的负样本。但随着Lss−cr=D（f，f+）+K、（1）Df，fk−在现有的对比学习方法[3，16]中强调，覆盖丰富的负样本集的大型字典对于良好的表示学习至关重要。因此，在训练过程中，对于每个输入合成图像I，我们在线生成K个负样本。具体来说，我们提出了一种动态的负样本生成策略。如图4所示，给定一个输入合成图像I（红框），我们将其用作第一个n g at iv e样本I−。然后得到对应的真实图像I，并根据前景掩模M分割出前景区域Rf。在wards之后，我们从K−1个图像（除了I− 1个）中采样，其中D（x，y）=x y1表示x和y之间的距离。如图2所示，我们的SS-CR专注于前景自我风格，将f拉近f+，并将f推离f-K。然而，到目前为止，我们还没有使用背景风格表示，这是一个强大的指导图像和谐化[4]。因此，我们进一步从前景-背景风格一致性的角度进行对比约束。具体来说，我们计算f和b+之间的风格consisten cy为c=Gram（f，b+），其中Gram（·）表示Gram矩阵[11]。同样的，我们也可以-19714k=1.Σ∈.ΣⓈKk=1tainc+=Gram（f+，b+），且c−k =Gram（fk−，b+），k=1，2，3，.， K.因此，CS-CR可以公式化为：D（c，c+）Lcs−cr=D（c，c+）+K、（二）Dc，c−k如图2所示，我们的CS-CR关注前景-背景样式一致性，到c+，并将c从{c−}K-是的最后，训练的总损失函数为：Lscs−cr= Lss−cr+ Lcs−cr，L= L rec + λ·L scs−cr。（三）图5.背景-注意力自适应实例规范化（BAIN）。可以获得归一化的背景特征图F<$b。福-其中λ是用于平衡反射损失和SCS-CR的超参数与三重损失的区别。与三重损失[4]相比，如图2所示，我们使用对比学习框架。我们的SCS-Co在线动态生成K个阴性样本，并将输出的谐波化图像推离它们。通过这样的多个推送操作，可以在表示空间中执行更强大的约束。此外，我们的SCS-Co不是简单地将f拉到b+，而是从前景-背景风格一致性的角度进行约束更多的实验表明，我们的SCS-Co在图像协调方面优于三重损失（见第4.3节）。3.4. 背景注意自适应实例归一化（BAIN）配方。我们在图 5 中说明了 BAIN 的结构。设F∈RC×H×W是编码器产生的特征图，M∈R1×H×W是调整大小的前景掩模，其中C、H、W分别表示通道数、高度和Fr，我们将F<$f ，F<$b和Fb转换为Q （查询），K（key）和V（值）：Q=f（F<$f），K=b（F<$b），V=k（Fb），（6）其中f（·），b（·）和k（·）是1×1的连续解。因此，注意力图A∈RHW ×HW可以计算为：A=Softmax其中表示矩阵乘法。然后分别计算注意加权背景期望和标准方差。注意加权背景期望ERC×HW可以计算为：E=VAT，（8）由于变量的方差等于其平方的期望值减去其期望值的平方，我们可以获得注意加权的背景标准方差S∈RC×HW：.S=（V·V）AT-E·E，（9）具体地，为了学习前景特征，背景特征单独，我们首先用相应的掩码分离前地特征图和背景特征图：最后，我们将E和S重塑为RC×H×W，并对齐F<$f有E和S通过下式计算站点（c，h，w）处的对准前景特征图FafFc，h，w=Sc，h，w·F<$c，h，w+Ec，h，w。（十）Fb=F·M<$，（四）af fFf=F·M，其中Fb和Ff是背景特征图和前地特征图。然后，采用实例规范化方法对Fb和Ff进行规范化.归一化的前景特征位置（c，h，w）的地图F<$f计算如下：Fc，h，w− µc矩阵乘法��−��逐元素加法逐元素减法在实例规范化Softmax1x1转换1x1转换1x1转换在在19715雨的区别。受AdaIN的启发[18]，Linget al. 建议RAIN[24]用于图像协调并取得了巨大成功。然而，就像AdaIN的问题一样，RAIN只考虑背景中的整体风格分布，并将前景特征分布与背景特征分布与RAIN不同，受[26，29]的启发，我们的BAIN可以更多地关注背景中功能相似的区域F<$c，h，w=fFCFf，（5）到前景，基于这个注意力地图，注意加权期望和标准方差其中，µc和σc表示通道平均值，计算stan-背景特征以局部对齐前-f f前景特征图的标准方差。同样，我们接地特征分布。σ19716↑↓×表1. iHarmony4的四个子数据集之间的定量比较[5]。意味着越高越好，意味着越低越好。红色和蓝色分别表示最佳和第二佳性能数据集度量复合DIH [39]S2AM [6]DoveNet [5]BargainNet [4]郭et al. [第十五条][第24话] [35]第三十五话D-HT [14]我们HCOCOPSNR↑MSE↓fMSE↓33.9469.37996.5934.6951.85798.9935.4741.07542.0635.8336.72551.0137.0324.84397.8537.1624.92416.3837.0829.52501.1739.1616.48266.1938.7616.89299.3039.8813.58245.54Hadobe5KPSNR↑MSE↓fMSE↓28.16345.542051.6132.2892.65593.0333.7763.40404.6234.3452.32380.3935.3439.94279.6635.2043.02284.2136.2243.35317.5538.0821.88173.9636.8838.53265.1138.2921.01165.48HFlickrPSNR↑MSE↓fMSE↓28.32264.351574.3729.55163.381099.1330.03143.45785.6530.21133.14827.0331.3497.32698.4031.34105.13716.631.64110.59688.4033.5669.67443.6533.1374.51515.4534.2255.83393.72Hday2nightPSNR↑MSE↓fMSE↓34.01109.651409.9834.6282.341129.4034.5076.61989.0735.2751.951075.7135.6750.98835.6335.9655.53797.0434.8357.40916.4837.7240.59590.9737.1053.01704.4237.8341.75606.80PSNR31.6333.4134.3534.7635.8835.9036.1238.1937.5538.75平均MSE↓fMSE↓172.471376.4276.77773.1859.67594.6752.33532.6237.82405.2338.71400.2940.29469.6024.44264.9630.30320.7821.33248.864. 实验4.1. 实验设置数据集。遵循与之前方法相同的设置[5，24]，我们使用基准数据集iHarmony4 [5]进行训练和评估，该数据集由四个子数据集组成： HCOCO ， HADobe5k ，HFlickr 和 Hday2night 。我们遵循与 DoveNet 相同的iHarmony4设置 [5]。我们还在[39]发布的99幅真实合成图像上评估了评估指标。在[4，5，24，35]之后，使用RGB通道上的峰值信噪比（PSNR）、均方误差（MSE）和前景MSE（fMSE）评估谐波化结果fMSE是仅计算前景区域中的MSE的评估度量，其测量前景的协调程度。比较方法。我们比较了许多SOTA图像协调方法：DIH[39]，DoveNet [5]，RainNet [24]，iS2 AM [35]，D-HT[14]等。我们不与传统的图像协调方法兼容，因为它们已被证明比深度学习方法表现更差[4，5，24]。所有的结果要么是由作者提供的，要么是由他们官方发布的代码产生的。实施详情。我们的模型由Adam 优化器训练，β1=0。9，β2=0。999，且ε=10−8。我们训练了120个epoch的模型，输入图像的大小设置为256 256，批量大小设置为12。初始学习率设置为10−3，并在第100和第110个历元中乘以0.1 我们使用PyTorch通过Nvidia 2080Ti GPU 实现我们的模型。由于VGG网络[21]强大的风格表示能力，我们选择固定的预训练VGG-16 [34]作为风格表示提取器，并使用层relu 4 -3的潜在特征。我们设置λ = 0。01在Eq.（三）、对于阴性样本的数量，我们设定K = 5，并将在第4.3节中进一步探讨。4.2. 与现有方法的合成iHarmony4数据集的性能。表1显示了先前最先进的方法以及我们的方法的定量结果。从表1中，我们可以观察到我们的方法在所有数据集上都优于其他比较方法，除了Hday2night的MSE和fMSE值。此外，与第二好的方法相比，我们的方法实现了巨大的平均性能增益0.56 dB的PSNR，3.11的MSE，和16.1的fMSE。在图6中，我们进一步展示了iHarmony4的定性比较结果。可以很容易地观察到，我们的方法在整个合成图像中获得了更一致的视觉风格，实现了更逼真的输出。例如，如图6的第三行所示，前景和背景的视觉风格差异很大，导致明显的图像失真。其他三种方法不能调整前景的风格，特别是整体色调和光影对比度。与他们不同的是，我们的方法产生了一个更照片逼真的结果，更接近地面真实的图像。在真实合成图像上的性能。图7显示了DIH发布的真实合成图像的一些结果[39]。由于没有地面实况图像作为参考，因此不可能使用PSNR、MSE或fMSE对不同方法进行量化然而，我们仍然可以请参阅补充资料以了解更多的视觉比较。我们进一步进行用户研究。在[4，5，15]之后，我们邀请了60名志愿者，并为所有99张图像获得了总共29700个成对结果，平均每对不同方法获得30个结果。然后，我们使用Bradley- Terry模型（B-T模型）[2，23]来计算每种方法的全局排名得分。表2表明，我们的方法达到了最高的B-T分数，这证明了它在现实世界中的应用的有效性。19717[24]第一届中国国际航空航天博览会[35图6.iHarmony4测试数据集样本的定性比较[5]。合成图像中的红框标记前景。表2.对99幅真实合成图像进行B-T评分比较。方法组合DIH [39]DoveNet [5][24]第二十四话B-T评分↑2017年12月31日[24]第24话我的世界图7.来自[39]的真实合成图像的示例结果。合成图像中的红框标记前景。4.3. 消融研究在表3中，我们发现当添加BAIN时，PSNR值从37.55 dB至37.84 dB。当使用SCS-Co时，PSNR值从37.55 dB提高到38.42 dB。采用这两种方法后，PSNR值进一步提高，38.75分贝。类似的现象也出现在其他计量学上。这些比较证明了我们的BAIN和SCS-Co的有效性，它们可以很好地合作，以进一步提高性能。此外，为了进一步为了说明我们的BAIN和SCS-Co的有效性，我们在图8.可以发现，与基线产生的失真结果相比，加入BAIN后，输出结果的颜色和光照都接近真实图像，但仍有一定程度的偏差。引入SCS-Co后，进一步校正了这种偏差，输出结果与实际图像非常接近。更多关于BAIN的消融研究见补充资料。SCS-CR中的SS-CR和CS-CR。SCS-CR是我们SCS-Co的关键组成部分，它由SS-CR和CS-CR组成因此，我们在SCS-CR中研究了SS-CR和CS-CR。如表4所示，我们发现SS-CR和CS-CR都显著提高了我们模型的性能，并且通过使用它们来实现最佳结果。它们的结合可以在风格表示空间中严格地规则化协调图像，这显著地促进了真实感视觉效果的生成。阴性样本数量。我们进一步研究了阴性样本数的影响。如图9所示，添加更多的负样本实现了更好的性能，因为负样本越多，可以执行的约束越强大。然而，在图- ure9中，我们还观察到，随着负样本数量的增加，增加负样本带来的增益此外，随着负样本数的因此，对于性能-效率权衡，我们最终选择使用五个负样本，即，我们设K=5。19718表3. 使用BAIN和/或SCS-Co的基线性能。表5. SCS-Co和三重态损失的比较[4]。具有BAIN和SCS-Co的网络性能最好。方法基线含三重态损失含SCS-Cow/ SCS-Co（K=1）BAIN SCS-Co PSNR↑ MSE↓ fMSE↓’’✓’37.8425.23269.05’✓38.4222.98249.65✓✓38.7521.33248.86复合真实基线w/BAIN全模型图8.BAIN和SCS-Co的消融研究全模型意味着BAIN和SCS-Co的基线。表4. SCS-CR中SS-CR和CS-CR的消融研究SS-CR CS-CR PSNR↑ MSE↓ fMSE↓’’电话：+86-021 - 8888888PSNR↑ 37.55 37.94 38.42 38.13平均误差↓ 27.81 25.48 22.98 23.32fMSE↓ 294.64 274.65 249.65 266.43表6.将SCS-Co整合到SOTA方法中的结果MSE↓ 34.92（↓5.37）74.72（↓2.05）53.86（↓5.81）fMSE↓ 364.29（↓105.31）707.16（↓66.02）538.99（↓55.68）负样本，而且还通过使用对比学习框架和约束从前景自我风格和前景-背景风格的一致性。SCS-Co的通用性。为了评估我们的SCS-Co的通用性，我们将其集成到三种 SOTA 方法中： RainNet[24]，DIH [39]和S2 AM [6]。如表6所示，在集成SCS-Co之后，每种方法的性能都得到了改善。这证明了我们的SCS-Co的通用性，它可以很容易地添加到不同的模型，而无需增加任何模型参数。5. 结论在本文中，我们提出了一种新的自一致的风格对比学习计划（SCS-Co）与自一致的风格对比正则化（SCS-CR）和一个动态的负样本生成策略。SCS-Co建立在38.438.238.037.837.60 2 4 68K(a) PSNR2902802702602500 2 4 68K(b) fMSE对比学习，以确保输出的协调图像（锚样本）被拉得更接近真实图像（正样本），而被推离合成图像（第一负样本）和风格表示空间中的其它动态生成的负样本。该约束是从前景自身风格和前景-背景风格一致性两个方面联合提出的因此，我们的SCS-Co可以学习更多的失真知识图9.在SCS-Co中使用不同数量的负样本的性能。我们报告了PSNR和fMSE。SCS-Co和三重态损耗的比较。在第3.3节中，我们讨论了我们的SCS-Co和[4]中的三重态损失之间的差异为了进一步证明我们的SCS-Co的有效性，我们将三重损失添加到基线网络中，并将其结果与我们的SCS-Co进行比较。在表5中，我们可以发现，与使用三重态损耗相比，使用我们的SCS-Co带来了更多的性能改善，PSNR增加了0.48 dB类似的现象也出现在其他指标上。此外，我们设置K=1，即，我们仅使用输入合成图像作为负样本，这与三重态损失一致。如表5所示，我们的SCS-Co（K=1）仍然获得了相对于三重态损失的明显改善。这证明了我们的SCS- Co的改进不仅仅是通过引入更多的动态生成并且很好地减小了解空间。此外，本文提出了一种背景-注意自适应实例归一化（BAIN）方法，对背景中与前景特征相似的区域给予更多的关注，并计算注意加权的背景特征分布，以局部对齐前景特征分布。实验表明，我们的方法优于其他SOTA方法在合成和真实数据集。鸣谢。本工作得到广东省自然科学基金部分资助（编号：2020A1515010711），国家自然科学基金（编号：61771276）和深圳市战略性新兴产业发展专项基金（编号： JCYJ20200109143010272 和 CJGJZD20210408092804011）。它也得到了海外合作基金会的部分支持。峰值信噪比（dB）方法[第24话]DIH [39]S2AM[6]PSNR↑37.07（↑0.95）34.09（↑0.68）35.13（↑0.78）fMSE✓’38.0324.09258.64’✓37.8825.06269.7919719引用[1] Jie An，Siyu Huang，Yibing Song，Dejing Dou，WeiLiu，and Jiebo Luo.Artflow：通过可逆的神经流传递无偏见的图像风格。在CVPR，第862-871页，2021年。3[2] Ralph Allan Bradley和Milton E Terry。不完全区组设计的秩分析： I. 成对比较的方法。 Biometrika ， 39（3/4）：324-345，1952. 6[3] 陈婷，西蒙·科恩布里斯，穆罕默德·诺鲁齐，和葛offrey Hinton.视觉表征对比学习的一个简单框架。在ICML，第1597-1607页，2020年。三、四[4] 丛文燕，牛莉，张建福，梁静，张立青。Bargainnet：用于图像协调的背景引导域翻译。在ICME，第1-6页，2021年。二四五六八[5] Wenyan Cong，Jianfu Zhang，Li Niu，Liu Liu，ZhixinLing，Weiyuan Li，and Liqing Zhang. Dovenet：通过域验证进行深度图像协调。在CVPR，第8394- 8403页，2020年。一二四六七[6] 村晓东和潘志文。利用空间分离注意力模型提高合成图像的协调性。IEEE Transactions on Image Processing，29：4759- 4771，2020。一二三六八[7] Debidatta Dwibedi，Ishan Misra，and Martial Hebert.剪切，粘贴和学习：令人惊讶的简单合成，例如检测。在CVPR中，第1301-1310页，2017年。1[8] Alexei A Efros和Thomas K Leung。基于非参数采样的纹理合成。ICCV，第2卷，第1033- 1038页，1999。3[9] Michael Elad和Peyman Milanfar。通过纹理合成的花柱转移。 IEEE Transactions on Image Processing ， 26（5）：2338-2351，2017。3[10] Leon Gatys，Alexander S Ecker，and Matthias Bethge.使用卷积神经网络进行纹理合成。NeurIPS，第262-270页，2015年。3[11] Leon A Gatys，Alexander S Ecker，and Matthias Bethge.使用卷积神经网络的图像风格转换。在CVPR中，第2414-2423页，2016年。三、四[12] Jean-BastienGrill ， FlorianStrub ， FlorentAltche' ，CorentinTallec，PierreHRichemond，ElenaBuchatskaya ， Carl Doer-sch ， Mohammad GheshlaghiPires，et al. Bootstrap your own latent：A new approachtoself-supervisedlearning.arXiv 预印本 arXiv ：2006.07733，2020。3[13] 顾沭阳、陈聪良、景辽、卢远。复杂的风格转换和深层的功能重组。在CVPR中，第8222-8231页，2018年。3[14] Zonghui Guo ， Dongsheng Guo ， Haiyong Zheng ，Zhaorui Gu ， Bing Zheng ， and Junyu Dong. 与Transformer的图像协调。在ICCV，第14870-14879页，2021年10月。一、二、三、六[15] Zonghui Guo，Haiyong Zheng，Yufeng Jiang，ZhaoruiGu，and Bing Zheng.内在的形象协调。在CVPR中，第16367-16376页，2021年。一、二、三、六[16] Kaiming He，Haoqi Fan，Yuxin Wu，Saining Xie，andRoss Girshick.用于无监督视觉表示学习的动量对比。在CVPR中，第9729-9738页，2020年。三、四[17] 奥利维尔·海纳夫具有对比预测编码的数据高效图像识别。在ICML，第41823[18] Xun Huang和Serge Belongie。实时任意样式传输，具有自适应实例规范化。在ICCV，第1501-1510页，2017年。二三五[19] Jiaya Jia，Jian Sun，Chi-Keung Tang，and Heung-YeungShum. 拖放粘贴。 ACM Transactions on Graph-ics（TOG），25（3）：631-637，2006. 3[20] Yifan Jiang，He Zhang，Jianming Zhang，Yilin Wang，Zhe Lin ， Kalyan Sunkavalli ， Simon Chen ， SohrabAmirghodsi，Sarah Kong，and Zhangyang Wang. SSH：一个图像协调的自我监督框架。在ICCV，第4832- 4841页，2021年10月。3[21] 贾斯汀·约翰逊，亚历山大·阿拉希，李飞飞。实时风格转换和超分辨率的感知损失。ECCV，第694-711页，2016年。6[22] Jan Eric Kyprianovich ， John Collomosse ， TinghuaiWang，and Tobias Isenberg.”艺术”状态：图像和视频艺术风格化技术的分类。 IEEE Transactions onVisualization and Vomputer Graphics ，19（ 5 ）： 866-885，2012。3[23] Wei-Sheng Lai ， Jia-Bin Huang ， Zhe Hu ， NarendraAhuja，Ming-Hsuan Yang.单幅图像盲去模糊的比较研究。在ICCV，第1701-1709页，2016年。6[24] 君凌、寒雪、李嵩、容邪、小顾。区域感知的自适应实例归一化图像谐波化。在CVPR中，第9361-9370页，2021年。一二三五六七八[25] Rui Liu ， Yixiao Ge ， Ching Lam Choi ， XiaogangWang，and Hongsheng Li. Difference：通过对比生成对抗网络进行多样化的条件图像合成。在CVPR中，第16377-16386页2[26] Songhua Liu ， Tianwei Lin ， Dongliang He ， Fu Li ，Meiling Wang，Xin Li，Zhengxing Sun，Qian Li，andErrui Ding. Adaattn：重新审视任意神经风格迁移中的注意机制。在ICCV，第6649-6658页，2021年10月。二三五[27] Fujun Luan，Sylvain Paris，Eli Shechtman，and KavitaBala.深度绘画和谐。在计算机图形论坛，第95-106页2[28] Aaron van den Oord、Yazhe Li和Oriol Vinyals。使用对比预测

下载后可阅读完整内容，剩余1页未读，立即下载