SSH:一种自监督的图像调和框架

2 浏览量更新于2023-10-14 收藏 54.63MB PDF 举报

图像合成

数据集

身份认证购VIP最低享 7 折!

30元优惠券

Yifan Jiang†, He Zhang‡, Jianming Zhang‡, Yilin Wang‡, Zhe Lin‡, Kalyan Sunkavalli‡,Simon Chen‡, Sohrab Amirghodsi‡, Sarah Kong‡, Zhangyang Wang†48320SSH：一种自监督的图像调和框架0† 德克萨斯大学奥斯汀分校 ‡ Adobe公司 † { yifanjiang97,atlaswang } @utexas.edu , ‡ {hezhan,jianmzha,yilwang,zlin,sunkaval,sichen,tamirgho,sakong } @adobe.com0DC WCT 2 [ 38 ] DIH [ 33 ] S 2 AM [ 6 ] DoveNet [ 5 ] SSH（我们的）0图1：直接合成（DC）、当前最先进方法和提出的SSH的图像调和结果的视觉比较。最佳观看效果为彩色和放大。0摘要图像调和旨在通过匹配前景和背景图像之间的“外观”（例如，色调、亮度和对比度）来提高图像合成的质量。然而，为了完成这个任务，收集大规模的带注释数据集需要复杂的专业修饰。相反，我们提出了一种新颖的自监督调和框架（SSH），可以仅使用“自由”自然图像进行训练，而无需进行编辑。我们从表示融合的角度重新定义了图像调和问题，分别处理前景和背景示例，以解决背景遮挡问题。该框架设计允许进行双重数据增强方法，通过使用3D颜色查找表（LUT）对带有扰动的图像进行裁剪，可以生成多样化的[前景、背景、伪GT]三元组。此外，我们还建立了一个由专家用户精心创建的真实调和数据集，用于评估和基准测试。我们的结果表明，所提出的自监督方法在参考指标、视觉质量和主观用户研究方面优于先前的最先进方法。代码和数据集可在https://github.com/VITA-Group/SSHarmonization上获得。01.引言图像调和是图像合成中的关键步骤，旨在调整（调和）前景和背景图像之间的“外观”0外观 - 例如，颜色、饱和度、亮度和对比度 -的前景对象以更好地匹配背景图像，从而使得合成结果更加逼真。例如，阳光下拍摄的主题与阴天拍摄的主题不同，当将其合成到阴天场景中时，其外观需要进行编辑。以往的方法通过在前景和背景区域之间传递统计信息来解决这个问题，包括颜色[19, 36]和纹理[31]。最近，[33, 5,6]训练深度神经网络来解决图像调和问题，需要输入-调和合成训练对的大规模数据集。然而，一般来说，收集大规模高质量的调和数据集需要繁琐的专业修饰。相反，现有方法[33, 5,6]通过选择现有图像中的前景对象，扰动其颜色以模拟未调和的合成，并训练网络回归原始输入图像，如图2左所示。虽然这些方法[33, 5,6]在一定程度上是有效的，但它们有几个局限性：0•有限的地面实况配对数据。收集高质量的配对调和数据是耗时且费力的。即使在上述受限情况下，每个图像中都需要准确的前景对象蒙版，如图2左所示。0•背景遮挡。由于通过简单合成合成，现有方法无法有效利用48330带蒙版的真实图像0监督（之前的方法）0自监督0（我们的方法）0合成标注蒙版输入0合成输入参考地面真实数据0训练三元组0真实图像0地面真实数据0随机裁剪和扰动0扰动0在掩膜区域上0训练三元组0图2：先前监督方法[5，6，33]与提出的SSH的比较。与在训练过程中需要注释掩模的先前方法不同，我们的自我监督框架在训练过程中不需要掩模。注释掩模仅在测试时需要，用于实际生成合成图像。0对于协调化来说，背景上下文的限制是解决的难点。例如，当前景对象占据图像的大部分时，它们的性能通常会下降。0•有限的协调化变异性。当前方法仅考虑简单的低维颜色转移函数来生成训练（甚至测试）数据。这在具有显著复杂外观差异的真实世界场景中无法很好地推广。0为了解决这些限制，我们提出了一种新的自我监督图像协调化框架，称为SSH。与之前的方法[33，5，6]直接将合成图像作为输入（如图2左所示）不同，提出的SSH方法试图从表示融合的角度重新构建协调化问题。该提出的框架分别从前景和背景图像中提取“内容”和“外观”表示，然后聚合这些表示以合成协调化输出。基于这种形式，我们引入了一种新颖的双数据增强引擎，生成各种合成数据，可以直接作为[前景，背景，伪GT]三元组用于支持自我监督训练（如图2右所示）。同时，我们建议采用3D查找表（LUT）来替代传统的颜色转移增强，以即时生成多样的视觉示例。因此，该方法在训练过程中不需要任何前景掩模，并且允许我们利用整个背景图像生成高质量的协调化结果。之前的方法评估其性能合成数据[5]或没有地面真实数据[33]。鉴于这一差距，我们建立了一个新的真实世界高质量的协调化复合图像基准。0由专业Photoshop用户修饰。这个收集的数据集包含216个复合图像，其中前景包括人像和一般物体，而背景涵盖了各种环境，如山脉、河流、建筑物、天空等（详细描述见第3.3节）。实验证明，SSH在真实数据上明显优于最先进的协调化方法。我们总结如下贡献：0•我们提出了第一个无需人工标注掩模或专业创建图像进行训练的自我监督协调化框架。0•我们开发了一种新颖的双数据增强方案，通过利用更复杂的3D LUT，在实时生成更多样化和逼真的训练数据。0•我们收集了第一种真实世界基准集，其中包含216个高质量的专业策划的复合图像，以评估最先进的图像协调化方法。我们的方法也明显优于现有方法。02. 相关工作0图像协调化：传统的图像协调化方法主要针对更好地调整低级外观统计信息，例如颜色分布[27，29]和多尺度特征[14，26，32]。除了传统方法，一些最近的工作尝试在协调化任务中采用基于学习的方法，以更好地理解前景和背景图像之间的上下文信息。Zhu等人[42]提出使用一种可以区分自然图像和合成图像的判别模型。Tsai等人首次采用分割掩模48340作为语义信息来训练端到端的深度学习方法。Cun等人[6]提出了通道和空间注意机制，进一步提高了协调结果的视觉质量。最近的方法DoveNet[5]将图像协调视为域适应问题，并成功地使用对抗学习实现了显著的性能。然而，这些方法[33，6，5]主要依赖于注释的分割掩码来合成训练对。与这些方法不同，我们的方法通过自监督的优势解决了昂贵的人工注释问题。自监督学习：自监督学习在高级任务中通过在假设任务[11，24]下学习或对比增强视图[4，12]中学习而变得流行。对于低级任务，自监督通常通过自动生成合成数据对来实现，例如去模糊中的模糊核[23，17]或超分辨率中的双三次插值[7]。最近，[18]在图像去噪中应用了自监督学习，而无需访问清晰的参考图像。然而，大多数这些方法在真实世界数据上的测试中都面临严峻的挑战。据我们所知，SSH是图像协调任务上第一个自监督学习方法。比较图像协调和风格转移：风格转移可以追溯到Gatys等人的开创性工作[10]，随后有许多改进的方法旨在提高转移效率[13，16]或可扩展性[39，37，9]。然而，它在抽象纹理特征方面的强大能力使其一般不适用于协调逼真的摄影图像。与我们特别相关的一条路径是逼真的风格转移[22，20，38]，它在标准风格转移上添加了逼真性正则化项，从而产生了视觉上令人愉悦和逼真的输出。尽管它们的目标与我们非常相似，但这个领域的现有作品要么需要语义分割掩码来指示特定区域[22]，要么需要两个输入图像共享相似的布局[20，38]（例如建筑物到建筑物）。与所有这些方法不同，SSH可以在任意摄影图像上采用，而不需要分割掩码或假设相似的布局。我们在实验中与最先进的逼真风格转移方法WCT 2 [38]进行比较，以更好地说明差异。03. 方法0我们提出的自监督协调框架（SSH）的概述如图3所示。我们的主要目标是避免昂贵的人工注释，而是定义可以作为该任务的代理的伪真值。为此，我们的方法利用内容网络和参考网络分别提取输入图像的内容和外观的表示。0将不同图像裁剪中提取的特征进行拼接，并输入到融合网络中，该网络旨在重建协调的图像。此外，单独处理前景和背景图像（而不是合成图像[5]）允许我们最大化信息并避免背景遮挡问题（图6）。我们观察到，同一图像的不同裁剪倾向于共享相同的外观（颜色、光照条件和对比度），因为它们是从相同的环境（光照、天气条件）和相机设置中捕获的。因此，不同的裁剪及其具有适当扰动的不同外观版本可以作为内容和参考网络的伪三元组（前景、背景和真实值）。受到这一观察的启发，我们提出了一种双重数据增强方案，包括内容增强和外观增强。我们将首先介绍双重数据增强策略，然后继续解释我们的自监督框架和数据收集过程的细节。03.1.双数据增强0双数据增强的目标是提供包含各种外观并模拟真实测试场景的伪训练三元组。在每次迭代中，我们执行内容增强和外观增强。内容增强采样两个具有一定重叠区域的不同裁剪。同时，外观增强对给定图像应用多个3D颜色查找表（LUT），以获得其对应的样式化图像。03.1.1 内容增强0为了模拟前景和背景图像完全不同的真实测试场景，我们在数据合成过程中应用内容增强。内容增强采用简单而有效的多裁剪方法，生成原始图像的不同裁剪。裁剪尺寸范围从局部区域到全局区域，因此可以模拟不同的环境，从而减少合成数据和真实测试数据之间的差距。图3左下角的图像显示了一个典型示例，通过这种裁剪方法可以从图像中获得不同的外观。03.1.2 外观增强0使用各种外观合成数据是训练图像谐和模型的常见步骤[5,33,6]。现有方法要么选择采用单一的颜色转换方法[33]，要么将其扩展到几种不同的颜色转换方法[5]。然而，在实际的谐和场景中，前景和背景图像之间的外观不匹配可能更加显著。the appearance representation (color, brightness, and con-trast etc.) from reference image R, and a content networkGc to capture the content representation (structure, textureetc.) from content input C. Then the fusion network Faggregates the appearance and content representation andlearns to synthesize the output C′, so that the output C′48350数据引擎0输入0内容α 参考β0测试流程0输入0参考0输出掩膜0谐和输出0自监督学习流程0重建损失和谐和损失0参考α0提取的表示0特征聚合0内容网络0参考网络0融合网络0内容α 内容β0图3：训练和测试阶段的详细信息。左图说明了我们自监督帧工作的主要流程。我们首先使用提出的双数据增强引擎生成内容αβ和参考αβ，分别作为内容网络GC和参考网络GS的输入（α和β表示应用不同3DLUT后的两种不同外观）。之后，训练流程学习在给定参考β的情况下从内容α合成内容β，并在给定参考α的情况下学习重建内容α本身。翻译和重建过程导致谐和损失和重建损失。右图描述了我们的测试阶段。需要注意的是，人工标注的掩膜仅在测试阶段用于必要的合成。0复杂且包括对比度、亮度和饱和度差异。为了解决这个问题，我们提出使用3D颜色查找表作为基本的转换方法。3D颜色查找表（LUT）将一个颜色空间映射到另一个颜色空间，在电影后期制作行业被广泛使用。它本质上是一个3D到3D的映射，可以将输入图像的任何RGB颜色转换为任何其他RGB颜色。它还可以表示诸如对比度增强之类的函数，其中操纵输入图像的色调范围。LUT具有许多优点，包括：1）与简单的颜色转换函数不同，它可以表示复杂的外观调整；例如，图3左下角的图像显示了LUT可以提供非线性变换，其中图像的不同部分的外观被不同地转换（例如，皮肤可以转换为红色，而T恤保持白色），2）给定一个输入图像，存在数百个可以应用于生成其样式化版本并大大丰富训练数据的LUT，以及3）LUT处理是实时的，因此可以作为即时数据增强策略应用。03.2. 自监督框架0提出的自监督框架SSH将前景作为内容图像C，将背景作为参考图像R。我们采用参考网络Gr来捕捉背景的外观。0使合成输出的外观与参考图像R相匹配，并保留内容图像C的内容。我们将该过程定义如下：0C' = F(Gc(C), Gr(R)) (1)0使用提出的双重数据增强，我们可以从一张图像中生成伪三元组[前景、背景和真实标签]，并将其用于训练SSH。如图3的左侧所示，我们分别通过两个不同的3DLUT对其外观进行扰动生成两个图像（分别表示为α和β）。因此，可以获得与它们对应的内容裁剪（表示为Cα，Cβ）和参考裁剪（表示为Rα，Rβ）。这里Cα包含与Rα相似的外观信息，并且与Cβ具有相同的内容信息。然后，当以Rβ为参考时，网络期望将Cα映射到Cβ，并在以Rα为参考时将Cα重构为自身。这种特殊设计模拟了真实的测试场景，其中前景和背景不共享相同的内容，但期望输出相同。1https://unsplash.com2https://www.ﬂickr.com/48360颜色饱和度对比度亮度局部修饰0协调输出手动调整组合0前景背景注释掩码0图4：数据集收集的主要流程。上图显示了专业用户如何修饰复合图像的详细流程。它包括对象注释和外观匹配（亮度、颜色/饱和度、对比度调整和局部修饰）。0背景作为背景，前景作为内容，映射过程和重构过程使用以下协调损失Lharm和重建损失Lharm：0C'β = F(Gc(Cα), Gs(Rβ)) (2)0C'α = F(Gc(Cα), Gs(Rα)) (3)0Lharm = || C'β - Cβ || 2 (4)0Lrecon = || C'α - Cα || 2 (5)0由于参考网络Gr需要从给定图像中捕捉外观信息，因此在接收到具有相同外观的不同裁剪图像时，期望提取相似的表示。同时，期望内容网络Gc在给定具有不同外观的相同裁剪图像时捕捉相同的特征。因此，我们设计了另一个解缠损失Ldis，其形式如下：0Ldis = || Gc(Cα) - Gc(Cβ) || 2 + || Gs(Cα) - Gs(Rα) || 20(6)结合上述定义的协调损失和重建损失，SSH的整体损失函数可以写成：0Loss = Lharm + w1 * Lrecon + w2 * Ldis (7)0在实验中，w1和w2分别设置为0.4和0.05。因此，提出的SSH可以将图像转换为合成图像，使合成输出能够与其他图像的外观相匹配。如图3的右侧所示，在测试阶段，我们采用对象掩码将合成输出和背景/参考图像组合起来生成协调输出。03.3. 数据集准备03.3.1 训练数据和LUT收集0由于SSH仅需要自监督（而不需要以前的方法[33, 6,5]所需的标记对象掩码或协调真实值），我们能够收集更大规模的无标签训练图像集，具有多样的语义、环境光照条件和内容。我们的无标签训练集包含来自几个数据集[21, 2,41]和互联网12的81917张图像，包括山脉、河流、天空、一般物体、不同光照条件下的人像。此外，我们还从互联网上收集了100个3D色彩查找表。我们在每次训练迭代中随机选择两个LUT，共有100×100种可能的组合，以增加训练的多样性。03.3.2 真实世界图像和谐基准0尽管存在几个用于评估和谐性能的测试数据集[33,5]，但它们都是通过简单的颜色转移方法[29, 35, 8,28]扰动前景对象生成的。此外，这些方法[5,33]在训练阶段和测试阶段都采用相同的数据合成过程。对于基于学习的方法，评估结果将不可避免地存在偏差，无法真实地探测它们在真实世界中的泛化能力。为了弥合当前评估协议与真实图像和谐需求之间的差距，我们提出了一个用于评估的真实世界和谐数据集，命名为RealHM。然而，收集一个良好注释的真实世界测试数据集并不是一项简单的任务，因为需要调整多个元素，并且最佳结果超出了一个图像。特别是，生成高质量的和谐组合需要至少三个主要步骤，如下所示：1）需要选择一个具有挑战性的合成对，直接合成这两个图像将导致严重的视觉不和谐。2）需要一个高质量的遮罩来剪切出前景对象，其中硬边界和软边界（头发/毛发区域）被不同对待。3）使用PhotoShop工具将前景的外观（颜色、亮度、饱和度、对比度）与背景匹配，其中某些特定的局部区域需要进一步调整。图4显示了一个典型的例子。最后，我们收集了216个高质量、高分辨率的前景/背景对及其对应的和谐输出，其中前景包括人像和一般物体，背景涵盖了山脉、河流、建筑物、天空等各种环境。48370DC GT WCT 2 [ 38 ] DIH [ 33 ] S 2 AM [ 6 ] DoveNet [ 5 ] SSH0图5：与现有技术方法的比较。第一列“DC”表示前景和背景图像的直接合成结果，第二列“GT”表示由人工专家用户注释的真实和谐结果。其余五列显示了比较方法和我们提出的SSH方法的输出。更多的视觉结果将在补充材料中展示。最佳观看方式为放大。04. 实验04.1. 实现0SSH首先从头开始训练70个epochs，学习率为2e-4，然后再进行30个epochs，学习率线性衰减为0。我们在训练阶段采用[256,320]的尺度抖动范围，然后在训练阶段裁剪出一个224×224的图像。我们使用Adam优化器，批量大小设置为64。整个训练过程在8个Nvidia 2080TiGPU上耗时20小时。我们使用PyTorch[25]框架实现。我们在全参考度量评估（PSNR、MSE、SSIM和LPIPS）时使用256×256的分辨率，并在视觉比较中使用原始分辨率以获得更好的视图效果。我们遵循[1]使用颜色映射函数生成高分辨率的视觉示例。04.2. 与现有技术方法的比较0在本节中，我们将我们提出的SSH方法与当前最先进的方法进行性能比较。我们进行定量和定性评估，包括视觉质量比较、参考图像质量评估（IQA）和人工主观测试。04.2.1 视觉质量比较0我们首先比较我们的SSH框架与当前最先进的方法在视觉质量方面的表现，如图5所示。第一列显示了直接合成前景和背景图像的结果。第二列表示由具有专业编辑技能的人工专家用户修饰的注释和谐结果。第三到第七列显示了以下方法生成的输出：WCT 2 [38]，DIH[33]，S 2 AM[6]，DoveNet[5]和我们提出的SSH方法。从图5的结果可以看出，由于前景和背景没有相似的布局，照片逼真的风格转移方法[38]生成的结果最差，违反了其适用场景的先决条件。DIH的结果与输入相比只进行了细微的调整，因为它们只使用一种颜色转移方法来合成训练数据。S 2AM和DoveNet的结果要么显示不正确的颜色，要么显示不和谐的对比度。相比之下，SSH不仅成功学习了提取正确的颜色，而且避免了对比度/亮度不匹配。更多结果将在补充材料中展示。04.2.2 全参考度量0接下来，我们在我们的RealHM基准测试上评估这些方法的性能。具体而言，每个示例中，人工注释的协调输出被设置为基准标签，并将直接合成的结果视为基准分数。48380方法 PSNR ↑ MSE ↓ SSIM ↑ LPIPS ↓0DC 25.91 409.54 0.9385 0.0490WCT 2 [38] 22.13 446.85 0.8559 0.0960DIH [33] 23.96 433.52 0.8661 0.0820S 2 AM [6] 26.77 283.27 0.9366 0.0530DoveNet [5] 27.41 214.11 0.9416 0.0440SSH 27.91 206.85 0.9479 0.0390表1：与最先进方法的比较。我们使用PSNR、MSE、SSIM和感知度量等参考度量与提出的SSH方法进行比较。这里 ↓表示越低越好，↑ 表示越高越好。我们的方法在这四个度量下都优于以前的方法。0方法分数 ↑0WCT 2 [38] 0.8210DIH [33] 1.2010S 2 AM [6] 1.7440DoveNet [5] 1.2560SSH 2.2950表2：人体主观评估。较高的分数表示较好的结果。0方法 PSNR ↑ MSE ↓ SSIM ↑ LPIPS ↓0单裁剪 24.80 376.74 0.9203 0.0690多裁剪（我们的）27.91 206.85 0.9479 0.0390表3：内容增强评估。第一行显示了使用单裁剪增强的SSH的结果，第二行显示了使用随机多裁剪增强（提出的方法）的SSH的结果。0在这里，我们将直接合成的结果作为基准分数。根据之前的工作[6]，我们采用了参考度量，包括PSNR、均方误差（MSE）、SSIM [34]和LPIPS[40]。结果如表1所示。更详细地说，WCT 2[38]的性能最差，因为其适用场景要求两个图像共享相似的布局（例如建筑物对建筑物）。此外，S 2 AM[6]由于其双注意力模块而优于DIH [33]。DoveNet[5]略优于S 2AM，这要归功于其域验证鉴别器。然而，这些基于学习的方法都需要人工标注的对象掩码。与这些方法不同，SSH在这四个度量中达到了最佳性能，而无需任何标签，证明了所提出的自监督框架的有效性。我们还在图6中包含了一个典型示例，以展示所提出的SSH框架可以很好地解决背景遮挡问题。04.2.3 人体主观评估0我们进行了人体主观评估，以比较SSH与其他方法的性能。我们随机选择了0方法 PSNR ↑ MSE ↓ SSIM ↑ LPIPS ↓0颜色转换 27.01 311.96 0.9451 0.0430饱和度 26.68 337.11 0.9432 .046003D LUT（我们的）27.91 206.85 0.9479 0.0390表4：外观增强评估。我们评估了不同的“外观”增强策略，包括颜色转换、随机饱和度变化和我们提出的3D颜色查找表（LUT）增强。0方法 PSNR ↑ MSE ↓ SSIM ↑ LPIPS ↓0无重构损失 24.05 475.45 0.9095 0.07800无解缠损失 24.94 372.21 0.9217 0.06430SSH 27.91 206.85 0.9479 0.0390表5：损失函数设计选择的评估。第一行显示了没有重构损失生成的SSH的结果，第二行显示了没有解缠损失的结果。0从RealHM基准测试中选择了15对前景和背景图像。每个图像首先通过五种方法进行处理，包括WCT 2 [38]，DIH[33]，S 2 AM [6]，DoveNet[5]和SSH，然后在屏幕上进行比较显示。人工标注的真实标准也作为参考提供。然后我们请50名受试者独立评分视觉质量，考虑以下因素：1）图像是否存在颜色/饱和度不协调；2）前景和背景是否具有不同的照明；以及3）合成图像是否显示纹理失真/伪影。视觉质量的评分范围从0到4（质量最差到最佳）。如表2所示，照片级风格转换方法WCT 2[38]的性能最差，因为它不适用于图像协调任务，这与全参考评估的观察结果一致。基于学习的图像协调方法[33, 6,5]显示出相当好的性能，而提出的SSH方法获得了最高分。48390BG DC DoveNet [5] SSH0图6：背景遮挡问题。“BG”和“DC”分别代表背景图像和直接合成结果。由于DoveNet[5]只将直接合成图像作为输入，当前景对象过大时，它无法捕捉到背景的真实外观，而SSH成功生成了一个协调的输出。04.3. 剔除研究04.3.1 双数据增强的有效性0由于SSN的优越性是建立在强大的双数据增强基础上的，我们从内容增强和外观增强开始评估每个组件的效果。内容增强在我们的框架中起着至关重要的作用，它生成了同一图像的两个不同裁剪，模拟了前景和背景图像完全不同的真实场景。我们通过用单一裁剪方法替换多裁剪方法，并使内容和参考网络接收与输入相同的裁剪来剔除它。如表3所示，我们观察到，如果不采用多裁剪策略，性能会大幅下降，因为伪标签在训练阶段与输入完全相同，使得模型很容易通过最小化损失而不是真正学习外观的表示。此外，我们通过将其与其他外观增强方法（如颜色转换和随机饱和度调整）进行比较，研究了3D LUT的有效性。如表4所示，所提出的3DLUT增强策略优于颜色转换和随机饱和度变化。这是因为3DLUT提供了更强的外观变化，得益于其多样的颜色映射方式。此外，3DLUT能够实现局部外观变化，而不仅仅是简单的全局平移。04.3.2 损失函数的评估0为了研究重建损失和解缠损失的有效性，我们分别进行了剔除实验。如表5所示，剔除重建损失或解缠损失都会导致性能下降，证明了这些损失的有效性。我们还发现，解缠损失可以帮助稳定我们方法的性能，视觉示例将在补充材料中展示。0直流输出0位置1位置20背景0图7：区域感知调和。“DC”表示直接合成结果。04.4. 区域感知调和0由于所提出的自监督框架在训练阶段以完整的参考图像作为输入，而不需要注释的掩码，因此由注释的掩码带来的缺失的区域信息成为当前方法的一个可能关注点。实际上，我们发现在推理阶段通过适当的裁剪策略可以很好地解决这个问题。我们以一个空间变异的彩色图像作为典型的背景示例，如图7所示。背景包含两个不同的外观，分别位于右上和左下位置。然而，协调的输出的外观预期接近放置前景对象的区域。为了避免协调的输出受到误导环境的影响，我们表明简单地采用裁剪方法可以很好地保留区域信息。通过将右上和左下裁剪框分别视为背景，所提出的方法成功提取了正确的“外观”表示并生成了合理和令人满意的视觉结果，证明了SSH在这种具有挑战性的场景中的有效性。05. 结论0我们提出了一种自监督的图像协调框架，称为SSH。所提出的方法在训练阶段不需要任何人工注释的标签，从而减少了收集大规模高质量人工注释数据集的繁琐工作。此外，我们提出了双数据增强，包括内容数据增强和外观数据增强，不仅提供稳定的伪标签，还丰富了训练数据的多样性。此外，我们建立了一个填补实际测试场景空白的真实协调基准。我们的方法在各种指标上优于所有先前的方法。48400参考文献0[1] Mahmoud A��和Michael S Brown.深度白平衡编辑。在计算机视觉和模式识别IEEE/CVF会议上，第1397-1406页，2020年。 60[2] Vladimir Bychkovsky, Sylvain Paris, Eric Chan和FrédéricDurand.使用输入/输出图像对数据库学习摄影全局色调调整。在CVPR2011上，第97-104页。IEEE，2011年。 50[3] Jianrui Cai, Hui Zeng, Hongwei Yong, Zisheng Cao和LeiZhang.迈向真实世界的单幅图像超分辨率：一个新的基准和一个新的模型。在IEEE国际计算机视觉会议上，第3086-3095页，2019年。 30[4] Ting Chen, Simon Kornblith, MohammadNorouzi和Geoffrey Hinton.对比学习视觉表示的简单框架。arXiv预印本arXiv:2002.05709，2020年。 30[5] Wenyan Cong, Jianfu Zhang, Li Niu, Liu Liu, Zhixin Ling,Weiyuan Li和Liqing Zhang.Dovenet：通过领域验证进行深度图像协调。在计算机视觉和模式识别IEEE/CVF会议上，第8394-8403页，2020年。 1 , 2 , 3 , 5, 6 , 7 , 80[6] Xiaodong Cun和Chi-Man Pun.通过空间分离注意模块改善复合图像的和谐性。IEEE图像处理交易，29：4759-4771，2020年。 1 , 2 , 3 , 5 , 6 , 70[7] Chao Dong, Chen Change Loy, Kaiming He和XiaoouTang.使用深度卷积网络的图像超分辨率。IEEE模式分析与机器智能交易，38(2)：295-307，2015年。 30[8] Ulrich Fecker，Marcus Barkowsky和André Kaup.基于直方图的多视图视频亮度和色度补偿预滤波。IEEE视频技术电路和系统交易，18(9)：1258-1267，2008年。 50[9] Wei Gao, Yijun Li, Yihang Yin和Ming-Hsuan Yang.快速视频多风格转换。在IEEE/CVF冬季计算机视觉应用会议上，2020年3月。 30[10] Leon A Gatys, Alexander S Ecker和Matthias Bethge.使用卷积神经网络的图像风格转换。在IEEE计算机视觉和模式识别会议上，第2414-2423页，2016年。 30[11] Spyros Gidaris, Praveer Singh和Nikos Komodakis.通过预测图像旋转进行无监督表示学习。arXiv预印本arXiv:1803.07728，2018年。 30[12] Kaiming He, Haoqi Fan, Yuxin Wu, Saining Xie和RossGirshick.动量对比用于无监督视觉表示学习。在IEEE/CVF计算机视觉和模式识别会议上，第9729-9738页，2020年。 30[13] Xun Huang和Serge Belongie.实时任意风格转换与自适应实例归一化。在IEEE国际计算机视觉会议上，第1501-1510页，2017年。 30[14] Jiaya Jia, Jian Sun, Chi-Keung Tang和Heung-YeungShum. 拖放粘贴。图形学ACM交易，25(3)：631-637，2006年。20[15] Yifan Jiang, Xinyu Gong, Ding Liu, Yu Cheng, Chen Fang,Xiaohui Shen, Jianchao Yang, Pan Zhou和Zhangyang Wang.Enlightengan：无需配对监督的深度光照增强。IEEE图像处理交易，30：2340-2349，2021年。 30[16] Justin Johnson, Alexandre Alahi, and Li Fei-Fei.实时风格转换和超分辨率的感知损失。在欧洲计算机视觉会议上，第694-711页。Springer，2016年。 30[17] Orest Kupyn, Tetiana Martyniuk, Junru Wu和ZhangyangWang.Deblurgan-v2：更快、更好的去模糊（数量级）。在IEEE/CVF国际计算机视觉会议上，第8878-8887页，2019年。 30[18] Samuli Laine，Tero Karras，Jaakko Lehtinen和TimoAila。高质量的自监督深度图像去噪。在神经信息处理系统进展中，页6970-6980，2019年。30[19] Jean-Francois Lalonde和Alexei AEfros。使用颜色兼容性评估图像真实性。在2007年IEEE第11届国际计算机视觉会议上，页1-8。IEEE，2007年。10[20] Yijun Li，Ming-Yu Liu，Xueting Li，Ming-HsuanYang和JanKautz。逼真图像风格化的闭式解。在欧洲计算机视觉会议（ECCV）论文集上，页453-468，2018年。30[21] Tsung-Yi Lin，Michael Maire，Serge Belongie，JamesHays，Pietro Perona，Deva Ramanan，Piotr Doll´ar和CLawrence Zitnick。Microsoftcoco：上下文中的常见对象。在欧洲计算机视觉会议上，页740-755。Springer，2014年。50[22] Fujun Luan，Sylvain Paris，Eli Shechtman和KavitaBala。深度照片风格转移。在IEEE计算机视觉和模式识别会议论文集上，页4990-4998，2017年。30[23] Seungjun Nah，Tae Hyun Kim和Kyoung MuLee。用于动态场景去模糊的深度多尺度卷积神经网络。在IEEE计算机视觉和模式识别会议论文集上，页3883-3891，2017年。30[24] Mehdi Noroozi和PaoloFavaro。通过解决拼图游戏来进行视觉表示的无监督学习。在欧洲计算机视觉会议上，页69-84。Springer，2016年。30[25] Adam Paszke，Sam Gross，Francisco Massa，AdamLerer，James Bradbury，Gregory Chanan，TrevorKilleen，Zeming Lin，Natalia Gimelshein，LucaAntiga等。Pytorch：一种命令式风格、高性能的深度学习库。在神经信息处理系统进展中，页8026-8037，2019年。60[26] Patrick P´erez，Michel Gangnet和AndrewBlake。泊松图像编辑。在ACM SIGGRAPH2003论文集中，页313-318。2003年。248410[27] Francois Pitie，Anil C Kokaram和RozennDahyot。N维概率密度函数转移及其在颜色转移中的应用。在第十届IEEE国际计算机视觉会议（ICCV'05）第1卷，第2卷，页1434-1439。IEEE，2005年。20[28] Franc¸ois Piti´e，Anil C Kokaram和RozennDahyot。使用颜色分布转移的自动着色。计算机视觉和图像理解，107(1-2)：123-137，2007年。50[29] Erik Reinhard，Michael Adhikhmin，Bruce Gooch和PeterShirley。图像之间的颜色转移。IEEE计算机图形学与应用，21(5)：34-41，2001年。2，50[30] JaesungRim等。用于学习和基准测试去模糊算法的真实世界模糊数据集。博士论文，DG-IST，2020年。30[31] Kalyan Sunkavalli，Micah K Johnson，WojciechMatusik和Hanspeter P�ster。多尺度图像协调。ACMTransactions on Graphics (TOG)，29(4)：1-10，2010年。10[32] Michael W Tao，Micah K Johnson和SylvainParis。容错图像合成。在欧洲计算机视觉会议上，页31-44。Springer，2010年。20[33] Yi-Hsuan Tsai，Xiaohui Shen，Zhe Lin，KalyanSunkavalli，Xin Lu和Ming-HsuanYang。深度图像协调。在IEEE计算机视觉和模式识别会议论文集上，页3789-3797，2017年。1，2，3，5，6，70[34] 周王，Alan C Bovik，Hamid R Sheikh和Eero P Si-moncelli。图像质量评估：从错误可见性到结构相似性。IEEE图像处理交易，13(4)：600-612，2004年。70[35] Xuezhong Xiao和LizhuangMa。在相关颜色空间中的颜色转移。在2006年ACM国际会议虚拟现实连续体及其应用论文集上，页305-309，2006年。50[36] Su Xue, Aseem Agarwala, Julie Dorsey, and HollyRushmeier. 理解和改进图像合成的真实感。ACM Transactionson graphics (TOG)，31(4):1-10，2012年。10[37

下载后可阅读完整内容，剩余1页未读，立即下载