非对齐数据下，上下文损失驱动的图像变换新策略

68 浏览量更新于2024-06-20 收藏 2.88MB PDF 举报

非对齐数据图像变换中的上下文损失是一项重要的研究领域，主要关注在训练前馈卷积神经网络（Convolutional Neural Networks, CNN）处理图像变换任务时，当原始训练图像对不存在空间对齐的情况。传统方法通常依赖于像素级别的对比，比如均方误差（MSE）或结构相似性指数（SSIM），这些方法假定输入和输出图像在空间上是配对的。然而，在现实生活中，许多图像转换任务，如语义风格转换、单图像动画、域转移（如性别转换）等，并不具备这样的对齐条件。在非对齐数据场景下，直接应用标准损失函数会导致生成的图像质量受限于输入的局部特征对齐，无法捕捉跨区域的全局语义关系。为了克服这个问题，研究人员提出了一种上下文损失函数，它不依赖于像素级的精确匹配，而是基于上下文和语义信息来评估生成图像的合理性。这种损失函数允许网络学习如何在不完全对齐的情况下，识别和保持关键特征之间的相对位置，如人脸转换中眼睛和嘴巴的对应位置。上下文损失的主要思想是通过考虑图像中不同区域之间的关系，来衡量生成图像的整体一致性。它不是简单地比较每个像素点，而是更注重整个图像的视觉语义连贯性。例如，在风格转移中，如果生成的图像能够确保眼睛和鼻子的风格与目标区域相匹配，即使它们在空间上并不严格对齐，上下文损失也会给予正向反馈。该方法的优势在于其适用性和简单性，使得训练过程能够在缺乏精确配对数据的情况下依然有效。通过这种方法，网络能够生成更具艺术感和语义一致性的图像，适用于各种图像变换任务。作者Roey Mechrez、Itamar Talmi和Lihi Zelnik-Manor在他们的工作中展示了这个上下文损失的实际应用，并且将他们的代码开源，供其他研究者参考和进一步发展。总结来说，非对齐数据图像变换中的上下文损失为解决实际应用场景下的图像生成任务提供了一个创新的解决方案，它突破了传统方法的空间对齐限制，推动了图像处理技术的进步，特别是在那些对图像整体连贯性有高要求的应用领域。

Roey Mechrez，Itamar Talmi，Lihi Zelnik-

Manor

从输入语义标签映射生成。他们的解决方案也使用了像素到像素的损

失（感知[8]和

1），并且后来添加了GAN [13]。这些方法需要配对和

对齐的训练图像。

域转移最近也被应用于配对训练数据不可用的问题[2，14，15]。

为了克服训练对的缺乏，简单的前馈架构被更复杂的架构所取代。关

键的想法是，从一个领域翻译到另一个领域，然后返回，应该把我们

带到起点。这是由复杂的体系结构建模的，例如，在CycleGAN [2]

中，需要四个不同的网络。循环过程有时会遇到模式崩溃问题，这是

GAN中的一种普遍现象，其中来自域的多个模式的数据映射到不同域

的单个模式[14]。

风格转移

旨在将目标图像的风格转移到输入图像[16，17，18，19]。

与我们的研究最相关的是基于CNN的方法。这些主要区别在于结构和

损失函数的选择[6，7，8，20，21]，[22]中给出了综述Gatys等人[6]提

出了通过使用基于梯度的求解器进行优化而获得的惊人结果他们使用

像素到像素的感知损失[8]来保持与输入图像的相似性，并提出了

Gram损失来捕获目标的风格。他们的方法允许任意风格的图像，但

这需要很高的计算成本。还提出了具有较低计算成本的方法[8，21，

23，24]。通过用训练前馈网络代替优化来获得加速比这些后一种方

法的主要缺点是，它们需要针对每个新的目标风格进行重新训练。

另一系列工作旨在

语义

风格转移，其目标是跨对应语义含义的区

域转移风格，例如，天空到天空和树到树（在上面列出的方法中，目

标样式被全局传输到整个图像）。一种方法是用目标的匹配特征替换

输入图像的深度特征，然后通过有效的优化[20]或通过预先训练的解

码器[25]反转特征。Li等[7]将马尔可夫随机场集成到输出合成过程

（CNNMRF）中。由于这些方法中的匹配是在神经特征之间的，因此

获得语义对应。语义风格转换的另一种方法是根据语义将图像分割成

区域[26，27]。这导致语义转移，但取决于分割过程的成功。在[28]

中，提出了直方图损失，以便合成在统计上与目标匹配的纹理。这改

善了颜色的命运，但不有助于语义匹配。最后，还有针对特定领域和

风格的方法，例如城市景观图像中的面孔或时间[29，30]。

方法

我们的目标是设计一个损失函数，可以衡量图像之间的相似性非对齐

图像的比较也

剩余15页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

非对齐数据下，上下文损失驱动的图像变换新策略

基于空间几何变换的人脸对齐(Matlab内置函数

形状上下文Python

形状上下文与距离变换在数字识别中的应用

无监督图像拼接中的像素级对齐学习

HDR图像对齐：一种鲁棒的大光度变化与噪点处理方法

仿射变换与active-demons算法的图像配准新策略

形状上下文匹配算法DEMO: Matlab实现与代码解析

DLSC算法在SAR图像配准中的应用

【imgaug背后的算法】：揭秘图像变换数学原理，掌握技术核心

图像数据增强技术在Faster R-CNN中的应用

最新资源