混合域图像平移方法的研究及应用

69 浏览量更新于2023-10-12 收藏 2.57MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4803混合域图像平移Simyung Chang1，2，SeongUk Park1，John Yang1，NojunKwak11首尔国立大学，首尔，韩国2三星电子，韩国{timelighter，swpark0703，yjohn，nojunk}@ snu.ac.kr（1，0，0）重建测试图像B（0，1，0）对抗性梵高数据集C（0，0，1）感知风格图像AAB（0.33，0.33，0.33）（0.6、0.2、0.2）（0.2、0.6、0.2）（0.2、0.2、0.6）BCC（0.0、1.5、0.0）图1.图像转换到混合域的结果。这些图像是通过学习SGN的三个损失（重建，对抗，感知），然后通过推断输入的测试图像在一个单一的发电机，只有改变对称参数。括号中的数字是每个A、B和C域的对称参数。摘要图像到图像转换的最新进展已经导致了通过单个网络生成多个域图像的一些方式。然而，在创建没有数据集的目标域的图像时仍然存在限制。我们提出了一种方法，将“多域”的概念从数据扩展到丢失区域，并学习每个域的组合特征，以动态地在混合域中翻译图像。首先，我们介绍了对称参数和它的学习方法的各种混合损失，同时同步它们与输入条件。然后，我们提出了对称参数化生成网络（SGN），这是经验证实的学习各种数据和损失的混合特性，并将图像翻译到任何混合域没有地面真理，如30%梵高和20%莫奈和40%雪。1. 介绍最近，关于多域深度图像翻译的文献已经介绍了许多学习两个或多个域的联合分布并找到它们之间的变换的方法。特别地，单个生成器能够基于训练数据分布将图像传输到多个域[3，19，24]。然而，翻译风格特征跨域看到的模型是不同的“创造性”。考虑生成具有梵高的20%、毕加索的50%和原始图像的30%的风格的翻译图像的情况由于用于学习这种翻译的基础事实不存在，因此无法为传统的深度生成网络显式地提供如果我们假设目标风格的最优值是候选风格的最优值的加权和，则目标函数可以由ob的加权和定义4804这些的功能。最后，如果权重被设置为超参数，则可以预先选择并学习它们以生成域之外的图像，即使没有地面实况[5]。即使在这种情况下，不仅参数选择的标准是模糊的，而且跨域翻译的每次训练也必须用一组唯一的权重来完成。因此，在对期望的翻译进行推断期间动态地控制它们将是更有效的。在本文中，我们提出了一个对称参数的概念，使人类用户能够控制它们，使候选域对最终翻译的影响可以在推理过程中进行精确调整。在我们的方法中，随着输入，sym-parameters作为一个条件输入到我们提出的生成器网络， Sym-parameterized生成网络（SGN）。同时，这些对称参数被同步设置为多个损失函数的线性组合的权重。通过所提出的设置，我们已经验证了单个网络能够基于损失函数的任意加权组合生成混合域的相应图像，而无需直接的地面实况。虽然SGN利用传统图像到图像转换模型使用的多个损失函数（例如，重构损失、GAN（对抗性）损失、感知损失）、对称参数条件、用于各种目的的翻译的这些损失的权重。如果SGN（如图1中所描绘的示例性情况）使用GAN损失来训练梵高风格并且使用感知损失来训练Francis Picabia的Udnie，则对称参数允许调整风格的比率以创建相应风格的图像。通过实验，我们发现，以典型条件方法[3，15，28]中执行的方式在模型中条件化的对称参数无法产生我们预期的生成。为了克服这个问题，我们提出了条件信道注意模块（CCAM）。概括起来，我们的贡献如下：(1) 我们提出了对称参数的概念及其学习方法，它可以控制推理过程中损失之间的权重。(2) 我们介绍了SGN，一种新的生成网络，它使用对称参数将“多域”的概念从数据扩展(3) 实验结果表明，SGN可以将图像翻译到混合域，而不需要地面真值。2. 相关工作最近，生成对抗网络（GANs）[6]已经积极适应许多图像生成任务[1，11，16，20]。GAN通常由两个网络组成：一个发电机和一个发电机。训练该生成器以区分生成的样本（假样本）和地面实况图像（真实样本），而生成器学习生成样本，以便让机器人做出错误的判断。这种训练方法被称为对抗训练，我们的方法用于生成器和识别器来学习真实数据集的分布。条件图像合成通过与输入同时条件化，图像生成方法学习域的条件分布。CVAE [22]使用条件将意图分配给VAE [13]。条件图像生成器-也已经开发了基于GAN的方法[2，4，17，18，19，26]，使用类别标签或其他特征。条件GAN也用于域转移[12，23]和超分辨率[16]。虽然所述方法从[3，19]使用离散条件（0或1），我们的方法使用连续值输入条件。虽然存在基于采样生成图像的生成模型（即，基于采样的图像生成模型）。GAN，VAE），为给定的基本输入生成图像的模型图像也进行了研究。他们大多使用自动编码器[14]，其中最具代表性和最新的作品之一是[9]，它使用带有条件的对抗训练。CycleGAN [27]和DiscoGAN [12]翻译输入图像的风格或域。Johnson等人 [10]提出了感知损失，以便训练前馈网络进行图像风格转换。由于它们中的大多数使用具有ResBlocks [7]或U-Net [21]结构的卷积自动编码器，因此我们还利用了Cycle-GAN [27]的结构，但另外以连续值条件的形式将对称参数应用于我们还采用了与GAN损失和重建损失项协调的感知损失。一个生成器到多个域许多人已经将图像到图像翻译的研究扩展到具有单个生成器网络的多个域。IcGAN[19]，Star-GAN [3]和SingleGAN [24]解决了预处理的问题。Jesus报告了生成模型，他们被两个领域卡住了，并通过使用每个领域的硬标签在他们的扩展作品上取得了有意义的结果。关于图像生成问题的方法也已经被提出。ACGAN [18]使用辅助分类器通过在输入中提供类别信息作为条件来生成图像。从不同的角度来看，CAN [5]试图通过混合多个领域来生成艺术品。该方法通过训练GAN的生成器来迷惑辅助分类器，以判断均匀分布形式的虚假样本在本研究中，我们利用损失函数同步的条件，不仅可以转移到多个域，而且还可以通过使用可扩展的损失项同时混合每种风格3. 该方法我们的目标是通过改变加权损失函数来学习多个域的分布，以便动态地将图像转换为混合域。为了控制4805在推理期间，必须输入相应的条件并利用模型进行训练为此，我们提出对称参数，对称设置内部（作为条件输入）以及外部（作为多个损失函数的权重）的生成器。对称参数允许在多个域和损失函数的不同混合物之间进行传递学习，而无需明确因此，对称参数化生成网络（SGN）的生成器可以在推理期间被控制，而不像传统的生成器那样严格地推理为针对特定数据集或特定损失函数进行优化。3.1. Sym参数通过尝试不仅找到每个候选目标函数的最优值，而且找到它们的各种组合的最优值，我们希望在推理过程中控制混合权重。我们提出了人类可控的参数，对称参数，可以取代典型的超参数加权多个损失函数。由于前缀“sym-”在字典中被定义为“with; along with;together; at the same time”，因此sym-参数被馈送到模型中，被顺序地设置为候选损失函数的权重，并且syn-参数被设置为候选损失函数的在训练后被记录下来。如果使用k个不同的损失函数L1 ， · · · ， Lk ，则对称参数 S 被定义为 k 维向量（s1，···，sk）。模型f（x，S）的总损失取输入x和sym，参数S为：L（f，S）= s1L1（f（x，S））+. + s k L k（f（x，S））图2. 对称参数的概念（a）当需要在多个损失之间使用不同的权重时，该模型应该通过改变超参数来学习。(b)我们所提出的方法具有通过改变用于在单个模型中进行推断的对称参数S来L1、L2、L3代表不同类型的损失。 x和f是输入和输出函数。ω和φ是超参数只有每个子目标函数被优化，但是它们的各种线性和也被优化。例如，如果神经模型想要执行回归和分类任务两者，则优化被处理为当S=（1，0）时最小化回归损失，当S =（0，1）时最小化分类损失，以及当S=（i，j）i，j∈R，i+j=1时最小化损失的加权和。如上所述，对称参数被表示为一个向量，该向量的维数与损失函数的维数向量的值在训练期间随机选择，以便与对称参数化同步。哪里 Σki=1s i= 1且s i≥ 0，对所有i ∈ [1，k].（一）损失函数的组合为此，基于狄利克雷分布对一个k维向量如果对称参数的总和为1，则由函数f和对称参数S定义的损失L正值元素的和为1，可以写为：是子损失函数的加权和，每个子损失函数1年kQKΓ（α）p（S）=sαi−1，其中B（α）=i=1i。（二）由S的相应元素加权。会议-常规超参数模型使用B（α）我i=1Σki=1 αi）y_t=fh_t（x）模型，h型r-参数h_t。在这种情况下，很难预测ht′的y，因为在训练期间没有使用h t ′，因为网络f不是在训练时没有使用的h型参数ht′的条件函数。然而，我们的模型使用损失的权重作为输入S，形式为y=f（x，S），并且f对S和x都有条件输出。因此，它可以预测在训练中使用的各种损失组合的y图2描绘了一个概念，显示了对称参数化模型和传统模型之间的差异，使用多个损失函数加权超参数。虽然需要一个新的模型来学习每个组合的权重，如果使用传统的方法，我们的方法允许一个单一的模型来管理各种组合的权重通过一个学习。我们在实验部分验证了这里，B（α）是归一化常数，并且Γ（·）表示伽玛函数当k= 2时，分布归结为Beta分布使用狄利克雷分布允许对称参数值的总和为1，并且能够通过改变浓度向量α=（α1，···，αk）来调整分布。3.2. Sym参数化生成网络使用对称参数，允许各种混合损失的推断，我们提出了对称参数化的生成网络（SGN），将图像转换到一个混合域。我们的方法是能够从潜在的输入生成图像或翻译风格的图像输入，只要对称参数输入与输入，他们定义了一个线性组合的损失函数。图3（4806图3. 三种不同损失的SGN的总体结构该图说明了SGN使用重建、对抗和感知损失作为A、B和C域的情况。对于A、B和C域，SGN使用具有对称参数S =（s1，s2，s3）的损失的加权和。因此，生成器的全部目标是LG = s1LA+ s2LB+ s3LC。说明了用于图像到图像转换的SGN的结构。损失函数的选择不一定限于图像生成任务，并且以下是代表性的。对于生成器G，具有重建损失Lrec、对抗损失Ladv和感知损失Lper，sym-parameters（s，s，s）：123LG=s1Lrec+s2Ladv+ s3Lper.（三）这里，每个损失函数可以应对不同的目标和数据集以用于更多样化的图像生成，例如使用两个对抗性损失，其中一个用于梵高，另一个用于莫奈风格域。虽然重建损失或感知损失都不需要训练额外的网络，但必须与SGN模型一起训练用于adversarial损失的神经网络，并且SGN需要一个独特的神经网络训练标准因为我们的方法基于具有对称参数化权重的线性组合损失来生成图像，所以鉴别器的损失上的权重必须也要相应设置。因此，必须以对抗的方式使用分配给发电机损失的权重来训练：LD= −s2Ladv.（四）经过训练的SGN可以转换具有特定对称参数的图像，或者从输入图像定义的Dirichlet分布中采样的随机变量生成随机图像。3.2.1条件通道注意模块SGN采用连续值对称参数向量以及输入，并生成反映特征的图4. CCAM的结构CCAM是一个轻量级模块，它将前一层X的特征和对称参数S作为输入，通过MLP层生成通道注意力图，并使用该注意力图细化输入特征表示通道式乘法。混合域的各个部分，它涵盖了更广泛的目标分布比多域模型的离散条件。由于在传统的条件生成器中使用的域注入经验证明是不足以满足我们的目的，我们提出了另一种注入方法对称参数化条件，命名为条件通道 Attetion 模块（ CCAM ）。受 SENet [8] 的启发，CCAM是一种通道注意力模型，基于S形注意力选择性地门控特征通道CCAM还允许SGN具有完全卷积结构并管理各种空间大小。CCAMCCAM（X，S）=X·σ（MLPm（[MLPe（S），AvgPool（X）]）），（五）其中X∈RH×W×C表示从前一层输出的特征图，并且[·，·]表示级联操作。通过平均池化将特征压缩到1 ×1 × C，并表示对称参数域A重建域B真实图像…残余块对称参数法鉴别器真/假域C感知风格形象域B对抗性损失网络（VGG16）条件通道注意模块对称参数法我的宝贝L输入特征精致的功能��CCAMCCAMCCAM48071.01.01.01.00.50.80.80.80.80.40.60.60.60.60.30.40.40.40.40.20.20.20.20.20.10.01.0 0.5 0.0 0.51.00.01.0 0.5 0.0 0.51.00.01.0 0.5 0.0 0.51.00.01.0 0.5 0.0 0.51.00.0图5. 具有对称参数的一维玩具问题的结果。左图显示了函数g（x），它定义了回归标签，如果g（x）

下载后可阅读完整内容，剩余1页未读，立即下载