基于逐组深度白化着色的图像转换

104 浏览量更新于2023-10-18 收藏 2.03MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10639基于逐组深度白化着色变换的图像到图像转换Wonwoong Cho1Sungha Choi1，2David Keetae Park1Inkyu Shin3JaegulChoo11韩国大学2LG电子3汉阳大学摘要最近，无监督的基于样本的图像到图像的翻译，条件是一个给定的样本没有配对的数据，已经取得了实质性的进展。为了将信息从样本转移到输入图像，现有方法通常使用归一化技术，例如，自适应实例归一化，其控制特定层处的输入激活图的通道方式统计，诸如均值和方差。同时，风格传递本质上接近于图像翻译，通过使用高阶统计量（如通道间的协方差）来表示风格，表现出优越的性能。详细地说，它通过白化（给定零均值输入特征，将其协方差矩阵转换为恒等式）工作。然后着色（将白化特征的协方差矩阵改变为样式特征的协方差矩阵）。然而，由于昂贵的时间复杂度和非平凡的反向传播，将这种方法应用于图像翻译是计算密集型和容易出错的作为回应，本文提出了一种端到端的方法，该方法适用于图像翻译，使用我们新颖的正则化方法有效地近似我们进一步将我们的方法扩展到一个组明智的形式，以保证系统和时间效率以及图像质量。大量的定性和定量实验表明，我们提出的方法是快速的，无论是在训练和推理，并高度有效地反映一个样本的风格1. 介绍自从引入图像到图像翻译[16]（简称图像翻译）以来，它得到了相关领域的极大关注，并在种子生成对抗网络的推动图像翻译的主要目标[16，35]是将原始域中输入图像的特定属性转换为目标属性，同时保持其他语义。早期的图像翻译模型需要训练-将数据作为输入的成对图像及其对应的输出图像，允许直接监督。Cycle-GAN [35]通过提出循环一致性损失，成功地将其扩展到无监督图像翻译[25，2，4，35]，这允许模型学习两个图像域的集合之间的独特语义差异，并在没有直接成对监督的情况下翻译相应的风格。尽管如此，CycleGAN仍然是单峰的，因为它只能为单个输入生成单个输出。相反，图像转换应该能够生成多个可能的输出，即使对于单个给定输入，例如，单个面部图像的许多可能的性别转换输出。随后，提出了两种值得注意的方法，DRIT [20]和MUNIT[14]，以解决无监督图像翻译的多模态性质。他们证明，给定一个输入图像，基于翻译过程中的随机采样过程或利用额外的示例图像来详细指导所需的风格，可以生成一系列潜在的输出。它们都有两个单独的编码器，分别对应于内容图像（输入）和样式图像（样本），并将内容特征和样式特征组合在一起以产生最终输出。DRIT连接编码的内容和样式特征向量，而MUNIT利用自适应实例归一化（AdaIN），这是一种在样式传输上下文中首次引入的方法AdaIN将编码后的内容特征的两个通道统计量（均值和方差）与风格特征进行匹配，这在图像翻译中被然而，我们假设仅匹配这两个统计量可能不能很好地反映目标风格，在许多情况下最终导致图像输出的质量次优也就是说，变量之间的相互作用效应，表示为Gram矩阵[8]或协方差矩阵[22]，可以传达风格的关键信息，这是广泛研究[8，7，22]所同意为了充分利用样本的风格信息，我们提出了一种10640一种新的方法，考虑到这种相互作用的影响之间的功能通道，在图像翻译的上下文我们的模型主要受白化和着色变换（WCT）[23]的启发，除了每个单个特征的均值和方差之外，它还利用成对特征协方差来编码图像的风格为了详细说明，白化是指归一化过程，以使每个协方差项（一对变量之间）以及每个方差项（每个单变量内）作为单位值，给定其每个单变量均为零均值的输入这在消除（或中和）风格方面发挥了作用。另一方面，着色表示将样式的协方差与内容特征的协方差相匹配的过程，这施加了不确定性。倾向的风格到一个中立的输入图像。在图像翻译中应用WCT的问题是，它的时间复杂度是昂贵的O（n3），其中n是一个给定的激活映射的通道数。此外，计算WCT中涉及的奇异值分解的反向传播是不平凡的[30，15]。为了解决这些问题，我们提出了一种新的深度白化和着色变换，该变换基于深度神经网络灵活地近似现有的WCT。我们进一步扩展我们的方法到分组深度白化和着色变换（GDWCT），这不仅减少了参数的数量和训练时间，而且提高了生成的图像质量。 [32，12]。本文的主要贡献包括：• 我们提出了一种新的深度白化和着色方法，该方法允许在图像翻译中进行端到端的训练，以传达深刻的风格语义。• 我们还提出了分组深度白化着色算法，通过简单的前向传播进一步提高计算效率，实现极具竞争力的图像质量。• 我们通过大量的定量和定性实验证明了我们的方法的有效性，与最先进的方法相比。2. 相关工作图像到图像转换。图像到图像翻译旨在将输入图像转换为另一图像，目标属性。它的许多应用都存在，例如，着色[34，5，1，33]，超分辨率[6，19]和域适应[11，21]。在图像平移的非监督设置中进行了大量研究[35，18，25]。StarGAN [4]提出了一个单一的统一模型，可以处理多个不同领域之间的无监督图像翻译。一些研究[9，36]集中在早期工作的局限性，其中他们产生一个单一的输出给定的一个-没有考虑到在相同的目标域内可以生成不同的图像然而，它们并非没有限制，要么生成有限数量的输出[9]，要么需要成对的图像[36]。最近提出的方法[14，20]能够以无监督的方式生成多模态输出。它们的工作原理主要基于这样一个假设，即潜在图像空间可以分为领域特定的风格空间和领域不变的内容空间。在此基础上，我们也采用了单独的编码器来提取每一个内容和风格特征。风格转移。Gatys等人[7，8]表明从Gram矩阵或深度神经网络的协方差矩阵获得的成对特征交互成功地完全捕获了图像风格。它用于通过将样式特征的统计量与内容的统计量进行匹配来将样式信息从样式图像传递到内容图像。然而，它们需要在推理时间期间进行耗时的迭代优化过程，涉及多个向前和向后传递，以获得最终的结果。为了解决这一限制，替代方法[29，3，17]通过前馈网络逼近迭代方法的最佳结果，实现了卓越的时间效率。然而，这些模型不能从任意图像中转移不可见的样式。为了减轻限制，有几种方法可以实现看不见的任意神经风格转移[13，23，24]。AdaIN [13]直接从样式特征计算仿射参数，并将内容特征的均值和方差与样式特征的均值和方差对齐。WCT [23]将样式编码为特征协方差矩阵，以便有效地捕获丰富的样式表示。最近，一种新的方法[21]通过单个变换矩阵将白化和着色变换近似为一次性变换尽管学习转换的思想与我们的相似，但所提出的网络无法传递语义风格信息，例如猫和狗之间的转换，因为现有的方法只能传递一般风格，例如颜色和纹理。此外，由于缺乏确保白化着色变换的正则化，其近似变换的设置3. 该方法本节详细描述我们提出的模型，首先给出模型概述并解释我们提出的损失函数。10641Adv：GDWCTGDWCTGDWCTGDWCTAdv：开始（一）（b）第（1）款（c）第（1）款（d）其他事项端SBBB图1：我们的模型概述（a）从A → B转换，我们首先从图像xA中提取内容特征cA(i.e.、cA=Ec（xA））和来自图像xB的风格特征sB（即，sB=Es（xB））。（b）将获得的特征A B在我们的GDWCT模块中，同时通过生成器GB转发。（c）输入数据B是否xAB是否是域B(d)类似于从（a）到（c）的过程，生成器GB通过组合内容特征cBA和风格特征sAB来生成重构图像xBAB。3.1. 模型概述哪里 sCT=MLPCT（sB）， sµ=MLPµ（sB）。MLPBBB设xA∈ XA和xB∈ XB分别表示来自两个不同图像域XA和XB的受MUNIT [14]和DRIT [20]的启发，我们假设图像x可以分解为域不变内容空间C和域特定样式空间{SA，SB}，即，表示多层感知器，在每层之后具有非线性激活的线性层。此外，我们设置了一个可学习的参数α，这样网络就可以确定应用多少风格，因为网络需要的风格信息量可能会有所不同，即，c scA→B=α（GDWCT（cA，sCT，sµ））+（1−α）cA。{cA，sA}={EA（xA），EA（xA）}cA∈ C，sA∈ SAB B{cB，sB}={Ec（xB），Es（xB）}cB∈ C，sB∈SB，模型的不同层次侧重于不同的...形成（例如，低级特征捕获局部精细B B模式，而高级模式捕获复杂其中{Ec，Ec}和{Es，Es}是内容和样式在一个广阔的区域）。我们将以我们的GDWCT模型为基础，A B A B每个域的编码器。我们的目标是通过优化函数来生成翻译图像{fA→B，fB→A}其中fA→B映射数据点xA从原始域XA中的点X A到目标域X B中的点XA→B，反映给定的参考XB，即，xA→B=fA→B（xA，xB）=GB（Ec（xA），Es（xB））如图所示，在图2中。通过一系列GDWCT模块在多跳中注入样式信息，我们的模型可以同时反映精细和粗糙级别的样式信息。3.2. 损失函数AB在MUNIT [14]和DRIT [20]之后，我们采用两种xB→A=fB→A（xB，xA）=GA（Ec（xB），Es（xA）），B A潜在级和像素级重建损失。首先，我们使用两种风格之间的风格一致性损失其中{GA，GB}是对应的域.如示于图1，逐组深度白化着色变换（GDWCT），起主要作用特征（sA→B，sB），使得它鼓励模型将参考图像sB的风格反映到经转换的图像xA→B，即，在将样式特征S应用于内容特征C时LA→B=Ex，x[<$Es（xA→B）−Es（xB）<$1]生成器G.具体地，GDWCT采用内容特征cA、用于着色变换的矩阵sCT和第二，我们利用两个之间的内容一致性损失µB内容特征（cA，cA→B），以强制模型主要-作为输入，并进行cA至cA→B，公式为得到输入图像cA经过cA→B后的内容特征，即、cA→B=GDWCT（cA，sCT，sµ），LA→B=Ex，x[<$Ec（xA→B）−Ec（xA）<$1]BBCA→BAB AA→B10642L=x我2=LCE一最后，我们得到了协方差矩阵通过特征分解分解它，即，C×C 和c=1<$BHW（ci−cµ）（ci−cµ）T=Qc ΛcQT，BHW−1i=1c图2：通过建议的GDWCT进行图像转换。我们通过多个跃点应用样式，其中Qc∈ RC×C是包含特征向量的正交矩阵，而Λc∈ RC×C表示其每个对角元素是特征值对应的对角矩阵响应于Qc的每个列向量。白化变换定义为：从低级特征到高级特征。-一个cw=QcΛc2QT（c−cµ），（1）第三，为了通过像素级监督来保证我们模型的性能，我们采用了周期一致性损失和身份损失[35]来获得高质量的图像，即，其中cw表示白化特征。然而，如第1节中所指出的，特征分解不仅是计算密集的，而且难以反向传播梯度信号。为了缓解这个问题，我们提出了深度白化变换（DWT）方法，A→B→AECYCA[xA→B→A−xA<$1]内容编码器Ec可以自然地编码白化LA→A=Ex[2016年12月16日]A→A -xA 1991年]。特征Cw，即， c w= c − c µ，其中E c（x c）= c。本最后，我们提出了新的正则化项，最后，我们使用对抗损失来最小化真实图像的分布与生成图像的分布之间的差异。特别地，我们采用LS-GAN [27]作为对抗方法，即，内容特征的协方差矩阵Ckc接近于可能的单位矩阵，即，Rw=E[c− I1，1]。（二）因此，等式中的白化变换(1)降低到BDadv12xB[（D（xB）−1）2]+1E2xA→B[（D（xA→B））2]c w= c − c µ（DWT）。BGadv =1ExA→B[（D（xA→B）−1）2]然而，在DWT中存在一些限制。首先使用小批量估计完整协方差矩阵为了考虑相反的翻译，类似于DRIT [20]，我们的模型同时在两个方向（A → B → A）和（B → A → B）进行训练。最后，我们的完整损失函数表示为数据不准确[12]。第二，相对于整个频道执行DWT可能会过度丢弃内容特征，与频道标准化相比。因此，我们通过将通道分组并将DWT应用于单个组来改进DWT一DadvLGGadvBDadvBGadv +λ潜伏期（Ls+Lc）+具体地，c的通道维度在组级重新排列c∈ RG×（C/G）×BHW，其中G是组数在获得协方差矩阵后，λ（L+LA→A+LB→B）CG×（C/G）×（C/G）像素CYCI IR中，我们应用Eq.（2）在其组中，其中，没有域符号的L表示两个方向尺寸请注意，分组离散小波变换（GDWT）与在两个域之间，并且我们根据经验设置λλpixel= 10。潜=1，如图所示，在正向相位期间使用DWT。3（a）、因为重新排列过程是规则化（2）所必需的3.3. 分组深层美白和着色转换为了简明起见，我们省略了不必要的定义域符号，如c={cA，cB}，s={sA，sB}等.白化转化（WT）。WT是线性反式-GDWCT1GDWCT2GDWCT5（1 -1）1（1 -2）4（1 -5）125MLPCT1MLP μ1MLPCT2MLP μ2MLPCT5MLP μ5L=LLD= L+L+L一10643S着色变换（CT）。CT将白化特征的协方差矩阵与样式特征的协方差矩阵进行匹配，其中，样式特征的协方差矩阵是样式特征的协方差矩阵。然后将Qs分解为QsΛsQt，用于随后的着色变换。这个过程写成1c=Q Λ2QT c 、（3）这是一种使一个给定的信息的协方差矩阵放入一个单位矩阵中具体来说，我们首先将内容特征c∈RC×BHW减去其均值cμ，其中（C，B，H，W）表示通道数，批量大小，高度和宽度。然后，我们计算沿BHW维的零均值c香港六合彩其中ccw表示有色特征。然而，与WT类似，CT具有昂贵的时间复杂度和非平凡的反向传播的问题。因此，我们也用一种简单但有效的方法来代替CT，我们称之为深着色变换10644一B1SS(a)（c）第（1）款（）下一页间隙MLP×（）（）下一页/间隙= 1/MLP=（b）第（1）款（d）其他事项图3：拟议的GDWCT模块的详细信息（a）用于获得白化特征的过程因为正则化（Eq.（2））鼓励零均值内容特征c−cµ成为白化特征cw，我们只需从cA中减去内容特征cµ的均值。（b）近似着色变换矩阵的过程（3.3节）。（c）我们通过将其转发到MLP层MLPµ来获得样式特征sµ的平均值。（d）我们的模块首先乘以白化的B B特征cw与逐组着色变换矩阵X。然后我们将其与样式sµ的均值相加。（DCT）。具体来说，我们首先通过MLPCT（s）获得矩阵sCT，其中s=Es（x）。然后，我们通过计算其列L2范数将sCT分解为两个矩阵，即，sCT=UD，其中U的第i列向量ui∈ RC×C是单位向量，D∈RC×C是对角矩阵其对角线项对应于每个的L2sCT的列向量。我们假设这些矩阵UD将矩阵乘法与X和白化特征cw相乘，因此等式(5)沦为ccw=Xφ（cw），其中φ表示整形操作 φ： RC×H×W→ RC×HW。最后，我们将新的均值向量sµ添加到ccw中，其中sµ=MLPµ（s），如图所示3（c）款。我们-等于等式中的两个矩阵。(3)，即，UD=Q~2。旋集λ=0。001，λ=10，G = 4，8，16。ssw c1为了作为Qs和Λ2适当地工作，U需要是一个正交矩阵，并且矩阵D中的每个对角项都应该是正的。为了确保条件，我们添加U的正则化以鼓励U的列向量正交，即，Rc=Es[<$U T U − I<$1，1]。（四）对角矩阵D具有其对角元素作为sCT的列方向L2范数，使得其对角元素已经是正的。因此，它不需要额外的正则化。同时，如果U满足正交性，则U成为正交矩阵，因为U的每个列向量ui都有单位L2范数.也就是说，使用正则化Eq. (4)，UD满足全部条件，1是Qs~2。最后，结合U和D，我们将CT简化为c cw=UDU Tc w.（五）然而，近似整个矩阵的CT具有昂贵的计算成本（要估计的参数的数量是C2）。因此，我们将DCT扩展到分组DCT（GDCT），并将参数的数量从 C2减少到C2/G，如图1所示。图3（b）。我们首先得到GDCT的第i个矩阵{UDUT}i∈ R（C/G）×（C/G），i ={1，.， G}。然后，我们通过排列矩阵{UDU T}1，...，G. 接下来，如图3（d），我们来-4. 实验本节介绍基线模型和数据集。实施细节以及额外的比较和结果包括在附录中。4.1. 实验装置数据集。我们使用各种数据集评估GDWCT，包括CelebA [26]，Artworks [35]（浮世绘，莫奈，塞尚和梵高）， cat2dog [20] ， Behance Artistic Media（BAM）的钢笔墨水和水彩类[31]和Yosemite [35]（夏季和冬季场景）数据集。基线方法。我们利用MUNIT [14]，DRIT [20]和WCT[23]作为我们的基线，因为这些方法分别是图像翻译和风格转换的最新技术。MUNIT和DRIT在将样式应用于GDWCT的内容时使用不同的方法。MUNIT利用AdaIN [13]，而DRIT基于内容和样式特征的连接同时，WCT对预训练编码器提取的特征进行白化着色变换，将风格转换为内容图像。4.2. 定量分析我们比较了我们的模型的性能与基线与用户学习和分类精度。10645浮世绘莫奈塞尚梵高内容样式GDWCT MUNIT DRIT WCT图4：基于Artworks数据集的定性比较[35]。用户研究。我们首先使用CelebA数据集进行用户研究[26]。我们的用户研究的最初动机是测量用户对GDWCT和基线模型产生的输出的偏好，重点是输出的质量和样例中给出的样式的渲染。每个用户评估了60组图像比较，每次比较在30秒内从四个候选者中选择一个。我们告知参与者每次运行的原始域和目标域，例如，从男性到女性，这样他们就能准确地理解样本中哪种风格是感兴趣的。表1总结了结果。结果发现，用户更喜欢我们的模型比其他基线模型的五个出来六个班的学生。在翻译女性对男性，是因为DRIT始终产生一个面部毛发在所有反式-它可能会获得比我们更高的分数优越的措施表明，我们的模型产生视觉com-令人惊叹的图像。此外，结果表明，我们的模型比其他基线更好地反映了样本的风格，这证明了匹配包括协方差在内的整个统计量将更有效地呈现风格分类精度。经过良好训练的图像翻译模型将生成被分类为来自目标域的图像的输出。例如，当我们将女性翻译成男性时，我们在性别域中测量分类准确性高精度表明该模型学习了要在目标域中表示的确定性模式。我们在表2中报告了翻译图像的分类结果。对于分类，我们采用了预训练的 Inception-v3 [28] ，并在CelebA数据集上进行了微调。我们的模型在准确率上记录了具有竞争力的平均值，在性别类别上略低于DRIT，在刘海和微笑上高于DRIT。MUNIT钻头WCT GDWCT男/女4.4142.2510.1244.52MUNITDRITWCTGDWCT女男7.7848.894.4438.89性别30.1095.5528.8092.65邦非邦3.3542.203.3751.10刘海35.4366.8824.8576.05非邦邦6.6718.894.4571.15微笑45.6078.1532.0892.85Avg.37.04 80.19 28.5887.18表1：用户偏好的比较。数字表示每个类别的偏好百分比。表2：目标域中分类准确度（%）的比较。使用216×216的图像大小进行测试。微笑不微笑5.5630.351.3564.44非微笑非微笑2.3022.252.2573.3310646风格内容GDWCT1GDWCT1−5推理时间。 GDWCT的优越性还在于在推理阶段计算输出的速度。表3表明，我们的模型与现有的图像翻译方法一样快，并且具有像WCT那样渲染丰富样式信息的能力。数字表示生成一个图像所需的时间。MUNIT 钻头 WCT GDWCT 钻头（秒）0.0419 0.0181 0.8324 0.0302表3：推断时间的比较。在NVIDIA Titan XP GPU上使用256×256图像大小进行测试，平均测试次数超过1，000次。4.3. 定性结果在本节中，我们分析了不同的超参数和设备对最终图像输出的影响。风格化比较。通过与图1中的基线模型进行比较，我们进行了定性分析。4.每一行代表不同的类，最左边和第二列是内容和范例样式，re-sample。在不同的类中，我们观察到每个基线模型的一致模式。首先，MUNIT倾向于保持对象边界，没有留下太多的空间让风格进入。DRIT显示的结果对比度高，并积极转移颜色。WCT在展示给定风格的方式上更具艺术性，但有时在很大程度上失去了原始我们的结果转移对象的颜色以及风格的整体情绪，而不是过于模糊的细节。我们在图中提供了我们模型的其他结果9.第九条。我们相信，我们的工作提供了另一个层面的机会，翻译图像在一个人样式上的跃点数。正如我们之前在图中讨论的那样。2.GDWTC可以应用于多跳通信。我们展示了不同数量的啤酒花的风格的影响。为此，我们使用Artworks数据集（Ukiyoe）[35]。我们训练两个相同的模型，不同的只是跳数，单跳（GDWTC1）或多跳（GDWTC1-5）。在图5中，最右边的图像（GDWTC1−5）的风格与最左边的图像中给出的详细风格一致。第三个图像（GDWTC1）遵循示例的整体颜色模式，但细节较少转移。例如，后台的写入尚未传输到结果图5：单跳和多跳之间的比较。内容= 0.00001= 10= 0.001= 10= 0.1= 10风格= 0.001= 0.1= 0.001= 10= 0.001= 1000图6：正则化影响的可视化GDWCT1，但在GDWTC1−5上清晰呈现。差异来自于风格化上的多个跳的容量，其涵盖了精细和粗糙的风格[23]。正规化的影响。我们验证了正则化RW和RC对最终图像输出的影响。因此，较高的λw将加强增白作用。形成，擦除风格更多，因为它鼓励内容特征的协方差矩阵更接近单位矩阵。同样，λc的值越高，风格的层次也就越多样化，因为在着色过程中，风格特征的特征向量越接近正交，风格的强度就越大。我们使用BAM [31]数据集的两个类，Watercolor和Pen Ink。图中的图像。6说明了（水彩→钢笔）的结果。给定最左边的内容和样式作为输入，顶行显示了渐变的效果λw的值逐渐增大。较大的λw会导致模型擦除纹理，特别是在布料和头发中。这证明了我们的假设，即w越大，白化效果越强。同时，第二行显示了不同着色系数λc的影响。受试者的布料显示出明显的差异，逐渐变暗，更强烈地应用了风格的纹理。显白着色可视化转型我们可视化的白化功能，以视觉检查的影响，建议的组明智的深度白化变换的内容图像。我们还使用了来自Artworks数据集的样本。为了可视化，我们将白化特征转发到网络中，而不进行着色变换。从左数第三张图显示了双曲效果。很明显，在图像中，关于颜色和纹理的详细风格从内容图像中被擦除。值得注意的是，河流周围的芦苇和天空中的云被发现是白色的，准备被风格化。另一方面，最右边的图像通过分组深度着色变换对给定的白化图像进行风格化。实验结果表明，着色变换较好地适应了样例风格，样例风格比内容图像更简单，颜色更单调10647（b）第（1）款（c）第（1）款（d）其他事项图8：使内容特征丢失原始信息的白化变换的可视化。人脸属性翻译比较。我们使用CelebA数据集（图像大小为216×216）将GDWCT与基线进行比较。结果示于图7.每个宏列左边的两列表示内容图像和样式图像（示例），而其它列指示比较模型的输出。每个宏列的每一行都说明了不同的目标属性。我们的模型在整体属性翻译方面表现出了卓越的性能，因为与基线例如，在（男性→女性）翻译的情况下，我们的模型生成一个长头发的图像，化妆，女人的主要模式。然而，MUNIT和DRIT生成的每个图像都只化了淡妆，留着不完整的长发。同时，在Smile和Bangs两个翻译案例中，MU-NIT的输出在传递风格方面表现出的能力不如我们如（Smile→ Non-Smile）、（Non-Bang→ Bang）和（Bang→ Non-Bang）中所示，因为MUNIT仅将样式的均值和方差与内容的均值和方差匹配，进行翻译。另一方面，与我们的相比，DRIT进行了不自然的翻译（从底部开始的两行在（Non-Smile→Smile）的情况下，DRIT仅将样式应用于嘴部，但我们的转换为眼睛和嘴部。与此同时，从所有WCT病例中可以看出，它可以-不执行图像翻译，因为它不学习传递语义风格。5. 结论在本文中，我们提出了一个新的框架，组明智的深度白化和着色变换（GDWCT），（一）图9：各种数据集的结果;（a）Yosemite（b）BAM（钢笔墨水和水彩）（c）Cat 2dog（d）BAM（水彩钢笔墨水）改进的风格化能力。我们的实验表明，我们的工作产生了有竞争力的输出，在图像翻译以及风格转移领域，有一个大多数的真实用户同意，我们的模型成功地反映了给定的范例风格。我们相信，这项工作有潜力丰富相关的学术领域与新颖的框架和实际性能。谢谢。这项工作得到了韩国国家研究基金会（NRF）的部分支持，该基金会由韩国政府（MSIP）资助。NRF2016R1C1B2015924）。Jaegul Choo是通讯作者。内容样式GDWCT MUNIT DRIT WCT内容样式GDWCT MUNIT DRIT WCT(a)（d）其他事项(b)（e）(c)（f）第（1风格内容白化GDWCT110648）款图7：与CelebA数据集上的基线模型的比较;（a）微笑→不微笑（b）不微笑→微笑(c) 男女（d）女男（e）邦非邦（f）非邦10649引用[1] Hyojin Bahng，Seungjoo Yoo，Wonwoong Cho，DavidKee- tae Park，Ziming Wu ，Xiaojuan Ma，and JaegulChoo.用词来表示：通过基于文本的调色板生成指导图像着色。在ECCV，2018。[2] 张惠文，卢静万，余菲，亚当 · 芬克尔 - 斯坦 .PairedCycleGAN：不对称的风格转移，适用于化妆和卸妆。在CVPR，2018年。[3] 陈冬冬、卢远、廖静、余能海、华刚。Stylebank：神经图像风格传递的显式表示。在CVPR，2017年。[4] Yunjey Choi，Minje Choi，Munyoung Kim，Jung-WooHa，Sunghun Kim，and Jaegul Choo. StarGAN：用于多域图像到图像翻译的统一生成对抗网络在CVPR，2018年。[5] Aditya Deshpande，Jiajun Lu，Mao-Chuang Yeh，MinJin Chong，and David A Forsyth.学习多样化的图像着色。在CVPR，2017年。[6] Chao Dong ， Chen Change Loy ， Kaiming He ， andXiaoou Tang.学习用于图像超分辨率的深度卷积网络。2014年，在ECCV[7] Leon Gatys，Alexander S Ecker，and Matthias Bethge.使用卷积神经网络进行纹理合成2015年，在NIPS[8] Leon A Gatys，Alexander S Ecker，and Matthias Bethge.使用卷积神经网络的图像风格转换。在CVPR，2016年。[9] Arnab Ghosh、Viveka Kulharia、Vinay P Namboodiri、Philip HS Torr和Puneet K Dokania。多智能体多样化生成对抗网络。在CVPR，2018年。[10] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在NIPS，2014。[11] Judy Hoffman 、 Eric Tzeng 、 Taesung Park 、 Jun-YanZhu、Phillip Isola、Kate Saenko、Alexei Efros和TrevorDarrell。CyCADA：Cycle-consistent adversarial domainadaptation。在ICML，2018。[12] 黄磊、杨大伟、勃郎、邓佳。Decorrelated批处理归一化。在CVPR，2018年。[13] Xun Huang和Serge J Belongie.实时任意样式传输，具有自适应实例规范化。InICCV，2017.[14] Xun Huang ， Ming-Yu Liu ， Serge Belongie ， and JanKautz. 多模态无监督图像到图像翻译。在 ECCV ，2018。[15] CatalinIonescu ， OrestisVantzos ， andCristianSminchisescu.具有结构化层的深度网络的矩阵反向传播。在ICCV，2015年。[16] P. Isola，J. Zhu，T. Zhou和A. A.埃夫罗斯使用条件对抗网络的图像到图像翻译。在CVPR，2017年。[17] 贾斯汀·约翰逊，亚历山大·阿拉希，李飞飞。实时风格转换和超分辨率的感知损失。在ECCV，2016年。[18] Taeksoo Kim、Moonsu Cha、Hyunsoo Kim、Jung KwonLee和Jiwon Kim。学习发现跨域关系与生成对抗网络。ICML，2017。[19] ChristianLedig ， LucasTheis ， FerencHusza´r ，JoseCaballero， AndrewCunningham ， AlejandroAcosta，Andrew P Aitken ，Alykhan Tejani， JohannesTotz，Zehan Wang，et al.使用生成式对抗网络的照片级真实感单幅图像超分辨率。在CVPR，2017年。[20] 李欣英、曾鸿宇、黄佳斌、曼尼什·辛格和杨明轩。通过解纠缠的表示进行不同的图像到图像的翻译在ECCV，2018。[21] Xueting Li，Sifei Liu，Jan Kautz，and Ming-Hsuan Yang.学习线性变换快速任意风格转移。在CVPR，2019年。[22] Yijun Li，Chen Fang，Jimei Yang，Zhaowen Wang，Xin Lu，and Ming-Hsuan Yang.用前馈网络实现多样化纹理合成。在CVPR，2017年。[23] Yijun Li，Chen Fang，Jimei Yang，Zhaowen Wang，Xin Lu，and Ming-Hsuan Yang.通过特征变换进行通用样式传递。在NIPS，2017年。[24] Yijun Li ， Ming-Yu Liu ， Xuting Li ， Ming-HsuanYang，and Jan Kautz.一个封闭形式的解决方案的照片真实感图像风格化。在ECCV，2018。[25] Ming-Yu Liu，Thomas Breuel，and Jan Kautz.无监督图像到图像翻译网络。在NIPS，2017年。[26] Ziwei Liu ， Ping Luo ， Xiaogang Wang ， and XiaoouTang.在野外深度学习人脸属性。在ICCV，2015年。[27] Xudong Mao ， Qing Li ， Haoran Xie ， Raymond YKLau，Zhen Wang，and Stephen Paul Smolley.最小二乘生成对抗网络。InICCV，2017.[28] Christian Szegedy、Vincent Vanhoucke、Sergey Ioffe、Jon Shlens和Zbigniew Wojna。重新思考计算机视觉的初始架构。在CVPR，2016年。[29] Dmitry Ulyanov，Vadim Lebedev，Andrea Vedaldi，andVic- tor S Lempitsky.纹理网络：纹理和风格化图像的前馈合成。InICML，2016.[30] Xing Wei，Yue Zhang，Yihong Gong，Jiawei Zhang，and Nanning Zheng. Grassmann池作为紧凑的同质双线性池，用于细粒度视觉分类。在ECCV，2018。[31] Michael J.Wilber ， Chen Fang ， Hailin Jin ， AaronHertzmann，John Collomosse，and Serge Belongie.砰！Behance艺术媒体数据集，用于识别摄影以外的内容。InICCV，2017.[32] Yuxin Wu和Kaiming He。组归一化。在ECCV，2018。[33] Seungjoo Yoo、Hyojin Bahng、Sunghyo Chung、JunsooLee、Jaehyuk Chang和Jaegul Choo。有限数据着色：通过内存增强网络进行少镜头着色在CVPR，2019年。[34] Richard Zhang、Phillip Isola和Alexei A Efros。彩色图像着色。在ECCV，2016年。[35] Jun-Yan Zhu，Taesung Park，Phillip Isola，and Alexei A.埃夫罗斯使用循环一致对抗网络的不成对图像到图像翻译。2017年。[36] Jun-Yan Zhu、Richard Zhang、Deepak Pathak、TrevorDarrell、Alexei A Efros、Oliver Wang和Eli Shechtman。向多模态图像到图像翻译。在NIPS，2017年。

下载后可阅读完整内容，剩余1页未读，立即下载