没有合适的资源?快使用搜索试试~ 我知道了~
非对齐数据图像变换中的上下文损失
非对齐数据图像变换中的上下文损失RoeyMechrez,Itamar Talmi,Lihi Zelnik-Manor以色列理工{roey@campus,titamar@campus,lihi@ee}. technion.ac.ilFig. 1. 我们的上下文损失对于许多图像转换任务都是有效的:它可以使一个人的生活变得更美好,给人以希拉里的生活的基础,使女人更有男子气概,使男人更有女人味。与这些任务相互作用的是缺乏可以与生成的图像进行像素到像素比较的地面实况目标。上下文损失为所有这些任务提供了一个简单的解决方案。抽象。针对图像变换问题训练的前馈CNN大多数常见的损失函数假设这些图像在空间上对齐并且比较对应位置处的像素然而,对于许多任务,对齐的训练图像对将不可用。我们提出了一个替代的损失函数,不需要对齐,从而提供了一个有效的和简单的解决方案,一个新的空间的我们的损失是基于上下文和语义的-因此,例如,当将一张脸的风格转移到另一张脸时,它将眼睛到眼睛和嘴到嘴翻译。我们的代码可以在https://www.github.com/roimehrez/contextualLoss上找到1介绍许多经典问题可以被框定为图像变换任务,其中系统接收一些源图像并生成相应的输出图像。作者贡献相等2Roey Mechrez,Itamar Talmi,Lihi Zelnik-Manor图二. 非对齐数据:在许多图像转换任务中,期望的输出图像不与任何可用的目标图像在空间上对准。(a)在语义风格转换中,输出图像中的区域应该共享该区域中对应区域的风格,即,例如,在一个实施例中,在这段时间里,眼睛和鼻子都像猫的鼻子一样。(b)在单图像动画中,我们根据输入的图像动画单个目标图像。 (c)将一个新的“缓存”数据集写入到一个新的“驱动器”,但我们拥有一个可用的可扩展的驱动器缓存文件。(d)在域转移中,例如性别翻译,训练图像甚至没有配对,因此,显然输出和目标没有对齐。示例包括图像到图像转换[1,2],超分辨率[3,4,5]和风格转移[6,7,8]。图1中给出了我们针对其中一些应用的结果示例。解决图像变换任务的一种方法是训练前馈卷积神经网络。训练基于经由可微分损失函数将由网络生成的图像与目标图像进行比较。用于比较图像的常用损失函数可以分为两种类型:(i)比较相同空间坐标处的像素的像素到像素损失函数,例如,L2 [3,9],L1 [1,2,10],以及[8]的感知损失(ii)全局损失函数,例如Gram损失[6],它通过比较在整个图像上收集的统计数据成功捕获风格[6,8]和纹理[4,11]与这些正交的是对抗损失函数(GAN)[12],它将生成的图像推到目标域的高可能性。这是互补的,并且不直接比较所生成的图像和目标图像。这两种类型的图像比较损失函数已被证明是非常有效的许多任务,然而,有一些情况下,他们没有解决。具体地,像素到像素损失函数明确地假设生成的图像和目标图像在空间上对准。它们不是为训练数据根据定义不对齐的问题而设计的。是这样的如图1-2非对齐图像可以通过Gram损失进行比较,然而,由于其全局性,语境损失3将全局特征转换为整个图像。它不能用于约束所生成的图像的内容,这在这些应用中是需要的在本文中,我们提出了上下文损失-针对非对齐数据的我们的核心思想是将图像视为特征的集合,并基于图像之间的相似性来度量图像之间的相似性,而忽略特征的空间位置我们通过考虑生成的图像中的所有特征来形成特征之间的匹配,从而将全局图像上下文纳入我们的相似性度量中。然后基于匹配特征之间的相似性来定义图像之间的相似性该方法允许生成的图像相对于目标在空间上变形,这是我们能够用前馈架构解决图2中的所有应用的关键此外,上下文损失不是过度全局的(这是革兰氏损失的主要限制),因为它基于语义比较特征和因此的区域。这就是为什么在图1中,样式转换赋予了Ob所有的眼睛和外观,并且域间转换会改变操作的原因通过塑造/加厚眉毛和添加/删除化妆来实现性别。上下文损失的一个很好的特征是它倾向于保持目标图像的外观。这使得能够生成在使用GAN的情况下看起来真实的图像,其目标具体地是将图像分割成“真实”和“虚拟”,并且在图像分割方面具有明显的差异。我们通过图2所示的应用程序展示了上下文损失的效用和益处。在所有四个应用程序中,我们在不使用GAN的情况下显示了最先进或可比较的结果。在风格转换中,我们通过以语义方式翻译风格而不需要分段来提供进步。 在木偶控制和单图像动画的任务,我们表现出显着的改善,比以前的尝试,基于像素到像素的损失函数。最后,我们在没有配对数据的情况下成功地进行了域转换,优于Cy- cleGAN [2],即使我们使用单个前馈网络,而他们训练了四个网络(两个生成器和两个鉴别器)。2相关工作我们的主要贡献是一个新的损失函数,可以有效地用于许多图像变换任务。我们在这里回顾最相关的方法来解决图像到图像的翻译和风格转移,这是我们实验的应用领域。图像到图像转换包括其目标是将图像从输入域转换到目标域的任务,例如,白天到夜晚,马到斑马,标签到图像,BW到颜色,边缘到照片,夏季到冬季,照片到绘画等等。Isola等人[1](pix2pix)通过前馈网络和对抗训练(GAN)获得了令人印象深刻的结果[12]。他们的解决方案需要成对对齐的输入-目标图像,以使用像素到像素的损失函数(L2或L1)来训练网络。Chen和Koltun [10]提出了一种用于解决标签到图像的Cas-cad精化网络(CRN),其中图像是4Roey Mechrez,Itamar Talmi,Lihi Zelnik-Manor从输入语义标签映射生成。他们的解决方案也使用了像素到像素的损失(感知[8]和L1),并且后来添加了GAN [13]。这些方法需要配对和对齐的训练图像。域转移最近也被应用于配对训练数据不可用的问题[2,14,15]。为了克服训练对的缺乏,简单的前馈架构被更复杂的架构所取代。关键的想法是,从一个领域翻译到另一个领域,然后返回,应该把我们带到起点。这是由复杂的体系结构建模的,例如,在CycleGAN [2]中,需要四个不同的网络。循环过程有时会遇到模式崩溃问题,这是GAN中的一种普遍现象,其中来自域的多个模式的数据映射到不同域的单个模式[14]。风格转移旨在将目标图像的风格转移到输入图像[16,17,18,19]。与我们的研究最相关的是基于CNN的方法。这些主要区别在于结构和损失函数的选择[6,7,8,20,21],[22]中给出了综述Gatys等人[6]提出了通过使用基于梯度的求解器进行优化而获得的惊人结果他们使用像素到像素的感知损失[8]来保持与输入图像的相似性,并提出了Gram损失来捕获目标的风格。他们的方法允许任意风格的图像,但这需要很高的计算成本。还提出了具有较低计算成本的方法[8,21,23,24]。通过用训练前馈网络代替优化来获得加速比这些后一种方法的主要缺点是,它们需要针对每个新的目标风格进行重新训练。另一系列工作旨在语义风格转移,其目标是跨对应语义含义的区域转移风格,例如,天空到天空和树到树(在上面列出的方法中,目标样式被全局传输到整个图像)。一种方法是用目标的匹配特征替换输入图像的深度特征,然后通过有效的优化[20]或通过预先训练的解码器[25]反转特征。Li等[7]将马尔可夫随机场集成到输出合成过程(CNNMRF)中。由于这些方法中的匹配是在神经特征之间的,因此获得语义对应。语义风格转换的另一种方法是根据语义将图像分割成区域[26,27]。这导致语义转移,但取决于分割过程的成功。在[28]中,提出了直方图损失,以便合成在统计上与目标匹配的纹理。这改善了颜色的命运,但不有助于语义匹配。最后,还有针对特定领域和风格的方法,例如城市景观图像中的面孔或时间[29,30]。3方法我们的目标是设计一个损失函数,可以衡量图像之间的相似性非对齐图像的比较也语境损失5IJyJXi(a) 相似(b)不相似图三. 图像之间的上下文相似性:橙色圆圈表示图像x的特征,而蓝色三角形表示目标图像的特征y.红色箭头将y中的每个特征与其上下文最相似的特征相匹配(等式2)。(4)x中的特征。(a)图像x和y类似:X中的许多特征与Y中的类似特征相匹配。(b)图像x和y不相似:X中的许多特征不与Y中的任何特征匹配。上下文损失可以被认为是红色箭头上的加权和。它只考虑要素,而不考虑要素的空间位置图像中模板匹配方法的核心是寻找在遮挡和变形情况下与给定模板最近,Talmiet al.[31]提出了一种模板匹配的统计方法,结果令人印象深刻。然而,它们的相似性度量没有有意义的导数,因此,我们不能将其作为训练网络的损失函数。尽管如此,我们还是从他们的基本观察中得到了启发。3.1图像之间的上下文相似性我们首先定义一对图像之间的相似性度量。我们的主要思想是将每个图像表示为一组高维点(特征),如果两个图像对应的点集相似,则将其视为相似。 如图3所示,当一个图像的大多数特征在另一个图像中存在相似特征时,我们认为一对图像相似。相反,当图像彼此不同时,每个图像的许多特征在另一图像中将不具有相似特征。基于这一观察,我们制定图像之间的上下文相似性度量给定图像x和目标图像y,我们将每个图像表示为点的集合(例如,VGG 19特征[32]):X ={xi}和Y ={yj}。 我们假设|Y|为|= N(并从较大集合中采样N个点,|Y|/=|X|).|). 计算图像之间的相似性,我们为每个特征yj找到与它最相似的特征xi,然后对所有yj上的对应特征相似性值求和。形式上,图像之间的上下文相似性被定义为:1ΣCX(x,y)= CX(X,Y)=Nmax CXij(1)我J其中,接下来要定义的CXij是特征xi和yj之间的相似度。我们将全球图像上下文通过我们的定义的相似性CXij之间的功能。具体来说,我们认为特征xi在上下文上类似于6Roey Mechrez,Itamar Talmi,Lihi Zelnik-Manor(xi)(a)(b)(c)见 图 4 。 特 征 之 间 的 上 下 文 相 似 性 : 我 们 定 义 了 上 下 文 相 似 性CXijbwenfeaturesxi(que enb ee e),并且通过将该上下文相似性定义为所有该featury。 (a)x_v_a_p具有与所有其他(工蜂)不同的上下文相似性(queee_bee),因此,它与它的上下文相似性高,而与所有其他(工蜂)的上下文相似性低。 (b)x与所有j(工作对象)相似,因此,它对所有下面的内容都是简单易行的。(c)对于所有的(D),上下文相 似 度值(Diff_rent_t)都是相同的。然而,为了计算鲁棒性,这里的上下文相似度值应该类似于(b)中的如果它比Y中的所有其他特征都更接近于特征y j,则该特征yj被称为特征yj。当不是这种情况时,即,如果xi不更接近任何特定的yj,则其与所有yj的上下文相似性应该是低的。该方法对于数据的规模是鲁棒的,例如,对于数据的大小是鲁棒的。G. ,如果Xi通常远离CXi,则Xi的距离将小于Xi的距离。图4通过示例说明了这些想法。接下来,我们用数学公式表示令dij为xi与yj1之间的余弦距离。我们认为特征xi和yj相似,当dijdik,ki=j时。为了捕捉这一点,我们首先将距离归一化:d~ij国际新闻报=minkdik+(二)对于固定的= 1e−5。我们通过求幂从距离转换到相似度wij=exp.Σ1−dijH(三)其中h>0是带宽参数。最后,我们将特征之间的上下文相似性定义为归一化相似性的尺度不变版本ΣCXij=wij/K中国(4)由于上下文相似性在归一化值上求和,我们得到CX(X,Y)∈[0,1]。将图像与其自身进行比较产生CX(X,X)= 1,因为特征相似性值将为CXii = 1,否则为0另1 D =(1 −(xi−µy)·(yj−µy)),其中µ =1Σy。Ij||xi−µy||2||yj−µy||2yN jj语境损失7Φ极端情况下,当特征集彼此远离时,则CXij≈1i,j,N因此CX(X,Y)≈1N→0。我们进一步观察到,如果wij>wik,则设置CXij=1,否则设置CXij = 0,相当于为X中的每个特征找到Y中的最近邻。在这种情况下,我们得到CX(X,Y)等价于计算Y中有多少特征是X中特征的最近邻,这正是[31]提出的模板匹配度量3.2背景损失为了训练生成器网络,我们需要定义一个损失函数,基于Eq.的上下文相似性(一).设x和y是要比较的两个图像。 我们通过将图像传递到感知网络Φ来从图像中提取相应的特征集,其中在我们所有的实验中Φ是VGG19 [32]。令Φl(x)、Φl(y)分别表示从图像x和y的感知网络Φ的层l提取的特征图。背景损失定义为:(五)在图像变换任务中,我们训练网络G将给定的源图像s映射到输出图像G(s)。为了要求所生成的图像与目标之间的相似性,我们使用损失LCX(G(s),t,l)。通常,我们还要求通过损失LCX(G(s),s,l)与源图像的相似性在第4节中,我们详细描述了如何将这种损失函数用于各种不同的应用,以及我们为l选择什么值。其他损失函数:在下文中,我们将上下文损失与其他流行的损失函数进行比较。为了完整起见,我们在这里提供它们的定义– Percepuualos[8]LP(x,y,IP)=||ΦlP(x)−ΦlP(y)||1,其中Φ是VGG19[32],并且IP表示层。– L1(x,y)=||x−y||1 .一、– L2lossL2(x,y)=||x−y||二、– Gramlos[6]LGram(x,y,lG)=||GlG(x)−GlG(y)||2,当Gram公司简介矩阵GlG 如[6]中所定义。前两个是像素到像素损失函数,其需要图像x和y之间的对准。革兰氏损失是全局的并且对像素位置是鲁棒的。3.3语境缺失期望分析:上下文损失比较了特征集,因此隐含地,它可以被认为是比较分布的一种方式为了支持这一观察结果,我们提供了经验统计分析,类似于[31,33]中提出的我们的目标是表明,CX(X,Y)的期望是最大的点时,在X和Y是从相同的分布,并急剧下降的两个分布之间的距离增加。这是通过简化的数学模型来完成的,其中每个图像被建模为LCX(x,y,l)=−log CXΦl(x),Φl(y)..ΣΣ8Roey Mechrez,Itamar Talmi,Lihi Zelnik-ManorΣ ΣΣ ΣΣ Σ(a) EL2(b) EDIS(c) E CX(h = 0. 第一章图五. 1D高斯情况下的预期行为:通过分别从N(0; 1)和N(μ; σ)采样N=M=100个点来生成两个点集X和Y,其中[μ,σ]∈[0,10]。(a)L2(来自[33]),(b)DIS(来自[31])和(c)建议的CX的近似期望,作为μ和σ的函数,显示随着分布的移动,CX比L2从一维高斯分布中提取的一组点。我们计算图像之间的相似性为基础高斯之间的不同距离。图5显示了所得的近似预期值。可以看出,当分布相同时,CX(X,Y)可能最大化,并且随着分布彼此远离而快速下降最后,类似于[31,33],可以证明这也适用于多维情况。利用非对齐数据的玩具实验为了检查对非对齐数据的上下文丢失的鲁棒性给定单个噪声图像s和相同场景的多个干净图像(目标t,k),目标是重建干净图像G(s)。目标图像t,k不与噪声源图像s对准。在我们的玩具实验中,源图像和目标图像是通过随机裁剪同一图像获得的,随机平移∈[-10,10]像素。我们将随机噪声添加到选择为源的作物。通过使用梯度下降的迭代优化来执行重建,其中我们直接更新s的图像值。也就是说,我们最小化目标函数L(s,tk),其中L是LCX或L1,并且我们迭代目标tk。在这个特定的实验中,我们用于上下文丢 失 的 特 征 是 大 小 为 5×5 的 矢 量 化 RGB 块 , 步 幅 为 2 ( 而 不 是VGG19)。图6所示的结果表明,使用L1进行优化会产生非常模糊的图像,因为它无法正确比较非对齐图像。另一方面,上下文损失被设计为对空间变形是鲁棒因此,使用LCX进行优化可以完全去除噪声,而不会破坏图像细节。我们请读者参考[34],其中提供了上下文损失的附加理论和实证4应用我们在图2中给出的任务上进行实验。为了评估建议的损失函数的贡献,我们为每个任务采用了最先进的架构语境损失9类型类型k=1(a) 噪声输入(b)清洁目标(c)L1作为损耗(d)L CX作为损耗见图6。对未对准的稳健性:噪声输入图像(a)经由梯度下降被清理,其中目标干净图像(b)示出相同场景,但不与输入对齐。 使用L1优化导致高度模糊的结果(c),而使用我们的上下文损失LCX优化则很好地去除了噪声(d)。 这是因为LCX对未对准和空间变形是鲁棒的。损失函数建议的应用程序体系结构以前的配对对齐单图像动画CRN [10]LtCX CX克P+LsLt+Ls域转移CRN [10]LtCX CX+LsCycleGAN[2]风格迁移最佳选择[6]美国LtCX CX克P+LsLt+Ls傀儡控制CRN [10]LtCXP+LtLt+Lt1P表1.应用程序设置:四个应用程序的设置摘要我们在这里使用简化的符号:Lt标记在生成图像G(s)和目标t之间使用哪个损失。类似地,Ls代表G(s)和源(输入)s之间的损耗。我们区分配对和未配对数据以及半对齐(x+v)和非对齐数据。损失函数的定义见正文。并且仅修改损失函数。在一些任务中,我们还比较了其他最近的解决 方 案 。 对 于 所 有 应 用 程 序 ,我 们 使 用 TensorFlow [35] 和 Adamoptimizer [36] 以 及 默 认 参 数 ( β1= 0 ) 。 9 , β2= 0 。 999 , = 1e−08)。 除非另有说明,否则我们设置h = 0。5(Eq.)(三))。表1总结了任务和相应的设置。我们使用简写符号Lt=Ltype(G(s),t,l),以要求生成的图像G(s)和目标t和Ls=L类型(G(s),s,l)来要求与源图像S的相似性。带下标的符号L类型表示建议的LCX或第3.2节中定义的常见损失函数之一。4.1语义风格迁移在风格转换中,目标是将目标图像t的风格转换到源图像s上。Gatys等人提出的具有里程碑意义的方法。[6]中所描述的方法的一个优点是最小化两个损失函数的组合,感知损失L_P(G(s),s,I_P)用于维持源图像s的内容,并且革兰氏损失L_革兰氏(G(s),t,I_G)用于执行源图像s的内容。与目标t的风格相似性(其中,1G={conv k1}5且1P=conv 4 2)。我们认为,语境损失是一个很好的选择。借解释─它是一个很好的选择,因为它不需要对齐。10Roey Mechrez,Itamar Talmi,Lihi Zelnik-Manor源1目标1源2目标2源3目标3源4目标4结果-1结果-2结果-3结果-4源Target Gatys等[7]第七届中国国际医疗器械展览会我们见图7。语义风格转换:上下文损失自然地提供跨对应语义含义的区域的语义风格转移。请注意我们的结果:(第1行)花和茎正确地改变了它们的风格,(第2行)主人的眼睛看起来是一致的,一个小小的眼睛向上突出,它的嘴唇改变了它的形状和颜色,(第3行)可爱的狗得到了目标猫的绿色眼睛、白色的鼻子和黄色的头。我们的结果与[ 6 ]中在整个图像上全局转移样式的结果有很大不同。CNNMRF [7]实现了语义匹配,但非常容易产生伪影。更多结果和比较见补充资料见图8。玩目标:转移不同目标对象的结果。请注意,在每个结果中,我们如何在语义上映射特征,将形状,颜色和纹理转移到头发,嘴巴,鼻子,眼睛和眉毛。这是很高兴看到特朗普如何得到了一个小的完整的eeh和希拉里是一个 rke ddit hO bama的语境损失11K=2此外,它将允许根据它们的语义相似性在区域之间传输风格特征,而不是在整个图像上全局地传输,这是Gram损失所得到的。上下文损失也是内容术语的一个很好的选择,因为它要求与源的相似性,但允许一些位置变形。这样的变形是有利的,因为由于风格改变,风格化图像和源图像将不会完美地对准。为了支持这些要求,我们采用Gatys等人的基于优化的框架。[6]2,通过迭代过程直接最小化损失,并将其目标替换为:L(G)=LCX(G(s),t,lt)+LCX(G(s),s,ls)(6)其中ls=conv 4 2(以捕获内容)并且lt={conv k 2}4(捕捉风格)。对于内容项和样式项,我们分别将h设置为0.1和0.2。在我们实现中,我们通过对层进行随机采样来减少内存消耗conv2 2转换为65×65特征。图8给出了一些示例结果。可以看出,风格跨相应的区域转移,眼睛对眼睛,头发对头发等等。在图7中,我们将我们的风格转移结果与其他两种方法进行了比较:[6]和CNNMRF [7]。我们的设置和他们的设置之间的唯一区别是损失函数,因为所有三个都使用相同的优化框架。可以看出,我们的方法在语义上跨区域传递风格,而在Gaty的应用程序中,该风格是在没有语义的情况下直接传递信息的。另一方面,CNN-MRF的目标是语义转移。它是基于最近邻匹配的功能,这确实成功地取代语义上对应的功能,但是,它遭受严重的文物。4.2单幅图像动画在单图像动画中,数据由来自源域(例如,人S)的许多动画图像和来自目标域(例如,人T)。目标是根据输入的源图像动画的目标图像。这意味着通过问题定义,所生成的图像G(s)不与目标t对准。这个问题设置自然由上下文丢失处理。我们使用它来维护源s的动画(空间布局)和目标t的外观:L(G)=LCX(G(s),t,lt)+LCX(G(s),s,ls)(7)其中ls=conv 4 2且lt={conv 3 2,conv 4 2}。我们选择了[10]3的CRN架构,并在1000个输入帧上训练了10个epoch。结果示于图9中。我们不知道以前的工作,解决了这个任务的发电机网络。然而,我们注意到,我们的设置与快速风格转换有关[8],因为有效地训练网络以2我们使用了https://github.com/anishathalye/neural-style中的实现3我们使用原始的实现http://cqf.io/ImageSynthesis/12Roey Mechrez,Itamar Talmi,Lihi Zelnik-Manork=1源基线-1基线-2基线-3目标图像我们的-1我们的-2我们的-3见图9。单幅图像动画:此图是一个动画gif,显示测试集的每20帧(动画仅在Acrobat Reader中工作,补充资料中提供了视频)。给定一个输入视频(左上),我们动画三个不同的目标图像(左下)。将我们的动画(底部)与基线(顶部)进行比较,表明我们对目标的外观和输入的运动更加忠实。注意,我们的解和基线的区别仅在于损失函数。生成具有与输入(源)类似的内容但具有与目标类似的风格的图像。因此,作为比较的基线,我们训练了相同的CRN架构,并仅用感知(其中IP=conv 5 2)和革兰氏损失(其中IG={conv k1}5),如建议[8][9]可以看出,使用我们的语境损失要成功得多导致明显更少的伪像。4.3傀儡控制我们这里的任务有点类似于单图像动画。 我们希望动画化一个大的“p up p et t”acording to opro ro v id d images of a“d r v e r”p e r son(源)。然而,这次可用于使用的是半对齐的源-目标(驱动器-木偶) 图像的训练 对。具 体来说, 我们重复了 网上公布 的实验,Brannon Dorsey(司机)试图控制Ray Kurzweil(木偶)4。 为了训练,他拍摄了一段视频(约1000帧),内容是他自己模仿库尔茨维尔的模型。在Brannon的新视频中,目标是制作木偶Kurzweil的相应动画。生成的图像应该看起来像目标木偶,因此我们使用上下文损失来比较它们。此外,由于在这种特定情况下,我们可用的训练数据由半对齐的图像对组成,因此它们在其空间布置中共享非常粗略的相似性。因此,为了进一步细化优化,我们添加了感知损失,以非常小的计算。4B. Dorsey,https://twitter.com/brannondorsey/status/808461108881268736语境损失13K=2来源pix2pix [1] CycleGAN [2] CRN [10] Ours了图 10个。 Puppet_t_c〇 n_t_r〇 l:将“puppet_t”(RayKurzw_w_e_il)图像化的图像的恢复与左侧所示的输入视频相关联。我们的结果更清晰,更不容易出现伪影,并且更容易影响输入点和“pup p et t“a p p e a n c e。该图是一个Nimatd gif,显示测试集的每10帧(仅在XplanReader中看到动画,项目页面中提供视频)。不需要对齐的粗略级别。我们的总体目标是:L(G)=LCX(G(s),t,lCX)+λP·LP(G(s),t,lP)(8)其中ICX={convk2}4,1P= conv 5 2,且λP= 0。1让上下文损失占主导地位。作为架构,我们再次选择CRN [10]并训练它20时代我们将我们的方法与三种替代方案进行比较:(i)使用完全相同的CRN架构,但是具有像素到像素损失函数L1而不是LCX。(ii)使用LI和对抗训练(GAN)的[1因 为 这 是 最 初 的 实 验 (iii) 我 们 还 与 CycleGAN [ 2 ] 进 行 了 比 较 ,CycleGAN [2]将数据视为未配对,并将图像与L1进行比较,并使用对抗训练(GAN)。结果示于图10中。可以看出,用我们的方法生成的木偶动画更加清晰,具有显著更少的伪影,并且很好地捕捉了驾驶员的姿势,即使我们没有使用。4.4非配对结构域转移最后,我们还在域转移的未配对场景中使用上下文损失。我们进行了性别改变的实验,使男性肖像更女性化,反之亦然。由于数据是未配对的(即,我们没有男性图像的女性版本),我们从两个域中随机采样图像对。由于上下文损失对未对准是鲁棒的,因此这不是问题。我们使用与单幅图像动画完全相同的架构和损失。我们的结果如图11所示,与CycleGAN [2]相比非常成功这是一个很好的结果,因为我们的方法提供了一个更简单的替代方案-这是可能的,因为上下文丢失不需要对齐的数据,并且因此可以自然地在非对齐的随机对上训练14Roey Mechrez,Itamar Talmi,Lihi Zelnik-Manor见图11。未配对的域转移:未配对数据的性别转换(CelebA)[37],(上)男性到女性,(下)女性到男性。我们的方法成功地完全修改了面部属性,使男性更女性化(或女性更男性化),同时保留了原始的人的身份。这些变化主要体现在眼妆、眉型和唇部。我们的性别修改比CycleGAN [2]更成功,即使我们使用单个前馈网络,而他们训练复杂的4网络架构。5结论我们提出了一种新的损失函数的图像生成,自然地处理任务与非对齐的训练数据。我们已经将其应用于四个不同的appli-阳离子,并显示了国家的最先进的(或可比的)的结果在我们的后续工作中,[34],我们建议使用上下文损失进行真实恢复,特别是用于超分辨率和表面法线估计的任务。我们得出了一个理论联系的上下文损失和KL分歧,这是支持的经验证据。在未来的工作中,我们希望寻求其他的损失函数,可以克服现有的进一步的缺点。在补充中,我们提出了我们的方法的局限性,消融研究,并探讨了拟议的损失的变化。鸣谢:这项研究得到了以色列科学基金会1089/16号拨款和Ollendorf基金会的支持。雄对雌雌对雄我们来源我们源CycleGANCycleGAN语境损失15引用1. Isola,P.,Zhu,J.Y.,周,T.,Efros,A.A.:使用条件对抗网络的图像到图像翻译。在:CVPR中。(2017)2,3,132. Zhu,J.Y.,Park,T. Isola,P.,Efros,A.A.:使用周期一致对抗网络的不成对图像到图像翻译。In:ICCV.(2017)2,3,4,9,13,143. L edi g, C. , 这 是 LHusza'r , F. , Caballero,J. , Cunningham , A.Acosta,A. Aitken,A. Tejani,A.,托茨,J.,王志,等:使用生成对抗网络的照片级真实感单幅图像超分辨率。在:CVPR中。(2017年)24. Sajjadi,M.S.,Scholkopf,B.,Hirsch,M.:Enhancenet:通过自动纹理合成实现单幅图像In:ICCV.(2017年)25. Lai W.S. Huang,J.B.,Ahuja,N.,Yang,M.H.:深拉普拉斯金字塔网络实现快速和精确的超分辨率。IEEE计算机视觉与模式识别会议。(2017年)26. 洛杉矶的加蒂斯Ecker,A.S. Bethge,M.:使用卷积神经网络的图像风格转换。在:CVPR中。(2016)2、4、7、9、10、117. Li,C.,Wand,M.:结合马尔可夫随机场和卷积神经网络进行图像合成。在:CVPR中。(2016)2、4、10、118. Johnson,J.,Alahi,A.,李菲菲: 实时风格转换和超分辨率的感知损失。In:ECCV.(2016)2,4,7,11,129. 徐,L.,Ren,J.S.,刘,C.,Jia,J.:用于图像去卷积的深度卷积神经网络。在:NIPS。(2014年)210. 陈昆,Koltun,V.:使用级联细化网络的摄影图像合成。In:ICCV.(2017)2,3,9,11,1311. 李,Y.,方角杨杰,王志,卢,X.,Yang,M.H.:用前馈网络实现多样化纹理合成。在:CVPR中。(2017年)212. 古德费洛岛Pouget-Abadie,J.Mirza,M.,徐,B.,沃德-法利,D.,Ozair,S.,Courville,A. Bengio,Y.:生成性对抗网。在:NIPS。(2014年)第2、3页13. Wang T.C. Liu,M.Y. Zhu,J.Y.,Tao,A.,Kautz,J.,Catanzaro,B.:用条件gans进行高分辨率图像合成和语义操作arXiv预印本arXiv:1711.11585(2017)414. 金,T.,Cha,M.,Kim,H.李,J.,Kim,J.:学习发现跨域关系与生成对抗网络。arXiv预印本arXiv:1703.05192(2017)415. Yi,Z.,张洪,龚医生等:Dualgan:图像到图像翻译的无监督双重学习。arXiv预印本arXiv:1704.02510(2017)416. Hertzmann,A.,Jacobs,C.E. Oliver,N. Curless,B.,销售部,D.H.:图像类比。见:计算机图形学与交互技术,ACM(2001)417. Liang,L.,刘,C.,徐玉琪,Guo,B.,沈希尧:基于块采样的实时纹理合成03 TheDog(2001)18. Elad,M.,Milanfar,P.:通过纹理合成进行风格转换IEEE Transactionson Image Processing(2017)19. 弗里戈岛Sabater,N.德隆,J.,Hellier,P.:拆分和匹配:基于示例的自适应补丁采样,用于无监督的风格转换。在:CVPR中。(2016年)420. Chen,T.Q.,施密特,M.:快速的基于补丁的任意风格转移。arXiv预印本arXiv:1612.04337(2016)421. Ulyanov,D.,Vedaldi,A.,Lempitsky,V.:实例规范化:快速风格化缺少的成分。arXiv预印本arXiv:1607.08022(2016)422. Jing,Y.,杨,Y.,冯志,是的,J.,宋,M.:神经风格转移:审查. arXiv预印本arXiv:1705.04058(2017)416Roey Mechrez,Itamar Talmi,Lihi Zelnik-Manor23. Dumoulin,V.,Shlens,J.,Kudlur,M.:对艺术风格的博学的表现。ICLR(2017)424. Ulyanov,D.,Lebedev,V.,Vedaldi,A.,Lempitsky,V.S.:纹理网络:Feed-Forw ardsyhessoftexturesandstyzedimages. In:ICML. (2016)134925. 黄,X.,Belongie,S.:实时任意样式传输,具有自适应实例规范化。In:ICCV.(2017年)426. Luan,F.,巴黎,S.,Shechtman,E.,Bala,K.:深度照片风格转移。在:CVPR中。(2017年)427. 赵,H.,Rosin,P.L.,黎耀光:使用深度卷积神经网络和软掩码进行自动语义风格转换。arXiv预印本arXiv:1708.09641(2017)428. Risser,E.,Wilmot,P.巴恩斯,C.:使用直方图损失的稳定可控神经纹理合成和风格转移arXiv预印本arXiv:1701.08893(2017)429. Shih,Y.,巴黎,S.,Durand,F.,弗里曼,W.T.:从一张户外照片中产生一天中不同时间的数据驱动幻觉。ACM ToG(2013)430. Shih,Y.,巴黎,S.,巴恩斯角弗里曼,W. T.,Durand,F.:风格转移头像肖像。ACM ToG(2014)431. 塔尔米岛Mechrez河Zelnik-Manor,L.:可变形多样性相似性模板匹配。在:CVPR中。(2017)5,7,832. 西蒙尼扬,K.,齐瑟曼,A.:用于大规模图像识别的深度卷积网络。arXiv预印本arXiv:1409.1556(2014)5,733. Dekel,T.,Oron,S.,Rubinstein,M.,Avidan,S.,弗里曼,W.T.:最佳伙 伴 相 似 性 , 用 于 稳 健 的 模 板 匹 配 。 In : Proceedings of the IEEEConferenceonComputerVisionandPatter nRecognition. (2015)202134. Mechrez河塔尔米岛Shama,F.,Zelnik-Manor,L.:学习维护自然图像统计。arXiv预印本arXiv:1803.04626(2018)8,1435. Abadi,M.,Agarwal,A.,Barham,P.,Brevdo,E.,陈志,西特罗角科罗拉多州科拉多戴维斯,A.,迪恩J Devin,M.,等:Tensorflow:异构分布式系统上的大规模机器学习。arXiv预印本arXiv:1603.04467(2016)936. Kingma,D. Ba,J.:Adam:随机最佳化的方法。arXiv预印本arXiv:1412.6980(2014)937. 刘志,Luo,P.,王,X.,唐X:在野外深度学习人脸属性。In:ICCV.(2015年)14
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索AVL树算法:以Faculdade Senac Porto Alegre实践为例
- 小学语文教学新工具:创新黑板设计解析
- Minecraft服务器管理新插件ServerForms发布
- MATLAB基因网络模型代码实现及开源分享
- 全方位技术项目源码合集:***报名系统
- Phalcon框架实战案例分析
- MATLAB与Python结合实现短期电力负荷预测的DAT300项目解析
- 市场营销教学专用查询装置设计方案
- 随身WiFi高通210 MS8909设备的Root引导文件破解攻略
- 实现服务器端级联:modella与leveldb适配器的应用
- Oracle Linux安装必备依赖包清单与步骤
- Shyer项目:寻找喜欢的聊天伙伴
- MEAN堆栈入门项目: postings-app
- 在线WPS办公功能全接触及应用示例
- 新型带储订盒订书机设计文档
- VB多媒体教学演示系统源代码及技术项目资源大全
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功