没有合适的资源?快使用搜索试试~ 我知道了~
9016基于双向特征变换的引导式图像间翻译黄家斌弗吉尼亚理工大学{badour,jbhuang}@ vt.edu输入指南我们的输入指南我们的图1. 引导图像到图像翻译的应用。 我们提出了一种算法,该算法将输入图像转换为相应的输出图像,同时尊重所提供的引导图像中指定的约束这些可控的图像到图像转换问题通常需要任务特定的架构和训练目标函数,因为指导可以采取各种不同的形式(例如,颜色笔划、草图、纹理补丁、图像和遮罩)。我们介绍了一种新的调节方案,用于使用可用的指导信号控制图像合成,并证明了对几个示例应用的适用性,包括由给定姿势指导的人物图像合成(顶部),由纹理补丁指导的草图到照片合成(中间),以及由RGB图像指导的深度上采样(底部)。摘要我们解决了引导的图像到图像翻译的问题,其中我们将输入图像翻译成另一个图像,同时尊重由外部用户提供的引导图像提供的约束。已经探索了用于利用给定引导图像的各种类型的调节机制,包括输入级联、特征级联和特征激活的条件仿射变换然而,所有这些调节机制都是单向的,即,没有信息从输入图像流回到引导。为了更好地利用引导图像的约束条件,我们提出了一种双向特征变换(bFT)方案。我们表明,我们的新的bFT计划优于其他条件的计划,并具有可比的结果,以国家的最先进的方法对不同的任务1. 介绍在图像到图像的翻译问题[17]中,我们的目标是将图像从一个域翻译到另一个域。计算机视觉、图形学和图像处理中的许多问题都可以表述为图像到图像的翻译任务,包括语义图像合成、风格转换、着色、草图到照片等。对这些图像到图像的平移问题的扩展涉及帮助实现可控平移的附加引导图像引导图像通常反映由用户指定的期望视觉效果或约束,或者经由其他模态(颜色/深度、闪光/非闪光)提供上采样 纹理转移姿势转移9017闪光、彩色/IR)。因此,引导图像可以采取许多不同的形式,例如,颜色笔划或调色板、语义标签、纹理补丁、图像或蒙版。因此,这些问题的大多数经验解决方案通常具有特定于应用的架构和目标函数,因此不能直接应用于其他问题。引导图像到图像的翻译问题的主要技术问题是如何使用条件引导在文献中已经提出了各种形式的调节方案最常见的一种是在输入级直接连接输入源图像和引导图像(即,沿着通道尺寸的连接虽然是参数有效的,这种方法假设,额外的指导是需要在输入级和信息可以通过所有的子层进行另一种常用的替代方案是在特征级连接引导和输入信息,假设在模型内的某个级别需要引导特征表示。最近的广义条件反射方案形式化为逐行线性调制(FiLM),已成功应用于视觉推理任务[32]。在该方案中,仿射变换应用于中间特征激活,使用从一些外部条件信息中学习的缩放和移位参数。在该方法中,所学习的缩放和移位操作是按特征应用的(即,空间不变)。还有其他类似于电影的条件反射方法,在风格转移的背景下显示出有效性。在本任务中,给定输入图像和向导样式图像,目标是合成将输入图像的内容与向导图像的样式一种这样的方法是条件实例规范化(CIN)[7],它可以被视为替代规范化层的薄膜层。在CIN中,特征表示首先被归一化为零均值和单位标准差。然后,使用从引导样式图像学习的缩放和移位参数将仿射变换应用于归一化特征表示。另一种方法是自适应实例规范化(AdaIN)[14]。AdaIN与CIN非常相似,然而,与CIN不同的是,AdaIN不学习仿射变换参数,而是使用引导样式图像的均值和标准差分别作为缩放和移位参数。在这项工作中,我们提出了一个广义的条件反射计划,将指导图像的图像到图像的翻译模型,并显示其适用于不同的应用。我们提出的方法和现有的条件化方案之间有两个关键的区别。首先,我们建议在两个方向上应用调节操作,信息不仅从引导图像流向输入图像,而且从也可以将输入图像转换为引导图像。其次,我们扩展了现有的特征方面的特征变换空间变化,以适应不同的内容在输入图像。我们将我们提出的方法称为双向特征变换(bFT)。我们通过多个应用程序的广泛实验验证了bFT的设计,包括姿势指导外观转移,图像合成与纹理补丁指导,联合深度上采样。我们证明,我们的方法,而不是特定于应用程序,实现竞争力或更好的性能比国家的最先进的。通过广泛的消融研究,我们还表明,所提出的bFT比常用的条件方案(如输入/特征连接、CIN [7]和AdaIN [14])更有效。我们作出以下两项贡献。首先,我们提出了通用的引导图像到图像的翻译任务的双向特征变换与只允许信息从引导流到源图像的实验方法其次,我们提出了一个空间变化的扩展功能明智的transformation更好地捕捉本地内容的指导和源图像。2. 相关工作生成模型是一种学习数据分布以生成新样本的方法。一种广泛使用的技术是生成对抗网络(GAN)[9]。在GAN中,有一个生成器试图生成看起来很逼真的样本来欺骗识别器,识别器试图准确地判断样本是真的还是假的。条件GAN通过合并条件信息来扩展GAN。条件GAN的一个具体应用是图像到图像的转换[17,36,31]。最近的一些进展包括学习-从不成对的数据集[42,38,25],提高潜水-sity [20,15,43],应用于域自适应[2,13,4],以及扩展到视频[35]。我们的工作建立在图像到图像的翻译的最新进展,并旨在将其扩展到更广泛的可控图像合成问题。我们开发了类似于pix2pix [17]的网络架构,但提出的双向和空间变化特征转换层是网络不可知的。引导的图像到图像平移图像到图像平移问题的变体是并入额外的引导图像。在引导图像到图像的翻译问题中,我们的目标是将图像从一个域翻译到另一个域,同时尊重由引导图像指定的某些约束。该引导图像可以采取多种形式。示例包括颜色笔画[21,27],补丁9018输入输入conv转置convFTPG引导引导引导输出(a) 输入级联(b)特征级联(c)单向FT(d)我们的:双向FT图2. 调节方案。有许多方案将额外的指导纳入图像到图像的翻译模型。一个直接的方案是(a)输入级联,这将假设我们需要在模型的第一阶段的指导图像。另一种方案是(b)特征级联。它假设我们在上采样之前需要指南的特征表示。在(c)中,我们用我们的新特征变换(FT)层替换每个归一化层,该层使用参数生成器(PG)从指南中生成的缩放和移位参数来我们将该单向方案表示为uFT。在这项工作中,我们提出了(d)一个双向的特征变换方案表示为bFT。在bFT中,使用从向导生成的缩放和移位参数来操纵输入,并且还使用从输入生成的缩放和移位参数来操纵向导[41]或调色板[3],以帮助用户引导着色。引导也可以是域标签,如在多域图像到图像转换中[5]。另一种形式可以是风格图像,如风格转移问题[7,8,14],纹理补丁以纹理化草图图像[37],或高分辨率RGB图像以帮助深度上采样[24,23]。此外,引导信号可以是多通道和稀疏的,例如用于姿势引导的人图像合成问题的姿势地标[28,29,33,30]。指导也可以是一个面具和草图,使用户能够修补和操纵图像[39]。由于引导图像的许多不同的可能形式,这类问题的大多数现有解决方案都是针对特定应用定制的,例如,具有专门设计的网络架构和培训目标。相比许多现有的努力,引导图像到图像的翻译,我们专注于开发一个空调计划,是独立于应用程序。这使得我们的技术更广泛地适用于具有不同指导形式的许多任务。调节方案图2与几种常用的调节方案进行了比较。执行引导的图像到图像转换的最直接的方式是连接输入和引导图像(沿着特征通道维度),随后是常规的图像到图像转换模型。这种输入级联方法可以被看作是一种简单的条件化方案。该方法假设需要来自输入级的引导信号[39,41, 37]。在文献中已经提出了几种其他类型的调节方案。 不是串联- 在输入处使用引导和输入图像,一个也可以在某个层连接其功能激活[23,19]。 然而,选择层的合适级别以集中输入/引导特征用于后续处理可能是不平凡的。最近和更一般的方案,逐特征线性调制(FiLM)[32],使用从条件信息生成的缩放和移位参数应用逐特征仿射变换。这样的计划已显示出改进的perfor- mance时,应用到视觉推理的问题。Film的其他变体在风格转换的上下文中表现出良好的性能。这些方法可以被看作是用Film层替换归一化层。一种值得注意的方法是条件实例规范化(CIN),其中学习缩放和移位参数[7]。另一种方法是自适应实例规范化(AdaIN),其中不是学习缩放和移位参数,而是直接使用来自指导特征的平均值和标准差[14]。与仅允许信息流从引导到输入的现有调节方案不同(即,单向调节),我们表明,提出的双向调节方法导致相当大的性能改善。此外,我们推广的前空间不变的特征明智的转换方法,以支持空间变化的转换。3. 双向特征变换在这项工作中,我们的目标是将图像从一个域转换到另一个域,同时尊重由给定的引导图像指定的约束。为了解决这个问题,我们提出了双向特征变换(bFT),将额外的引导图像纳入条件输入引导输出输出输出输入concatconcat9019输出ℎ布里尔−���ℎ布里尔.+中文(简体)中文(简体ℎ布里尔要素转换图层阿普参数生成器100ℎ布ℎ布里尔100ℎ布1x1转换ℎ1x1转换ℎ布里尔布里尔输入conv转置convFTPG引导1x1转换+ ReLU1x1转换+ ReLU图3. 双向特征变换。我们提出了一个双向特征变换模型,以更好地利用额外的指导引导图像到图像的翻译问题。在编码器中,我们添加了新的FT层来代替每个归一化层这一层缩放并移动该层的规范化特征,如图4所示。缩放和移位参数使用具有100维瓶颈的两个卷积层的参数生成模型来生成。lc,p使用根据给定引导图像的特征计算的缩放和移位参数来对输入特征进行量化。在等式中1,我们展示了第l层的这种操作。使用图3所示的参数生成器从引导信号计算缩放和移位参数γ和β。c,pL+1lF输入−平均值(F输入)l布里尔LF输入=γ导向器L输入L)+ β指导。(一)(a) 膜(b) FT(我们的)图4中突出显示了薄膜层[32]和拟议的FT层之间的关键差异。具体地,薄膜层的缩放γ和移位β参数是向量并且逐通道地应用也就是图4. 特征变换(FT)。我们提出一个功能转换层将引导合并到图像到图像转换模型中。薄膜层和我们的FT层之间的关键区别在于薄膜层的缩放γ和移位β参数是向量,而在我们的FT层中它们是张量。因此,缩放和移位操作在我们的FT层中以空间变化的方式应用,而不是像在Film层中那样的空间不变调制。生成模型我们表明,这种空调方案可以应用于各种引导图像到图像的翻译问题,而无需特定于应用的设计。3.1. 要素变换图层在这里,我们首先提出了特征转换(FT)层,以纳入指导信息。在FT层中,我们对法线执行仿射变换,以相同的方式应用特征激活的相同仿射变换,而与特征图上的空间位置无关。这种方法对于诸如风格转换或视觉推理之类的任务是合理的。然而,他们可能无法捕捉到细粒度的空间细节,这是重要的图像到图像的翻译问题。相比之下,我们的FT层中的参数是三维张量,其提供了用于以空间变化的方式调制输入特征的灵活方式,并且支持各种形式的引导信号(例如,密集、稀疏或多信道)。3.2. 双向调节方案为了进一步利用来自引导图像的可用信息,我们提出了双向调节方案。与现有的仅允许引导信号影响输入图像处理的调节方案不同,我们的方法支持双向通信布里尔C⨁布⨀C阿普尔⨁⨀布c,标准品(F)9020引导L在处理输入和引导图像的网络的两个分支之间。这种信息的双向流动使得生成模型能够更好地捕获引导图像的约束。在我们提出的bFT方案中,我们用我们提出的FT层替换每个归一化层在第l层,引导特征表示操纵输入特征表示,如等式11所示1,并且同时由该输入特征表示操纵使得:表1.纹理传输任务:在[37]生成的数据集上使用学习感知图像块相似性(LPIPS)度量[40]和Frechet起始距离(FID)[12]进行视觉质量评价分数越低越好。手袋数据集鞋子数据集衣服数据集LPIPS FIDLPIPS FID LPIPS FIDXian等人[37]第三十七届 0.17160.8480.12444.76249.568pix2pix [17] 0.234 96.31 197.492 190.161我们的0.16174.8850.124 121.241 58.407Fl+1 =γlL引导 -平均值(F1)+βl(二)引导输入指南)输入数据集和指标我们使用Xian等人生成的128x128数据。[37]并遵循相同的纹理补丁gener-我们的直觉是,这种双向方法可以被视为教师(指导分支)和学生(输入图像分支)之间的双向通信。从老师到学生的单向交流可能不如双向交流那样有助于学生理解老师。4. 实验结果我们评估我们提出的双向特征变换调节方案在三种不同类型的指导信号的三种不同的引导图像到图像的翻译问题。对于所有任务,我们使用具有两种可能架构的GAN作为我们的生成器模型,Unet或Resnet。我们遵循与[17]中相同的训练目标函数(L1损失和对抗损失LGAN的加权组合)L GAN(G,D)+ λ L1(G).(三)我们把所有实验的λ设为100。对于每个任务,我们将我们的结果与最先进的方法以及pix2pix [17](具有输入级联条件)进行比较。4.1. 可控素描到照片合成在这个纹理传输任务中,给定一个草图和一个随机大小的纹理补丁作为指导信号,我们的目标是合成大小的照片,填充输入草图尊重给定的纹理补丁。实现细节我们使用Unet架构,[17]作为我们模型的基础架构为了我们两bFT模型和pix2pix,我们使用0.0002的学习率和7层Unet架构进行训练。我们使用Adam优化器,pix2pix的beta 1为0.5,我们的模型的beta 1为0.9。对于手提包数据集,我们训练了500个epoch,批量大小为64。对于鞋子和衣服数据集,我们训练了100个epoch,批量大小为256。从地面实况图像的分割算法。我们使用张等人提出的学习感知图像补丁相似性(LPIPS)度量来评估结果。[40]以及Heusel等人提出的frechet起始距离(FID)。[12 ]第10段。对于测试集中的每个草图,我们使用Xian等人的纹理补丁生成算法生成10个随机大小的地面真实纹理补丁。[37]并计算合成图像的LPIPS和FID。我们使用Xian等人提供的预训练模型。[37]计算其结果。他们的预训练模型是在地面真实补丁和外部补丁上训练的,而我们的模型和pix2pix只在地面真实补丁上训练。评价我们展示了我们的工作相比,Isola等人的定量结果。[17]和Xianet al. [37]见表1。虽然我们的模型训练比Xian等人的模型训练简单得多(只训练了两次损失)。[37](有七个不同的损失项),我们对pix2pix [17]和Xian等人都显示了有利的结果。[37]在所有三个数据集上的LPIPS度量方面。我们还展示了FID的结果。我们在图5中显示了手袋,鞋子和衣服数据集上的样本定性结果,使用地面真实纹理补丁作为指导信号。4.2. 可控人像合成在姿势转移任务中,给定一个人的图像和一个目标姿势作为引导信号,我们的目标是合成一个给定的人在所需的姿势的图像。我们使用ResNet架构作为我们模型的基础架构对于我们的bFT模型和pix2pix,我们使用0.0002的学习率和8的批量大小训练100个epoch,然后我们将学习率最小化我们使用Adam优化器,pix2pix的beta 1为0.5,我们的模型的beta 1为0.9我们为pix2pix的Unet架构使用8层F标准品(F)9021图5. 可控草图到照片合成与纹理补丁。与来自[37]的手袋、鞋子和衣服数据集的最在这里,我们使用地面实况纹理补丁作为指导信号。[17]第28话:我的世界,我的世界图6. 具有姿态关键点的可控人物图像合成。 DeepFashion数据集上的姿势转移定性结果。 我们的模型 在这一具有挑战性的任务中,数据集和指标我们使用Ma等人提供的256x256训练集和测试集。[28]从DeepFashion数据集[26]。按照文献中的评价方案,我们使用SSIM和Inception Score(IS)来衡量合成图像的质量。我们还使用FID度量。评估我们在表2中显示了我们的工作与最先进的方法相比 的 定 量 结 果 。 我 们 注 意 到 Siarohinet al. [33] 在DeepFashion数据集的不同训练集上进行训练,并排除未检测到姿势关键点的样本。为了确保公平的比较,我们修改了我们的测试集,以排除此类样本。我们报告的结果在两个完整的测试集和修改。我们使用[33,28]提供的预训练模型在我们的测试集上测试他们的模型。我们还注意到Siarohinet al.[33]使用输入姿势作为模型的额外输入我们对其他方法使用弗雷歇起始距离(FID)的有利结果。注意,很难测量合成图像的质量。然而,在这项任务中,我们不仅关心图像的质量,而且还关心它是否具有相同的内容并尊重目标姿势。我们在图6中显示了定性结果。与 上 述 使 用 基 于 关 键 点 的 姿 势 的 方 法 不 同 ,Neverova等人。[30]《易经》云:“君子之道,焉可诬也?目标我们Xian等人pix 2 pix输入/指南9022表2.姿势转移任务:Deep-Fashion数据集上的视觉质量评估[26]。SSIM/IS评分越高越好。FID的分数越低越好。完整测试集修改后的测试集SSIM是FIDSSIM是FIDMa等人[29日]0.6143.29----Ma等人[28日]0.7623.0947.9170.7643.1047.373Siarohin等人[33个]0.7583.3615.6550.7633.3215.215pix2pix [17]0.7702.9666.7520.7742.9365.907我们0.7673.2212.2660.7713.1912.056形成姿势转移,并取得了[SSIM=0.785,IS=3.61]的分数,然而,我们无法获得数据,也无法获得用于比较的预训练模型。4.3. 深度增采样在深度上采样中,我们的目标是在高分辨率RGB图像的指导下给定低分辨率深度图来生成高分辨率深度图我们使用ResNet架构作为我们模型的基础架构。对于我们的bFT模型和pix2pix,我们只使用L1作为目标函数,并使用0.0002的学习率和2的批量大小训练500个epoch我们使用Adam优化器,beta1为0.5。在我们的工作中,我们在480x640的原始数据大小上进行训练,但是,由于pix2pix使用正方形大小的输入,因此它在512x512大小的数据上进行训练,并且我们在评估之前重新调整大小。我们使用9层的Unet架构的pix2pix。数据集和指标遵循Liet al. [23],我们使用来自NYU v2数据集[34]的1000个样本进行训练,并对剩余的449个样本进行测试。我们使用针对三个不同比例因子16、8和4的双三次上采样来生成低分辨率输入深度图。与文献中的工作类似,我们使用RMSE来评估生成的深度的质量。评价我们显示了我们的工作的RMSE结果与Isola等人。[17]和表3中的现有技术方法。我们报告的结果,李等。[23]第10段。我们还在图7中显示了三个比例因子的定性结果。我们的模型虽然不是为深度上采样而设计的,但可以实现最先进的性能。4.4. 消融研究我们进行了消融研究,我们提出的双向调节方案的有效性。表 3. 深 度 上 采 样 任 务 : NYU v2 数 据 集 的 均 方 根 误 差(RMSE)结果以厘米为单位[34]。深度标尺X4X8X16双三8.1614.2222.32管理成果框架[6]7.8413.9822.20[11]第十一话7.3212.9822.03JBU [18]4.0713.6222.03火腿[10]5.2712.3119.24DMSG [16]3.486.0710.27法国国家银行[1]4.298.9414.59DJF [22]3.546.2010.21DJFR [23]3.385.8610.11pix2pix [17]4.126.4810.17我们3.355.739.01调 节 方 案 我 们 将 我 们 提 出 的 双 向 特 征 变 换 方 案(bFT)与单向特征变换(uFT)、特征级联和输入级联方案进行比较,如图2所示.我们在表4中示出了定量结果。特征变换(FT)层的数量在我们的bFT模型中,我们使用FT来代替每个归一化层。对于姿势转换和深度上采样任务,我们使用具有4个归一化层的Resnet基础。用我们提出的FT层替换这些层,我们最终得到4个FT层。我们比较我们的方法与使用FT在1,2和3层双向和单向。我们在表5中显示了定量结果。不同的方法到仿射转型使用我们的双向方法,我们比较我们提出的FT与CIN和AdaIN。在CIN和AdaIN中,我们使用Film层代替每个归一化层。在CIN中,我们学习缩放和移位参数,而在AdaIN中,我们使用均值作为缩放参数,使用标准差作为移位参数。我们还测试功能transformation在编码器的最后一层,并比较我们的FT与CIN和AdaIN的性能。我们在表6中显示了定量结果。4.5. 用户研究我们对成对比较进行了用户研究。我们要求100名受试者回答每个任务和数据集的4个随机配对我们要求受试者选择在输入和给定的引导信号方面看起来更真实的图像。我们在图8中显示了用户研究结果。4.6. 限制在纹理转移的任务中,我们观察到我们的工作的限制时,指导补丁不去以及与输入草图。在这种情况下,9023输入指南DJF DJFRpix2pix我们的目标图7. 由RGB图像引导的深度上采样。 比例因子为16的深度上采样定性结果与最新方法的比较。放大的作物表明,我们的方法能够捕捉到更清晰的边缘的细节。表4.调节方案。调理方法深度上采样姿态转换纹理转换手提包鞋子衣服4x8x16xSSIM是FIDLPIPSFIDLPIPSFIDLPIPSFID输入级联6.65 8.4211.860.782 3.10 42.3300.18285.6000.137124.9730.06160.795特征连接6.67 7.6311.590.770 3.26 14.6720.19687.0520.145104.2270.08544.900UFT5.55 7.2611.410.765 3.18 13.9880.17485.2730.126119.5880.07156.66bFT(我们的)3.35 5.739.010.767 3.17 13.2400.17180.1790.123119.8320.06758.467表5.特征变换(FT)层的数量#Layers深度上采样姿势转移图8. 用户研究。认为我们的方法在输入和指导信号方面比使用成对比较的最先进方法更真实的人的百分比。将在草图中传播,而不完全考虑其纹理,如图9所示。5. 结论我们已经提出了一个新的有指导的图像到图像的翻译问题的条件计划我们的核心技术贡献在于使用空间变化的特征变换和双向调节方案的设计我们验证了我们的方法对各种任务的适用性。在应用中-图9. 失败示例。当引导补丁与给定的草图不匹配时,我们的模型无法对给定的纹理产生幻觉。不可知的,我们的方法实现了具有竞争力的性能与国家的最先进的。我们的方法的通用性打开了有前途的方向,将各种各样的约束图像到图像的翻译问题。谢谢。这项工作得到了NSF的部分支持,1755785.我们感谢NVIDIA公司捐赠GPU的支持。UFTBFTUFTBFTX16X16SSIM IS FID SSIM IS FID110.7910.790.786 2.92 59.678 2.92 59.678210.758.960.784 2.98 47.411 3.01 51.458310.268.820.766 3.24 13.392411.419.010.767 3.17 13.240表6.仿射变换的不同方法方法深度上采样x16SSIM位置电子转帐ISFID我们9.010.7673.1713.240双向AdaIN13.360.7223.37160.846双向CIN13.970.7213.36157.335最终层-FT11.400.7693.2518.292最终层-AdaIN14.300.7203.30146.596最终层-CIN14.510.7203.58168.5039024引用[1] 乔纳森·T·巴伦和本·普尔。 快速双边求解器。在ECCV,2016年。7[2] Konstantinos Bousmalis 、 Nathan Silberman 、 DavidDohan、Dumitru Erhan和Dilip Krishnan。无监督像素级域自适应生成对抗网络。在CVPR,2017年。2[3] Huiwen Chang , Ohad Fried , Yiming Liu , StephenDiVerdi,and Adam Finkelstein.基于调色板的照片重新着 色 。 ACM Transactions on Graphics ( TOG ) , 34(4):139,2015。3[4] 陈云春,林燕玉,杨铭轩,黄家斌。CrDoCo:具有跨域一致性的像素级域传输在CVPR,2019年。2[5] Yunjey Choi,Minje Choi,Munyoung Kim,Jung-WooHa,Sunghun Kim,and Jaegul Choo. Stargan:用于多域图像到图像翻译的统一生成对抗网络。在CVPR,2018年。3[6] James Diebel和Sebastian Thrun。马尔可夫随机场在距离传感中的应用。神经信息处理系统进展,2006年。7[7] VincentDumoulin 、 JonathonShlens 和 ManjunathKudlur。对艺术风格的博学的表现。2017. 二、三[8] Golnaz Ghiasi , Honglak Lee , Manjunath Kudlur ,Vincent Dumoulin,and Jonathon Shlens.探索实时、任意神 经 艺 术 风 格 化 网 络 的 结 构 arXiv 预 印 本 arXiv :1705.06830,2017。3[9] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在神经信息处理系统的进展,2014年。2[10] Bumsub Ham,Minsu Cho,and Jean Ponce.使用联合静态和动态引导的鲁棒图像滤波。CVPR,2015。7[11] 何开明,孙建,唐晓鸥。引导图像滤波。TPAMI,35(6):1397-1409,2013. 7[12] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。在神经信息处理系统的进展,2017年。5[13] Judy Hoffman 、 Eric Tzeng 、 Taesung Park 、 Jun-YanZhu 、 Phillip Isola 、 Kate Saenko 、 Alexei A Efros 和Trevor Darrell。CyCADA:周期一致的对抗性结构域适应。2018. 2[14] Xun Huang和Serge J Belongie.实时任意样式传输,具有自适应实例规范化。InICCV,2017. 二、三[15] Xun Huang , Ming-Yu Liu , Serge Belongie , and JanKautz.多模态无监督图像到图像翻译。在欧洲计算机视觉会议(ECCV)的会议记录中,第172-189页,2018年。2[16] Tak-Wai Hui,Chen Change Loy,and Xiaoou Tang.通过深度多尺度引导实现深度图超分辨率。在ECCV,2016年。7[17] Phillip Isola,Jun-Yan Zhu,Tinghui Zhou,and Alexei AEfros.使用条件对抗网络的图像到图像翻译。CVPR,2017年。一、二、五、六、七[18] Johannes Kopf,Michael F Cohen,Dani Lischinski,andMatt Uyttendaele.联合双边上采样。在ACM Transactionson Graphics(ToG),第26卷,第96页,2007中。7[19] Wei-Sheng Lai , Jia-Bin Huang , Oliver Wang , EliShechtman,Ersin Yumer,and Ming-Hsuan Yang.学习盲视频时间一致性。在ECCV,2018。3[20] 李欣英、曾鸿宇、黄佳斌、曼尼什·辛格和杨明轩。通过解 纠缠 的表 示进 行不 同的图 像到 图像 的翻 译在ECCV,2018。2[21] Anat Levin,Dani Lischinski和Yair Weiss。使用最佳化着 色。 在ACM 图 形学 报, 第 23卷 ,第689-694 页 。ACM,2004年。2[22] Yijun Li,Jia-Bin Huang,Narendra Ahuja,and Ming-Hsuan Yang.深度联合图像滤波。在ECCV,2016年。7[23] Yijun Li,Jia-Bin Huang,Narendra Ahuja,and Ming-Hsuan Yang.联合图像滤波与深度卷积网络。TPAMI,2019。三、七[24] Guilin Liu,Fitsum A Reda,Kevin J Shih,Ting-ChunWang,Andrew Tao,and Bryan Catanzaro.基于部分卷积的不规则孔洞图像修复。在ECCV,2018。3[25] Ming-Yu Liu,Thomas Breuel,and Jan Kautz.无监督图像到图像翻译网络。在神经信息处理系统的进展,2017年。2[26] Ziwei Liu,Ping Luo,Shi Qiu,Xiaogang Wang,andXiaoou Tang. Deepfashion:通过丰富的注释实现强大的服装识别在CVPR,2016年。六、七[27] 青鸾,方文,丹尼尔·科恩-奥尔,林亮,徐英青,沈向阳。自然图像着色。在2007年的第18届欧洲图形会议上,第309-320页2[28] 马丽倩、徐佳、孙倩茹、Bernt Schiele、Tinne Tuyte-laars和Luc Van Gool。姿势引导的人物图像生成。在神经信息处理系统的进展,2017年。三六七[29] Liqian Ma,Qianru Sun,Stamatios Georgoulis,Luc VanGool,Bernt Schiele,and Mario Fritz.解纠缠的个人图像生成。在CVPR,2018年。三、七[30] Nata liaN ev er ov a , RızaAlpGuéler, andIasonasKokk inos.密集姿势转移。在CVPR,2018年。三、六[31] Taesung Park , Ming-Yu Liu , Ting-Chun Wang , Jun-Yan Zhu.具有空间自适应归一化的语义图像合成。在CVPR,2019年。2[32] 伊森·佩雷斯,弗洛里安·斯特鲁布,哈姆·德·弗里斯,文森特·杜莫林,和亚伦·库维尔.影片:具有一般条件层的视觉推理。2018. 二、三、四[33] Aliaks andrSiarohin,Env erSangineto,Ste' phaneLathuilie`re和Nicu Sebe。用于基于姿势的人类图像生成的可变形gans。在CVPR,2018年。三六七[34] Nathan Silberman、Derek Hoiem、Pushmeet Kohli和RobFergus。室内分割和支持从rgbd图像推断。ECCV,2012年。7[35] Ting-Chun Wang,Ming-Yu Liu,Jun-Yan Zhu,GuilinLiu,Andrew Tao,Jan Kautz,and Bryan Catanzaro.视频到视频合成。29025[36] Ting-Chun Wang , Ming-Yu Liu , Jun-Yan Zhu ,Andrew Tao,Jan Kautz,and Bryan Catanzaro.高分辨率图像合成仪9026论文和语义操纵与条件GAN。在CVPR,2018年。2[37] Varun Agrawal Amit Raj Jingwan Lu Chen Fang Fisher YuJames Hays Wenqi Xian,Patsorn Sangkloy.纹理-甘:使用纹理块控制深度图像合成。CVPR,2018年。三五六[38] 自立一、张浩、谭平、龚明伦。Dualgan:图像到图像翻译的无监督双重学习。InICCV,2017. 2[39] Jiahui Yu,Zhe Lin,Jimei Yang,Xiaohui Shen,XinLu,and Thomas S Huang.利用门控卷积进行自由形式图像修复。arXiv预印本arXiv:1806.03589,2018。3[40] Richard Zhang 、 Phillip Isola 、 Alexei A Efros 、 EliShechtman和Oliver Wang。深度特征作为感知度量的不合理有效性。在CVPR,2018年。5[41] Richard Zhang , Jun-Yan Zhu , Phillip Isola , XinyangGeng,Angela S Lin,Tianhe Yu,and Alexei A Efros.实时用户引导的图像彩色化与学习的深度先验。ACM Transactions on Graphics,9(4),2017。3[42] Jun-Yan Zhu , Taesung Park , Phillip Isola , Alexei AEfros.使用循环一致对抗网络的不成对图像到图像翻译。InICCV,2017. 2[43] Jun-Yan Zhu、Richard Zhang、Deepak Pathak、TrevorDarrell、Alexei A Efros、Oliver Wang和Eli Shechtman。向多模态图像到图像翻译。在神经信息处理系统的进展,2017年。2
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Unity UGUI性能优化实战:UGUI_BatchDemo示例
- Java实现小游戏飞翔的小鸟教程分享
- Ant Design 4.16.8:企业级React组件库的最新更新
- Windows下MongoDB的安装教程与步骤
- 婚庆公司响应式网站模板源码下载
- 高端旅行推荐:官网模板及移动响应式网页设计
- Java基础教程:类与接口的实现与应用
- 高级版照片排版软件功能介绍与操作指南
- 精品黑色插画设计师作品展示网页模板
- 蓝色互联网科技企业Bootstrap网站模板下载
- MQTTFX 1.7.1版:Windows平台最强Mqtt客户端体验
- 黑色摄影主题响应式网站模板设计案例
- 扁平化风格商业旅游网站模板设计
- 绿色留学H5模板:科研教育机构官网解决方案
- Linux环境下EMQX安装全流程指导
- 可爱卡通儿童APP官网模板_复古绿色动画设计
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功