没有合适的资源?快使用搜索试试~ 我知道了~
条件化感觉对图像翻译的影响
6752利用条件化感觉改善图像翻译Cooper Nederhood1,3,Nicholas Kolkin2,Deqing Fu1,3和Jason Salavon1,31芝加哥大学2芝加哥丰田技术学院3Jason Salavon Studio{cnederhood,deqing,jsalavon}@ uchicago.edu,{nick.kolkin}@ ttic.edu图1:我们的框架在各种领域和条件反射模式中的图像翻译结果摘要多模态域转换通常指的是合成从“内容”图像继承某些本地化属性的新图像(例如,布局、语义或几何结构),并继承其他一切(例如,纹理、光照、有时甚至语义)。这项任务的主要方法是尝试从头开始学习分解的然而,这不仅具有挑战性,而且不合适,因为用户希望在翻译期间保留的内容取决于他们的目标。出于这种固有的模糊性,我们基于由现成的预训练模型提取的条件信息来定义然后,我们用一组易于优化的重建目标来训练我们的风格提取器和图像解码器各种各样的高质量的预训练模型和简单的训练过程使得我们的方法可以直接应用于许多领域和“内容”的定义此外,它还提供了直观的控制“内容”的哪些方面跨域保留。我们在传统的、对齐良好的数据集(如CelebA-HQ)上评估了我们的方法,并提出了两个新的数据集用于更复杂场景的评估:ClassicTV和FFHQ-Wild。我们的方法,森- sorium,使更高质量的领域翻译更复杂的场景。1. 介绍我们在这项工作中的重点是多模态,参考引导,图像到图像域的翻译。该任务的一个众所周知的变化是季节变化,例如将在夏季拍摄的照片转换为然而,我们例如,当从摄影肖像转换为绘画时,用户可能希望保持他们的姿势或改变它以匹配文艺复兴绘画的标准。由于大多数域之间缺乏双射,产生了额外的歧义。即使在对于给定的内容定义,域通常是异质的。这些挑战推动了灵活领域翻译模型的发展,这些模型提供了对应该保留什么作为“内容”以及应该使用目标领域的哪种模式作为“风格”的控制现有的域翻译框架在相对简单的元域(如人脸)上产生高质量的结果,但是当单个域的复杂性增加时,以及当翻译域之间的语义和形态差距增长时,性能都会恶化。与其将领域翻译定位为从头开始学习,以解开和重组内容和风格,不如将其定位为从条件信息中重建,从经验上讲,这导致了风格代表-6753只捕获内容所不捕获的内容。内容通过选择用户希望在翻译期间保持不变的调节模态来定义(其中诸如深度估计、姿态估计和语义分割的大量种类该公式是直观的,并且允许从业者选择与他们的目标相关的内容定义。我们的框架,完全基于适定任务图像重建的方法易于训练,并为最终用户提供了对“内容”的明确和直观的控制,同时提高了复杂场景的合成质量。为了证明我们的流水线在更复杂的域转换任务上的更大鲁棒性,我们引入了两个新的数据集:ClassicTV和FFHQ-Wild。除了这些复杂的以人为中心的翻译数据集外,我们还展示了从风景照片到不同季节和绘画风格的翻译2. 相关工作图像平移的最新进展已经发展为图像合成的专门子领域。迄今为止,最成功的基于神经网络的图像合成模型家族是生成对抗网络(GAN)。GANs引入的区分损失推动了高质量图像生成的前沿,并成为许多图像合成网络的支柱。自动编码器[36],通常与判别损失相结合,也被证明对条件图像合成至关重要,因为它们能够学习以无监督的方式从图像中提取数据驱动的表示[51,15,17,31]。虽然从头开始的图像合成是一个具有挑战性和科学意义的问题,但图像合成的明确实际应用是作为一种创造性工具。有条件的图像合成在这种情况下是至关重要的。已经探索了许多形式的空间条件反射,例如:类别标签[3,25,26,27,28],密集语义段,图17、18、51、52、40]、边界框[47]和姿势[11、7、40、32]。条件模型不仅提供了有价值的艺术控制,它们也使复杂的图像合成问题易于处理。虽然在无条件图像合成方面已经取得了显着的进展,但大多数领域的结果质量远远落后于对齐的人脸[20]。即使是使用大量数据和计算能力训练的高质量模型[3,34] 也 仅 限 于 主 要 由 单 个 , 大 型 , 中 心 对 象 ( 如ImageNet[10])组成的数据集,并且相对于仅在面部上训练的模型,质量急剧下降然而,通过使用来自COCO-Stuff的地面实况分割,[4]和ADE20k数据集[48],Park et al.[31]最近提出了一种方法,SPADE,能够合成与[ 3,34 ]类似质量的输出,但具有显著更大的语义和空间复杂性。最近的工作Zhang等人[46]比SPADE有所改进,进一步提高了基于ADE20k分割的合成质量。域转换到目前为止已经是条件图像合成的专门形式。先前的工作已经通过明确地学习来解开域不变和域特定表示,然后将它们混合以合成新的图像[24,30,16],通过利用循环一致性损失[51]来学习域之间的双射,或者通过组合两种方法[52,15]来解决这一挑战。我们提出了侧步的困难,学习域不变表示从头开始,利用自动生成的条件信息。其他工作已经探索了基于密集[17,18,51,52,40,1]和稀疏[47,7,40,1]空间输入的条件图像合成,以及简单和特定领域形式的自动调节,如边缘和面部[46,40]。我们建立在这一工作线上,并证明即使我们超越人脸,转向更复杂和多样化的数据集,如ClassicTV和FFHQ-Wild,预训练的神经网络也能够在许多模态中自动我们利用最先进的模型进行深度估计[21],姿态估计[2]和语义分割[12],以促进可控和高质量的图像合成。不从头开始学习内容表示大大简化了学习过程。通过使用重构目标,我们将风格提取框架为简单地学习嵌入条件中不包含的所有信息。为了迫使该信息在空间上不变,我们从[20,30]中获得灵感,并将“风格”编码该向量被注入到我们的生成器中作为条件去归一化[20]。事实上,我们仅仅基于图像重建的适定性任务来训练我们的领域翻译框架。这与最近工作的更复杂的训练过程形成对比,最近工作的更复杂的训练过程依赖于应用于尝试的域翻译的域翻译特定的正则化项和损失(其通常缺乏唯一的解决方案)。到目前为止,域翻译模型主要集中在由纹理变化驱动的翻译任务,如夏季到冬季或白天到黑夜[30,16,15,8,51,52,24];或在空间和语义上狭窄的元域内的翻译,如对齐的人脸/肖像[43,9,8,35,24],或孤立的自然背景下的动物[37,30,9,15,8,24]。我们提出了两个新的以人为中心的数据集,用于评估图像翻译模型:FFHQ-Wild,源自原始野外FFHQ图像的以人类为中心的作物数据集;与ClassicTV一起,一个新的数据集,由来自公共领域电视节目“Bonanza”和“The LucyShow”的随机采样帧的中心作物组成,对人物可见的帧进行过滤。在最相似的制度6754ΣΣ··L一一GGGHFGHF∈H关于我们一{|∈一一BBBGaDGLL对于我们自己的[11,22,15,40,1,9,8,46],我们与最近的[9,8,46]进行了比较,并证明这些模型在空间上更复杂的数据集上不能很好地执行,我们还表明,未修改的SPADE [31],利用条件作用,但没有明确设计考虑域转换,不能在这些数据集上表现良好;然而,在我们的实验中,我们证明了我们框架的组件可以添加到SPADE中以提高其性能。3. 模型而不是从头开始合成复杂的图像特征重建损失:我们在两个神经网络的特征空间中计算我们的重构损失。一个是预训练的VGG19,另一个是正在学习的判别器(被提议为GAN稳定性损失[41])。 我们使用每个网络来生成合成图像和地面实况图像的激活。然后,我们最大限度地减少隐藏层之间的L1损失,加权更深,更语义有意义的层更高。我们的目标是获得一个能够:(1)重构,(2)在相同域中的翻译(由与输入相同域中的范例引导),以及(3)翻译。Lra=ExaL−1i=0时我.. P (一).G(H(ca),Fa(xa))Σ(一).XaΣ..1Σ(一)跨域的定义(由目标域)。设Xa和Yb是两个域,Xa和Yb分别是属于Xa和Yb的像令ca=Φ(xa)是由一个(或多个)预训练模型从xa提取的条件信息。我们认为Φ的确切形式是基于用户的目标选择的超参数我们训练的模型有三个组成部分(与预先训练的Φ相比):内容网络,风格网络和生成器网络。内容网络是域不变的,并学会将条件映射到一个隐藏的表示c¯a=H(ca),用于RGB合成。其中ca=Φ(xa)是从xa提取的条件,并且P是预训练的VGG19或Da(域Xa的鉴别器)。P(i)()索引层i处的P()的隐藏表示。最后,wi是应用于层i的权重,允许更深的层被更高地加权。我们类似地定义域b中的表示损失rb。对抗性损失:我们也使用对抗性损失亲-在Hinge-GAN [23]中提出,以鼓励合成重建损失未捕获的主要具体细节。LD=Exa[min(0,−1−Da(G(H(ca),Fa(xa)姐所有空间信息都包含在c′a中。样式网络是特定于域的,并且映射RGB+min(0,−1+Da(xa))]L=−Ex[(Da(G(H(ca),Fa(xa)](二)将图像转换为全局样式向量s¯=F(y)或s¯=F(y)(取决于样式的域)。最终输出x(ab= (c¯a,s¯b)由解码器网络产生,解码器网络根据空间条件c¯a和全局样式s¯a/s¯b合成最终图像。如果我们的目标是重建xa(的重要部分训 练 ) , 它 被 生 成 为 xaa=( ( Φ ( xa ) ) , a(xa))。如果我们的目标是在一个域中进行风格转 换 , 则 生 成 为 xaa'=( ( Φ ( xa ) ) , a(x′a)),其中x′a是来自域X a的第二图像。如果我们 的 目 标 是 域 平 移 , 则 其 生 成 为 xab=G ( H ( Φ(xa)),Fb(yb))。注意这第三种机制使用不同类型的编码器Fb,而前两种使用相同类型的编码器Fa。3.1. 培养目标虽然许多域翻译管道需要复杂的训练过程,其中不同的损失集被应用于不同的输入排列,但我们的训练过程非常简单。我们完全使用从同一图像中提取的内容/样式表示来训练我们的模型,并最小化特征空间中的重建损失以及对抗性损失。 由于重建是一个适定性且易于优化的任务,因此我们的模型不会遭受模式崩溃,并且对抗性损失鼓励模型产生未捕获的其中ca=Φ(xa)是从xa提取的条件,并且Da是域Xa的鉴别器。我们强调,我们只评估域内重建的损失任务。如在表示损失中,类似地定义b、b3.2. 架构内容编码器:内容编码器的输入是调节信息Φ(xa)R256×256× d的张量,其中通道的数量d基于所选择的调节形式而变化。内容编码器跨所有域共享,并且由一系列残差卷积和下采样层组成在每个下采样层之后,以当前分辨率发出特征图,从而导致特征金字塔捕获可以从给定内容表示中提取的空间和语义信息。有关架构的更详细描述,请参见图2。 我们将分辨率为r的内容/条件特征映射称为c¨a(r),并将特征映射集定义为c¨a=c¨a(r)r8,16,32。样式编码器:样式编码网络是我们的生成器中唯一的特定于域的部分(还有每个域的单独鉴别器给定图像- -P6755F风格编码器,内容/风格融合模块ResBlockFC层上采样级联学习常数3x3转换SPADE ResBlk+内容编码器,发电机、++正+ +图2:我们的推理框架概述请注意,我们模型的所有组件都是纯粹为了重建而训练的从域a到域b的转换(如图所示)在训练期间从未完成,即使对于更不同的域,如FFHQ和Met-Faces。yb在域Yb中,我们的风格网络生成潜码s¯b=b(yb),这类似地定义为域Xa的风格编码器。每个编码器网络由一系列残差块和池化层组成,其最终去除输入的空间维度,之后我们应用最终的全连接层。有关更多详细信息,请参见图2风格编码器学习全局表示,该全局表示被鼓励包含关于源图像的所有信息,而不是由所选择的调节感觉器官捕获的(否则重建将是不可能的)。虽然这种重构内容和理清风格的机制在很大程度上是成功的,但它并不完美。我们希望我们的框架将受益于未来的研究,提高重建质量和整合明确的机制,nisms解开风格和内容。发电机网络:生成器网络是在域之间共享的通用图像合成模块。不知道源和样式参考图像的原始域,生成器简单地学习融合内容信号ca和样式信号sa。过去的工作[19]表明,学习的全局样式向量可以通过经由AdaIn层注入的通道范围尺度和偏置参数来指导图像合成[14]。在[31]中,作者介绍了SPADE注入层,其将AdaIn的去规范化概括为内容嵌入的空间变化函数(其本身源自诸如语义标签映射的调节但是,如图3的D行所示,输出的样式与目标exem的匹配程度要高得多如果SPADE注入的比例/偏差也是样式嵌入的函数,则plar。在每次SPADE注入之前,我们通过在空间上复制我们的样式嵌入来融合内容和样式信息,然后与特征pyramidc¯a/c¯b 中 的 最 高 分 辨 率 特 征 图 连 接。这之后是双线性上采样,然后是在预测SPADE注入的尺度/偏置参数之前的几个卷积层(这些层对于每个SPADE注入是独立学习的我们称之为内容样式融合模块,它使生成器能够灵活地本地化样式信息。鉴别器网络:我们采用来自SPADE [31]的该判别器是领域特定的,并且我们将领域a,b的判别器分别定义为Da,Db4. 评价典型的领域翻译基准包括领域对,如照片到绘画和夏季到冬季,突出纹理变化,而不是复杂的形态差异。我们展示了这些基于文本的翻译任务的性能(见图4和图7),并在多个形态逻辑复杂的任务上进行了系统的比较。我们在CelebA-HQ Male/Female数据集上对我们的方法进行了基准测试,并引入了两个具有更大空间多样性的新数据集。我们表明,性能衰减的空间复杂性增加。在图5中,我们可视化了CelebA-HQ和我们的两个新数据集的相对空间复杂性:FFHQ- WildMale/Female和ClassicTV Bonanza/LucyShow6756HFF F D D图3:我们的方法和基线之间的消融(SPADE)[31]。(A)是最初提出的SPADE,这在使用语义分割作为条件时合成高质量图像。(B)除了调节是稀疏的面部关键点和头部姿势之外,与(A)相同,具有稀疏调节的基线的性能显著降低。 (C)介绍了我们的内容编码器,在SPADE残差块和图像质量接近原始密集调节之前。(D)用我们提出的样式编码器体系结构(在域之间共享)替换[31和样式-内容融合模块,这大大提高了输出与目标样式的匹配程度最后,(E)为每个域(a、b和a、b)引入单独的样式编码器和鉴别器。 这强调了特定领域的特性。例如,请注意,只有(E)从样式参考3重新创建了红唇(E)是我们提出的模型Sensorium4.1. 数据集CelebA-HQ Male/Female一个包含11,057张高分辨率男性面孔和18,943张女性面孔的数据集我们拿出1,000张男性面孔和1,000张女性面孔进行验证。FFHQ原始数据集包含70,000张经过裁剪的人脸图像。为了创建复杂的人类拥有的数据集,我们反而下载原始的原始野外图像并将其存储在数据库中。图4:Sensorium中的权重共享允许多域模型的有效训练,例如在秋季,春季和冬季之间转换。图5:评估数据集的复杂性可视化。来自每个数据集的随机样本与该数据集中所有图像的平均值一起显示第1行显示CelebA-HQ雄性和雌性。第2行显示FFHQ-野生雄性和雌性。最后,第3排显示ClassicTV Bonanza和LucyShow然后使用现成的Mask-RCNN模型从每个原始图像中识别我们从最近的FFHQ-Aging数据集中获得了嘈杂的性别标签[29]。该程序产生了23,462个雄性作物和27,305个雌性作物的数据集,其中保留了238个雄性作物和269个雌性作物用于验证。ClassicTV Bonanza/LucyShow我们还发布了一个新的数据集,由两个经典的人物作物组成6757图6:我们的模型和最先进的域转换模型的定性比较,重点是随着数据集复杂性的增加进行空间变形从左到右,我们描绘一个内容图像,然后是三个样式参考图像。下面的样式参考图像是来自StarGANv 2 [9],DS-Map[8],SPADE[31],CoCosNet[46]和我们的Sensorium方法的合成图像。我们展示了CelebA-HQ男性-女性翻译的共同任务的结果,其中结构域在空间上对齐。我们还显示了空间变化的FFHQ野生和ClassicTV数据集的结果。虽然从CelebA-HQ到FFHQ-Wild和ClassicTV,所有方法的质量都有所下降,但Sensorium保持了最高的合成质量,同时很好地匹配了风格(不像StarGANv 2和DS-Map,它们执行调色板移位)。美国电视节目:Bonanza和Lucy Show。这两个节目都有进入公共领域的剧集,对于每个节目,我们从公共剧集中随机抽取40,000个作物。为了从给定帧中提取裁剪,我们使用与FFHQ-Wild中相同的过程,使用现成的Mask-RCNN模型来识别和裁剪人物。对于每一个节目,我们保留了10,000个作物样本从举行了插曲。Flickr的季节我们定性地说明性能的季节变化的问题,从Flickr下载特定季节的景观图像对于春季,秋季和冬季,我们为每个域下载大约4,000个公共图像,并保留10%用于测试目的。我们使用16,000风景画- ings通过公共WikiArt数据库获得学习trainslation从摄影到绘画风景。我们保留了1,000张这些图像用于测试目的。[39]第三十九届对于每个数据集,我们使用多个SOTA模型预先计算自动生成的条件,包括:深度[33],人体姿势[5][38] [6] [42]、基于COCO的分割[44] [12]、基于ADE的语义分割[50] [49]、面部分割[45]和人体部位分割[2]。4.2. 基线方法正如所讨论的,域转换的细节本质上是依赖于任务的。基于纹理的翻译,如季节变化和照片到绘画,通常由风格转换模型来处理,而更多的形态学翻译,如男性面部到女性面部和从人体姿势渲染,通常由样本引导的图像合成模型来处理。因为我们希望展示我们的Sensorium方法对各种任务的鲁棒性,所以我们将这两种模型范例进行比较,并使用最先进的方法。首先,如所讨论的,大多数领域翻译模型直接从RGB图像学习分离的样式和内容表示。最初在MUNIT[15]中提出,最近的工作StarGANv 2 [9]和DS-Map [8]显示了改进的结果。StarGANv 2允许风格参考图像,并在CelebA-HQ基准上设置最先进的性能DS-Map是一种风格转换模型,它将内容图像映射到共享空间,然后进一步将潜在表示映射到特定于域的内容空间,从而允许更有表现力的内容。DS-Map显示了各种任务的表现,包括动物面部狗/猫基准,这需要形态学变化。6758图7:我们展示了Photos to Paint- ings任务的性能。在我们的Sensorium方法下,我们允许选择派生条件来修复内容,允许风格提取所有其他图像特征。因此,我们还比较Sensorium对模型进行条件图像合成与风 格 控 制, 通 过 一 个 参 考图 像 。 SPADE [31] 作 为Sensorium的起点,允许通过参考图像进行风格注入最近,CoCosNet [46]显示了使用各种条件类型(包括密集语义分割、身体姿势和边缘)进行基于样本的图像合成的令人印象深刻的结果。4.3. 定性比较现有方法在结构域很好地对齐时实现高保真度结构域平移。数据集对齐为平移提供了强大的空间先验。如果没有这种对齐,这些模型就失去了跨域进行有意义的转换的能力,并且它们的输出退化为简单的调色板匹配样式引用。相比之下,我们的方法可以映射复杂的纹理和形态特征的风格参考,同时坚持所提供的布局和语义的conditioning信息。我们的方法是更强大的大姿势和形态的变化。在图6中,我们展示了我们的方法和先前的工作如何随着翻译域之间的形态差异的增长而表现。此外,虽然DS-Map和StarGANv 2没有明确使用条件数据,但我们发现它们的性能在没有良好对齐的数据的情况下会很糟糕。这种对齐良好的数据(如人脸)只能通过采用预先训练的面部识别模型来大规模获得,基本上与我们用于获得导出的条件数据的模型相同因此,我们的Sensorium方法基本上将这种条件数据的隐式数据处理使用转化为条件数据的显式网络使用。在这样做的过程中,我们的方法变得更加强大的各种翻译任务。更多结果请参见补充资料。4.4. 定量比较我们在我们的三个域翻译数据集上训练我们的三个比较模型中的每一个:CelebA-HQ M/F; FFHQ- WildM/F; ClassicTV然后,我们使用通过OpenPose估计的人类姿势作为我们的初始内容表示来训练我们的方法。我们使用频率起始距离(FID)来量化域转移任务的性能[13]。为了生成合成图像的推断群体,给定提供内容的源域和提供样式参考的(不同的)目标域,我们从验证群体中为每个图像采样100个我们生成内容和样式引用的所有成对组合,总共生成10,000张图像。在[9]之后,我们使用来自目标域的训练群体作为我们的基础事实群体。我们在表1中报告FID数字。FID↓DS-Map StarGAN-v2 SPADE CoCosNet我们的(Celeb-A)F→M37.3732.0546.56 78.39 38.69(西里伯斯-A)男→女23.8124.81 37.10 68.99 25.33(FFHQ-Wild)F→ M54.41 84.71 121.22 74.7440.10(FFHQ-Wild)M→ F61.04 121.21 152.59 98.3245.92Bonanza→ Lucy85.25 83.39 137.18 60.7057.12Lucy→ Bonanza103.71 83.49 130.74 67.4447.62平均值60.93 71.61 104.23 74.7642.46表1:定量比较。我们使用FID分数(越低越好)来衡量每种方法在图像风格翻译上的质量。红色文本表示最佳方法。4.5. 通过选择内容表示进行我们的方法可靠地约束合成输出,以匹配选择作为训练输入的条件信息。这允许用户在训练之前选择内容表示(即,条件信息)适合其目标。例如,一个经典的风格转换任务,如将绘画的纹理转换为照片,要求保持所有几何体不变。相比之下,性别转换任务通常需要一些形态变化,并且使用稀疏面部标志的条件反射有关如何通过选择派生条件实现不同程度的内容保存的详细示例,请参见图85. 结论虽然从纯科学的角度来看很有趣,但我们预测,随着用户控件的可用,图像翻译作为一种创造性工具的使用将迅速增长这项工作探讨了使用预训练模型来生成各种抽象级别的条件数据,并有效地在图像翻译系统中输出。我 们 表 明 , 使 用 自 动 生 成 的 条 件 , ING 允 许Sensorium合成引人注目的域之间的翻译空间复杂和未对齐的6759图8:不同细节水平的条件反射信息对感觉中枢的影响。我们的风格编码器学习提取重建所需的信息,而这些信息不包含在条件中。随着条件作用变得更加细致,风格例如,在面部关键点被选择为调节Sensorium的情况下,从样式参考图像提取包括头发和眼镜的所有剩余几何形状。将深度估计添加到调节中,然后限制从样式图像继承的几何体的数量-头发轮廓不再反映参考图像。最后,添加面部分割修复了眼镜等特征,边缘修复了面部毛发等高频细节电源。此外,我们的框架能够优雅地适应不同形式的条件反射,填充条件反射不指定使用目标范例的样式的输出的方面。然而,身份保护和日常翻译之间的紧张关系仍然是一个挑战.特别是,我们的框架可以使用与目标域冲突的条件数据。领带、胡须和头发等细节将在新样式中渲染,无论其是否适合目标域。未来解决这一问题的一个途径是开发将条件反射转化为信息本身或集成诸如身份的全局内容约束。未来工作的其他途径包括扩展Senso-rium用于视频翻译,以及更深入地探索调节方式与由风格控制的相应“零空间”之间的关系致谢我们感谢Greg Shakhnarovich提供的有益讨论和JanBrugger提供的数据汇编。这项研究得到了芝加哥大学数据与计算中心和Jason Salavon工作室的支持。6760引用[1] Badour AlBahar和Jia-Bin Huang。具有双向特征变换的引导式在IEEE/CVF计算机视觉国际会议论文集,第9016-9025页,2019年。二、三[2] RızaAlpGuüler、Nat a liaN ev er ov a和IasonasKokkinos。密度:野外密集的人体姿势估计。在IEEE计算机视觉和模式识别会议论文集,第7297-7306页,2018年。二、六[3] 安德鲁·布洛克杰夫·多纳休凯伦·西蒙尼安用于高保真自然图像合成的大规模gan训练。arXiv预印本arXiv:1809.11096,2018。2[4] H. Caesar,J. Uijlings,and V.法拉利Coco-stuff:上下文中的事物和东西类。2018年IEEE/CVF计算机视觉和模式识别会议,第1209- 1218页,2018年。2[5] Z. Cao,G. Hidalgo Martinez,T.西蒙,S。Wei和Y. A.酋长Openpose:实时多人2D姿态估计使用部分亲和字段。IEEE Transactions on Pattern Analysis and MachineIntelligence,2019。6[6] 曹哲、托马斯·西蒙、魏世恩和亚瑟·谢赫。利用局部仿射场进行实时多人二维姿态估计。在CVPR,2017年。6[7] Caroline Chan , Shiry Ginosar , Tinghui Zhou , andAlexei A Efros.大家跳舞吧在IEEE计算机视觉国际会议论文集,第5933- 5942页,2019年。2[8] 张新宇,王志祥,庄永玉。生成式对抗风格转移的领域特定映射。arXiv预印本arXiv:2008.02198,2020。二、三、六[9] Yunjey Choi,Youngjung Uh,Jaejun Yoo,Jung-WooHa.Stargan v2:多领域的多样化图像合成。在IEEE/CVF计算机视觉和模式识别会议论文集,第8188-8197页,2020年。二三六七[10] J. Deng,W.东河,巴西-地索赫尔湖李凯李飞飞。Imagenet:一个大规模的分层图像数据库。 2009年IEEE计算机视觉和模式识别会议,第248-255页,2009年。2[11] Patri c kEsse r,EkaterinaSutte r,andBj oürnOmme r. 用于条件外观和形状生成的可变u-网在IEEE计算机视觉和模式识别会议论文集,第8857-8866页二、三[12] KaimingHe , GeorgiaGkioxari , PiotrDolla'r ,andRossGir-shick.面具R-CNN。在IEEE计算机视觉国际会议论文集,第2961-2969页二、六[13] Martin Heusel,Hubert Ramsauer,Thomas Unterthiner,Bernhard Nessler,and S. Hochreiter。两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。在NIPS,2017年。7[14] Xun Huang和Serge J Belongie.实时任意样式传输2017. 4[15] Xun Huang , Ming-Yu Liu , Serge Belongie , and JanKautz.多模态无监督图像到图像翻译。在欧洲计算机视觉会议(ECCV)的会议记录中,第172-189页,2018年。二、三、六[16] Phillip Isola,Jun-Yan Zhu,Tinghui Zhou,and Alexei AEfros.使用条件对抗网络的图像到图像翻译。在IEEE计算机视觉和模式识别会议论文集,第1125-1134页,2017年。2[17] Levent Karacan , Zeynep Akata , Aykut Erdem , andErkut Erdem.学习从属性和语义布局生成户外场景的图像。arXiv预印本arXiv:1612.00215,2016。2[18] Levent Karacan 、 Zeynep Akata 、 Aykut Erdem 和 ErkutErdem。通过幻觉操纵自然场景的属性arXiv预印本arXiv:1808.07413,2018。2[19] Tero Karras Samuli Laine和Timo Aila一个基于样式的生成器架构,用于生成对抗网络。在IEEE/CVF计算机视觉和模式识别会议论文集,第4401-4410页,2019年。4[20] Tero Karras , Samuli Laine , Miika Aittala , JanneHellsten,Jaakko Lehtinen,and Timo Aila.分析和改进了扫描仪的图像质量。IEEE/CVF计算机视觉和模式识别会议(CVPR),2020年6月。2[21] Katrin Lasinger 、 Rene 'Ranftl 、 Konrad Schindler 和Vladlen Koltun。走向鲁棒的单眼深度估计:混合数据集的零拍摄交叉数据集传输。arXiv预印本arXiv:1907.01341,2019。2[22] 李欣英、曾鸿宇、黄佳斌、曼尼什·辛格和杨明轩。通过解纠缠的表示进行不同的图像到图像的翻译。在欧洲计算机视觉会议(ECCV)的会议记录中,第35-51页,2018年。3[23] Jae Hyun Lim 和 Jong Chul Ye 。 几 何 杆 arXiv 预 印 本arXiv:1705.02894,2017。3[24] Ming-Yu Liu,Thomas Breuel,and Jan Kautz.无监督图像到图像翻译网络。神经信息处理系统的进展,第700-708页,2017年。2[25] 拉尔斯·梅谢德安德烈亚斯·盖格和塞巴斯蒂安·诺沃津。gans的哪些训练方法实际上是趋同的?arXiv预印本arXiv:1801.04406,2018。2[26] Mehdi Mirza和Simon Osindero条件生成对抗网。arXiv预印本arXiv:1411.1784,2014。2[27] 宫人武和小山正则。具有投影鉴别器的CGNSarXiv预印本arXiv:1802.05637,2018。2[28] Augustus Odena,Christopher Olah,and Jonathon Shlens.辅助分类器gans的条件图像合成在机器学习国际会议上,第2642- 2651页,2017年。2[29] Roy Or-El 、 Soumyadip Sengupta 、 Ohad Fried 、 EliShecht-man和Ira Kemelmacher-Shlizerman。寿命转换合成。欧洲计算机视觉会议,第739-755页。Springer,2020年。5[30] 朴泰成、阿列克谢·A·埃夫罗斯、理查德·张和朱军燕。非配对图像到图像翻译的对比学习。欧洲计算机视觉会议,第319-345页。Springer,2020年。2[31] Taesung Park , Ming-Yu Liu , Ting-Chun Wang , Jun-Yan Zhu.具有空间自适应归一化的语义图像合成。在IEEE Conference on Com-6761计算机视觉和模式识别,第2337-2346页,2019年。二三四五六七[32] ShengjuQian , Kwan-YeeLin , WayneWu ,Yangxiaokang Liu , Quan Wang , Fumin Shen , ChenQian,and Ran He.做个鬼脸:走向任意高保真人脸操作 。 在 IEEE/CVF计 算 机 视 觉 国 际 会 议 论 文 集 , 第10033-10042页,2019年。2[33] Rene 'Ranftl ,Katrin Lasinger,David Hafner ,KonradSchindler和Vladlen Koltun。走向鲁棒的单眼深度估计:混合数据集的零拍摄交叉数据集传输。arXiv预印本arXiv:1907.01341,2019。6[34] Ali Razavi,Aaron van den Oord和Oriol Vinyals。用vq-fm-2生成多种高保真图像。NeurIPS,2019。2[35] Elad Richardson、Yuval Alaluf、Or Patashnik、YotamNitzan、Yaniv Azar、Stav Shapiro和Daniel Cohen-Or。编码样式:一种用于图像到图像转换的stylegan编码器。arXiv预印本arXiv:2008.00951,2020。2[36] David E Rumelhart, Geoffrey E Hinton , and Ronald JWilliams.通过错误传播学习内部表征。技术报告,加利福尼亚大学圣地亚哥拉霍亚认知科学研究所,1985。2[37] Kuniaki Saito , Kate Saenko , and Ming-Yu Liu. Coco-funit:使用内容条件化风格编码器的少量无监督图像翻译arXiv预印本arXiv:2007.07431,2020。2[38] Tomas Simon,Hanbyul Joo,Iain Matthews,and YaserSheikh. 使用多视图自举的单图像中的手关键点检测在CVPR,2017年。6[39] WeiRenTan,CheeSengChan,Hern a'nEAguirre和KiyoshiTanaka。Artgan:使用条件分类gans的艺术作品合成2017年IEEE图像处理国际会议(ICIP),第3760-3764页。IEEE,2017年。6[40] Miao Wang,G.扬河,巴西-地李润泽梁松海P. M. Hall和S.胡基于语义标注的示例引导风格一致图像合成。2019年IEEE/CVF计算机视觉和模式识别会议(CVPR),第1495-1504页,2019年。二、三[41] Ting-Chun Wang,Ming-Yu Liu,Jun-Yan Zhu,AndrewTao,Jan Kautz,and Bryan Catanzaro.用条件gans实现高分辨率图像在IEEE计算机视觉和模式识别会议论文集,第8798-8807页,2018年。3[42] Shih-En Wei,Varun Ramakrishna,Takeo Kanade,andYaser Sheikh.卷积姿势机器。在CVPR,2016年。6[43] Wayne Wu , Kaidi Cao , Cheng Li , Chen Qian , andChen Change Loy. 理清内容和风格 通过无监督的几何蒸馏。arXiv预印本arXiv:1905.04538,2019。2[44] Yuxin Wu,Alexander Kirillov,Francisco Massa,Wan-Yen Lo , and Ross Girshick. 探 测 器 2 。 https ://github.com/facebookresearch/detectron2,2019. 6[45] Changqian Yu , Jingbo Wang , Chao Peng , ChangxinGao,Gang Yu,and Nong Sang. Bisenet:用于实时语义分 割 的 双 边 分 割 网 络 。 在 欧 洲 计 算 机 视 觉 会 议(ECCV)
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Android圆角进度条控件的设计与应用
- mui框架实现带侧边栏的响应式布局
- Android仿知乎横线直线进度条实现教程
- SSM选课系统实现:Spring+SpringMVC+MyBatis源码剖析
- 使用JavaScript开发的流星待办事项应用
- Google Code Jam 2015竞赛回顾与Java编程实践
- Angular 2与NW.js集成:通过Webpack和Gulp构建环境详解
- OneDayTripPlanner:数字化城市旅游活动规划助手
- TinySTM 轻量级原子操作库的详细介绍与安装指南
- 模拟PHP序列化:JavaScript实现序列化与反序列化技术
- ***进销存系统全面功能介绍与开发指南
- 掌握Clojure命名空间的正确重新加载技巧
- 免费获取VMD模态分解Matlab源代码与案例数据
- BuglyEasyToUnity最新更新优化:简化Unity开发者接入流程
- Android学生俱乐部项目任务2解析与实践
- 掌握Elixir语言构建高效分布式网络爬虫
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功