基于实例的跨域对应学习图像翻译

191 浏览量更新于2023-10-24 收藏 1.95MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

5143基于实例的跨域对应学习图像翻译潘章1张，张波2张，董晨2张，陆远3张，方文2张1中国科学技术大学2微软亚洲研究院3微软云+AI摘要我们提出了一个基于范例的图像翻译的一般框架，它从一个不同的域（例如，语义分割掩模、或边缘图、或姿态关键点）。输出具有样式（例如，颜色、纹理）与范例中语义上对应的对象一致。我们建议联合学习跨域对应和图像翻译，这两项任务相互促进，因此可以在弱监督下学习。来自不同域的图像首先对准到中间域，在那里建立密集的对应关系。然后，网络根据样本中语义对应的补丁的出现来合成大小不同的图像。我们证明了我们的方法在几个图像翻译任务的有效性。我们的方法是优于国家的最先进的方法，在图像质量显着，与图像风格忠实于样本的语义一致性。此外，我们还展示了我们的方法在几个应用中的实用性1. 介绍条件图像合成的目的是根据某些输入数据生成照片般逼真的图像[18，45，52，6]。我们感兴趣的是一种特定形式的条件图像合成，它将语义分割掩模，边缘图和姿势关键点转换为照片般逼真的图像，给定示例图像，如图1所示。我们把这种形式称为基于范例的图像翻译。它允许根据用户给定的范例更灵活地控制多模态生成。最近的方法使用神经网络直接学习从语义分割掩模到样本图像的映射[17，38，34，44]。这些方法中的大多数将样本的风格编码为潜在风格向量，网络从该潜在风格向量合成具有与样本相似的期望风格的图像然而，样式代码只描述了样本的全局样式，而不管spa。作者在微软亚洲研究院实习期间完成了这项工作图1：基于示例的图像合成。给定示例图像（第一行），我们的网络将输入（以分割掩码、边缘和姿态的形式）转换为照片级真实感图像（第二行）。更多结果请参考补充材料相关信息。从而造成了一些地方风格为了解决这个问题，必须在图像翻译之前建立输入和样本之间的跨域对应关系。作为图像类比[14]的扩展，深度类比[27]试图在图像对之间找到密集的语义上有意义的对应。它利用了VGG的深层功能，输入输入输入示例性示例性示例性5144真实图像分类任务的匹配。我们认为这种表示可能无法处理从掩模（或边缘，关键点）到照片的更具挑战性的映射，因为预先训练的为了在训练中考虑掩模（或边缘），一些方法[10，46，5]明确地将样本图像分成语义区域，并学习单独合成不同的部分。通过这种方式，它成功地产生了高质量的结果。然而，这些方法都是针对特定任务的，不适合一般的翻译。如何为基于范例的图像翻译找到更通用的解决方案是不平凡的。我们的目标是学习跨域图像的密集语义对应（例如，掩模到图像、边缘到图像、关键点到图像等），然后用它来引导图像平移。它是弱监督学习，因为我们既没有相应的注释，也没有给定随机样本的综合基础事实。在本文中，我们提出了一个跨域COrreSpondence网络（CoCosNet），同时学习跨域对应和图像翻译。网络架构包括两个子网：1）跨域对应网络将输入从不同的域转换到可以建立可靠的密集对应的中间特征域 ;2)翻译网络采用一组空间变化的去规范化块[38]来逐步合成输出，使用来自扭曲示例的风格细节，该示例根据估计的对应关系在语义上与掩码（或边缘，关键点图）两个子网络相互促进，并通过新的损失函数进行我们的方法优于以前的方法在图像质量方面的一个大的Margin，与实例级的外观是忠实于ex-emplar。此外，所学习的跨域对应关系实现了一些有趣的应用，例如图像编辑和化妆转移。我们的贡献可概括如下：• 我们解决的问题，学习密集的跨域对应与弱监督联合学习与图像翻译。• 通过跨域对应，我们提出了一种基于范例的图像翻译的通用解决方案，第一次输出类似于精细结构的图像在实例级别上创建样本的结构。• 我们的方法优于国家的最先进的方法在图像质量方面的各种应用程序任务的大幅度。2. 相关工作图像到图像翻译图像翻译的目标是学习不同图像域之间的映射最突出的当代方法通过条件生成对抗网络[36]解决了这个问题，该网络利用配对数据[18，45，38]或未配对数据[52，47，22，29，42]。由于从一个图像域到另一个图像域的映射本质上是多模态的，因此以下工作通过从潜在空间进行随机采样来促进合成多样性[53，17，24]。然而，这些方法都不允许精细控制的输出，因为潜在的表示是相当复杂的，并没有一个明确的对应图像风格。相比之下，我们的方法支持定制的结果，根据用户给定的样本，这允许更灵活的控制多模态生成。基于范例的图像合成最近，一些作品[39，44，34，40，2]提出在范例的指导下从语义布局合成真实感图像。非参数或半参数AP-proaches [39，2]通过合成从大型数据库中检索到的图像片段来合成图像。然而，主流作品将这一问题表述为图像到图像的翻译。 Huang等人[17]马云等。[34]建议采用自适应实例规范化（AdaIN）[16]将样式代码从样本转移到源图像。Park等人。[38]学习编码器将exem- plar图像映射到一个向量中，从该向量中进一步合成图像。[44]中提出了风格一致性检验，以检查图像对是否表现出相似的风格。然而，该方法需要从视频片段中构造风格一致的图像对，这使得它不适合于一般的图像翻译。与上述所有只传输全局样式的方法不同，我们的方法从样本的语义对应区域传输精细样式。我们的工作受到最近基于样本的图像着色的启发[48，13]，但我们解决了一个更普遍的问题：在不同的领域之间转换图像。语义对应早期关于语义对应的研究[33，8，43随着卷积神经网络的出现工作，深度功能被证明是强大的，以代表高层次的语义。Long等人。[32]首先提出通过匹配从预训练的分类模型中提取的深度特征来建立语义对应后续工作通过合并额外的注释[51，7，11，12，21，25]，采用粗到细策略[27]或保留可靠的稀疏匹配[1]来进一步提高对应质量。然而，这些方法只能处理自然图像之间的对应关系，而不能处理跨域图像，例如，边缘和真实感图像。我们探索这个新的场景，并在弱监督下隐式学习任务。5145跨域对应翻译网络输出输入示例性畴对准CIBB相关矩阵整形为矢量翘曲样本L公司简介��ℎ��2��ℎ��2��ℎ��1��ℎ��1��ℎ��图2：CoCosNet架构示意图。给定输入xA∈A和样本yB∈B，对应子模块将它们调整到同一个域S中，在该域S中可以建立稠密对应然后翻译网络根据对应关系基于变形的样本y→x生成最终输出，从而产生基于样本的翻译输出。3. 方法我们的目标是学习从源域A到目标域B的平移，给定输入图像xA∈A和样本图像yB∈B。生成的输出需要符合xA的内容，同时与风格从语义相似的部分在yB。为此，xA和yB之间的对应关系，其位于特征映射被进一步变换为S中的表示，分别表示为xS∈RHW× C和yS∈RHW× C（H，W为特征空间大小，C为通道方向维数）。设FA→ S和FB→ S分别为两个输入域的域变换，自适应表示可以公式化为，xS=FA→S（xA;θF，A →S），（1）不同的领域，首先是建立，和示范im-年龄被相应地扭曲，以便其语义被对齐yS=FB→S（yB）;θF，B→S）的情况。（二）xA（第3.1节）此后，根据变形样本合成图像（第3.2节）。整个网络架构如图2所示，通过掩模到图像合成的示例。3.1. 跨域对应网络通常，通过将特征域中的补丁[27，25]与预先训练的分类模型进行匹配来找到语义对应然而，预训练模型通常是在特定类型的图像上训练的，例如，自然的图像，所以提取的特征不能概括为描述另一个领域的语义。因此，先前的工作不能建立异构其中θ表示可学习参数。表示xS和yS包括区别性特征，其表征输入的语义在实践中，域对齐对于对应是必不可少的，因为只有当xS和yS位于同一域时，它们才能用某种相似性度量进一步匹配。我们建议将xS和yS的特征与[48]中提出的对应层相具体地说，我们计算一个矩阵M∈RHW×HW，其中每个元素都是一个成对特征相关，xS（u）TyS（v）图像，例如，边缘和照片般逼真的图像。为了解决这个问题，我们提出了一种新的跨域对应网络，M（u，v）=公司简介、（3）（u）非政府组织（v）非政府组织将所述输入域映射到共享域S，其中所述表示能够表示两个输入域的语义。结果，在域S内可以找到可靠的语义对应。如图2所示，我们首先将输入图像和样本适配到共享域S。具体而言，xA和yB被馈送到特征金字塔网络中，该特征金字塔网络通过利用局部和全局图像上下文来提取多尺度深度特征[41，28]。所提取的其中x∈S（u）和y∈S（v）∈RC表示位置u和v中的xS和y S的信道集中特征，即，xS （u）=xS （u）−mean（xS（u））和yS（v）=yS（v）−mean（yS（v））。M（u，v）表示xS（u）和yS（v）之间更高的语义相似性。现在的挑战是如何在没有直接监督的情况下学习对应。我们的想法是与图像翻译联合训练。翻译网络可能会发现，仅通过参考……5146B+βB对样本中的对应区域进行校正，这直接推动了网络学习准确的对应关系。有鉴于此，我们根据M扭曲yB，得到变形样本ry→x∈RHW。具体地说，我们通过选择中最相关的像素来获得ry→x，yB并计算它们的加权平均值，Σ3.3. 基于范例的翻译损失我们使用以下损失函数联合训练跨域对应关系和图像合成，希望这两项任务相互受益。伪样本对的损失我们通过利用成对的数据{xA，xB}来构造样本训练对，ry→x（u）=softmax（αM（u，v））·yB（v）.（四）vv排列整齐但结构域不同。我们特别对xB应用随机几何变形，并得到离散-这里，α是控制图像清晰度的系数。扭曲图像x′=h（xB），其中h表示增量a-softmax，我们将其默认值设置为100。以下为像图像扭曲或随机翻转这样的操作当ing，图像将以r为y→x 和′被视为范例，xA的翻译是通信网络以这种方式通过间接监督获知其分配。3.2. 翻译网络在ry→x的指导下，预计将成为其对应方xB。这样，我们得到伪样本对。我们建议通过最小化特征匹配损失来惩罚翻译输出和地面真值xB之间的差异[19，18，6]ΣG将常量代码z转换为所需的输出Lfeat=λl<$φl（G（xA，x′））−φl（xB）<$、（8）B1x<$B∈B。为了保存结构信息，对于ry→x，我们采用空间自适应反正规化（SPADE）块[38]将空间变化的范例风格投射到不同的激活位置。如图2所示，翻译网络有L层，并逐步注入了示例风格。与[38]计算批次归一化（BN）的逐层统计数据相反，我们根据经验发现计算每个空间位置统计数据的归一化，位置归一化（PN）[26]，更好地保留了结构-其中φ1表示预训练的VGG-19模型中的层1的激活，并且λ1平衡这些项。域对齐损失我们需要确保变换后的嵌入xS和yS位于同一个域中。为了实现这一点，我们再次利用图像对{xA，xB}，其特征嵌入应在域变换后前对齐在先前层中合成的形成物。因此，我们建议将位置规范化和空间变化的de结合起来，ℓ1域=<$FA→ S（x A）−FB→ S（x B）<$1。（九）标准化，用于从示例中转移高保真纹理形式上，给定在第i个归一化层之前的激活Fi∈RCi×Hi×Wi，我们注入样本样式通过，请注意，我们执行通道归一化作为最后一个FA→ S和FB→ S的层，因此最小化该域离散性将不会导致平凡解（即，小幅度的激活）。翻译损失实例学习与配对或ih，w（ry→x）×ic，h，wσi我h，wih，w（ry→x），（5）伪样本对很难推广到一般情况其中范例的语义布局显著h，w其中，统计值μi和σi计算不包括-从源图像。为解决这一问题，我们提出以下建议：降低损失。h，wh，w首先，最终产量应与与BN相比，在沟道方向上具有更大的宽度它的颜色-归一化参数αi和βi表征样本的风格，样本从ry→x映射到由θT参数化的投影T，即，αi ， βi=Ti （ry→x;θT ） .（6）我们使用两个普通卷积层来实现T soα和β的空间大小与ry→x相同。与所述样式对于每个归一化层的调制，整体图像平移可以用公式表示为x<$B=G（z，Ti（ry→x;θT）;θG），（7）其中θG表示可学习参数。XLαF-µ5147输入xA或其对应物xB的语义。因此，我们惩罚感知损失以最小化语义差异：Lpe rc=<$φl（x<$B）−φl（xB）<$1。（十）这里，我们选择φ1作为VGG-19网络中的relu4 2层之后的激活，因为该层主要包含高级语义。另一方面，我们需要一个损失函数，它鼓励xB采用来自yB的语义对应补丁的外观。为此，我们采用[35]中提出的上下文损失来匹配统计数据-5148AdvL在xB和yB之间，L上下文=表1：图像质量比较。FID或SWD评分越低，图像质量越好。最好的分数被突出显示。Σ。1ΣΣl（11）ADE 20 kADE 20 k-室外 CelebA-HQ DeepFashionωl−logLmaxA（φi（x<$B），φj（yB）），NJ我其中i和j索引包含n-l个特征的层Φ1的特征图，并且ω1控制不同层的相对重要性。尽管如此，我们仍然依赖于预训练的VGG特征。与主要利用高级特征的Lperc相反，上下文损失使用relu2 2到relu5 2 lay。因为低级特征捕获更丰富的样式信息（例如，颜色或纹理），用于转移样本外观。对应正则化此外，学习的对应应该是周期一致的，即，图像应该在前后扭曲之后匹配自身，表2：语义一致性比较。最好的分数被突出显示。Lreg=<$ry→x →y−yB<$1，（12）Σ其中ry→x →y（v）=usoftmaxu（αM（u，v））·ry→x（u）是前后扭曲图像。实际上，这个目标函数是至关重要的，因为在网络末端施加的剩余损失函数是弱监督并且不能保证网络学习到有意义的对应。图9显示，如果没有Lreg，网络无法正确学习跨域对应关系，尽管它仍然能够生成合理的翻译结果。正则化Lregenforces翘曲图像ry→x通过约束其背面而保持在域B向扭曲，隐含地鼓励对应如所期望的那样有意义。对抗性损失我们训练了一个神经网络[9]，它区分了翻译输出和域的真实样本B.交替地训练CXD和平移网络GD和G的对抗目标分别定义为：4. 实验实现我们使用Adam [23]求解器，β1=0，β2=0。999根据TTUR [15]，我们为生成器和学习器分别设置了不平衡的学习率，1e-4和4e-4。光谱归一化[37]是应用于两个网络的所有层，以稳定对抗训练。读者可以参考详细的网络体系结构的教程材料。我们使用8个32GB Tesla V100 GPU进行实验，在ADE 20k数据集上训练100个epoch大约需要4天时间[50]。数据集我们在具有不同类型图像表示的多个数据集上进行实验。在训练过程中，所有• ADE20k [50]由1020k个训练图像组成，每个图像与150类分割掩码相关联。这DAdvGAdv=−E[h（D（yB））]−E[h（−D（G（xA，yB）]= −E[D（G（xA，yB））]，（十三）对于大多数现有方法来说，由于其巨大的多样性，它是一个具有挑战性的数据集。• ADE 20 k-outdoor包含提取其中h（t）=min（0，−1+t）是用于正则化π的铰链函数[49，3]。总损失总的来说，我们优化了以下目标，Lθ=最小值最大值最小值1Lfeat+最大值 2Lperc+最大值 3Lcontext与SIMS中的协议相同[39]。• CelebA-HQ [30]包含高质量的面部图像。我们连接人脸区域的人脸标志，并使用Canny边缘检测器检测背景中的边缘。我们在这个数据集上执行边到面的转换。F、T、 GD+100LGHPLC1结构域+106L注册，（十四）• Deepfashion [31]由52，712个穿着时尚服装的人物形象组成。我们使用OpenPose [4]提取姿势关键点，并学习到人体的翻译。其中，使用权重来平衡目标。LL+100升5FID社署FID SWDFID社署FID社署Pix2pixHD81.835.797.8 34.562.743.325.216.4黑桃33.919.763.3 21.931.526.936.227.8MUNIT129.397.8168.2 126.356.840.874.046.2SimsN/AN/A67.7 27.2N/AN/AN/AN/AEGSC-IT168.394.4210.0 104.929.523.829.039.1我们26.410.542.4 11.514.315.214.417.2ADE20kADE 20 k-室外CelebA-HQDeepFashionPix2pixHD0.8330.8480.9140.943黑桃0.8560.8670.9220.936MUNIT0.7230.7040.8480.910SimsN/A0.822N/AN/AEGSC-IT0.7340.7230.9150.942我们0.8620.8730.9490.9685149输入地面实况[34]第一届中国国际纺织品博览会[38]图3：不同方法的定性比较。输入合成示例输入合成示例输入合成示例图4：我们的分割掩模到图像合成的结果（ADE 20k数据集）。表3：风格相关性的比较。较高的分数表示相对于示例的较高的外观相似性。最好的分数被突出显示。ADE20k CelebA-HQ DeepFashion颜色纹理颜色纹理颜色纹理黑桃0.8740.8920.9550.9270.9430.904MUNIT0.7450.7820.9390.8840.8930.861EGSC-IT0.7810.8390.9650.9420.9450.916我们0.9620.9410.9770.9580.9820.958基线我们将我们的方法与最先进的图像翻译方法进行比较：1）Pix 2 pixHD [45]，一种领先的监督方法; 2）SPADE [38]，一种最近提出的监督翻译方法，也支持从样本图像注入风格; 3）MUNIT [17]，一种产生多模态结果的无监督方法; 4）SIMS [39]，其通过合成来自存储库的图像片段来合成图像; 5）EGSC-IT [34]，一种基于范例的方法，也考虑了语义一致性，但只能模仿全局风格。除了Pix2pixHD之外，这些方法可以生成基于样本的结果，我们使用他们在这种模式下发布的代码在几个数据集上进行由于使用SIMS准备数据库在计算上是不允许的，我们直接使用他们报告的数字。由于我们的目标是提出一个通用的翻译框架，我们不包括其他特定任务的方法。为了为我们的方法提供样本，我们首先训练一个普通的翻译网络来生成自然图像，并使用它们从数据集中检索样本。定量评价我们从三个方面对不同的方法进行评价。• 我们使用两个指标来衡量图像质量。首先，我们使用Fre'chetInceptionScore（FID）[15]来衡量合成图像和真实图像的分布之间的距离。虽然FID测量语义真实性，但我们也采用切片Wasserstein距离（SWD）[20]来测量它们的低级别补丁分布的统计距离。通过这两种方法的测量，表1显示，我们的方法在几乎所有的比较中都显著优于先前的方法。在具有挑战性的ADE 20k数据集上，与传统的领先方法相比，我们的方法将FID评分提高了7.55150图5：我们的边到面合成结果（CelebA-HQ数据集）。第一行：样本。第二行：我们的成果。图6：我们的姿势到身体合成的结果（Deep-Fashion）. 第一行：样本。第二行：我们的成果。pix2pixHDMUNITEGSC-ITSPADE我们图像质量0%的百分比百分之二十百分之四十百分之六十百分之八十百分之pix2pixHDMUNITEGSC-ITSPADE我们风格关联0%的百分比百分之二十百分之四十百分之六十百分之八十百分百图8：不同域的稀疏对应。给定域A（第一行）中的手动注释点，我们的方法在域B（第二行）中找到它们对应的点。表4：消融研究。Top1Top2Top3Top4前5名前1名Top2Top3Top4Top5图7：用户研究结果。• 最终输出不应改变输入语义。为了评估语义一致性，我们采用ImageNet预训练的VGG模型[3]，并使用其高级特征映射relu3 2，relu4 2和relu5 2来表示高级语义。我们计算这些层的余弦相似性，并取平均值以产生最后得分表2表明，我们的方法在翻译过程中最好地• 风格相关性。我们分别使用低层特征relu1 2和relu22来度量语义上对应的块之间的颜色和纹理距离在输出和范例中。我们不包括Pix2pixHD，因为它不产生基于范例的翻译。尽管如此，我们的方法还是实现了更好的实例级风格相关性，如表3所示。定性比较图3提供了不同方法的定性比较。这表明我们的Co-cosNet展示了最具视觉吸引力的质量更少的艺术品。同时，与现有的基于样本的方法相比，我们的方法表现出最好的风格保真度，与精细结构匹配的语义上对应的区域的样本。这也与定量结果相关，显示了我们的方法的明显优势我们通过改变图4-6中的示例图像来显示不同的结果。更多结果请参阅补充材料。主观评价我们还进行用户研究，以评估主观质量。我们为每个任务随机选择10张图像，总共产生30张图像进行比较。我们设计了两个任务，让用户根据图像质量和风格相关性对所有方法进行排序。图7显示了结果，其中我们的方法展示了明显的优势。本方法在84.2%的病例中，边缘样本FID↓语义一致性↑风格（颜色/纹理）↑w/oLfeat14.40.9480.975 /0.955无L结构域21.10.9330.983/0.957不含Lperc59.30.8520.971 /0.852无L上下文28.40.9310.954 /0.948无L注册19.30.9290.981 /0.951充分14.30.9490.977 /0.9585151域输入/示例密集整经最终输出L1域L1域图10：图像编辑。给定输入图像及其掩码（第1列），我们可以通过对掩码的操作（第2-4列）语义编辑图像图9：损失函数的消融研究。评价图像质量，在风格相关性比较中有93.8%的机会是最好的。跨域对应图8示出了跨域对应。为了更好的可视化，我们只对稀疏点进行注释。作为第一个这样做的方法，我们的CoCosNet成功地建立了有意义的服务，甚至对于手动标记来说都很困难的机械对应。该网络仍然能够找到稀疏表示的对应关系，如边缘图，它捕获很少的显式语义信息。消融研究为了验证每个组件的有效性，我们进行了全面的消融研究。在这里，我们要强调两个关键要素（图-图11：化妆品转移。给定一个肖像和化妆笔画（第一列），我们可以通过匹配语义对应将这些化妆编辑转移到其他肖像。我们在补充材料中展示了更多的例子。自我示范由于这类似于我们为训练而构建的伪样本对，我们的CocosNet可以完美地处理它并产生高质量的输出。图10示出了图像编辑，其中可以移动，ure9）。首先，域对齐损失L=1与数据添加和删除实例。化妆转移艺术家通常手动添加数字对xA和xB至关重要。如果没有它，将在未对齐的域中失效，导致过光滑的致密翘曲。我们还消除了对应正则化损失Lreg，这会导致不正确的密集对应，例如，在图9中，尽管网络仍然产生了看似合理的最终输出。对于Lreg，对应关系是-是有意义的，这有利于图像合成，好.我们还在表4中定量测量了不同损失的作用，其中完整模型在所有指标方面都表现出5. 应用我们的方法可以实现一些有趣的应用。这里我们举两个例子。图像编辑给定一个自然图像，我们可以通过修改分割布局和使用原始图像作为合成图像来操纵其内容。肖像上的化妆品由于我们发现了密集的语义对应，我们可以将艺术笔触转移到其他肖像上。通过这种方式，人们可以手动在一个肖像上添加化妆编辑，并使用我们的网络基于语义对应自动处理大量肖像，如图11所示。6. 结论本文提出了一种基于跨域对应的CocosNet图像翻译算法。我们的方法实现了更好的性能比领先的方法定量和定性。此外，我们的方法学习了跨域图像的密集对应关系，为几个有趣的应用铺平了道路。我们的方法是计算密集型的，我们把高分辨率的合成留给未来的工作。无L注册w/L注册W/Ow/5152引用[1] K. Aberman，J.廖，M. Shi，D.利辛斯基湾Chen和D. Cohen-Or，“神经最好的朋友：Sparse cross-domaincorrespondence ， ”ACMTransactionsonGraphics（TOG），vol.37，no. 4，第69页，2018年。2[2] A. Bansal，Y. Sheikh和D. Ramanan，“《古兰经》和上下文：In the wild image synthesis& manipulation，”inProceedings of the IEEE Conference on Computer Visionand Pattern Recognition，2019，pp. 2317-2326. 2[3] A. Brock，J. Donahue，and K. Simonyan，五、七[4] Z. Cao，G. Hidalgo，T. Simon，S.- E. Wei和Y. Sheikh，“Openpose：实时多人2D姿态估计使用部分亲和字段，“arXiv预印本arXiv：1812.08008，2018。5[5] H. Chang，J. Lu，F. Yu和A. Finkelstein，“Pairedcycle-gan：用于化妆和卸妆的不对称风格转移，“在IEEE计算机视觉和模式识别会议论文集，2018年，第100页。40-48. 2[6] Q. Chen和V.Koltun，1511-1520. 1、4[7] C. B. Choy，J.Gwak，S.Savarese和M.Chandraker，2414-2422. 2[8] N. Dalal和B. Triggs ，“Histograms of oriented gradientsfor human detection”，2005年。2[9] I. 古德费罗 J. 波吉特-阿巴迪 M. 米尔扎 B. 许、D.沃德-法利，S。奥扎尔A. Courville和Y. Bengio，2672-2680. 5[10] S. Gu，J. Bao，H. Yang，杨氏D. Chen，F. Wen和L.Yuan，3436-3445. 2[11] B. Ham，M.乔角，澳-地Schmid和J. Ponce，“提案流程：来自对象建议的语义对应，”IEEE模式分析和机器智能学报，第40卷，第100期。第7页。1711-1725，2017年。2[12] K.汉河，巴西-地S.雷曾德湾火腿K Y. K.黄，M。小周，C. Schmid和J.庞塞，“Scnet：学习语义对应，“在IEEE计算机视觉国际会议论文集，2017年，第100页。1831-1840. 2[13] M. He ， D. Chen ， J. Liao ， P. V.Sander 和 L. Yuan ，“Deep exemplar-based colorization，”ACM Transactionson Graphics（TOG），vol.37，no. 4，第47页，2018年。2[14] A. 赫茨曼角 E. Jacobs ， N. 奥利弗湾 Curless 和 D.H.Salesin，ACM，2001，pp. 327-340. 1[15] M. Heusel，H. Ramsauer，T.翁特希纳湾Nessler和S. Hochreiter，6626-6637. 五、六[16] X. Huang和S. Belongie，1501-1510. 2[17] X.黄文Y. Liu，S. Belongie和J. Kautz，“多模态无监督图像到图像翻译 ” ，在欧洲计算机视觉会议（ECCV），2018年，第100页。172-189. 一、二、六[18] P. Isola，J.- Y. Zhu，T. Zhou和A. A. Efros，1125-1134.一、二、四[19] J. Johnson，A. Alahi和L. Fei-Fei，施普林格，2016年，第694- 711 4[20] T. Karras，T. Aila，S. Laine和J. Lehtinen，“Progressivegrowing of GANs for improved quality ， stability ， andvaria- tion，”arXiv preprint arXiv：1710.10196，2017. 6[21] S. Kim，D.敏湾，澳-地Ham，S.全，S。Lin和K.Sohn，6560-6569 2[22] T. 金，M。Cha，H.金，J.K. Lee和J.Kim，JMLR。org，2017，pp. 1857-1865. 2[23] D. P. Kingma和J. Ba，“Adam：A method for stochasticoptimization，”arXiv preprint arXiv：1412.6980，2014. 5[24] H.- Y.李，H.- Y. Tseng，J. - B. Huang，M. Singh和M.-H.杨，35-51. 2[25] J. Lee，D. Kim，J. Ponce，and B. 火腿，“Sfnet：学习对象感知的语义对应，“在IEEE计算机视觉和模式识别会议论文集，2019年，pp. 2278-2287. 二、三[26] B. Li，F. Wu，K. Q. Weinberger和S. Belongie，“Posi-tional Normalization ， ”arXiv e-prints ， p. arXiv ：1907.04312，Jul. 2019. 45153[27] J. 廖，Y.尧湖，澳-地Yuan，G.Hua和S.B. Kang，一、二、三[28] T.- Y. Lin，P.多尔河格希克角他，B.Hariharan和S. Belongie，2117-2125. 3[29] M.- Y. Liu，T.Breuel和J.Kautz，700-708. 2[30] Z. Liu，P. Luo，X. Wang和X. Tang，5[31] Z. Liu，P.Luo，S.Qiu，X.Wang和X.唐，“Deepfashion：Powering robust clothes recognition and retrieval with richannotations ， ”in Proceedings of IEEE Conference onComputer Vision and Pattern Recognition （ CVPR ），June. 2016. 5[32] J. L.新界元朗Zhang和T.达雷尔，“convnets学习通信吗？”神经信息处理系统的进展，2014年，第1601-1609.2[33] D. G. Lowe，60，no. 2，pp. 91-110，2004. 2[34] L. 妈， X 。 Jia ， S.Georgoulis ， T.Tuytelaars 和 L.VanGool，一、二、六[35] R.梅赫雷斯岛Talmi和L. Zelnik-Manor，768-783. 4[36] M. Mirza和S.Osindero，2[37] T.宫城，T.卡塔奥卡，M。Koyama和Y. Yoshida，5[38] T. 帕克，M.-Y. 刘德铭C. Wang和J. -Y. Zhu，2337-2346.一、二、四、六[39] X.齐，阿根-地Chen，J. Jia，and V. Koltun，“半参数图像合成”，在IEEE计算机视觉和模式识别会议论文集，2018年，第100页。8808- 8816 二、五、六[40] M. 里维耶尔岛 Teytaud ， J.Rapin ， Y.LeCun 和C.Couprie，2[41] O.龙内贝格山口Fischer和T. Brox，“U-net：生物医学图像分割的卷积网络”，医学图像计算和计算机辅助干预国际会议。施普林格，2015年，第二三四241. 3[42] A. Royer，K.Bousmalis，S.Gouws，F.伯奇岛莫塞里，F. Cole和K.墨菲，“Xgan：多对多映射的无监督图像到图像转换，”arXiv预印本arXiv：1711.05139，2017。2[43] E. 托拉河谷Lepetit和P.Fua，“Daisy：An efficient densedescriptorappliedtowide-baselinestereo ， ”IEEEtransactionsonpatternanalysisandmachineintelligence，vol. 32，no.第5页。815-830，2009年。2[44] M. 王，G.-Y. 扬河，巴西-地利河，巴西-地Z. 梁思成H. 张先生，P. Hall，S.- M. Hu等人，一、二[45] T.- C.王兆国Y.刘杰- Y. Zhu，中国茶青冈A. Tao，J. Kautz和B. Catanzaro，8798-8807. 一、二、六[46] R. Yi，Y.- J. Liu，Y.- K. Lai和P.L.松香，“Apdrawing-gan：从具有分层gans的人脸照片生成艺术肖像画，“在IEEE计算机视觉和模式识别会议论文集，2019年，第100页。10 743-10 752。2[47] Z. Yi，H. Zhang，P. Tan，and M.龚，“杜阿尔根：图像到图像翻译的无监督双重学习，“在IEEE国际计算机视觉会议上，2017年，第100页。2849-2857. 2[48] B. Zhang ， M. 他， J.Liao ， P. 诉桑德湖 Yuan 、云南A.Bermak和D. Chen，8052-8061. 二、三[49] H.张岛Goodfellow，D. Metaxas和A. Odena，5[50] B. Zhou，H.Zhao，X.普伊格S。菲德勒，A.Barriuso和A.Tor- ralba，633-641. 5[51] T. Zhou，P. Krahenbuhl，M.奥布里，Q。Huang和A. A.Efros，117-126. 2[52] J. - Y. Zhu，T. Park、P.Isola和A. A. Efros，2223-2232.一、二5154[53]J. - Y. 朱河，巴西-地Zhang，L.Pathak，T.Darrell，A.A.埃夫罗斯O. Wang和E.Shechtman，图像翻译，465-476. 2

下载后可阅读完整内容，剩余1页未读，立即下载