基于增强自参照和密集语义对应的草图图像着色方法

126 浏览量更新于2023-10-25 收藏 1.61MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5801基于增强自参照和密集语义对应的Junsoo Lee*，1，Eungyeup Kim*，1，Yunsung Lee2，Dongjun Kim1，Jaehyuk Chang3，Jaegul Choo11KAIST，2Korea University，3NAVER WEBTOON Corp.{junsoolee93，eykim94，rassilon，jchoo}@ kaist.ac.kr，swack9751@korea.ac.kr，jaehyuk. webtoonscorp.com图1：我们的方法分别在CelebA [24]和ImageNet [31]数据集上的定性结果。每一行都有相同的内容，而每一列都有相同的引用。摘要本文主要研究的是一个草图图像给定一个已经着色的参考图像。在漫画、动画和其他内容创建应用中，对草图图像着色是高需求的，但是它受到草图图像的信息缺乏的影响为了解决这个问题，参考图像可以以可靠和用户驱动的方式渲染着色过程。然而，很难准备训练数据集，该训练数据集具有足够量的语义上有意义的图像对以及反映给定参考的彩色图像的基础事实（例如，在给定参考绿色汽车的情况下，对原始蓝色汽车的草图着色）。为了应对这一挑战，我们建议利用具有几何失真的相同图像* 表示贡献作为虚拟参考，这使得可以确保彩色输出图像的地面真实。此外，它自然地为密集的语义对应提供了基础事实，我们在内部注意力机制中利用它来将颜色从参考转移到草图输入。我们证明了我们的方法在各种类型的草图图像着色的有效性，通过定量和定性评价对现有的方法。1. 介绍早期的彩色化任务[42，18，19]集中于对灰度图像进行彩色化，到目前为止已经取得了很大最近，着色给定草图或轮廓图像的任务由于其在实践中的显著需求而在计算机视觉和图形学社区中引起了极大的关注。与灰度图像相比，参考草图草图参考5802年龄，其中仍然包含像素强度，素描图像是信息稀缺的，使其彩色化具有挑战性的性质。为了解决这个问题，通常已经探索了两种类型的对草图图像施加附加条件的方法：用户提示和参考图像。如第2.2节所述，先前的作品利用了参考或已经着色的图像，其共享目标图像的相同语义对象。它要求模型能够建立视觉对应，并通过从引用到目标的映射注入颜色。然而，由于草图和参考之间存在巨大的信息差异，参考引导的草图着色与其他基于草图的任务相比仍处于探索阶段（第2.1节）。此外，几乎没有包含两个图像之间的对应性的标签的数据集，并且生成源和参考的可靠匹配的成本在广泛的领域中成为该任务的在这项工作中，我们利用一个增强的自我参考，这是从原始图像的颜色扰动和几何失真。该参考包含来自原始图像本身的大部分内容，从而为同样来自同一原始图像的草图提供了完整的对应信息。之后，我们的模型通过基于注意力的像素级特征转移模块（我们称之为空间对应特征转移（SCFT）模块）显式地将从参考获得的上下文表示转移到草图的空间对应位置这两种方法的整合自然地揭示了地面实况空间对应，用于通过我们基于相似性的三重丢失直接监督这样的注意力模块这种直接监督鼓励网络从头开始以端到端的方式完全优化，并且不需要源引用对之间的任何手动注释的视觉对应标签。此外，我们引入了一个评价指标，衡量如何忠实的模型转移的颜色的参考在相应的区域的草图。定性和定量的实验表明，我们的方法表现出国家的最先进的性能，到目前为止，在信息稀缺的任务，草图着色的基础上参考图像。这些令人鼓舞的结果有力地证明了其在广泛领域的实际应用中的巨大潜力。2. 相关工作2.1. 基于草图的任务草图通过一系列线条粗略地可视化场景或对象的外观。由于其简单，易于绘制和易于编辑的优点，草图已被用于几个任务，包括图像检索[17]，草图识别，[22]，草图生成[3，26]，和图像inpainting- ing [28].然而，由于素描图像缺乏纹理和颜色信息，基于素描的彩色化研究，特别是基于参考的彩色化研究，还存在着较大的挑战性和不足。2.2. 条件图像着色自动彩色化有一个限制，即用户不能用他们想要的颜色操纵输出。为了解决这个问题，最近的方法提出了用用户给定的颜色条件对图像进行着色的想法，例如涂鸦[33]，调色板[43，25，39]或文本标签[15]。尽管这些方法在多模态彩色化方面已经显示出令人印象深刻的结果，但它们不可避免地需要用户为每一步提供精确的颜色信息为了克服这种不便，已经引入了一种替代由于在输入水平上缺乏几何对应性，早期研究[14，1，23，4，6，2]利用低级手工特征来建立视觉对应性。最近的研究[8，41，35]通过使用从预训练的网络[8，41]或颜色直方图[35]中提取的特征来组成语义上接近的源-参考对，并在其训练中利用它们然而，这些配对组合技术往往对域敏感，从而限制了它们在特定数据集中的能力。我们的工作提出了一种新的训练方案，通过在训练时以自我监督的方式生成增强的自我参考来学习3. 该方法在本节中，我们详细介绍了我们提出的模型，如图所示。二、我们首先描述了模型的总体工作流程及其两个新组件，称为（1）增强自引用生成（第3.2节）和(2)空间对应特征转移模块（第3.3节）。然后，我们详细介绍了损失函数。3.1. 整体工作流程如示于图 2，给定数据集中的彩色图像I，我们首先使用轮廓提取器将其转换为草图图像Is。此外，我们利用薄板样条（TPS）变换生成了一个增广自参考图像Ir. 以这两个图像Is和Ir作为输入，我们的模型首先分别使用两个独立的编码器 Es （ Is ）和 Er（Ir）将它们编码为激活图fs和fr。为了将信息从Ir转移到Is，我们提出了一个SCFT模块，该模块受到最近提出的自注意机制的启发[36]，该机制计算密集对应5803我gtIrEra（a）增强自我参考生成⨀ ⨀⨀ ⨀VrVSV*R我Is⨁CDec奥克斯ESBLREsD纲要提取器SCFT模块拉法德夫电子邮件跳脱阿佩尔克什特雷茨·图2：我们的自我增强学习过程的整体工作流程Ir到Is的每一像素对之间。基于来自SCFT的视觉映射，融合I r和I s之间的信息的上下文特征依次通过几个残差块和我们的基于U网的解码器[30]，以获得最终的彩色输出。3.2. 增强自参照生成为了为给定的草图图像Is生成参考彩色图像Ir，我们对原始彩色图像I应用两个非平凡变换，外观变换和空间变换。由于Ir本质上是从I生成的，因此这些过程保证了用于着色Is的有用信息存在于Ir中，这鼓励模型在着色过程中反映Ir。 The details on how thesetransformations oper- ateare described asfollows. 首先，外观变换a（）为I的每个RGB通道添加特定的随机噪声。然后，将得到的输出a（I）用作我们模型的着色输出的基础事实Igt我们施加颜色扰动以进行参考的原因是为了防止我们的模型记住颜色偏差，这意味着特定对象与训练数据中的单个地面真实颜色高度相关苹果的红色在每次迭代中给定不同的参考，我们的模型应该通过利用IR作为恢复Igt的唯一路径来为相同的草图重建不同颜色的输出。换句话说，它鼓励模型积极利用来自Er的信息，而不仅仅是来自Es的信息，在测试时生成参考感知输出。之后，我们进一步将TPS变换s（·）（非线性空间变换算子）应用于a（I）（或Igt），从而得到我们的最终参考图像Ir。这使得我们的模型懒惰地将颜色带入来自IR的相同像素位置，同时强制我们的模型识别语义上有意义的空间对应，即使对于具有空间上不同布局的参考图像，例如，不同的姿势空间对应特征转换模块Wv重塑W重塑K重塑⨂⨂文勤重塑V*RVrVS图3：空间对应特征转移（SCFT）模块的图示。SCFT通过注意机制建立稠密对应映射。3.3. 空间对应特征传递该模块的目标是学习（1）从参考图像的哪个部分带来信息，以及（2）将这样的信息传输到草图图像的哪个部分把信息从哪里传送到哪里一旦s（m）5804A ∈···√√我∈∈草图参考我们Style2PaintsSun等人Huang等人Lee等人[2019年][2018年][2019年]Huang等人[二零一七年]原始图4：着色结果与在广泛数据集上训练的基线的定性比较。请注意，我们的任务目标不是重建原始图像。所有结果都是从看不见的图像中生成的详见补充资料。我们的模型将这些信息作为注意力地图，草图编码器Es和参考编码器Er。给定vs和vr，我们的模型计算出I j对草图的语义上对应的像素的引用。首先，两个编码器Er和Es中的每一个都由L个卷积层组成，产生L个激活图矩阵Rhw×hw，其元素αij由缩放的点积[36]计算，然后是每行内的softmax函数，即，.sr（f 1，f 2，，f L），包括中间输出。现在，我们对它们中的每一个进行下采样以匹配fL的空间大小，并沿着通道维度将它们连接起来，形成-αij=softmaxJ（Wqvi）·（Wkvj）Dv、（二）绘制最终激活图V，即，其中Wq，Wk∈Rdv×dv 表示线性变换。V=（f1）;（f2）;···;f lp（一）将矩阵分别转换为查询和关键向量，自我注意力模块的上下文，dv表示其中，R1表示空间下采样函数，缩放因子。αij是表示vs应该从vr带来信息。现在我们可以得到I j输入激活图flRhl×wl×cl 到flp的大小Rhp×wp×cp。”; ”位置i的上下文向量v_i为操作符.通过这种方式，我们可以同时捕获所有可用的低级到高级特征。∗Σvi=αijJ（3）第一次见面。现在，我们将V整形为V' =[v1，v2，···，vhw]∈Rdv ×hw，其中vi∈ Rdv表示Wv∈Rdv×dv的特征表示是线性变换矩阵给定图像的第i个区域和dvΣLl=1 cl. 我们转换为包含语义中的颜色特征的值向量，然后从输出中获得vsofV′s和vrofV′r，参考图像的空间相关区域。I j=5805·一KGnpercLLGT一，一KKEL最后，将v_s添加到草图的原始特征v_s中惩罚网络之间的色差我我图像以形成由信息丰富的特征向量参考图像中的对应区域的位置，即，输出和地面实况图像如下：Lrec= E [G（Is，Ir）− Igt<$1]。（六）ci=vs+v（四）我我对抗性损失。作为一个反对者，C1然后被馈送到解码器以合成彩色图像。3.4. 目标函数基于相似性的三重损失。当应用空间变换s（）时，输出图像中的每个像素值被表示为输入图像中的像素的加权平均，揭示Is和Ir之间的像素对的空间对应性。换句话说，我们可以获得权重w ij的全部信息，其表示输入图像或查询的第i个像素位置与输出或关键字的第j个像素位置的相关程度。然后，w ij的值可以被认为是像素到像素的对应关系，其可以用作超分辨率的地面实况。生成器的目的是将生成的图像与真实图像区分开。真/假分类器D（X）的输出表示任意图像X是真图像的概率。我们采用条件GAN，它使用生成的样本和附加条件[29，38，12]。在这项工作中，我们利用输入图像Is作为对抗性损失的条件，因为重要的是保留Is的内容以及生成逼真的假图像。优化D的损失被公式化为标准交叉熵损失，Ladv = EIgt,Is [log D(Igt,Is)]+[log（1 − D（G（I，I），I））]。查看引用的像素在语义上与我是，我是S俄 .西草图图像的特定像素。利用这种像素级对应信息，我们提出了一种基于相似性的三元组损失，这是三元组损失的一种变体[34]，以直接监督逐像素查询和用于计算等式中的注意力图的关键向量之间的亲和力（二）、建议的损失期计算如下：感知损失。如之前的工作[28]所示，感知损失[13]鼓励网络产生感知上合理的输出。这种损失会惩罚模型，以减少语义差距，这意味着生成的输出之间的中间激活图的差异，把我和我gt从ImageNet的地面真相[31]前，训练网我们使用多个感知损失-p-n层激活映射不仅反映高级语义，Ltr=max（0，[−S（vq，vk）+S（vq，vk）+γ]），（5）其中S（·，·）计算缩放的点积。GIV ENA抽搐，但也低级别的风格，Σ ΣΣ查询向量vq作为锚点，vp表示从正区域采样的特征向量，vk是负样本。γ表示余量，其是S（vq，vp）和S（vq，vn）应该保持的最小距离tr鼓励查询表示接近正确的（posi-tive）键表示，而惩罚远离错误的（负采样的）键表示。这种损失在直接强制执行我们的模型以找到语义匹配对并将参考颜色反映到核心中方面起着至关重要的作用。L=Eφ（I）−φ（I），（8）L其中φ1表示来自VGG19网络的在relu 11处的第1风格损失。Sajjadi等人。 [32]已经表明，风格损失缩小了激活图的协方差之间的差异给定φl∈RCl×Hl×Wl，计算响应位置。我们之所以采用三重态损失而不是通常的三重态损失，作为Lstyle=EΣΣ<$G（φl（I<$））−G（φl（Igt））<$1，1、（9）所使用的损失（例如L1损失）的一个缺点是，后者可能过度地使语义上接近但空间上远离的查询和关键像素对之间的亲和性（affinity）这种误导性的结果可以通过只惩罚两种情况来减轻：语义上最接近的对（正样本）和随机采样的，其中是一个gram矩阵。总之，发电机G的总损失函数并且，最小值最大值L总=λtrLtr+λrecLrec+λadvLadv它（负样本），这基本上是一个三重损失。我们进一步进行了用户研究，以比较效果G D+ λpercLperc +λstyleLstyle。（十）我们的三重损失与另一种可能的损失，即，L1-损失和没有监督。关于实验设置和结果的详细说明见补充材料第6.2节。L1损失。由于地面实况图像Igt是如第3.2节所生成的，因此我们可以直接将重建损失强加给3.5.实现细节我们在每个数据集上实现了我们的模型，输入图像的大小固定为256×256 对于训练，我们将每个损失函数的系数设置如下：λadv=1，λrec=30，λtr=1，（七）5806λperc=0。01，λstyle=50。我们5807→→ImageNet人脸漫画手绘方法猫狗车CelebATag2pixYumi边缘→鞋Sun等人 [35]第三十五届160.65168192.0075.66122.1472.45124.98Huang等人 [第十一届]281.44271.47258.36173.1276.00132.9086.43Lee等人 [21日]151.52172.2270.0768.4391.6563.34109.29Huang等人 [10个国家]257.39268.69165.84160.2297.40148.52190.16(a) 我们的，不含Ltr(b) 我们的满了77.3974.12109.49102.8354.0752.2353.5847.1547.6845.3451.3449.2979.8578.32表1：通过测量FID [9]评分对数据集与现有基线进行定量比较：评分越低越好。对于全部数据，设置三重态损失的裕度γ=12。我们使用Adam求解器[16]进行β1=0的优化。5，β2=0。999生成器和判别器的学习率初始设置为0。0001和0。0002每一个详细的网络体系结构在补充材料的第6.5节中描述。4. 实验本节展示了我们的方法在广泛领域数据集（第4.1节）上的优越性，包括真实照片、人脸和动漫（漫画）。我们新提出了一个评价指标，命名为SC-PSNR中描述的4.2节，以衡量忠实地反映风格的参考。之后，我们将我们的方法与相关任务的几个基线进行定量和定性比较（第4.3节）。我们的方法的深入分析在第4.4-4.5节中描述。4.1. 数据集Tag2pix数据集。我们使用Tag 2 pix数据集[15]，其中包含从Dan-booru 2017 [7]过滤的大型动漫插图，来训练我们的漫画领域模型。尽管这个数据集上有各种标签，但由于我们的自监督训练方案，我们只利用图像来训练模型。它由一个具有白色背景图像的字符对象组成。我们划分为54，317张图像用于训练，6036张图像用于测试，然后通过从测试集中随机抽样来组合源-参考对进行评估。Yumi数据集。像Yoo等人一样。 [40]，我们从名为Yumi数据集包含重复-在329集里出现了很多新的角色。由于字符种类有限，即使没有明确的字符监督，网络也需要我们随机分为7，014张图像的训练集和380张图像的测试集，然后从测试集中手动构建源引用对来评估模型的性能。SC-PSNR（dB）方法猫狗车Sun等人 [35]第三十五届9.6511.199.42Huang等人 [第十一届]10.3312.678.45Lee等人 [21日]11.5412.089.94Huang等人 [10个国家]9.259.497.77(a) 我们的，不含Ltr(b) 我们的满了12.7613.2313.7314.3710.5611.34表2：通过测量SC-PSNR（dB）评分，对SPair-71 k与现有基线进行定量比较：分数越高越好。SPair-71 k数据集。SPair-71 k数据集[27]（针对语义对应任务进行手动注释）由来自PASCAL 3D+ [37]和PASCAL VOC 2012 [5]的总计70，958对图像组成。我们选择了两个非刚性类别（猫，狗）和一个刚性类别（汽车），其中我们可以从ImageNet [31]收集足够的数据点。请注意，此数据集用于测量SC-PSNR（第节）。4.2）评分仅用于评价目的。ImageNet数据集。如上所述，我们收集对应于三个类别的子类（即，cat, dog, car) from ImageNet [31] datasetand use them for training data.每个类中的图像被随机分为两个分裂的近似比例为9：1的训练和vali- dation。人脸数据集。该方法同样适用于人脸领域的素描图像的彩色化。为了支持这一说法，我们利用CelebA [24]数据集，该数据集通常用于图像到图像的翻译或样式转换任务。训练和验证集与ImageNet数据集一样。鞋边数据集。我们使用Edges Shoes数据集，其中包含已广泛用于图像到图像转换任务的草图颜色鞋图像对[20，11]。这使得我们的方法和现有的不成对的图像到图像的翻译5808→Content Reference w/opushadvw/opushtripw/opushperc，pushstyleFull图5：一个定性的例子，展示了不同损失函数的有效性ImageNet人脸漫画手绘损失函数猫狗车CelebATag2pixYumi边缘→鞋L记录Lrec+ LadvLrec+ Ladv+ Lperc+ Lstyle82.1078.5677.39143.76110.86109.4968.4556.5454.0777.7054.7553.5858.0048.7147.6852.8651.9651.3491.1082.5579.85Lrec+ Ladv+ Lperc+ Lstyle+ Ltr74.12102.8352.2347.1545.3449.2978.32表3：根据第4.4节中描述的功能丧失术语消融的FID评分[9]。分数越低越好。方法。4.2. 评估指标语义对应的PSNR。这项工作提出了一种新的评价指标，以衡量如何忠实查询高最低模型在相应的区域中传输参考样式。在传统的自动彩色化设置中，其中地面实况图像是可用的，像素级评价度量，例如峰值信噪比（PSNR），已被广泛使用。然而，在基于引用的着色设置中，不存在既具有内容的形状又具有引用的样式的地面实况。语义对应PSNR（SC-PSNR）背后的关键思想是利用为关键点对齐任务创建的数据集[5，37，27]，从而提供块级地面实况。我们使用SPair-71 k数据集[27]，其中包含两个不同图像之间的语义对应注释该算法只利用两幅图像中对应关键点周围一定大小的块内的像素值来计算均方误差（MSE），然后利用MSE计算PSNR。我们将此测量称为SC-PSNR。图6示出了由最左边的图像查询的图像的第一和最后两个示例。图像的列表是按照用查询计算该图表明，该度量捕获两个图像的关键点区域之间的像素值的感知上合理的距离。Fre'chetInceptionDistance（FID）[9]. FID是一种用于评估生成模型性能的公知度量图6：不同颜色的点表示猫脸上的不同关键点注释，例如，眼睛和鼻子通过测量真实图像的特征空间表示与其生成的输出之间的Wasserstein-2距离。FID得分较低表明该模型生成的图像质量和多样性接近真实数据分布。4.3. 与基线的我们将我们的方法与最近基于深度学习的方法在各种类型的数据集上进行了定性和定量比较。基线不仅从着色任务[25，35]中选择，还从处理多模态图像生成的相关问题中选择，例如样本引导的图像转换[11，21]和风格转换[10]。图4显示了我们的模型和其他基线在5个不同数据集上的整体定性结果。数据集从ImageNet或人脸数据集等真实图像域到Edges Shoes，Yumi最左边的列和第二列分别是sketch和reference。在每个数据集上，我们的模型从参考图像中提取精确的颜色，并将它们注入草图中的相应位置…5809L前1顶部2前3前4名+0.650.130.140.080.230.290.390.090.840.010.120.310.40.220.070.910.040.180.060.75LLLL一例如，我们的模型将第三行中角色的脸用红色从参考中着色同样地，在第五排，鞋的内侧和鞋底被精心地填充有完全参考样本图像的颜色。我们在表1中报告了在7个不同数据集上计算的FID评分。我们的方法比现有的基线有很大的优势，表明我们的方法具有生成逼真和多样化图像的强大能力。我们的模型与三重损失的改进分数表明，TR通过直接监督语义对应在生成逼真的图像中起着有益的作用。表2列出了与第4.2节所述SC-PSNR评分相关的其他定量比较。我们仅在猫，狗和汽车数据集上测量SC-PSNR，这些数据集是属于ImageNet和SPair-71 k的子类[27]。我们的方法优于所有的基线模型，表明我们的模型是优越的建立视觉对应，然后产生合适的颜色。(a) 草图（b）参考（c）合成图像图7：我们注意力机制的可视化。（b）中的gion基于这种注意模式，我们的模型用蓝色适当地着色草图图像（c）中的人的左眼。对于不同草图和参考图像的可视化注意力图的其他示例，我们强烈建议读者查看图。14在补充材料的细节。我们对我们的模型和其他现有基线进行了用户研究，以进行人类评估，如图所示。8.详细的实验设置描述见第6.2在补充材料中。我们的模型占据了Top1和Top2投票的很大比例，这表明我们的方法更好地反映了参考的颜色，并且比其他基线生成了更真实的输出。我们的[10][21日][第十一届][35]第三十五届[25日]色彩质量和真实感前1顶部2前3前4名+我们的[10][21日][第十一届][35]第三十五届[25日]参考文献的详细反映4.4. 损失函数如图所示，我们分别消融损失函数以定性地分析函数的影响。5和定量，如表3所示。当我们删除adv时，输出图像包含背景中出现的不准确颜色，并且显着显得不切实际。如果没有tr，角色的头发，额头和尾巴的颜色是错误的颜色，甚至没有着色。表3第三行中的FID分数也表示模型产生了不切实际的输出。这种性能下降是由于缺乏监督，鼓励匹配内容和引用之间的语义接近的区域。当我们删除perc和style时，着色往往会产生渗色或视觉伪像，因为没有约束来惩罚模型输出和基础事实之间的语义完全损失生成的图像在其对应的颜色中具有精确的颜色更少的人工制品。4.5. 注意力地图图7示出了由我们的SCFT模块学习的注意力地图的示例。在该模块中，草图中的每个像素都用作查询，以从参考中检索相关的局部信息在左眼区域作为查询的情况下（（a）中的红色方块），我们可视化参考图像中的前三个高度关注的区域（突出显示的区域）。图8：用户研究结果。百分比值是我们实验的每个数据集的平均值。个体结果见第6.2节补充材料。5. 结论本文提出了一种新的训练方案，将增强自参考和基于注意力的特征迁移模块相结合，直接学习基于参考的草图着色任务的语义对应。评估结果表明，我们的SCFT模型在不同的数据集上表现出最先进的性能，这表明了在实践中的显着最后，提出了一种评价方法SC-PSNR，有效地衡量了模型是否真实地反映了样本的风格。鸣谢。这项工作得到了&&韩国政府（MSIT）资助的信息通信技术规划评估研究所（IITP）赠款（编号2019 -0-00075，人工智能研究生院计划（KAIST）），韩国政府资助的韩国国家研究基金会（NRF）赠款（MSIP）（编号2019 -0-00075，人工智能研究生院计划（KAIST））和韩国国家研究基金会（ NRF ）的部分支持。 NRF-2019 R1 A2C4070420），以及拥有包括技术支持在内的超级计算资源的国家超级计算中心（KSC- 2019-CRE-0133）。最后，我们感谢NAVER WEBTOON公司的所有研究人员。0.730.23 0.030.01 0.960.120.350.260.270.020.13 0.840.02 0.270.40.310.12 0.140.150.595810引用[1] Au re'lieBugeau，Vinh-ThongTa，andNico l asPapadakis. 基于变分样本的图像彩色化。IEEE Trans-actions on ImageProcessing，23（1）：298-307，2013。2[2] Guillaume Charpiat，Matthias Hofmann，and Bernhard Schoülkopf. 通过多模态预测的自动图像着色见ECCV，第126-139页，2008年。2[3] 陈文玲和詹姆斯·海斯。素描：从多样化的写实素描到图像合成.在CVPR中，第9416-9425页2[4] Alex Yong-Sang Chia 、 Shaojie Zhuo 、 Raj KumarGupta 、 Yu- Wing Tai 、 Siu-Yeung Cho 、 Ping Tan 和Stephen Lin。网络图像的语义着色TOG，30（6）：156：12[5] Mark Everingham 、 SM Ali Eslami 、 Luc Van Gool 、Christo-pherKIWilliams 、 JohnWinn 和 AndrewZisserman 。 Pascal Visual Object Classes Challenge ： ARetrospective.International Journal of Computer Vision，111（1）：98六、七[6] Raj Kumar Gupta ， Alex Yong-Sang Chia ， DeepuRajan，黄志勇。使用相似图像的图像着色。在MM，第369-378页，2012中。2[7] 亚伦·戈卡斯兰·格温·布兰文2017年丹博会：一个大规模的众包和标记的动漫插图数据集。https://www.gwern.net/Danbooru2017 ， 2018年。[在线; 2018年3月22日访问]。6[8] Mingming He ， Dongdong Chen ， Jing Liao ， Pedro VSander，and Lu Yuan.基于深度样本的着色。TOG，37（4）：47，2018. 2[9] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。参见NIPS，第6626-6637页，2017年。六、七[10] Xun Huang和Serge Belongie。实时任意样式传输，具有自适应实例规范化。在ICCV，第1501-1510页，2017年。六、七[11] Xun Huang ， Ming-Yu Liu ， Serge Belongie ， and JanKautz.多模态无监督图像到图像翻译。在ECCV，第172-189页，2018年。六、七[12] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and Alexei AEfros.使用条件对抗网络的图像到图像翻译。在CVPR中，第1125-1134页，2017年。5[13] 贾斯汀·约翰逊，亚历山大·阿拉希，李飞飞。实时风格转换和超分辨率的感知损失。ECCV，第694-711页，2016年。5[14] Hemant B Kekre和Sudeep D Thepade。颜色特征转移到灰度图像。2008年第一届工程和技术新兴趋势国际会议，第82-85页，2008年。2[15] Hyunsu Kim，Ho Young Jhoo，Eunhyeok Park，SungjooYoo.Tag2pix：使用带有secat和改变损失的文本标记的线条艺术着色。在ICCV，第9056-9065页，2019年。二、六[16] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。2015年，国际会议。6[17] Sasi Kiran Yelamarthi，Shiva Krishna Reddy，Ashish Mishra和Anurag Mittal。一个基于草图的零镜头图像检索框架。在ECCV，2018。25811[18] 古斯塔夫·拉尔森迈克尔·梅尔格雷戈里·沙赫纳洛维奇。学习自动着色的表示。ECCV，第577-593页，2016年。1[19] 古斯塔夫·拉尔森迈克尔·梅尔格雷戈里·沙赫纳洛维奇。着色作为视觉理解的代理任务。在CVPR中，第6874-6883页，2017年。1[20] 李欣英、曾鸿宇、黄佳斌、曼尼什·辛格和杨明轩。通过解纠缠的表示进行不同的图像到图像的翻译在ECCV，第35-51页6[21] Hsin-Ying Lee，Hong-Yu Tseng，Qi Mao，Jia-BinHuang，Yu-Ding Lu，Maneesh Singh，and Ming-Hsuan Yang. Drit++：通过解纠缠表示实现多样化的图像到图像翻译国际计算机视觉杂志，2020年。六、七[22] Fang Liu，Xiaoming Deng，Yu-Kun Lai，Yong-JinLiu，Cuixia Ma，and Hongan Wang.Sketchgan：与生成对抗网络联合完成草图和识别。在CVPR中，第5830-5839页，2019年。2[23] Xiaopei Liu，Liang Wan ，Yingge Qu，Tien-TsinWong，Stephen Lin，Chi-Sing Leung，and Pheng-Ann Heng.内在着色。TOG，27（5）：152：1-152：9，2008. 2[24] Ziwei Liu，Ping Luo，Xiaogang Wang，and XiaoouTang. 在野外深度学习人脸属性。在ICCV，第3730-3738页，2015中。1、6[25] llyasvielstyle2paints.https://github.com/lllyasviel/style2paints ， 2018. [ 在线 ;2018年3月22日访问]。二、七[26] 卢永义，吴尚哲，戴玉荣，唐志强。基于草图约束的图像生成.在ECCV中，第205-220页，2018年。2[27] Juhong Min，Jongmin Lee，Jean Ponce，and MinsuCho. Spair-71 k：语义对应的大规模基准arXiv预印本arXiv：1908.10543，2019。六七八[28] Kamyar Nazeri ， Eric Ng ， Tony Joseph ， FaisalQureshi，and Mehran Ebrahimi.边缘连接：基于边缘预测的结构引导图像修复。在IEEE计算机视觉研讨会国际会议论文集，第0-0页，2019年。二、五[29] Augustus Odena，Christopher Olah，and JonathonShlens.辅助分类器gans的条件图像合成ICML，第2642-2651页。JMLR。org，2017. 5[30] Olaf Ronneberger ， Philipp Fischer ， and ThomasBrox. U-net：用于生物医学图像分割的卷积网络。医学图像计算和计算机辅助干预国际会议，第234施普林格，2015年。3[31] Olga Russakovsky， Jia Deng，Hao Su，JonathanKrause ， San- jeev Satheesh ， Sean Ma ， ZhihengHuang，Andrej Karpathy，Aditya Khosla，MichaelBernstein，et al.图像网大规模视觉识别挑战。International Journal of Computer Vision ， 115（3）：211-252，2015. 一、五、六[32] Mehdi SM Sajjadi ， Bernhard Scholkopf ， andMichael Hirsch.增强网：通过自动纹理合成实现单张图像的超分辨率。在ICCV，第4491-4500页，2017年。55812[33] Patsorn Sangkloy，Jingwan Lu，Chen Fang，Fisher Yu，and James Hays. Scribbler：使用草图和颜色控制深度图像合成。在CVPR中，第5400-5409页，2017年。2[34] FlorianSchroffDmitryKalenichenkoJamesPhilbinFacenet：用于人脸识别和聚类的统一嵌入。在CVPR，第815-823页，2015年。5[35] 孙财和，赖建勋，黄世强，王玉顺。基于轮廓和颜色条件的图标对抗性着色在MM中，第683-691页，2019年。二六七[36] Ashish Vaswani， Noam Shazeer ， Niki Parmar ， JakobUszko-reit ， Llion Jones ， Aidan N Gomez ， ukaszKaiser，and Illia Polosukhin.注意力是你所需要的。参见NIPS，第5998二、四[37] Y.湘河，巴西-地Mottaghi和S. Savarese 超越Pascal：野外三维物体检测基准。2014年IEEE计算机视觉应用冬季会议（WACV），第75-82页，2014年。六、七[38] Tao Xu ， Pengchuan Zhang ， Quyuan Huang ， HanZhang ， Zhean ， Xiaeli Huang ， and Xiaodong He.Attngan：使用注意力生成对抗网络生成细粒度文本到图像。在CVPR中，第1316-1324页，2018年。5[39] 太赞米次油漆匠https：//paintschainer.preferred.tech/index_en.html，2017. [在线; 2018年3月22日访问]。2[40] Seungjoo Yoo、Hyojin Bahng、Sunghyo Chung、JunsooLee、Jaehyuk Chang和Jaegul Choo。使用有限数据着色：通过记忆增强网络的少量着色。在CVPR中，第11283-11292页，2019年。6[41] Bo Zhang，Mingming He，Jing Liao，Pedro V Sander，Lu Yuan，Amine Bermak，and Dong Chen.基于深度样本的视频彩色化。在CVPR中，第8052-8061页2[42]

下载后可阅读完整内容，剩余1页未读，立即下载