实例感知的图像彩色化方法

176 浏览量更新于2023-10-23 收藏 2.51MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1实例感知的图像彩色化苏正伟1朱宏国1黄家斌21国立清华大学2弗吉尼亚理工大学https://cgv.cs.nthu.edu.tw/projects/instaColorization图1. 实例感知着色。我们提出了一个实例感知的彩色化方法，能够产生自然和丰富多彩的在包含具有不同上下文的多个对象的大范围场景上产生结果（例如，车辆、人和人造物体）。摘要图像彩色化本质上是一个多模态不确定性的不适定问题。先前的方法利用深度神经网络将输入灰度图像直接映射到似然颜色输出。虽然这些基于学习的方法表现出了令人印象深刻的性能，但它们通常在包含多个对象的输入图像上失败。主要原因是现有模型对整个图像进行学习和着色。在缺乏清晰的图形-背景分离的情况下，这些模型不能有效地定位和学习有意义的对象级语义。在本文中，我们提出了一种实现实例感知着色的方法。我们的网络架构利用现成的对象检测器来获得裁剪的对象图像，并使用实例着色网络来提取对象级特征。我们使用类似的网络来提取全图像特征，并将融合模块应用于全对象级和图像级特征以预测最终颜色。着色网络和融合模块都是从大规模数据集学习的。实验结果表明，我们的工作优于现有的方法在不同的质量指标，并实现了国家的最先进的性能图像彩色化。1. 介绍灰度图像到彩色图像的自动转换是计算机视觉和图形学中一个令人兴奋的研究课题，它具有多种实际应用，如遗留照片/视频恢复或图像压缩。然而，从给定的单通道灰度图像预测两个缺失通道此外，着色任务可以是多模态的[3]，因为有多个合理的选择来着色对象（例如，车辆可以是白色、黑色、红色等）。因此，图像彩色化仍然是一个具有挑战性的，但有趣的研究问题，等待探索。传统的彩色化方法依赖于用户干预来提供一些指导，例如彩色涂鸦[20，12，35，26，22，31]或参考图像[34，14，3，9，21，5]，以获得满意的结果。随着深度学习的进步，越来越多的努力集中在利用深度神经网络和大规模数据集，如ImageNet [28]或COCO-Stuff [2]，以端到端的方式学习着色[4，13，17，38，41，15，42，11，8，27、6、24、1]。各种各样的网络架构已经被提出在训练或预测每像素颜色分布时解决图像级语义[13，17，38，42]以模拟多模态[17，38，42]。尽管这些基于学习的79687969(a) 输入（b）Deoldify [1]（c）Zhanget al.[41]（d）我们的图2. 现有方法的局限性。现有的基于学习的方法无法预测多个对象实例（如滑雪者（上）和车辆（下））的合理颜色。Deoldify [1]的结果（底部）也由于缺乏清晰的图形-背景分离而遭受上下文混淆（偏向绿色）。虽然这些方法在各种各样的图像上都显示出了显著的效果，但我们观察到现有的彩色化模型在杂乱背景中具有多个对象的图像上表现不佳（参见图2）。在本文中，我们解决了上述问题，并提出了一种新的深度学习框架来实现实例感知着色。我们的主要见解是，一个明确的图形-背景分离可以显着提高着色性能。由于以下两个原因，在实例级别执行着色是有效的。首先，与学习着色整个图像的前向方法不同，学习着色实例是一项非常容易的任务，因为它不需要处理复杂的背景杂波。第二，使用局部对象（例如，来自对象检测器）作为输入允许实例着色网络学习对象级表示以用于精确着色并避免与背景的颜色混淆。具体而言，我们的网络架构由三部分组成：（i）现成的预训练模型，用于检测对象实例并产生裁剪的对象图像;（ii）两个骨干网络分别进行端到端的训练，例如全图像着色;以及（iii）融合模块，用于选择性地混合从两个着色网络的层提取的特征。我们采用了三步训练，首先训练实例网络和全图像网络，然后训练融合模块与两个骨干锁定。我们使用来自Zhang等人的网络在三个公共数据集（Ima-geNet [28]，COCO-Stuff [2]和Places 205 [43]）上验证了我们的模型。[41]作为骨干。实验结果表明，我们的工作优于现有的- ING着色方法在所有数据集的质量指标。图1显示了通过我们的方法生成的样品着色结果我们的贡献如下：• 一种新的基于学习的全自动实例感知图像彩色化方法。• 一种新颖的网络架构，利用现成的模型来检测对象，并从大规模数据中学习，以在实例中提取图像特征，全图像级，并优化特征融合，以获得平滑的彩色化结果。• 对我们的方法进行了全面的评估，与基线进行比较，并达到了最先进的水平。表演。2. 相关工作基于涂鸦的彩色化。由于图像着色问题的多模态性质，早期的尝试依赖于附加的高级用户涂写（例如，色点或笔画）来引导着色过程[20，12，35，26，22，31]。这些方法通常将着色公式化为基于一些低级相似性度量传播用户指定的颜色涂鸦例如，Levinet al.[20]鼓励将类似颜色标记为具有类似亮度的相邻像素。几种后续方法通过边缘检测[12]减少颜色溢出，或通过纹理相似性[26，22]或内在距离[35]提高颜色传播的效率。这些方法可以生成令人信服的结果与用户提供的详细和仔细的指导提示。然而，这个过程是劳动密集型的。Zhang等人[41]通过将颜色提示与深度神经网络相结合，部分减轻了手动工作。基于示例的着色。为了减少密集的用户努力，几个作品着色输入灰度IM-7970i=1i=1JJ年龄与从用户指定的参考图像传输的颜色统计数据或从Inter.net [34，14，3，9，21，5，11].这些方法计算基于在像素级[34，21]、语义段级[14，3]或超像素级[9，5]测量的一些低级相似性度量来确定参考图像和输入图像之间的对应关系。这些方法的性能高度依赖于参考图像与输入灰度图像的相似程度。然而，即使在自动检索系统的帮助下，找到合适的参考图像也是一项重要的任务[5]。因此，这种方法仍然依赖于图像区域的手动注释[14，5]。为了解决这些问题，最近的进展包括从大规模数据集学习映射和着色[11]以及扩展到视频着色[36]。基于学习的着色近年来，利用机器学习来自动化着色过程受到了越来越多的关注[7，4，13，17，38，41，15，42]。在现有的工作中，深度卷积神经网络已经成为从大规模数据集（例如，ImageNet [28]）。已经提出了各种网络架构来处理令人信服的着色的两个关键要素：语义和多模态[3]。为了对语义进行建模，Iizukaet al. [13]和Zhao etal.[42]提出了一种联合学习和融合局部图像特征和全局先验（例如，语义标签）。Zhang等人[38]采用跨信道编码方案来提供语义可解释性，这也由Larsson等人实现。[17]他们预先训练了他们的网络来完成分类任务。为了处理多模态，一些工作提出预测每像素颜色分布[17，38，42]而不是单一颜色。这些作品在中等复杂度的图像上取得了令人印象深刻的性能，但在处理具有多个前景对象的复杂图像时仍然会出现视觉伪影，如图2所示。我们的观察是，无论是图像级[13，38，17]还是像素级[42]的语义学习都不能充分建模对象的外观变化。因此，我们的工作通过在裁剪的对象图像上进行训练来学习对象级语义，然后融合学习的对象级和全图像特征以提高自我监督表示学习（ Self-Supervised RepresentationLearning）我们的目标不是学习一种能够很好地推广到对象检测/分割的表示，而是专注于利用现成的预训练对象检测器来改善图像着色。实例感知的图像合成和操作。实例感知处理提供了清晰的图形-背景分离，并且便于合成和操纵视觉外观。这种方法已成功应用于图像生成[30]，图像到图像的转换[23，29，25]和语义图像合成[33]。我们的工作利用了与这些方法相似的高级思想，但在以下三个方面有所不同。首先，与仅关注单个实例的DA-GAN [23]和FineGAN [30]不同，我们的方法能够通过提出的特征融合模块处理具有多个其次，与顺序处理非重叠实例的InstaGAN [25]相比，我们的方法同时考虑所有潜在的重叠实例并产生空间相干着色。第三，与使用实例边界来提高合成质量的Pix2PixHD [33]相比，我们的工作使用学习的权重图来混合来自多个实例的特征。3. 概述该系统以灰度图像X∈RH×W×1为输入，以端到端的方式预测其在CIE L空间中缺失的两个颜色通道Y∈RH×W×2图3说明了我们的网络体系结构.首先，我们利用现成的预训练对象检测器，用于从灰度图像获得多个对象边界框{Bi}N，其中N是实例的数量然后，我们通过使用检测到的边界对从灰度图像裁剪的图像进行插值来生成一组实例图像{X i}N。包装盒（第4.1节）。接下来，我们将每个实例图像Xi和输入灰度图像X分别馈送到实例着色网络和全图像着色网络这两个网络共享相同的架构（但权重不同）。我们将第j个网络层处的实例图像Xi和灰度图像X的提取的特征图表示为fXi和fX（第4.2节）。最后，我们采用一种融合任何现成的彩色化网络。JJ融合所有实例特征的模块{fXi}N与j i=1用于视觉表征学习的着色。 colorization已被用作学习视觉表征[17，38，18，39]和视觉跟踪[32]的代理任务。通过彩色化的学习表示已被证明可以很好地转移到其他下游视觉识别任务，如图像分类，对象检测和分割。我们的工作灵感来自这条线的重新-每层的全图像特征fX。第j层r处的融合的全图像特征（表示为f×r ）然后被馈送以j+1层。重复此步骤，直到最后一层和ob。得到预测彩色图像Y（第4.3节）。我们采用了一种顺序的方法，首先训练全图像网络，其次是实例网络，最后通过冻结以上两个网络来训练7971我JJJ我对象检测（第4.1节）实例着色（第4.2节）损失XiYiYGT{Xi}Ni=1融合模块（第4.3节）我损失B我输入X（第4.2节）全图像彩色化YYGT图3. 方法概述。给定灰度图像X作为输入，我们的模型从使用现成的对象检测模型检测对象边界框（Bi然后，我们通过Bi裁剪出每个检测到的实例Xi，并使用实例着色网络对Xi进行着色。然而，由于实例的颜色可能与预测的背景颜色不兼容，我们建议使用所提出的融合模块将每层中的所有实例的特征图与提取的全图像特征图融合。因此，我们可以获得全局一致的着色结果Y。我们的训练过程依次训练我们的全图像彩色化网络，实例彩色化网络和建议的融合模块。4. 方法4.1. 对象检测我们的方法利用检测到的对象实例来改进图像着色。为此，我们采用现成的预训练网络Mask R-CNN[10]作为我们的对象检测器。在检测到每个对象将图像裁剪为256× 256的分辨率4.2. 图像彩色化主干4.3. 融合模块在这里，我们讨论如何将全图像特征与多个实例特征融合，以实现更好的彩色化。图4显示了我们的融合模块的架构由于融合发生在彩色化网络的多个层上，为了简单起见，我们只给出第j层的融合模块将模块应用到所有其他层是很简单的。融合模块接收输入：（1）一个完整的图像特征f X;（2）一堆实例特征和相应的对象边界框{fXi，Bi}N。对于两种类型的fea-如图3所示，我们的网络架构包含着色网络的两个分支，一个用于着色实例图像，另一个用于着色完整图像。j i=1因此，我们设计了一个小型的神经网络与三个卷积-图10示出了用于预测全图像权重图W_F和每实例权重图W_i的实例层。融合每实例特征fXi年龄我们选择这两个网络的架构，它们具有相同的层数以便于特征融合（在下一部分中讨论）。在这项工作中，我们采用的主要彩色化网络介绍了张等人。[41] I'm sorry.虽然这两个着色网络可以单独预测彩色实例图像Yi和完整图像Y，但我们发现，对于全图像特征fX，我们利用定义实例的大小和位置的输入边界框Bi。具体来说，我们调整实例特征fXi的大小，权重图Wi匹配全图像的大小，并在两者上进行零填充我们把它的大小调整为-站姿特征和权重映射为f<$Xi和W<$i。之后我们J I结果由于不一致而重叠的像素。在下面的部分中，我们将详细介绍如何将中间特征图从堆叠所有权重图，在每个像素上应用softmax，使用如下的加权和来获得融合特征：实例网络和全映像网络，XXN ¯X¯i和相干着色。fj = f j WF+∑fjii=17972我J全图像特征（fX）JSoftmax正常化全图权重地图（西法）总结调整大小和零填充实例特征（{fXi}N）Ji=1实例权重地图（Wi）我边界箱（Bi）融合特征（fX）J图4. 特征融合模块。给定完整图像特征fX和一堆实例特征{fXi}N从第j层的JJi= 1在彩色化网络中，我们首先通过一个具有三个卷积的预测相应的权重图WF和Wi，层。实例特征和权重图都被调整大小，用零填充以匹配原始大小和完整图像中的局部因此，使用重定向特征的加权和来计算最终融合特征f X f（参见等式1）。其中N是实例的数量。4.4. 损失函数与训练继Zhanget al.[41]中，我们采用δ=1的平滑损失，如下所示：δ（x，y）=1（x−y）21l{|x−y|<0}+0}（|x−y|−1δ）1l{|x−y|>δ}（二）5.1. 实验环境数据集。我们使用三个数据集进行训练和评估。ImageNet[28]：ImageNet数据集已被许多现有的着色方法用作性能评估的基准。我们使用原始的训练分割（1.3百万张图像）来训练所有模型，并使用[17]提供的测试分割（ctest10k），其中10，000张图像用于2 2评价。我们按如下顺序训练整个网络。首先，我们训练全图像彩色化，并将学习到的权重传递到实例彩色化网络的初始化。然后我们训练实例着色网络。最后，我们冻结全图像模型和实例模型中的权重，并继续训练融合模块。5. 实验在本节中，我们提出了广泛的实验结果，以验证所提出的实例感知着色算法。我们首先描述实验中使用的数据集、性能评估指标和实现细节（第5.1节）。然后，我们报告了三个大规模数据集的定量评估，并将我们的结果与最先进的彩色化方法进行了比较（第5.2节）。我们展示了几个具有挑战性的图像的样本着色结果（第5.3节）。我们进行了三项消融研究，以验证我们的设计选择（第5.4节）。除了标准的性能基准测试，我们还演示了传统黑白照片彩色化的应用（第5.6节）。我们用我们的方法失败的例子来结束这一节（5.7节）。请参考项目网页的数据集，源代码和其他视觉比较。COCO-Stuff[2]：与ImageNet数据集中以对象为中心的图像相比，COCO-Stuff数据集包含各种各样的自然场景，图像中存在多个对象有118K个图像（每个图像都与边界框、实例分割和语义分割注释相关联）。我们使用原始验证集中的5，000张图像进行评估。Places205[43]：为了研究着色方法在来自不同数据集的图像上的表现，我们使用Places205中的20，500张测试图像（来自205个类别）进行评估。请注意，我们仅使用Place205数据集来评估可转移性。我们不使用它的训练集和场景类别标签进行训练。评估指标。根据现有的彩色化方法的实验协议，我们报告的PSNR和SSIM量化的彩色化质量。为了计算彩色图像上的SSIM，我们对从各个通道计算的SSIM值进行平均。我们进一步使用张等人最近提出的感知度量LPIPS。 [40]（版本0.1;具有VGG骨架）。培训详情。我们采用三个步骤的培训过程在ImageNet数据集上，如下所示。(1)全图像彩色化网络：我们使用[41]提供的预训练权重初始化网络。我们以1 e-5的学习率训练网络两个时期。(2)实例着色网络：我们从7973表1. 在全图像水平上进行定量比较。第一个块中的方法是使用ImageNet数据集训练的。符号表示在COCO-Stuff训练集上微调的方法方法Imagenet ctest10k COCOStuff验证分割Places205验证分割从上面的训练的全图像着色网络中提取预训练的权重，并在从数据集提取的实例上以5e-5的学习率微调五个时期的模型。(3)融合模块：一旦完整图像和实例网络都被训练好（即，预热），我们将它们与建议的融合模块。我们微调所有的可训练参数为2个时期的学习表2. 实例级别的定量比较。第一个块中的方法是使用ImageNet数据集训练的符号表示在COCO-Stuff训练集上微调的方法。方法COCOStuff验证分割LPIPS↓PSNR↑SSIM↑lizuka等人[13] 0.192 23.4442 E-5的比率。在我们的实现中，改变的数量-Larsson等人[17个]0.17925.2490.914全图像特征、实例特征和融合特征的融合Zhang等人[38个]0.21922.2130.877在所有13层中，64，128，256，512，512，512，256，Zhang等人[41个]0.15426.4470.918256、128、128和128。Deoldify等。[1]第一章0.17423.9230.904在所有的培训过程中，我们使用ADAM opti-Lei等人[19个]0.17724.9140.908mizer[16]，其中β1= 0。99，β2= 0。999. 为了训练我们0.11528.3390.929我们将所有图像的分辨率调整为256× 256。火车-在ImageNet上运行模型大约需要三天时间，台式机，配备一个RTX 2080Ti GPU。5.2. 定量比较与最先进技术的比较。我们在表1中报告了三个数据集的定量比较。结果的第一个块显示了在Ima-geNet数据集上训练的模型。我们的实例感知模型在所有三个数据集上都优于几种最近的方法[13，18，38，41，1，19]，突出了我们方法的有效性。请注意，我们采用了自动版本Zhanget al. [41]（即，而不使用任何颜色引导）。在第二块中，我们展示了使用我们的模型在COCO-Stuff训练集上微调的结果（用“*”表示）。由于COCO-Stuff数据集包含更多样化和更具挑战性的场景，我们的结果表明，对COCO-Stuff数据集进行微调可以进一步提高其他两个数据集的性能也为了突出所提出的实例感知着色模块的有效性，我们还报告了Zhang等人的结果。[41]在同一数据集上进行微调作为公平比较的有力基准。为了评估实例级别的性能，我们采用全图像地面实况/预测并裁剪实例，Zhang等人[41]* 0.149我们的 *0.095 29.522 0.938使地面实况边界框形成实例级地面实况/预测。表2总结了通过对COCO-Stuff数据集上的所有实例进行平均计算得出的性能。结果表明，我们的方法在所有指标上都获得了显着的性能提升，这进一步突出了实例感知着色对提高性能的贡献。用户研究。我们进行了一项用户研究，以量化用户对我们的方法和另外两个强基线生成的着色结果的偏好。[37]（在COCO-Stuff数据集上进行了微调）和流行的在线着色方法DeOldify [1]。我们从COCO-Stuff验证数据集中随机选择100张图像。对于每个参与者，我们向他/她展示一对彩色结果，并询问偏好（强制选择比较）。我们共有24位参加者，共投了2400票。结果表明，平均而言，我们的方法是首选相比，张等人。[37] （ 61% vs. 39% ）和 DeOldify [1] （ 72% v.s.28%）。有趣的是，虽然DeOld-ify在基准实验中没有产生准确的着色，但饱和着色的结果是LPIPS↓PSNR↑SSIM↑LPIPS↓PSNR↑SSIM↑LPIPS↓PSNR↑SSIM↑lizuka等人[13个国家]0.20023.6360.9170.18523.8630.9220.14625.5810.950Larsson等人[17个]0.18825.1070.9270.18325.0610.9300.16125.7220.951Zhang等人[38个]0.23821.7910.8920.23421.8380.8950.20522.5810.921Zhang等人[41个]0.14526.1660.9320.13826.8230.9370.14925.8230.948Deoldify等。[1]第一章0.18723.5370.9140.18023.6920.9200.16123.9830.939Lei等人[19个]0.20224.5220.9170.19124.5880.9220.17525.0720.942我们0.13426.9800.9330.12527.7770.9400.13027.1670.954Zhang等人[41]*0.14026.4820.9320.12827.2510.9380.15325.7200.947我们的 *0.12527.5620.9370.11028.5920.9440.12027.8000.9577974(a) 投入（b）Iizuka等人[13个国家](c)Larrson等人[18]（d）Deoldify [1]（e）Zhanget al.[41]（f）我们的图5。与最先进的视觉对比。我们的方法从具有多个对象实例的复杂场景中预测视觉上令人愉悦的颜色。有时更受用户喜爱。5.3. 视觉结果与最新技术水平的比较。图5显示了COCO-Stuff与其他竞争基线方法的样本比较。总的来说，我们观察到视觉质量的持续改善，特别是对于具有多个实例的场景。可视化融合网络。图6显示了在多个级别融合实例级和全图级特征我们表明，所提出的实例感知处理导致复杂场景的视觉质量得到改善。5.4. 消融研究在此，我们进行了消融研究，以验证表3中模型中的几个重要设计选择。在所有消融研究实验中，我们使用COCO-Stuff验证数据集。首先，我们证明了将从实例网络提取的特征与全图像网络融合可以提高性能。融合功能的编码器和解码器执行最好的第二，我们探索不同的策略。输入层3层7层10Zhang等人[41]我们的成果图6. 可视化融合网络。第3层、第7层和第10层中的可视化加权掩码表明，我们的模型能够自适应地混合不同层的特征Fus-使用实例级功能有助于改进彩色化。选择对象边界框作为实例网络的输入。结果表明，我们的默认设置-7975表3. 消融术。我们通过与几个替代方案的比较来验证我们的设计选择。(a) 不同融合部件(b) 不同的边界框选择(c) 不同加权和加权和COCOStuff验证分割LPIPS↓PSNR↑SSIM↑信箱掩码0.14026.4560.932G.T. 掩模0.19924.2430.921融合模块根据由对象检测器返回的置信度分数选择前八个边界框的排序执行得最好，并且比使用地面实况边界框稍好。第三，我们实验了两种替代方法（使用检测到的盒子作为掩码或使用COCO-Stuff数据集中提供的地面实况实例掩码），用于融合来自多个潜在重叠对象实例的特征和来自全图像网络的特征使用我们的融合模块获得了显着的性能提升比其他两个选项。这显示了我们的融合模块的能力，以解决更具有挑战性的情况下，多个重叠的对象。5.5. 运行时分析我们的着色网络包括两个步骤：（1）对单个实例进行着色并输出实例特征;（2）将实例特征融合到全图像特征中并产生全图像着色。使用配备Intel i9- 7900X 3.30GHz CPU、32 GB内存和NVIDIA RTX 2080 tiGPU的机器，对于分辨率为256× 256的图像，整个实验的时间为0.187s。两个步骤中的每一个都占用大约50%的运行时间，而步骤1的复杂度与输入实例的数量成正比，范围从0.013 s（一个实例）到0.1 s（八个实例）。我们的结果图7. 为传统照片上色。中间一列显示了专家手动着色的结果。（a）缺失检测（b）叠加检测图8. 故障案例。（左）当检测中丢失大量花瓶时，我们的模型恢复到全图像彩色化（右）当有许多叠加的对象边界框时，融合模块可能会感到困惑。5.6. 彩色遗产黑白照片我们应用我们的彩色化模型来彩色化传统的黑白照片。图7示出了样本结果以及人类专家1的手动着色结果。5.7. 失效模式我们在图8中显示了两个失败案例。当没有检测到实例时，我们的模型恢复到全图像着色网络。因此，我们的方法可能会产生可见的文物，如褪色的颜色或出血跨越对象的边界。6. 结论我们提出了一种新的实例感知图像彩色化。通过利用现成的对象检测模型来裁剪图像，我们的架构从实例分支和完整图像分支中提取特征，然后我们将它们与我们新提出的融合模块进行融合，并获得更好的特征图以预测更好的结果。通过大量的实验，我们表明，我们的工作相比，优于现有的方法在三个基准数据集。鸣谢。该项目的部分资金来自台湾科技部（108-2218-E-007 - 050- and 107-2221-E-007-088-MY 3）。1bit.ly/color_history_photos融合部分编码器解码器COCOStuff验证分割LPIPS ↓PSNR ↑SSIM↑框选择COCOStuff验证分割LPIPS ↓PSNR ↑SSIM↑××0.12827.2510.938选择前8名0.11028.5920.944C×0.12028.1460.942随机选择80.11328.3860.943×C0.11727.9590.941按阈值0.11728.1390.942CC0.11028.5920.944G.T.边界框0.11128.4700.9447976引用[1] 杰森·安提克jantic/deoldify：一个基于深度学习的项目，用于着色和恢复旧图像（和视频！） .https://github.com/jantic/DeOldify ， 2019年。在线;访问：2019-10-16. 一、二、六、七[2] Holger Caesar Jasper Uijlings 和 Vittorio Ferrari 可可 - 东西：上下文中的事物和东西类。在CVPR，2018年。一、二、五[3] Guillaume Charpiat，Matthias Hofmann，and Bernhard Schoülkopf. 通过多模态预测的自动图像着色ECCV，2008年。第1、3条[4] 泽州丞、庆雄杨、宾胜。深着色。在ICCV，2015年。第1、3条[5] Alex Yong-Sang Chia 、 Shaojie Zhuo 、 Raj KumarGupta 、 Yu- Wing Tai 、 Siu-Yeung Cho 、 Ping Tan 和Stephen Lin。网络图像的语义着色。ACM TOG（Proc.SIGGRAPH Asia），30（6）：156：1-156：8，2011。第1、3条[6] Aditya Deshpande，Jiajun Lu，Mao-Chuang Yeh，MinJin Chong，and David Forsyth.学习多样化的图像着色。在CVPR，2017年。1[7] Aditya Deshpande，Jason Rock和David Forsyth。学习大规模自动图像着色。在ICCV，2015年。3[8] Sergio Guadarrama ， Ryan Dahl ， David Bieber ，Mohammad Norouzi，Jonathe Shlens和Kevin Murphy。Pixcolor：像素递归着色。在BMVC，2017年。1[9] Raj Kumar Gupta 、 Alex Yong-Sang Chia 、 DeepuRajan、Ee Sin Ng和Huang Zhiyong。使用相似图像的图像着色。在MM，2012年。第1、3条[10] Kai m ingHe，Geo r giaGkioxari，PiotrDoll a'r，andRossB.娘娘腔。面具R-CNN。InICCV，2017. 4[11] 何明明，陈东东，廖静，Pedro V.桑德，陆渊。基于深度样本的着色。ACM TOG（Proc. SIGGRAPH），37（4）：47：1-47：16，2018。第1、3条[12] Yi-Chin Huang，Yi-Shin Tung，Jun-Cheng Chen，Sung-Wen Wang，and Ja-Ling Wu.一种基于自适应边缘检测的彩色化算法及其应用。ACM MM，2005年。一、二[13] Satoshi Iizuka，Edgar Simo-Serra，and Hiroshi Ishikawa.要有颜色！：全局和局部图像先验的联合端到端学习，用于自动图像着色和同步分类。ACM TOG（Proc.SIGGRAPH），35（4）：110：1-110：11，2016。一、三、六、七[14] Revital Irony，Daniel Cohen-Or，and Dani Lischinski.以榜样为荣。EGSR，2005年。第1、3条[15] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and Alexei AEfros.使用条件对抗网络的图像到图像翻译。在CVPR，2017年。第1、3条[16] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。2015. 6[17] 古斯塔夫·拉尔森迈克尔·梅尔格雷戈里·沙赫纳洛维奇。学习自动着色的表示。在ECCV，2016年。一二三五六[18] 古斯塔夫·拉尔森迈克尔·梅尔格雷戈里·沙赫纳洛维奇。着色作为视觉理解的代理任务。在CVPR，2017年。三六七7977[19] 李晨阳和陈奇峰。全自动视频着色与自我正规化和多样性。在CVPR，2019年。6[20] Anat Levin，Dani Lischinski和Yair Weiss。使用优化着色。ACM TOG（Proc. SIGGRAPH），23（3）：689-694，2004. 一、二[21] Xiaopei Liu ， Liang Wan ， Yingge Qu ， Tien-TsinWong ， Stephen Lin ， Chi-Sing Leung ， and Pheng-Ann Heng. 固有彩色化。 ACM TOG （ Proc.SIGGRAPH Asia），27（5）：152：1-152：9，2008年。第1、3条[22] 青鸾，方文，丹尼尔·科恩-奥尔，林亮，徐英青，沈向阳。自然图像着色。载于EGSR，2007年。一、二[23] Shuang Ma，Jianlong Fu，Chang Wen Chen，and TaoMei. Da-gan：深度注意力生成对抗网络的实例级图像翻译。在CVPR，2018年。3[24] Safa Messaoud、David Forsyth和Alexander G.施温结构的一致性和可控性，为不同的着色。在ECCV，2018。1[25] Sangwoo Mo Minsu Cho和Jinwoo Shin。 Instagram：实例感知的图像到图像转换。2019. 3[26] Yingge Qu，Tien-Tsin Wong，and Pheng-Ann Heng.漫画着色。 ACM TOG （ Proc. SIGGRAPH ）， 25（3）：1214- 1220，2006. 一、二[27] Amelie Royer，Alexander Kolesnikov和Christoph H.蓝伯特概率图像着色。在BMVC，2017年。1[28] Olga Russakovsky ， Jia Deng ， Hao Su ， JonathanKrause ， San- jeev Satheesh ， Sean Ma ， ZhihengHuang ， Andrej Karpathy ， Aditya Khosla ， MichaelBernstein，Alexander C.伯格和李飞飞。ImageNet大规模视觉识别挑战。IJCV，115（3）：211-252，2015. 一、二、三、五[29] Zhiqiang Shen ， Mingyang Huang ， Jianping Shi ，Xiangyang Xue，and Thomas Huang.面向实例级图像到图像翻译。在CVPR，2019年。3[30] Krishna Kumar Singh、Utkarsh Ojha和Yong Jae Lee。Finegan：用于细粒度对象生成和发现的无监督分层解缠。在CVPR，2019年。3[31] 丹尼尔·斯科拉，约翰·丁利亚纳，史蒂文·柯林斯。Lazy- brush：灵活的绘画工具，手绘卡通。InCGH，2009. 一、二[32] Carl Vondrick、Abhinav Shrivastava、Alireza Fathi、Sergio Guadarrama和Kevin Murphy。通过对视频进行着色来实现跟踪。在ECCV，2018。3[33] Ting-Chun Wang ， Ming-Yu Liu ， Jun-Yan Zhu ，Andrew Tao，Jan Kautz，and Bryan Catanzaro.用条件gans实现高分辨率图像在CVPR，2018年。3[34] Tomihisa Welsh ， Michael Ashikhmin ， and KlausMueller.将颜色转换为灰度图像。ACM TOG（Proc.SIGGRAPH），21（3）：277-280，2002. 第1、3条[35] L. Yatziv和G.萨皮罗使用色度混合的快速图像和视频彩色化。TIP，15（5）：1120-1129，2006. 一、二[36] 张波，何明明，廖静，Pedro V.桑德、陆远、阿明·贝尔马克、陈冬。基于深度样本的视频彩色化。在CVPR，2019年。37978[37] Lvmin Zhang，Chengze Li，Tien-Tsin Wong，Yi Ji，and Chunping Liu.两阶段草图着色。ACM TOG（Proc.SIGGRAPH Asia ）， 37 （ 6 ）： 261 ： 1-261 ： 14 ，2018。6[38] Richard Zhang、Phillip Isola和Alexei A Efros。彩色图像着色。在ECCV，2016年。一、三、六[39] Richard Zhang、Phillip Isola和Alexei A Efros。裂脑自动编码器：通过跨通道预测的无监督学习。在CVPR，2017年。3[40] Richard Zhang 、 Phillip Isola 、 Alexei A Efros 、 EliShechtman和Oliver Wang。深度特征作为感知度量的不合理有效性。在CVPR，2018年。5[41] 作者： Richard Zhang ， Jun-Yan Zhu ， Phillip Isola ，Xinyang Geng，Angela S. Lin，Tianhe Yu，and Alexei A.埃夫罗斯实时用户引导的图像着色与学习的深度pri-ors。ACM TOG（Proc. SIGGRAPH），36（4）：119：1-119：11，2017。一、二、三、四、五、六、七[42] J. 赵湖，加-地Liu，C.G. M. Snoek，J.Han和L.邵像素级语义指导的图像彩色化。在BMVC，2018年。第1、3条[43] Bolei Zhou，Agata Lapedriza，Jianxiong Xiao，AntonioTorralba，and Aude Oliva.使用地点数据库学习用于场景识别的深度特征。在NIPS，2014。二、五

下载后可阅读完整内容，剩余1页未读，立即下载