图像彩色化综述：从类比到深度学习

128 浏览量更新于2024-01-24 收藏 2.45MB PDF 举报

深度学习

生成对抗网络

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

视觉信息学6（2022）51图像和视频彩色化综述：从类比到深度学习陈淑玉a，张佳琪b，赵友友c，刘伟。罗辛d，赖玉坤d，高林a，阿娥，a中国科学院计算技术研究所移动计算与普适设备北京市重点实验室b中国北京航空航天大学加州大学圣克鲁兹分校d英国威尔士加的夫大学中国科学院北京大学ar t i cl e i nf o文章历史记录：2021年12月6日收到收到修订版，2022年4月11日接受，2022年2022年6月8日网上发售保留字：图像彩色化素描彩色化漫画彩色化a b st ra ct图像彩色化是计算机图形学中的一个经典而重要的课题，其目的是给单色输入图像添加颜色以产生彩色结果。本文按时间顺序介绍了彩色化研究的历史，并总结了该领域的流行算法彩色化的早期在过去的几年里，研究人员已经考虑了更多的可能性，例如将着色与自然语言处理（NLP）相结合，并更多地关注工业应用。为了更好地控制颜色，设计了各种类型的颜色控制，例如提供参考图像或颜色涂鸦。我们已经创建了一个分类的彩色化方法，根据输入类型，分为灰度，基于草图和混合。每种算法的利弊都进行了讨论，根据其主要特征进行比较。最后，我们将讨论深度学习，特别是生成对抗网络（GANs）如何改变这一领域。版权所有©2022作者。由爱思唯尔公司出版我代表浙江大学和浙江大学出版社有限公司这是一个在CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍色彩在人类认知世界的过程中起着非常重要的作用，丰富的色彩不仅可以表达更多的信息，还可以增强人类的视觉体验。图像彩色化是数字图像处理领域中一个非常活跃的研究课题，是计算机视觉、计算机图形学、模式识别和人机交互等多学科交叉的彩色化在灰度照片彩色化、旧胶片彩色恢复、卡通自动彩色化等领域有着广泛的应用。根据需要着色的输入类型的不同，着色方法可以分为两大类，一类是灰度图像和黑白视频的着色，黑白视频是没有颜色的普通照片;另一类是单色艺术形式的着色，包括素描图像（或线条艺术图像）、漫画（或连环画）和黑白卡通（或线条艺术视频）。见图 1为例。我们可以看到通讯作者：中国科学院计算技术研究所，移动计算与普适设备北京市重点实验室。电子邮件地址：gaolin@ict.ac.cn（L. Gao）。https://doi.org/10.1016/j.visinf.2022.05.003灰度图像包含丰富的强度细节，而草图图像（或其他艺术形式）仅包含相对稀疏的细节。因此，研究人员在处理不同类别的输入图像时，通常采用不同的处理方法。对于灰度图像的彩色化，大多数方法将图像转换为YUV或Lab颜色空间（Cheng et al. ，2015;Zhang et al. ，2016），并且基于亮度通道的相似性来恢复要着色的图像的色度通道的值（Levin et al. ，2004）。对于黑白视频，大多数模型使用来自视觉跟踪过程的无监督或自监督学习来跟踪对象的位置在不同的帧中，并将相应的像素链接在一起，以基于用户提供的参考照片或基于数据驱动的深度学习技术对其进行草图图像的彩色化通常涉及将其分割成不同的区域（Sato etal. ，2014），并且基于学习模型将颜色分配给每个片段，其中颜色信息可以来自参考图像、用户的颜色涂鸦或输入文本提示。虽然基于灰度的彩色化方法可以直接用于预测草图图像中每个像素的颜色值，但由于缺乏纹理信息，它们通常没有很好的性能。因此，需要基于草图的彩色化方法来为线特征提取和区域边界确定提出新的解决方案，例如研究时间2468- 502 X/©2022作者。由爱思唯尔公司出版代表浙江大学和浙江大学出版社。公司这是一个在CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表视觉信息学期刊主页：www.elsevier.com/locate/visinfS.- Y. 陈杰Q. 张玉-Y. Zhao等人视觉信息学6（2022）5152图1.一、适合彩色化的典型图像类别。图二. 图像彩色化方法的时间轴。不同的线条颜色表示具有不同控制类型的方法，如右上角所示。不同行类型表示不同类型的输入，如左上角所示。从这个时间轴，可以看出，输入数据从灰度图像到漫画再到草图，显示了数据处理的难度。与灰度图像相比，草图图像是稀疏的，仅从线条获得的信息可能是模糊的。早期的方法是基于参考图像，然后引入用户交互，最后是全自动着色。和行之间的语义关系（Zhang et al. ，2018a; Yang et al. ，2021; Ge et al. ，2022）。一般来说，传统的彩色化方法需要大量的人工交互，并且通常对方法的参数设置敏感因此，添加手动交互和参数优化将花费大量时间和精力。特别是在灰度视频或卡通电影彩色化中，即使是一部短片通常也有数千张图像需要处理。为了提高效率，使用DCNN（深度卷积神经网络）（Krizhevsky et al. ，2012）来建立模型或GAN（生成对抗网络）（Goodfellow et al. ，2014年）是最近的方法中最常用的方法。两大大提高了图像的彩色化效果和效率。机遇与挑战并存，深度学习技术的发展为图像彩色化工作带来了新的方向。若干重大挑战依然存在。有些方法只能在一定的条件下使用，而且存在一定的缺陷。例如，彩色化方法只能处理灰度图像，或者模型需要提供合适的参考彩色图像。有些模型需要识别图像中的不同对象，然后制定出合适的颜色，但特别是素描图像的彩色化，模型很难理解素描图像，学习不同的艺术风格。现有的调查（Anwar et al. ，2020）主要总结了执行灰度图像的着色的工作和用于着色的数据集。然而，彩色化的任务不仅限于灰度图像，还包括漫画和草图。在本文中，我们将总结和讨论不同的着色方法，从三个类别，包括他们的优点和缺点，给一个概述，应该是有用的研究人员和从业人员。2. 概述本文根据待着色的输入图像的不同类型，将现有的彩色化研究工作分为以下三个部分。在第三节中，我们主要介绍了灰度图像的彩色化方法，这些方法进一步分为三个子类：全自动彩色化方法，基于颜色笔划或参考图像的半自动彩色化方法，和文本驱动的图像彩色化方法。在第4节中，我们重点讨论了与线条艺术或素描图像着色相关的方法，这些方法进一步分为四个子类：基于颜色笔画的着色方法，基于参考图像的着色方法，文本驱动的着色方法，以及从线条艺术图像到真实图像的合成方法。在第五节中，我们讨论了漫画图像的彩色化工作。最后，我们总结了彩色化方法，并在第7节中讨论了未来彩色化工作的可能领域。图2示出了用于图像着色的代表性方法的时间轴。3. 灰度图像彩色化灰度图像上每个像素的颜色值介于黑色和白色之间。灰度通道可以从彩色图像中提取，但是诸如过去拍摄的照片和许多漫画艺术的图像仅具有灰度信息，并且可以从彩色化中受益。灰度图像的彩色化方法根据是否使用了交互作用可以分为两类，即自动彩色化方法和半自动彩色化方法。在前一组中，研究人员使用数据驱动的深度学习技术根据训练数据自动对灰度图像进行着色（Cheng et al. ，2015; Iizuka等人，2016; Messaoud et al. ，2018年）。比如说，S.- Y. 陈杰Q. 张玉-Y. Zhao等人视觉信息学6（2022）5153图3.第三章。用于灰度图像着色的端到端网络的概述（Iizuka et al. ，2016年）。有一个开源的自动模型DeOldify（Antic，0000），它是免费使用的。对于第二组，着色方法通常从用户获取一些指导信息，例如，通过绘制彩色笔划（Levin et al. ，2004），提供参考彩色图像（Liuet al. ，2008）或给出特定的颜色主题（Wang et al. ，2012）。简化用户指导通常会提高着色模型的效率和正确性。它还有助于解决病态着色问题的固有模糊性（例如树叶可能在春天是绿色的，在秋天是黄色的）。此外，在最近的一些研究中，研究人员还研究了使用语义信息来指导图像着色，例如基于文本脚本的灰度着色（Bahng etal. ，2018年），这是在最后一节介绍。3.1. 灰度图像自动彩色化与基于引导的彩色化方法不同，在自动图像彩色化方法中，研究者可以设计模型为同一像素提供多种颜色，以解决单色图像的多模态彩色化问题例如，彩色化模型将生成绿色或黄色的叶子图像。在这一小节中，我们根据生成结果的多样性将自动着色方法分为两类：一类是单峰着色，即方法只能生成一个结果;另一类是多峰着色，即方法可以生成多个不同的结果，并分别介绍了这两类方法。3.1.1. 单峰彩色化为了减少用户交互，Cheng et al. （2015）首次提出一种使用SUN数据集进行深度学习的全自动彩色化方法（Patterson和Hays，2012）。它们不是直接将灰度图像作为输入，而是采用多层次特征的组合来预测U和V通道。然而，当训练数据集中不包括类似的参考图像时，性能下降。同时，Deshpande等人（2015）改进了图像着色的学习模型，并从示例中学习这个学习模型是建立在学习搜索框架（LESTING）（Ratliff et al. ，2009），并且能够最小化在色度图上定义的二次目标函数，与高斯随机场相当。Larsson等（2016）提出了一种基于自监督视觉表示学习过程的自动着色方法。该网络建立在 VGG-16 的完全卷积网络（Simonyan和Zisserman，2014）上，删除了分类层并添加了过滤层此外，该模型使用跳过层连接来连接不同卷积层的特征，为预测每个像素的颜色直方图的分类层提供输入。Iizuka等人（2016）提出分别然后将它们组合在一起以进行最终的着色过程（参见图3）。然而，对于具有多种不同颜色的对象，结果将很可能产生在训练中学习的主色，如绿色的叶子以前的着色方法通常学习着色整个图像，因此它们通常不适合着色图像中的实例。Su等人（2020）提出了一种实现实例感知着色的方法。它们首先检测目标物体的位置，然后分别对物体和整体图像进行着色。当同一个类实例中存在漏检测或重叠检测时，结果会受到影响，如图所示。四、考虑到训练数据的限制，Yooet al.（2019）尝试用很少的数据进行着色。整个网络由记忆网络和着色网络组成。记忆网络以无监督的方式进行训练，以帮助获得与输入图像匹配的最相似的颜色特征，然后将其作为着色网络的条件对于给定的任意灰度图像，单峰自动彩色化方法都能生成合理的彩色图像，但对于给定的灰度图像，单峰自动彩色化方法只能生成一幅相应的彩色图像。灰度输入。单个生成的结果可能无法满足用户期望，并且用户无法指定局部或特定于对象的颜色。通过在网络模块中引入随机噪声特征或随机颜色条件向量，可以生成各种结果3.1.2. 多模态彩色化针对彩色化需要大量的用户交互以及彩色化图像的色彩饱和度往往较低的问题，Zhang等人提出了一种基于颜色的彩色化方法。（2016）提出了一种全自动彩色化方法，可以生成丰富而逼真的彩色化图像。该方法通过学习灰度图像和彩色图像之间的语义和纹理映射，将彩色化任务转化为一个自监督的同时，以新颖的方式将彩色化问题转化为分类任务，对每个像素预测颜色分布，解决图像的多模态彩色化问题，保持了彩色化结果的多样性。Zhang等人（2016）受到模拟退火方法（Kirkpatrick et al.1983），并提出了计算出分布的退火平均值的操作，以从每个像素的颜色分布估计AB空间的颜色值。灰度图像着色任务中每个像素的值并不固定，现实世界中的同一物体可以用不同的方式着色不像（Zhang et al. ，2016），Deshpande et al. （2017）不仅考虑了对每个像素的颜色值的估计，而且考虑了着色结果的整体空间连续性该方法使用变分自动编码器（VAE）来学习色场的低维潜变量嵌入，S.- Y. 陈杰Q. 张玉-Y. Zhao等人视觉信息学6（2022）5154图四、实例感知图像着色的失败案例（Su et al. ，2020年）。使用混合密度网络（MDN）来学习以灰度图像为条件最后，从MDN中取出多个样本，并与VAE解码器相结合，以获得每个样本的多个彩色化结果，从而提供丰富的彩色化结果集合。基于颜色分布的分类模型和基于变分自编码器的生成模型虽然可以得到多种彩色化方案，但彩色化结果缺乏空间结构的一致性和用户对颜色的可控性。有时在同一个语义区域，彩色化结果中会出现不同颜色的斑点。为了确保全局着色一致性和用户可控性，Messaoud等人。（2018）提出了一种基于VAE的条件随机场，并使用高斯条件马尔可夫随机场（G-CRF）来捕获全局图像统计，对VAE解码器的输出空间和用户编辑信息的编码进行建模。当图像彩色化方法直接应用于视频彩色化时，会出现不连续性Lei和Chen（2019）提出了一种用于黑白视频的自动彩色化模型，无需任何用户交互或参考图像。该方法设计了一个自正则化和多样性损失函数，以实现灰度视频彩色化的一致性和多样性自正则化损失主要由一个双边正则化项和一个时间正则化项组成DiversityLoss用于约束多个生成的结果，使其与真实彩色图像一致。虽然该方法实现了多种彩色化结果的生成，但没有丰富的不同结果之间的着色结果。随着Transformer（Vaswani et al. ，2017）在计算机视觉领域，Kumar et al. （2020）提出了一种基于Transformer块的灰度彩色化网络架构ColTran主要由一个自回归着色器，一个颜色上采样器和空间上采样器组成Autoregressive Colorizer使颜色信息与输入的低分辨率灰度图像匹配，然后颜色上采样器和空间上采样器以完全并行的方式将低分辨率彩色图像采样为高分辨率图像。该方法利用Transformer与单峰彩色化相比，多模态彩色化方法可以对给定的灰度输入生成多种颜色结果。虽然这些自动方法不需要用户交互，但生成的结果依赖于预先训练的网络模型。用户无法调整生成的结果，例如整体着色风格或细节颜色，从而难以生成用户期望的结果3.2. 基于颜色笔画的着色为了解决自动方法无法控制细节颜色的问题，一些工作尝试采用用户颜色笔划，并为用户控制提供直观的方法。3.2.1. 优化着色Levin等（2004）是彩色化领域最重要的先驱之一。在该方法中，用户需要用颜色笔画标记灰度图像，以在YUV颜色空间中对图像进行着色。然后，基于相邻像素具有相似的强度和它们的颜色相似的规则，该方法将笔划的颜色扩散到整个图像。但是当不同的物体颜色扩散并混合在一起时，Levin等人（2004）中存在渗色问题为了解决这个问题，Huanget al. （2005）对加权函数进行了改进，提出了一种自适应边缘检测算法，提高了边缘检测的准确性。他们使用Sobel滤波器和迭代优化来改善边缘检测。此外，着色方法将更准确，同时减少颜色溢出问题，并使图像颜色效果更逼真。先前的基于颜色笔画的着色方法，例如Levin方法（Levin etal. ，2004年），通常需要大量的手动交互的复杂场景。为了减少它，Luan et al. （2007）提出了一种新的交互式系统，可以快速轻松地对灰度图像进行着色。该方法包括两个阶段，颜色标记阶段和颜色映射阶段。颜色标记阶段通过约束所有像素的亮度平滑度和纹理相似性来将标记的颜色扩散到相似区域。颜色映射阶段根据涂鸦的亮度（Y）和色度（UV）值在亮度（Y）空间建立分段线性映射Levin等人（2004）和Luan等人（2007）之间的比较如图5所示。可以看出，Luan et al.（2007）更快更有效。对于单色电影，Yatziv和Sapiro（2006）使用固有的梯度权重以及着色点与附近点之间的关系来在YCbCr颜色空间中着色。该方法首先定义任意两点的固有（测地线）距离，以计算两点的亮度通道之间的平滑度。然后对图像上的任意点，计算该点到已知色度点的最短本征距离，找到与之对应的多个色度值，通过混合不同的色度值得到最终的色度值。但这个过程涉及到需要大量的计算和复杂的过程来保证色彩质量。S.- Y. 陈杰Q. 张玉-Y. Zhao等人视觉信息学6（2022）5155图五. 基于笔划的着色的比较。（a-c）颜色笔划，单独笔划，Levin等人的着色结果。（2004），（d-f）彩色笔画，每个笔画两个像素区域被标记，Luan等人的着色结果。（2007年）。图六、总体用户引导的图像着色网络架构（Zhang et al. ，2017 b）。鉴于灰度图像中每个像素的值，灰度图像中包含的信息丰富，优化方法可以根据灰度信息或相邻像素之间的关系来确定颜色的传播范围然而，这些方法的计算成本很高。因此，他们中的大多数人都很难实时执行。深度神经网络的出现有效地减少了该过程所需的时间，并随后激发了更多基于深度学习的彩色化方法。3.2.2. 基于深度神经网络的彩色化在最近的基于用户指导的灰度图像彩色化工作中，研究人员开始使用卷积神经网络（CNN）来学习灰度图像和彩色图像之间的映射关系，并带有用户约束。基于深度学习， Zhang et al.（2017 b）提出了一种网络模型，该模型将用户输入作为实时图像着色的指导。该模型主要分为三个部分，主着色网络学习着色，局部提示网络预测颜色概率分布，全局提示网络学习将输入的全局直方图统计和平均图像饱和度编码通过结合全局和局部信息的着色网络结构，Zhang et al. （2017 b）将输入图像和用户输入映射到输出彩色图像，最终实现实时用户引导的图像彩色化。具体网络结构如图所示。六、虽然网络可以通过一次前向传播实时完成着色，但仍然需要用户指定大量的颜色提示。基于神经网络的方法有效地提高了图像彩色化的速度和质量然而，网络培训采用端到端的培训策略。因此，当输入和输出给定时，输出结果无法控制，只能通过编辑输入来优化结果。同时，这种方法需要为每幅图像指定区域的颜色，无法实现批量着色工作。因此，一些研究人员研究了基于参考图像的彩色化。3.3. 基于参考彩色图像的彩色化平衡可控性与用户努力的另一种方法是基于参考的着色，其中用户提供具有期望颜色分布的参考图像以引导着色过程。参考图像可以由用户直接指定，从互联网检索或从大型数据集获得（Heet al. ，2018年）。通过参考参考图像，彩色化结果可以更好地满足用户的期望。虽然这些图像之间存在实质性的总体差异，但在局部区域仍然可以找到图像之间的相似之处。例如，具有相似颜色或纹理的区域通常在结构或线条上也具有相似性。因此，我们可以通过寻找灰度图像和参考图像之间的相似性来指导图像的生成。3.3.1. 与亮度特征的为了对灰度图像进行着色，这些方法需要有一个或多个参考图像，然后对输入图像使用亮度通道映射。 Hertzmann 等人（2001）将颜色信息从参考的类似区域转移到输入图像在Welshet al. （2002），灰度图像仅包含一维信息，并且对于彩色参考图像，其亮度通道可以用于匹配灰度输入。因此该算法将参考图像到lαβ颜色空间中，并选择像素的一个小子集作为样本。然后对灰度图像中的像素进行光栅扫描顺序，并使用邻域统计来选择最佳匹配部分。Welsh等人（2002年）描述了他们的模型如何应用于视频序列中的单个帧他们使用与第一帧相同的彩色目标样本来对视频的其余部分进行彩色化。该工艺可以有效解决颜色不一致的问题。在找到相应的像素后，他们使用样本模型来产生生动的彩色化效果在等式中，误差距离E（Ng，Ns）使用L2灰度图像中邻域之间的距离度量和邻域N s在彩色图像（见图1）。 8）。Gupta等人（2012）结合了SIFT特征（Liu et al. ，2011）转化为Welsh的方法（Welsh et al. 2002年），并创建了一个新的S.- Y. 陈杰Q. 张玉-Y. Zhao等人视觉信息学6（2022）5156见图7。利用从互联网检索的参考图像的固有灰度图像着色的概述（Liu et al. ，2008年）。图8.第八条。基于相似图像匹配的彩色化方法概述（Gupta et al. ，2012）。允许使用多个图像特征从参考图像 Gupta等人（2012）使用SIFT特征来获得参考图像和目标图像之间的对应关系以用于颜色转移。因此，参考图像需要是相关图像，以便获得最佳结果。他们还提出了用于颜色校正的图像投票，其检查相邻的超像素以识别然后校正无效的颜色分配，以保持颜色一致性。与基于像素之间匹配的其他方法不同（Welsh et al. ，2002;Gupta et al. ，2012），Ironi等人提出的着色方法。（2005）试图在更高的语义层次上为图像着色。基于Levin et al.（2004）、Ironiet al. （2005）期望该算法可以自动放置颜色涂鸦，然后使用Levin等人的颜色优化。（2004年）。具体而言，该方法主要分为四个阶段。他们首先训练一种监督学习算法来构建一个低维特征空间，以区分像素属于哪个标签。然后，它们通过投票选择特征空间中的最近邻居来可靠地确定每个像素的参考颜色值。最后，颜色被转移到其他空间中的相邻像素和Levin等人的方法。（2004）用于全局优化。该方法与涂鸦相比，节省了时间，并采用空间投票方案来加强空间一致性，比Welsh的方法（Welsh et al. ，2002年）。Li等人（2019）提出了一种新的位置感知跨尺度纹理匹配方法，以实现基于参考图像的灰度着色该方法首先利用多标签图切割算法最小化全局匹配误差和空间尺度变化，然后利用参考图像上下关系的统计量校正不合理的颜色匹配，最后应用优化框架将高置信度的在基于参考图像的灰度彩色化方法中，提供的参考图像与目标图像比例不一致的情况非常常见，该方法能够很好地处理这种情况，在基于纹理匹配的方法中表现良好。Rudin等人提出的总变差最小化去噪模型。（1992）用于图像着色。Kang和March（2007）提出了用总变差最小化着色模型来处理图像的颜色分解问题。该方法首先最小化总方差，然后通过加权调和映射实现图像彩色化S.- Y. 陈杰Q. 张玉-Y. Zhao等人视觉信息学6（2022）5157见图9。灰度图像着色结果的比较。第一列输入图像的“T "和" S "是目标图像和源图像。(a)是结果F a n g et al. （2020），（b）是Gupta等人的结果。（2012），（c）是Welsh et al. （2002），（d）是Pierre et al. （2015），（e）是He等人（2018年）。然而，这种方法需要大量的彩色涂鸦来处理复杂的图像。此外，Bugeau et al. （2014）提出了可以使用参考图像着色的最小化变分公式建模。同时，设计了一个特定的能量函数来建模颜色选择和空间一致性约束。但这种方法会在纹理对比明显的边缘产生光晕效果。Fang等（2020）提出了一种基于参考图像的灰度彩色化方法，该方法新颖地将图像超像素分割的结果作为待处理的目标该方法首先使用Vcells（Wang and Wang，2012）算法分割图像，提取分割块的特征，然后使用Gupta等人提出的方法。（2012）以匹配参考分割特征和目标分割特征。不同于Gupta的方法（Gupta etal. ，2012），Fang等人（2020）不要使用匹配的颜色作为微涂鸦用于颜色传播，而是为每个目标超像素选择一组候选颜色。最后，他们使用基于TV的空间一致性正则化和非局部自相似性正则化来从颜色候选中为每个目标超像素确定最合适的颜色如图9所示的比较，使用相同的参考图像，Welsh等人（2002）（c）和Pierre等人（2002）（c）。（2015）（d）受到颜色候选集合的限制，并且不能匹配足够的正确颜色。He et al.（2018）（e）和Gupta et al. （2012）（b）获得了更可靠的颜色分配结果，但是（b）的结果包含颜色不一致伪影，并且（e）的结果包含出现在微小对象中的颜色模糊和颜色渗出。虽然（a）实现了比其他方法更好的着色结果，但是仍然存在不正确的颜色匹配结果，例如第二行中的字符的头发边缘。这些方法不是由用户指定参考图像实现自动灰度彩色化，其中彩色化算法自动在互联网上搜索相似颜色的图像。这些图像通常以不同的姿势和照明来捕获。给定一个指定的参考图像，Ironi et al. （2005）通过鲁棒的监督分类方案对图像进行彩色化，但它们不能处理多个参考图像。根据Ironiet al. （2005），Liu et al. （2008）提出了一种自动彩色化方法，该方法可以直接在互联网上搜索与目标图像相似的多幅彩色图像。它忽略了灰度目标图像和彩色参考图像之间的光照差异。如图 7、在获得从互联网上的图像，彩色参考图像注册使用SIFT（Lowe，2004）匹配算法。然后从这些参考图像中提取目标场景的目标光照、目标反射率和本征反射率图像。最后，从上述图像中转移颜色，并通过组合目标图像的照明分量来获得最终结果。Morimoto等人（2009）也使用网络搜索具有相似场景结构的图像，并使用20个最相似的图像进行着色。然后，他们使用基于亮度值的颜色转移来着色输入图像。利用亮度特征的相似性的方法对每个像素的值有很大的依赖性，可以解决不同图像之间的对象的值相似的情况。但是，当物体的照明或结构发生变化时，很容易得到错误的颜色。不过有相同物体或相似细节之间的相关性。通过引入对象类别分析或图像特征分析等，灰度图像和灰度图像之间的颜色匹配可以有效地改善参考图像。3.3.2. 与CNN特征的He等人（2018）首次提出了一种基于参考图像的全自动彩色化方法，允许用户使用不同的参考图像来实现不同的彩色化风格。其网络结构主要分为相似子网络和着色子网络，如图所示。 10个。相似度子网络帮助找到参考图像和目标图像之间的相似度然后着色子网络主要基于相似度子网络对齐亮度通道中的像素，然后利用着色子网络的大数据学习能力来细化未对齐的像素颜色。他的灵感来自于He et al. （2018），Zhang et al. （2019）将基于深度样本的彩色化方法应用于灰度视频彩色化。类似于He etal. （2018），Zhang et al. （2019）通过计算相关矩阵，得到目标图像特征与参考图像特征的密集对应关系，并将其送入彩色化子网络。在该子网络中，前一帧的着色结果将被用作当前帧着色的条件。为了减少累积的传播误差，添加参考图像。通过这种循环框架，他们实现了视频彩色化的时间一致性他们还介绍了一个S.- Y. 陈杰Q. 张玉-Y. Zhao等人视觉信息学6（2022）5158·=+−图10个。由Deep Exemplar（He et al. ，2018年）。图十一岁图像类比的一个例子（Hertzmann et al. ，2001）。时间一致性损失（Chen et al. ，2017），以减少在视频彩色化过程期间沿着流轨迹的颜色变化。此外，Wu et al. （2021）提出了一种方法，可以通过检索匹配的特征来生成具有鲜艳颜色的结果。与基于参考图像的彩色化不同，他们设计了一个GAN编码器来生成彩色化中的颜色先验，这允许在不同颜色之间进行平滑插值，并生成更多样化的结果。Vondrick等人（2018年）提出了视频彩色化与自我-视觉跟踪的监督学习此方法从参考帧复制并且它可以也可以应用于通过视频跟踪人们的运动。这个模型使用一个指向机制来解决这个问题在很大程度上解决了视频彩色化中的不一致问题，保持了画面的色彩稳定性。然而，指向机制仍然不够精确，并且着色结果的颜色边缘有时不清楚。Iizuka和Simo-Serra（2019）提出了一个单一的端到端框架来处理黑白老式电影重制。它们引入了源参考注意力来引导参考图像的颜色进入目标图像。源参考注意主要利用提取的参考图像和目标图像特征进行矩阵运算，获得非局部相似性。近年来，使用提取的特征计算非局部相似性的方法已被频繁使用（Heet al. ，2018; Zhang et al. ，2019; Shi et al. ，2022; Lee et al. ，2020; Siyao et al. ，2021年）。3.3.3. 使用图像类比的此外，研究者还尝试用图像类比的方法来实现图像的风格变换和灰度图像的彩色化。图像类比问题如图所示。十一岁，其中我们有图像对A和A′，并给出一个新图像B，图像类比是找到图像B′，使得图像对B和B′具有与图像对A和A′相同的映射关系。Hertzmann等人（2001）提出了一种图像模拟方法。该方法主要采用最佳近似匹配和最佳相干匹配两种匹配过程。最佳近似匹配过程首先使用高斯金字塔来提取不同尺度下像素的特征信息，然后使用近似最近邻（ANN）搜索来搜索原始图像A中与每个像素最佳匹配的像素p q在目标图像B中。最佳一致性匹配保证匹配结果的空间一致性。该计算方法主要来源于Ashikhmin（2001）提出的方法。具体计算如下：rarg minF （ s （ r ））（问（ q ） 2（ 1）r∈N（q）其中r表示在B′中的像素q的邻域中已经合成的像素，s（r）表示在A′中对应于r的像素，N（q）表示在A ′中的邻域中合成的像素，表示像素q的邻域特征向量，并且表示层l中的像素的邻域特征向量。虽然Hertzmann et al. （2001）能得到很好的结果，但该算法需要逐像素匹配，速度特别慢。后来，Liao等人（2017）提出了一种新的利用深度学习技术的图像类比方法，大大提高了匹配速度和效果。该方法使用预训练的图像特征提取网络VGG-19（Simonyan和Zisserman，2014）来提取5层图像A和B′的高维特征。则方法使用最近邻字段搜索（NNF）在每个要素层中找到具有双向约束的密集对应。最后，从粗略对应的第五层到精细对应的第一层，层，并且获得最终生成的图像A’和B。的方法系统的具体流水线如图所示。 12个。也有其他研究者使用意象分析的概念。例如，Bénard et al.2013年实现风格化通过扩展图像类比方法来创建时间连续的动画序列。使用图像分析方法，Jamriška等人（2019）使用图像颜色、前景对象二进制掩码、SIFT流（尺度不变特征变换流）的位置（Liu等人，2019年）。，2011）和前景对象边缘信息作为指导信息，并实现了视频风格化。受图像结构和图像颜色范围的影响，当图像中物体的姿态和外观发生较大变化时，即使要比较的两幅图像是来自同一视频在不同时间的图像，使用图像类比方法也无法获得良好的效果另外，如果新图像的一部分颜色没有出现在原始图像中，算法也不能自动填充这部分颜色。同时，当该方法应用于草图和彩色图像时，很难生成与草图相对应的合理的颜色结果。S.- Y. 陈杰Q. 张玉-Y. Zhao等人视觉信息学6（2022）5159−ˆˆ（）（）下一页3.4. 基于文本提示的彩色化图12个。深度图像模拟的系统流水线（Liao et al. ，2017）..通过从社区网站收集用户定制的调色板来改进。为了处理来自数据集的原始数据，文本可以用来描述物体的颜色、图像的调色板等，通过分析文本中包含的颜色语义信息，可以将其作为约束条件来实现基于文本的着色任务。利用颜色语义可以有效地改善彩色化过程中的颜色选择该研究（Hu et al. ，2016）建立在来自自然语言表达的图像分割的基础上，其正确地识别并从整个图像中划分出指定的内容。Hu方法（Hu et al. ，2016年）基于CNN和长短期记忆（LSTM）网络来处理图像和语言信息，并且可以端到端训练。后来，Chen et al. （2018）是第一个在Oxford-102 Flowers数据集上借助自然语言他们还使用LSTM网络通过单词矩阵将单词转换为向量，并生成上下文向量。再结合图像特征和语言特征提出递归注意模型。最后，从这个特性中得到彩色的结果。与Chen et al.（2018）直接将提取的语言特征和视觉特征结合起来控制着色结果不同，Manjunatha et al. （2018）应用特征线性调制（FILM）（Perez et al. ，2018）结构到具有更少参数的基于语言的着色。由于FILM对每个卷积块的输出执行特征仿射变换，因此每个特征映射只需要两个额外的权重矩阵参数它不将特定的对象放入颜色表中，而是使用语义文本输入来生成调色板，从而实现基于用户文本输入的调色板Bahng等人（2018）也有类似的关注点，他们不是将特定的对象放入颜色形式中，而是使用语义文本输入来生成调色板，以实现基于用户这是基于以前的调色板设计和图像编辑的相关工作，如Heer和Stone（2012）的研究。基于Bahng像Hu的方法（Hu etal. ，2016），该网络基于条件生成对抗网络（cGAN）。Bahng使用调色板和文本（PAT）数据集来训练预测调色板部件的模型。该数据集包含10，183个文本和五色调色板对。数据集使用四个注释器来投票语义词是否匹配调色板。Text2Color 可以分为两个部分，一个是文本生成网络（TPN），另一个是基于调色板的着色网络（PCN）。TPN根据文本输入生成合理的调色板。第一cGAN的目标表示为：LD0=EyP数据[logD0（c，y）]+ExP数据[log（1−D0（c，y））]（2）LG0=ExP数据log1−D0（c，y）（3）对于G0，G0想要最小化LG0，而D0想要最大化LD0。矢量x和实调色板y来自数据分布P数据。Bahng发现，Hubor损失是增加调色板中颜色多样性的最有效方法。他们决定使用Hubor损失来使生成的图像更接近真实情况，并添加了Kullback-Leibler发散调节项。在这一部分，他们使用条件反射增强技术。yi=f（si）其中si=gyi−1，ci，si−1（4）其中si是GRU（门控递归单元）隐藏状态，i是时间向量，先前生成的颜色存储在yi-1中，并且内容向量ci和存储在si1中的先前状态被提供作为输入。该状态被用作全连接层的输入，以将第i种颜色输出到调色板中，结果是五种颜色的组合，以形成单个调色板输出y。基于文本的方法只需要使用文本描述就可以实现图像的彩色化工作，不仅可以用于单张图像的彩色化，也可以用于多幅图像或视频的彩色化。但文字描述在细节的规范和色彩范围的选择上有一定的局限性，因此更适合于控制整个图像的调色板和色彩单一的物体。细节颜色的增强可以通过引入颜色笔画来增加对细节的控制，研究人员可以进行多模态彩色化方法的研究，以整合不同模型的优点。S.- Y. 陈杰Q. 张玉-Y. Zhao等人视觉信息学6（2022）51604. 基于草图图像的草图图像由稀疏的线条组成，与灰度图像相比，图像中的信息是稀疏的。灰度图像的彩色化倾向于利用Lab空间中L通道的灰度信息，而且更容易通过像素值来通常，草图彩色化方法大多是基于样本或需要用户提供指导信息，并且包含自动彩色化选项和交互式用户模式，因为输入图像不携带纹理信息。在早期的研究中，由用户提供的颜色提示被传播到整个图像，但这些彩色化方法受到草图图像的质量，颜色信息的丰富性和方法参数值的限制。在过去的五年中，大多数流行的模型都是基于神经网络，如CNN （ Krizhevsky et al. ， 2012 ）、 GANs （ Goodfellow etal. ，2014）和U-net架构（Ronneberger et al. ，2015），其可以代替执行着色的手动努力并且可以使单色图像更有吸引力。此外，在最后一节中，我们还介绍了一种特殊的草图彩色化方法，该方法直接根据输入的草图图像生成图片。4.1. 基于颜色提示或笔划的着色在2009 年的一篇早期论文中，Sy`koraetal. （2009）描述了LazyBrush着色模型，该模型需要用户仔

下载后可阅读完整内容，剩余1页未读，立即下载