多样化的图标色彩化网络

187 浏览量更新于2023-10-26 收藏 14.47MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

112440结构-风格解耦特征和归一化流用于多样化图标上色0李元奎连允璇王雨舜0国立阳明交通大学0摘要0我们提出了一种颜色化网络，根据给定的草图和语义上色风格生成扁平颜色图标。我们的网络包含一个结构-风格解耦的上色模块和一个归一化流。上色模块将配对的草图图像和风格图像转换为扁平颜色图标。为了增强网络的泛化能力和图标的质量，我们提出了一个逐像素解码器、一个全局风格编码和一个轮廓损失，以减少扁平区域的颜色梯度，并增加边界处的颜色不连续性。归一化流将高斯向量映射到给定语义上色标签条件下的多样风格编码。这种条件采样使用户能够控制属性并获得多样的上色结果。与建立在条件生成对抗网络基础上的先前方法相比，我们的方法既具有高图像质量又具有多样性的优势。为了评估其有效性，我们将我们的方法生成的扁平颜色图标与最近的上色和图像到图像转换方法在各种条件下进行了比较。实验结果验证了我们的方法在定性和定量上优于现有技术水平。01. 引言0图像上色旨在根据灰度参考（如黑白照片和线稿）生成彩色图像。用于给黑白照片上色的大多数方法都是全自动的，因为具有各种强度的像素包含丰富的语义信息。当对图像上色时，网络可以识别对象并分配适当的颜色。然而，线稿由于稀疏的结构线而包含很少的语义信息。此外，线稿中的颜色可能没有真实的依据，在某些情况下，它们也不一定有意义。因此，先前的线稿上色方法需要用户提供参考图像或颜色提示来指导生成的结果。0图标和漫画是广泛应用于通信中的两种图形设计。创建它们的一步是上色。为了减轻设计师的工作量，方法采用草图图像作为输入，草图图像只包含用于表示对象和背景的黑白像素，并确定每个像素的颜色。这些方法努力增强颜色的和谐性和生动性，并防止颜色扩散到相邻对象的边界。尽管图标和漫画的上色有几个相似之处，但它们是两种不同的设计——漫画中存在结构线，而图标中不存在。图标的结构出现是因为颜色的不连续性。因此，上色图标具有挑战性，因为方法必须考虑在哪里以及如何分配颜色，以及颜色的变化是否展现出清晰和正确的结构线。0训练条件生成对抗网络（c-GAN）是生成扁平颜色图标的一种方法。Sun等人[35]使用两个鉴别器训练了一个c-GAN，这两个鉴别器评估了生成器创建的图标的结构和风格。尽管他们生成的结果在视觉上很吸引人，但这些图像经常包含渐变颜色，并且无法呈现小的细节。此外，众所周知，c-GAN存在多样性问题，因为生成器经常退化为确定性函数。0受StyleFlow[1]的启发，其中指定属性来控制生成器会降低图像质量，我们放弃了c-GAN的框架。相反，我们训练了一个编码器-解码器网络，使用监督学习将配对的草图图像和风格图像映射到扁平颜色图标。引入了逐像素解码器、全局风格编码和轮廓损失，以帮助网络解耦风格和结构特征，减少扁平区域的颜色梯度，并增加边界处的颜色不连续性。我们还训练了一个连续的归一化流[10]，以在给定语义风格标签[20]的条件下对多样风格编码进行采样。图2显示了用户在使用我们的系统时可以选择的风格。我们将采样的风格编码与结构嵌入连接起来，并生成上色结果。0Normalizing flows [29] is a class of generative modelsfocusing on mapping a complex probability distribution toa simple distribution such as a Gaussian. The advantages offlow-based models are easy to sample, stable training, andaccurate probability density estimation. Several studies inthis field have proved that mapping complex image distri-butions to a Gaussian is practical [6, 7, 12, 18]. Comparedto flow-based models, GANs [9] suffer from the problemof mode collapse, and the convergence criteria are unclear;autoregressive models [36] are slow during sampling; andvariational autoencoders [19] make a strong assumption thatthe priors of data distributions are a Gaussian. Despite ofthe advantages, flow-based models are less expressive dueto the requirement of invertibility and tractability. The layerdesigns [6, 7] in discrete flow-based models for fast com-putation of inverse Jacobian matrix worse the problem fur-ther. Recently, normalizing flows based on continuous timetransforms [4, 10] were presented to ease the layer restric-tion and enjoy constant memory usage during training, al-though the expressiveness problem still remains.Flow-based models are capable of controlling attributesby concatenating parameters to embeddings. Lugmayr et al.proposed SRFlow [27] to generates diverse high-resolutionimages conditioned on low-resolution ones. Abdal et al. [1]sampled latent vectors based on given attributes and fed thevectors to the StyleGAN [15] generator to synthesize high-quality images. Since flow-based models are less expressivethan feedforward networks, in this study, we map randomvariables to style codes rather than images for colorization.Image-to-Image Translation aims to map images fromone domain to another. Most of the previous methods in thisfield are based on conditional generative adversarial net-works (c-GANs) [28]. Isola et al. [14] trained the networkon paired images in two domains to achieve image-to-imagetranslation. While the paired images in certain applicationscould be difficult to obtain, follow-up methods adopt theshare-latent space assumption [26] or the cycle consistencyloss [17, 43] to lifted the restriction. There are also meth-ods presented to disentangle structure and texture featureswhen generating images [30, 37]. Since generators in c-GANs often degenerate into deterministic functions, meth-ods such as BicycleGAN [42], MUNIT [13], DRIT [22],and DRIT++ [23] were introduced to overcome the diversityps(s; c, θ) = pu (fθ(s; c)) |det Jθ(s; c)| ,(2)where ps|c(s; c, θ) is the approximation of a real distribu-tion p∗s|c(s|c), Jθ(s; c) =∂fθ∂s (s; c), and | det Jθ(s; c)| is112450彩色流[29]是一类生成模型，专注于将复杂的概率分布映射到简单的分布，如高斯分布。流模型的优势在于易于采样、训练稳定和准确的概率密度估计。该领域的几项研究证明，将复杂的图像分布映射到高斯分布是可行的[6, 7, 12,18]。与流模型相比，GANs[9]存在模式坍缩的问题，收敛标准不明确；自回归模型[36]在采样过程中速度较慢；变分自编码器[19]对数据分布的先验做出了强假设，即先验服从高斯分布。尽管具有这些优势，流模型由于要求可逆性和可计算性而表达能力较弱。离散流模型中的层设计[6,7]进一步恶化了逆雅可比矩阵的计算问题。最近，基于连续时间变换的归一化流[4,10]被提出，以缓解层限制并在训练过程中保持恒定的内存使用，尽管表达能力问题仍然存在。流模型能够通过将参数连接到嵌入中来控制属性。Lugmayr等人提出了SRFlow[27]，用于根据低分辨率图像生成多样化的高分辨率图像。Abdal等人[1]根据给定的属性对潜在向量进行采样，并将向量馈送给StyleGAN[15]生成器来合成高质量的图像。由于流模型的表达能力不如前馈网络，因此在本研究中，我们将随机变量映射到风格代码而不是图像进行上色。图像到图像翻译旨在将图像从一个域映射到另一个域。该领域的大多数先前方法都是基于条件生成对抗网络（c-GANs）[28]。Isola等人[14]在两个域中的配对图像上训练网络，实现了图像到图像的转换。虽然在某些应用中，配对图像可能很难获得，但后续方法采用了共享潜空间假设[26]或循环一致性损失[17,43]来解除了限制。还有一些方法在生成图像时解耦结构和纹理特征[30,37]。由于c-GANs中的生成器经常退化为确定性函数，因此引入了诸如BicycleGAN[42]、MUNIT[13]、DRIT[22]和DRIT++[23]等方法来克服多样性问题。02. 相关工作0问题。除了完全自动化外，还有几种方法允许用户提供标签[21,38]、风格图像[25]或句子[3]来控制领域翻译。线条上色将只包含结构线的图像转换为全彩图像。虽然结构线不如灰度图像表达力强，而且漫画中的字符具有高度的风格化，但该领域的方法通常要求用户提供颜色提示[5, 32, 34,41]、标签[16]或参考图像[2, 8, 24, 35,40]，以供网络考虑。由于缺乏纹理信息，[16,32]的作品采用了两步训练方法来提高颜色鲜艳度并正确上色小特征。最近，Zhang等人[41]提出了一种通过计算每个涂鸦的影响区域来避免颜色泄漏/污染问题的线条上色框架。Lee等人[24]扭曲了与轮廓图像配对的风格图像，并防止网络利用风格图像中的结构信息。图标上色和线条上色是不同的，因为图标的结构是由颜色不连续而不是实线表示的。Sun等人[35]提出了第一个图标上色系统。他们训练了一个带有双鉴别器的c-GAN，用于评估生成的平面彩色图标是否满足结构和风格约束。Han等人[11]采用了类似的思路，并使用给定的掩码防止网络对背景区域进行错误上色。由于上述方法都是基于c-GAN构建的，它们在质量和多样性方面都存在缺点。在这项工作中，我们训练了一个编码器-解码器网络来给图标上色。颜色化所需的风格代码是使用条件归一化流进行采样的。这种上色策略既具有高质量又具有多样性。0u = f θ ( s ; c ) , s = f− 1 θ ( u ; c ) , (1)0归一化流允许在两个分布之间进行双向转换。设p�s | c ( s | c)为未知的条件数据分布，p u ( u)为易于采样和密度估计的分布。条件归一化流旨在表达u和s | c之间的关系：0p s ( s ; c , θ ) = p u ( f θ ( s ; c )) | det J θ ( s ; c ) | , (2)0其中u � p u ( u )，s � p�s | c ( s | c)，fθ是由θ参数化的可逆神经网络。在实践中，p u ( u)可以是标准正态分布N(0,I)。条件离散归一化流（c-DNFs）。DNFs的思想是，可以使用变量变换规则明确计算s的概率密度，即s的概率密度可以通过将p�s | c ( s | c )变换为p u ( u )来计算：Mc 1×1×48W×H×11×1×48EsExLrecLconL(θ; s, c) = − log ps|c(s; c, θ)= − log pu(fθ(s; c)) − log |det Jθ(s; c)| .(3)L(θ; s, c) = − log pu(fθ(s; c)) −k−1�i=0log |det Jθi(s; c)| ,whereJθi(s; c) = ∂fθi∂hi(hi; c)(4)dutdt = gθ(t, c, ut).(5)s = ut0 +� t1= − log pu(ut0) +t1t0tr� ∂gθ112460结构编码器 E c0嵌入0风格参考图像 I r0W×H×160着色器 F0W×H×30流 fθ0条件归一化0条件 c0风格向量 s0逐像素解码器 D0图标草图 I c0风格向量 s0输出 I yW×H×30风格编码器0轮廓提取器0图1. 我们的系统包含一个着色网络（绿色）和一个连续归一化流（蓝色）。前者将配对的草图图像和风格图像映射到一个平面颜色图标。后者根据给定的风格生成与之相关的多样化风格向量，用于着色。0由于变换引起的体积变化。由于f被训练为将p�s | c ( s | c)变换为p u ( u)，θ可以通过最小化负对数似然（NLL）来计算：0为了得到一个可处理的表达式，DNFs方法将神经网络f分解为可逆层fi：Rd→Rd，其中i是层的索引。假设f包含k个层，s和u之间的转换可以表示为u = fk−1(...f1(f0(s; c)))和s =f−10(f−11(...f−1k−1(u;c)))。同时，令θi为第i层的参数，hi+1 = fi(hi)，其中h0 =s，hk =u。通过应用链式法则，可以推导出方程3中的NLL目标函数。0条件连续归一化流（c-CNFs）。虽然c-DNFs通过离散层在u和s之间进行数据转换，但c-CNFs通过时间参数化数据转换的动态，可以表示为常微分方程（ODE）[4]：0其中u t是时间t时的状态，u t0 � N(0,I)，c是给定的条件。gθ在ut上的均匀Lipschitz连续性确保了可逆性[4,10]。换句话说，状态u t0（=u）随着由gθ参数化的动力学随时间演化到u t1（=s）。因此，我们通过在时间上积分gθ来计算s：0t 0 g θ ( t, c , u t ) dt. (6)0类似地，为了近似复杂的数据分布，训练c-CNFs以最小化NLL损失0L ( θ ; s , c ) = − log p s | c ( s ; c ,θ )0∂ u t0� dt. (7)0CNF和DNF在时间上的前向和后向传播可以通过ODE求解器来解决。在我们的实现中，我们使用伴随方法[31]来计算梯度。需要注意的是，CNF和DNF都可以将正态分布映射到近似数据分布。它们在理论和网络结构上有所不同，但可以通过离散和连续属性来控制。我们选择CNF，因为它可以更好地近似风格向量的分布。04. 条件图标上色网络04.1. 系统概述0设 I c为草图图像，s为风格向量。我们的上色网络F的目标是生成一个扁平颜色图标0I y = F ( I c , s ) . (8)0风格向量s可以从风格图像Ir中编码，也可以从给定上色风格c条件下的CNF中采样。在本研究中，c = (x,y)是在彩色图像尺度[20]中定义的坐标，如图2所示。值得注意的是，方程6、7和8中的s和c是等价的，因为我们使用CNF来采样风格向量。图1显示了我们系统的框架。它包含一个上色网络，将草图图像I c 和风格图像I r映射到扁平颜色图标I y。该网络通过最小化重构误差和轮廓损失进行训练。框架的另一部分是一个c-CNF，用于在给定语义上色风格的条件下采样多样的风格向量。我们将详细描述如下。3232641281286464 1& 112470图2.彩色图像尺度[20]包含85种语义上色风格。每种风格由三种主要颜色组成。该彩色图像尺度的x轴和y轴分别表示颜色温度和硬度。0扩展的风格向量0W×H×48 风格向量 s01×1×480输出 I yW×H×30嵌入 E c0W×H×160逐像素解码器Dec0连接W×H×6401x1卷积(32个滤波器)01x1卷积(3个滤波器) ... X30图3.逐像素解码器独立解码每个像素嵌入。除了最后一个卷积层外，每个1×1卷积层后面都跟着像素归一化和ReLU。04.2. 风格-结构解耦上色0我们的上色网络包含一个结构编码器 E c ，一个风格编码器E s 和一个逐像素解码器 D 。结构编码器 E c是一个U-Net[33]，将图标草图 I c 转换为嵌入 M c。风格编码器 E s 从参考风格图像 I r 中提取风格向量 s。这两个特征被连接起来，然后解码为扁平颜色图标。我们使用重构损失来训练上色网络。具体来说，0L rec ( I c , I r ) = ∥ F ( I c , I r ) − I r ∥ 2 F , (9)0其中 I c 和 I r是配对的图像。我们引入了两种训练策略来提高上色网络的泛化能力。主要思想是解耦结构编码器 E c 和风格编码器 Es 。为了使 E c仅关注结构，我们通过颜色偏移来增强风格图像 I r。也就是说，我们将图像转换为HSV颜色空间，然后随机旋转色调以0U-Net0标准卷积0平均03 × (W×H×16)0W×H×160标准卷积0NormConv0RGB图像0W×H×303×3卷积0残差块0最大池化上采样跳跃连接0图4.轮廓提取器网络的前部是我们提出的NormConv层，其中参数之和为零。这个约束强制网络确定每个局部区域的颜色梯度。然后，包含梯度幅值的映射被输入到U-Net中估计图像轮廓。0生成其变体。由于图标草图Ic在这种情况下对应于许多风格图像Ir，网络在为Ic上色时只能从Ir中获取颜色信息。为了防止Es包含结构信息，我们将风格向量约束为1×1×48。然后，将风格向量s扩展到W×H×48的分辨率，以与嵌入Mc进行连接。此外，我们应用1×1卷积将连接的特征解码为扁平彩色图标，如图3所示。由于嵌入Mc中的每个像素都是独立处理的，不考虑其邻居，它迫使结构编码器接管与结构相关的工作，例如识别草图图像中的封闭或几乎封闭的区域。请记住，扁平彩色图标的结构由颜色不连续性形成。这意味着同一区域和不同区域中的相邻像素应具有相同和不同的颜色，分别。由于结构线的强度是未知的，它取决于用于上色图标的风格，使用启发式损失函数，即在边界处最大化颜色不连续性，来指导上色网络是不适用的。因此，我们应用轮廓提取器网络Ex来评估生成的扁平彩色图标Iy是否满足要求。具体而言，我们将Ex附加在上色网络的后面，提取Iy的草图，表示为I'c =Ex(Iy)，并期望提取的I'c可能接近输入草图Ic。我们将损失函数定义为：0Lcon(Ic, Iy) = ∥I'c - Ic∥2F. (10)0图4显示了我们的轮廓提取器Ex的网络架构。Ex的前部分是我们提出的Norm-Conv层，其中每个卷积核中的参数之和为零。我们应用这个零和约束来强制该层在每个局部区域估计各种颜色梯度。112480由于非线性的人类视觉感知，我们还单独处理RGB通道。然后，梯度幅值被融合并输入到U-Net中进行轮廓估计。请注意，轮廓提取器Ex是在真实数据上训练的。在训练上色网络时，我们冻结Ex，以防止Ex被生成的结果破坏。04.3. 扁平彩色图标的超分辨率0大多数计算机视觉方法都要求生成高分辨率图像。我们的图标上色也是如此。实现这个目标的一个直观想法是扩大网络和输入输出的分辨率。尽管这样做会增加计算成本和内存消耗，但在实践中，这种策略很少成功，因为训练不稳定并且容易陷入局部最小值。在本研究中，我们通过对低分辨率图标进行上采样来实现高分辨率的扁平彩色图标。这种方法解决了问题，因为在上采样扁平彩色图标时不需要合成不存在的细节。网络唯一需要完成的任务是保持清晰的边界。因此，我们在输出Iy的后面附加了一个上采样网络SR，将其分辨率分别增加2倍和4倍。网络SR还接受一个高分辨率的草图图像，这在设计师绘制图标时很容易获得，以对结果进行上采样。在我们的实现中，SR是一个残差网络。它首先通过线性插值对低分辨率图像进行上采样，然后微调像素颜色以最小化重构损失。04.4. 使用流进行条件样式采样0语义样式标签c基于三种主要颜色。然而，在上色时，并不限制设计师只使用三种颜色。主要颜色和非主要颜色的组合是复杂的，应该从设计良好的图标中学习。因此，我们使用c-CNF对样式向量的分布进行建模。我们通过考虑图标的颜色来确定每个图标的语义样式标签c。为了实现这一点，我们按照Sun等人的方法[35]将每个图标图像i转换为一个8×8×8的颜色直方图Hi，不考虑背景白色像素。我们还通过将三种主要颜色的比例设置为1:1:1、2:1:1、1:2:1、1:1:2、1:2:2、2:1:2和2:2:1，为每个语义样式生成一组直方图Hs。然后，我们计算Hi与每个Hs之间的距离，并在最短距离小于阈值δ时标记图标样式。在我们的实现中，δ=0.06，在此度量下，一个图标可以被分配给多个样式。由于各个样式中的图标数量不平衡，我们还合成了虚假图标，以确保每个样式包含至少1000个样本用于训练。为了实现这个想法，我们使用样式的主要颜色在画布上随机绘制基元，如正方形、圆形和三角形。基元的大小、位置和相应的颜色是随机确定的。我们让基元彼此重叠以保持合成的多样性。我们通过最小化方程7中定义的NLL损失来训练c-CNF。我们的c-CNF网络由一个移动批量归一化层[39]、四个concatsquash层[10,39]和一个批量归一化层组成。具体而言，concatsquash层定义为0每个基元的相应颜色是随机确定的。我们让基元彼此重叠以保持合成的多样性。我们通过最小化方程7中定义的NLL损失来训练c-CNF。我们的c-CNF网络由一个移动批量归一化层[39]、四个concatsquash层[10,39]和一个批量归一化层组成。具体而言，concatsquash层定义为0CCS(t, c, u) = tanh((Wuu + bu) × gate + bias)，0其中gate = σ(Wttt + Wtcc + bt)，bias = (Wbtt + Wbcc +bb)，Wu、Wtt、Wtc、Wbt、Wbc、bu、bt和bb是可学习参数，σ是一个sigmoid激活函数。04.5. 实现细节0我们按顺序训练了上色网络和c-CNF，因为我们认为生成能够展现清晰结构并包含纯色的图标比采样样式向量更重要。具体而言，我们使用重构误差和轮廓损失训练了上色网络，进行了60万次迭代。我们使用Adam优化器来更新网络参数。批量大小、学习率、Adam中的β1和β2分别设置为64、0.0001、0.9和0.999。此外，Ic、Ir和Iy的宽度和高度设置为W=H=128。关于c-CNF，我们通过最小化NLL进行100k次迭代来更新网络参数。同样，批量大小、学习率、Adam中的β1和β2，以及ODE求解器中使用的容差分别设置为64、0.001、0.9、0.999和0.00001。05. 结果和讨论0我们训练了所提出的网络，以多种风格为条件对图标进行上色。样式向量是使用c-CNF从N(0, τ ∙I)中采样得到的，其中τ是一个称为温度的标量。我们设置τ=0.4来采样样式向量。图5显示了我们生成的纯色图标具有小的特征和清晰的边界。此外，给定预定义的颜色风格，我们的系统可以生成满足要求的多样化纯色图标。补充视频演示了我们的系统在画布更新时上色图标，并且在草图时经常出现开放边界。由于艺术家在早期设计阶段很少仔细绘制线条，从结构线提取的封闭区域中填充颜色是不足以上色图标的。此外，图标的封闭区域可能属于背景，不应上色。图6的结果（第1、2和12列）显示我们的系统通常可以避免这样的问题。05.1. 与现有技术的比较0我们对我们的系统生成的结果和几个基线进行了比较以进行评估. 这些基线包括Anime [40], Comi [8], MUNIT [13], ASCFT [24], and Ad-vIcon [35]. The implementations of these baselines wereobtained from the authors’ websites.We trained all ofthe methods on the dataset released by Sun et al. [35],which contains 12,575 images. In the experiment, 90% ofthe samples were randomly selected for training, and theremaining 10% were for testing.Since all of the base-lines are reference-based colorization methods, we applyour style encoder Es to obtain style vectors for coloringicons. We also resize all generated results to the resolutionof 128 × 128 for comparison.The results in Figure 6 show that all of the baselines pro-duced noticeable gradient colors when colorization. The ar-tifacts frequently appear at small and thin areas. They breakthe icon structures and in certain cases make the colorizedicons unrecognizable. In contrast, the icons generated byour method are flat-color and exhibit clear structure lines.In addition to visual comparison, we quantitatively eval-uated the generated results using the following measures.Structure distance. Since Iy is conditioned on the inputsketch Ic, we expect that Iy and Ic have similar structures.To estimate the structure distance, we first apply the Cannyedge detection to extract contour images Ic′ from the gen-erated icons Iy. Then, for each edge pixel in Ic′, we searchfor the closest edge pixel in Ic and accumulate the deviationof these two pixels to obtain the structure distance Dc′→c.Considering that the generated icons Iy may miss certain1N∥pnm − ¯pm∥1 ,(11)where M is the number of the closed regions, Nm is thenumber of pixels in region m, N = �Mm=1 Nm, p indicatesthe pixel color, and ¯pm is the the mean color of region m.Fr´echet Inception Distance (FID). FID has widelybeen used to measure the similarity of visual features be-112490明智0奢华0甜美0轻盈0高级0清新0温暖0简洁0简单0明亮0样式样本样本轮廓样式0图 5. 我们的系统基于给定的草图图像和上色风格生成单色图标. 这些图标的分辨率为 128 × 128 . 需要注意的是, 在相同的风格标签条件下,结果是多样的.0特征, 我们还计算了距离 D c → c ′ . I y 和 I c的最终结构距离定义为 D c ′ → c + D c → c ′ . 颜色距离.与结构距离类似, 我们期望 I y 和 I s 的主要颜色是相似的.具体来说, 我们首先将每个生成的图标转换为Lab颜色空间,然后计算相应的 8 × 8 × 8 颜色直方图.每个bin的值表示颜色的频率. 在计算直方图时,不考虑背景中的白色像素. 因此, 给定两个图像 I y 和 I s ,我们计算了它们的直方图的Jensen-Shannon散度,并得到颜色距离. 平坦度.我们期望每个封闭区域的颜色是相同的.为了衡量生成的图标是否满足这个要求,我们在每个图标草图 I c 中检测封闭区域,并估计每个区域中像素的颜色变化.由于收集到的图标中不存在开放边界,所以可以使用简单的方法进行检测. 具体来说, 我们计算0M0Nm112500参考0草图0动漫0漫画0MUNIT0ASCFT0AdvIcon0我们的0图6.我们将使用我们的方法和基线方法上色的图标进行了比较。实验结果表明，由于在平坦区域具有清晰的结构和不明显的颜色渐变，我们的方法优于基线方法。0方法结构颜色平坦度 FID0动漫 0.53 ± 0.41 0.39 ± 0.12 1.78 ± 1.54 52.570漫画 1.12 ± 0.65 0.37 ± 0.10 2.10 ± 1.75 93.030MUNIT 1.96 ± 1.07 0.23 ± 0.09 2.67 ± 2.00 58.420ASCFT 0.39 ± 0.27 0.42 ± 0.11 1.49 ± 1.24 63.020AdvIcon 0.30 ± 0.40 0.37 ± 0.11 1.52 ± 1.53 40.860我们的 0.12 ± 0.20 0.22 ± 0.07 0.62 ± 0.73 27.960表1.我们通过测量结构距离、颜色距离、平坦度和FID分数来评估生成图标的质量。列出了平均值和标准差。较低的值表示更好的结果。最佳结果以粗体显示。0我们应用这个度量标准来评估生成的图标是否逼真。表1中的数字表明，我们的方法在结构距离、颜色距离、平坦度和FID方面优于所有基线方法。这并不令人意外，因为我们的方法可以有效地减少平坦区域的颜色渐变，并增强边界处的颜色不连续性。05.2. 消融研究0我们进行了一项消融研究，以证明我们的像素级解码器、轮廓提取器和NormConv层的有效性。图7中的结果显示，CNN解码器在样式图像中记忆了结构信息。0动漫漫画 MUNIT ASCFT AdvIcon 我们的094 ± 4.1 155 ± 9.4 151 ± 8.1 141 ± 6.0 192 ± 9.8 905 ± 17.20表2.从126名参与者中获得的用户研究结果。我们展示了每种方法在13个问题上的平均分和标准差。分数越高越好。每个问题的结果可以从我们的补充材料中获得。0图8.当在颜色图像尺度中插值坐标时，细化的风格出现在正式风格和安全风格之间。如果插值样式向量，则细化的风格将消失。05.3. 风格插值0当上色图标时，用户可能希望插值风格。有两种方法可以实现风格插值。第一种是在颜色图像尺度中插值定义的坐标（图2），第二种是插值从真实数据中学习到的风格向量。图8比较了在这两个坐标系统中插值的结果。我们将读者引导到我们的补充材料中获取更多结果。05.4. 用户研究0我们进行了一项主观评估的用户研究。具体来说，我们选择了使用基线方法上色的图标。112510(d) (c) (b) (a) 风格草图0图7. 消融研究。 (a)使用与[35]相同的CNN解码器对图标进行上色。 (b)我们的网络在训练时没有使用轮廓提取器Ex。 (c)从轮廓提取器中去除了NormConv层。 (d) 我们的结果。0正式精致安全0坐标0风格0图8.当在颜色图像尺度中插值坐标时，细化的风格出现在正式风格和安全风格之间。如果插值样式向量，则细化的风格将消失。0线条和我们在图6中展示的方法，并为参与者创建了一个网页，让他们选择他们最喜欢的结果。该页面以简短的教程开始，然后是13个问题。每个问题显示一张草图、一张参考风格图像和使用不同方法上色的图标。如果某种方法的上色图标最受欢迎，则该方法将获得一分。问题的顺序和图标的顺序是随机确定的。我们在社交媒体上发布了该页面，供参与者回答。表2显示了研究结果。05.5. 限制0尽管我们生成的扁平颜色图标在视觉上很吸引人，但仍有改进的空间。具体来说，网络可能会(1)在大区域填充渐变颜色，(2)如果草图在语义上不明确，则错误上色前景和背景区域，以及(3)在附近区域使用感知上较难区分的颜色。图9显示了几个失败案例。此外，由于我们应用了0图9.我们网络生成的失败结果。(顶部)附近区域使用感知上较难区分的颜色。(底部)出现渐变颜色和错误上色区域。0由于我们的系统使用归一化流来采样风格向量，因此在使用我们的系统时需要用户指定一个温度。高温使得归一化流能够采样多样的风格向量，但会偏离给定的风格条件。低温则相反。在未来，我们将探索在保持风格条件的同时实现高多样性的策略。06. 结论0我们提出了一个由编码器-解码器网络和条件归一化流组成的图标上色系统。我们设计了新颖的网络架构，包括像素解码器、NormConv层和轮廓提取器，以生成具有清晰结构的扁平颜色图标。条件归一化流使得上色网络能够根据给定的风格生成多样的结果。实验结果和客观评估证明了我们系统的有效性。我们指出，这个图标上色系统对设计师非常有益，因为他们在创建图标时只需关注勾勒形状和结构。我们的方

下载后可阅读完整内容，剩余1页未读，立即下载