基于条件随机场的变分自动编码器实现图像着色的多样性和结构一致性

175 浏览量更新于2023-10-13 收藏 1.36MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

结构一致性与不同着色Safa Messaoud、David Forsyth和Alexander G.Schwing美国伊利诺伊大学香槟分校抽象。在媒体和广告行业中，对给定的灰度图像进行着色是一项重要的任务。由于彩色化固有的模糊性（许多阴影通常是合理的），最近的方法开始显式地建模多样性。然而，一个最明显的文物，结构不一致，很少被认为是由现有的方法，预测色度独立的每一个像素。为了解决这个问题，我们开发了一个基于条件随机场的变分自动编码器配方，它能够实现多样性，同时考虑到结构的一致性。此外，我们引入了可控性机制，nism，可以将外部约束从不同的来源，包括用户界面。与现有基线相比，我们证明了我们的方法在LFW，LSUN-Church和ILSVRC-2015数据集上获得了更多样化和全球一致的着色。关键词：着色，高斯条件随机场，VAE1介绍图像的着色需要预测所提供的灰度级输入的两个缺失通道。类似于其他计算机视觉任务，如单目深度预测或语义分割，着色是不适定的。然而，与上述任务不同，着色也是模糊的，即，许多不同的着色是完全合理的。例如，不同颜色的衬衫或汽车是非常合理的，而façcades的色调肯定没有那么多样化。弥补这些不足是一项非传统的任务。因此，早期的彩色化工作是交互式的，需要一些参考彩色图像或涂鸦[1-6]。为了自动化这一过程，经典方法将任务制定为预测问题[7，8]，使用有限大小的数据集。最近的深度学习方法被证明可以在更大的数据集上捕获更复杂的颜色属性[9-14]。然而，所有这些方法的共同之处在于，它们对于给定的灰度级图像仅产生单个着色。因此，模糊性和多模态通常没有被充分地建模。为此，甚至最近，使用诸如变分自动编码器[15]、生成对抗网络[16]或自回归模型[17，18]的生成建模技术来描述用于着色的各种输出空间分布。虽然基于生成技术的方法可以通过捕获数据集分布来产生不同的颜色，但它们通常缺乏结构性约束。2Safa Messaoud、David Forsyth和Alexander G. Schwing图1：由c-GAN [16]、MLN-GAN [19]、BicycleGAN [20]、PIC [18]、VAE-MDN[15]和我们的方法生成的地面实况（GT）的多样化着色。例如，衬衫的部分颜色不同或汽车有斑点。不一致性是由于结构一致性仅在使用基于深度网络的生成方法时被隐含地鼓励。例如，在从图1中所示的[15，16，181、肩部和颈部的颜色不同，因为这些模型对遮挡敏感。此外，现有的多种着色技术还经常缺乏允许干扰同时保持结构一致性的可控性形式。为了解决一致性和可控性，我们开发的方法用高斯马尔可夫随机场公式增强了变分自动编码器[21]的输出空间我们开发的方法，我们以端到端的方式进行训练，使图像中的多个像素除了学习像素之间的结构一致性这使得用户能够使用颜色笔划与生成过程交互。我们在Labelled Faces in the Wild（LFW）[22]，LSUN-Church [23]和ILSVRC-2015 [24]数据集上展示了视觉上吸引人的结果，并通过用户研究评估2相关工作如前所述，我们开发了一种彩色化技术，该技术利用高斯马尔可夫随机场来增强在讨论细节之前，我们回顾了彩色化，高斯马尔可夫随机场和变分自动编码器的三个领域。着色：早期的着色方法依赖于以参考图像或涂鸦形式的用户交互[1-6]。首先尝试自动化着色过程[7]依赖于在包含几十到几千张图像的数据集上训练的分类器。当然，最近基于深度网络的方法可以扩展到包含数百万图像的更大数据集[9所有这些方法结构一致性与不同着色的可控性3对所提供的强度场进行操作，并产生不影响所述图像的亮度的单色图像。为了解决歧义，Royeret al.[18]使用PixelCNN [26]学习条件模型p（x|g），并且从该分布中提取多个样本以获得不同的着色。除了令人信服的结果之外，由于忽略了复杂的长距离像素相互作用，例如，如果对象由于遮挡而被分割，类似地，[17]使用PixelCNN来学习灰度图像的多个嵌入z 注意，在这种情况下，不是学习p（x|g）直接地，色场x由低维嵌入z表示。尽管上述基于PixelCNN的方法产生不同的着色，但是它们缺乏大规模的空间相干性并且由于自回归（即，模型的连续性Deshpande等人提出了另一种不同着色的条件潜变量方法。[15]第10段。作者训练变分自动编码器以产生色场的低维嵌入。然后，使用混合密度网络（MDN）[27]来学习多模态分布p（z|g）在潜在代码上。之后使用解码器将潜在样本转换为多个颜色这种方法提供了一种有效的采样机制。然而，输出经常是斑点状的，因为颜色是针对每个像素独立采样的。除了上述概率公式之外，条件生成对抗网络[16]已被用于产生不同的着色。然而，模式崩溃，这导致在模型中产生一个颜色版本的灰度图像，是一个经常关注的一致性。这主要是由于发电机学习在很大程度上忽略了随机噪声vec。当以相关的上下文为条件时。[19]通过将输入噪声信道与生成器的几个卷积层级联来解决前一个问题。[20]提出了第二种解决方案，其中鼓励输出和潜在代码之间的连接是可逆的，以避免多到一的映射。当在样本之间具有强对齐的数据集上进行测试时，这些模型显示出令人信服的结果，例如，LSUN卧室数据集[23][19]和[20]中的图像到图像转换数据集[28-32]。我们将在第二节展示。4.它们在更复杂的数据集上缺乏全局一致性与上述公式相反，我们解决了多样性和全局结构一致性要求，同时确保计算效率。为此，我们制定的彩色化任务，通过增强变分自动编码器模型与高斯条件随机场（G-CRF）。使用这种方法，除了对结构化输出空间分布建模之外，着色过程的可控性是自然的。高斯条件马尔可夫随机场：马尔可夫随机场[33]和它们的条件对应部分是一个令人信服的工具来建模变量之间的相关性。从理论上讲，它们因此是着色任务的良好匹配，其中我们感兴趣的是推理颜色之间的依赖关系。4Safa Messaoud、David Forsyth和Alexander G. Schwingφ不同的像素然而，在大型输出空间上定义的经典马尔可夫随机场中推断最可能的配置需要大量计算[34高斯马尔可夫随机场[38]代表了允许有效和精确推理的情况之一。它们对数据的联合分布进行建模，例如，将图像的两个颜色通道的像素值作为多变量高斯密度。高斯马尔可夫随机场过去已用于不同的计算机视觉应用，包括语义分割[39-41]，人体部位分割和显著性估计[40，41]，图像标记[42]和图像去噪[43，44]。在[8]中提出了一个用LEARCH框架训练的稀疏高斯条件随机场用于着色。与这种方法不同的是，我们使用完全连接的高斯条件随机场，并使用深度网络端到端地学习其参数。除了结构的一致性，我们的目标是共同建模的模糊性，这是一个固有的一部分的着色任务。为此，我们利用变分自动编码器。变分自动编码器：变分自动编码器（VAE）[21]和条件变体[45]，即，条件性VAE（CVAE）已被用于在各种任务中对歧义进行建模[46，47]。它们基于流形假设，该流形假设陈述了高维数据点X（诸如彩色图像）可以基于低维嵌入z和一些辅助数据g（诸如灰度图像）来建模。形式上证明了低维嵌入空间的存在性和通过条件pθ（x）的变换|z，g）。给定包含条件信息g和期望输出x对的数据集D，即，给定D ={（g，x）}，CVAE表示条件对数似然lnp θ（x）的最大化|g），由θ参数化，通过考虑以下恒等式：lnpθ（x|g）−DK L（qφ（z|x，g），pθ（z|x，g））=（1）−DK L（qφ（z|x，g），p（z|g））+Eq（z|x，g）[lnpθ（x|g，z）]。因此，DKL（·，·）不存在两个分布的Kull-bac-Leible（KL）分布，且q φ（z|x，g）用来逼近难以处理的后验p θ（z|x，g）的深度网，该深度网对条件p θ（x）进行建模|g，z）。后部的近似，即，q φ（z|x，g）被称为编码器，而用于重构的深层网，即，为了模拟条件p θ（x|g，z）通常称为解码器。由于KL散度是非负的，我们得到了数据对数似然lnp θ（x）的一个下界|g）当考虑等式中给出的恒等式的右手侧时，1.一、CVAE最小化该下限的否定版本，即，1ΣNm inDK L（qφ（z|x，g），p（z|g））−θ，φNi=1lnp θ（x|g，z，i），（2）其中期望Eqφ（z|x，g）通过N个样本ziq φ（z）来近似|x，g）。为了简化说明，我们忽略了数据集D中的样本的求和，并提供了用于训练单个对（x，g）的目标。接下来，我们将讨论如何将这些成分结合起来，以实现多样化、可控但结构连贯的着色。结构一致性与不同着色的可控性5灰度图像^=图2：用于多样化和全局相干着色的基于全连接高斯条件随机场（G-CRF ）的 VAE 。为了生成不同的着色，我们使用混合密度网络（MDN）来表示给定灰度图像g的颜色场嵌入z的多模态分布。在测试时，我们对多个嵌入进行采样，随后对其进行解码以生成不同的着色。为了确保全局一致性，我们使用G-CRF对解码器的输出空间分布进行建模3着色的一致性和可控性我们提出的着色模型具有几个吸引人的特性：（1）多样性，即，它为单个灰度级图像生成多样且逼真的着色(2)全局相干性，通过使用完全连接的高斯条件随机场（G-CRF）对所生成的颜色场的输出空间分布进行明确建模来实施;（3）可控性，即，我们的模型可以在运行时有效地考虑外部约束。例如，用户可以强制给定对象具有特定颜色或强制两个分离的区域具有相同的着色。3.1概述我们提供了一个概述我们的方法图。2.给定一幅具有P个像素的灰度图像g，我们的目标是在Lab颜色空间中产生由两个通道xa∈RP和xb∈RP组成的不同色场x∈R2P此外，我们在全球范围内实施空间相干性，并使用高斯马尔可夫随机场模型的输出空间分布，使可控性。为了产生多样化的着色，我们想要学习多模态条件分布p（x|g）的颜色场x的灰度级图像g。然而，学习该条件是具有挑战性的，因为颜色场X和强度场g是高维的。因此，用于学习p（x）的训练样本|g）是稀疏分散的，并且即使在使用大型数据集时也难以捕获分布。因此，我们假设流形假设成立，并且我们选择学习条件p（x|z，g）的低维嵌入z从x和g捕获，通过使用变分自动编码器，该变分自动编码器近似难以处理的后验p（z|x，g）。Deshpande等人[15]证明了从后验近似值采样的结果为所生成的图像的低方差。在[15]之后，我们选择多阶段训练过程以直接从p（z）采样|g）如下。3MDN21z高斯CRF层~−（）+像素嵌入解码器6Safa Messaoud、David Forsyth和Alexander G. SchwingMDNz编码器（！φk=1培训阶段1培训阶段2彩色图像（x）灰度图像（）（一）彩色图像（x）彩色图像（x）灰度图像（）（b）第（1）款彩色图像（x）彩色图像（x）灰度图像（）（c）第（1）款图3：模型架构和训练过程的概述。在第一训练阶段中，我们使用VAE学习以灰度图像g为条件的色场x的低维嵌入z为了从结构中解开颜色，我们首先在阶段1中学习一元项B，然后在阶段2中，通过施加具有相似强度的像素应该具有相似着色的约束来学习对图像的结构进行为了实现可控性，我们使用矩阵H中指定的训练时间表来递增地掩蔽一元项B中的解码像素颜色，并且因此逐渐依赖于A矩阵来从一元项恢复着色。在第二个训练阶段，我们使用MDN来学习给定灰度图像的潜在嵌入的多模态为了捕获低维嵌入，在第一训练阶段中，我们使用变分自动编码器来学习参数单峰高斯编码器分布|x，g）在给定灰度图像g和彩色图像x的情况下，嵌入z的色场的<$N（μφ，σ2I）（图3（a））。同时，我们学习了解码器p θ（x）的参数θ|z，g）。重要的是，我们注意到编码器q φ（z|x，g）利用两者彩色图像x和灰度级强度g。由于彩色图像的使用，我们期望可以使用单峰分布（即，我们使用高斯。然而，可以从灰度级图像中获得多个着色。因此，下面是Deshpandeeetal。 [15]，我们讨论了e x ∈单峰分布p（z|g）当仅调节灰度图像g时，在测试期间是准确的。为了解决这个问题，在第二训练阶段中，我们训练混合密度网络（MDN）p（z|g）最大化从q φ（z）采样的嵌入z的对数似然|x，g）（图3（b））。直观地，对于灰度级图像，MDN预测M个高斯分量的参数，每个高斯分量对应于不同的着色。在第一阶段中学习的嵌入z然后被绑定到这些分量之一。其余的组件进行优化，由附近的灰度级图像嵌入。在测试时，N个不同的嵌入{z}N从MDNp ψ（z|g）并且由解码器变换成不同的着色，如我们所示图二、z解码器B（美元）灰度编码器一（编码器（！2期1期G-CRF编码器（！）z解码器B（美元）灰度编码器结构一致性与不同着色的可控性7G为了鼓励全局相干着色并确保可控性，我们使用完全连接的G-CRF层来模拟输出空间分布。G-CRF的负对数后验具有二次能量函数的形式E（x）=1xTA2gx−B z，gX.（三）它通过a和b通道的像素颜色来捕获单一和高或低相关（HOC）。直观地说，联合G-CRF使模型能够捕获更多的全局图像统计数据，从而产生更多的空间相干着色，如我们将在第2节中所示。4.从VAE解码器获得一元项Bz，gHOC项Ag= f（ATAg）负责对输入图像的结构进行编码。它是低秩像素嵌入Ag的内积的函数，其从灰度级图像中学习，并且由于像素的强度与像素的强度相比，像素的对是最小的。直觉是具有相似强度的像素应当具有相似的着色。HOC项在测试时获得的不同着色之间共享。除了全局一致性之外，它还通过传播在一元项中正确编码的用户编辑来实现可控性。由于HOC项的对称性，二次能量函数具有唯一的全局最小值，其可以通过求解线性方程组来获得：Agx = Bz，g.（四）随后，为了符号简单，我们放弃了A和B对g和z的依赖性。我们现在讨论如何在我们的模型中执行推断以及如何学习模型参数，使得着色和结构被解开并且通过传播用户笔划来启用可控性。3.2推理为了确保全局一致的着色，我们利用图像中的结构。为此，我们鼓励两个像素具有相似的颜色，如果它们的强度相似。因此，我们希望最小化a和b通道的色场x更正式地说，我们希望鼓励平等xa=Sxaandxb=Sxb，其中tmax（ATA）的S=s在rix处是一个相似的通过将softmax函数应用于从A T A产生的矩阵的每一行来获得。为了简化，我们使用在rixS =diag（S，S）处的块k -结构。除了捕获结构之外，我们通过在计算的一元项B中编码用户输入来获得颜色先验和控制不稳定性。因此，我们添加约束Hx=α，其中H是具有0和1条目的对角矩阵，其取决于像素的值是不是由用户指定，并且添加利用手头的上述直觉，我们获得待最小化的二次能量函数为：Eθ，g，z（x）=1（I−S）x22+1βHx−α2，28Safa Messaoud、David Forsyth和Alexander G. Schwing2z0约束生成（（，a）/（$T$+'（）（）+='（）a！$= I−0123（4） 4）（：培训时间表（$T$+'（）（）+='（）a！$= I−0123（4） 4）（：用户定义图4：可控性：给定一个灰度图像，我们学习从彩色化中分离HOC项用于传播在H项和α项中编码的稀疏用户编辑其中β是超参数。这对应于形式为1xTAx + Bx + C的二次能量函数，其中A =（S-I）T（S-I）+ βHTH，B =− 2 βαTHanddC=βαTα。这是我唯一的一次机会编码颜色统计，而HOC项仅负责结构一致性。直观地，条件p θ（x|g，z）被解释为高斯多变量密度：p θ（x|z，g）∝ exp（−E θ，g，z（x）），（5）由上面定义的能量函数Eθ，g，z参数化。可以容易地检查A是正定满秩矩阵。因此，对于严格正定矩阵，推理被简化为求解线性方程组：（（I-S）T（I-S）+ βHTH）x = βHTα。（六）我们使用A矩阵的LU分解来求解上述线性系统。下面将解释如何学习项α和S3.3学习我们现在呈现图1所示的两个训练阶段。3.确保颜色和结构解缠结，并产生多种颜色。我们还讨论了修改的损失在方程。2、每个阶段阶段1：训练结构化输出空间变分自动编码器：在第一个训练阶段，我们使用变分自动编码器公式来学习给定颜色场的低维嵌入。该阶段分为两个阶段，以确保颜色和结构解缠结。在第一阶段中，我们学习由VAE解码器产生的一元项。在第二阶段中，我们从两个最佳选择层中确定VAE方法的weigts，gray-leveli m age. 从一系列最大值到最小值的过程中获得的数据集使用ATA来促进a和b通道的平滑度先验x=Sx为了确保S矩阵学习到用于所需的结构结构一致性与不同着色的可控性9g，ψg，ψ在可控性阶段，其中需要传播稀疏用户编辑，我们遵循训练时间表，其中使用H矩阵逐渐掩蔽一元项。使用学习的结构从稀疏一元条目重构输入图像当期望来自稀疏用户编辑的着色时，我们从等式（1）求解线性系统。图6示出了用于学习的HOC项的H矩阵和编码用户编辑的α项，如图1所示。4.我们在实验部分解释了训练时间表的细节。考虑到G-CRF后验的新公式，第一训练阶段的程序如下：minDKL（N（μφ，σ2I）），N（0，I））−1ΣNl npθ（x|z（i），g）s. t. z（i）N（μφ，σ2I）. （七）φ，θ公司简介i=1随后，我们使用术语L来指代该程序的目标函数阶段2：训练混合密度网络（MDN）：由于彩色图像x在测试期间不可用，因此在第二训练阶段中，我们捕获近似后验q φ（z|x，g），在第一训练阶段中学习的高斯分布，使用参数分布|g）。由于依赖于彩色图像x，我们期望近似后验q φ（z|x，g）比p ψ（z）更容易建模|g）。因此，我们令pψ（z|g）是具有M个分量的高斯混合模型（GMM）。其均值、方差和分量权重通过具有参数ψ的混合密度网络（MDN）参数化。直觉上，对于给定的灰度图像，我们期望M个分量对应于不同的着色。通过最小化负条件对数似然，将从第一训练阶段学习的色场嵌入z映射到分量之一，即，通过最小化：ΣM-ln p ψ（z|g）= − ln π（i）N（z|µ（i），σ）。（八）i=1g，ψg，ψHereby，π（i），μ（i）和σ分别是指混合系数、平均值g，big，big以及由Φ参数化的MDN网络学习的GMM的固定协方差。然而，最小化−ln p <$（z|g）很难，因为它涉及计算对不同指数分量求和的对数。为了避免这种情况，我们明确地将代码z分配给高斯分量m，其具有最接近z的均值，即， m = argminz −µ（i）。因此，消极的我对数似然损失− ln p（z|g）简化为求解以下程序：（m）2z |x，g）= N（µφ，σ2I）min−lnπ（m）+布雷z−µg，ψ2 σ2标准差m= argmini∈{1，…M}φz −µ（i）（九）注意潜在样本z是从近似后验q φ（z|x，g）在第一阶段学习。10Safa Messaoud、David Forsyth和Alexander G. Schwing图5：从c-GAN [16]、MLN-GAN [19]、BicycleGAN [20]、PIC [18]、VAE-MDN [15]和我们的方法获得的不同着色的定性比较。4结果接下来，我们在三个颜色场复杂性不断增加的数据集上给出了定量和定性结果：（1）野生数据集（LFW）[22]中的标记人脸，它由13，233张通过深函数对齐的人脸图像组成[48];（2）包含126，227张图像的LSUN-Church数据集[23]和（3）具有50，000张图像的ILSVRC-2015（ImageNet-Val）[24]的验证集。我们将通过我们的模型获得的不同着色与代表三种不同生成模型的三个基线进行比较：（1）条件生成对抗网络[16，19，20];（2）具有MDN的变分自动编码器[15];以及（3）基于PixelCNN的概率图像着色模型[18]。请注意，[15]提供了VAE-MDN和条件VAE之间的比较，证明了VAE-MDN方法的优势。4.1基线条件生成对抗网络：我们将我们的方法与三种GAN模型进行比较：Isola等人提出的c-GAN架构。[16]，具有多层噪声的GAN由Cao等人提出。[19]和Zhu等人的BicycleGAN。[20]第20段。结构一致性与不同着色的可控性11−2 −2−28.80e−3 −2−2−2 −2−3. 0486. 20e表1：用户研究的结果（粗体获胜的模型的%）。我们与VAE-MDN我们与PICVAE-MDNvs PICLFW61.12%59.04%57.17%LSUN-Church66.89%71.61%54.46%ILSVRC-201554.79%66.98%62.88%表2：与基线的定量比较。我们使用每像素最佳误差（Eob.），方差（Var.），针对一个图像生成的所有着色对的平均结构相似性SSIM（SSIM.）和训练时间（Train.）作为性能指标。LFW LSUN-Church ILSVRC-2015方法eob.变种SSIM.Train. eob。变种SSIM.Train. eob。变种SSIM.Train.c-GAN[16]. 0478. 40 e-6。924 h−6. 9439小时. 048 8. 小行星88e−6. 9118小时MLN-GAN[19]. 0572. 83e. 1214小时。0512. 48e . 34 - 39小时0631. 73e. 3818小时BicycleGAN[20]. 0456. 50 e. 5114小时. 0482. 20e . 3839 h. 0422. 20e. 15- 18小时VAE-MDN[15]。0351. 81e. 4914小时. 0281. 05e 。7739 h. 0337. 17 E. 4818小时PIC[18]。043 5. 32e−2。3648小时。0477 .第一次会议。40e−5. 91 144h。035 6. 74e−2。19日上午96时我们的11 e-58. 小行星86e−3. 614 h 93e−61. 17e−2. 8339 h 12e−5−3。5218小时具有混合密度网络的变分自动编码器（VAE-MDN）：Deshpande etal的架构。[15]训练基于MDN的自动编码器以生成不同的着色。这是我们方法的基础。概率图像着色（PIC）：Royer等人提出的PIC模型。[18]使用CNN网络来学习灰度图像的嵌入，然后将其用作PixelCNN网络的输入。与基线的比较：我们定性地比较了由我们的模型获得的着色的多样性和全局空间一致性与由上述基线生成的着色的多样性和全局空间一致性，如图1和图5所示。我们观察到，我们的方法是唯一一种生成图1B中的女孩的皮肤1.一、我们还能够在图中均匀地对地面、天空和演员的服装着色。五、对于全局一致性评价，我们进行了用户研究，如表1所示。1，要求参与者每次从一对图像中选择更逼真的图像我们限制研究的三种方法与整体最低误差的最佳（eob）每像素报告表。2，即VAE-MDN，PIC和我们的模型。我们使用点击速度来过滤掉不注意的参与者。参与者既不知道论文的内容，也没有向他们透露方法。我们收集了来自271个独立用户的5，374张投票。结果表明，用户更喜欢所提出的方法得到的结果。12Safa Messaoud、David Forsyth和Alexander G. Schwing图6：可控性：来自稀疏用户编辑的着色为了评估多样性，我们使用两个指标：（1）不同着色的方差和（2）针对一个图像生成的所有着色对的平均结构相似性SSIM [49]。我们在Tab中报告了我们的结果二、全球一致性：我们的模型明显优于所有的基线，在产生空间一致的结果，如用户研究所示。PIC为LFW和ILSVRC-2015数据集生成了非常多样化的样本，但由于模型的自回归性质，因此缺乏长期空间依赖性。例如，图2的第二行中的蛇图5具有用于头部和尾部的不同颜色，并且女性的皮肤在图中是一致的。1.一、VAE-MDN、BicycleGAN和MLN-GAN输出有时会出现斑点，对象的颜色也不均匀。例如，图1B的第二行中的建筑物的圆顶的部分。5被混淆是天空的一部分，第三排的衬衫是斑点。相比之下，我们的模型能够捕获复杂的长期依赖关系。用户研究证实了这一点。多样性：在所有数据集上，c-GAN遭受模式崩溃，并且经常无法产生不同的着色。PIC、MLN-GAN和Bicy-cleGAN模型以照片真实感为代价产生最多样化的结果我们的模型产生不同的结果，同时确保长期的空间一致性。可控性：对于可控实验，我们在训练期间将β超参数设置为1，在测试期间将β超参数设置为5我们选择以下训练计划，以强制模型编码传播稀疏所需的结构结构一致性与不同着色的可控性13表3：平均PSNR（dB）（越高越好）与显示点的数量（|H|）.Levin等[二]《中国日报》Endo等人[50个]Barron等人[五十一]Zhang等人[14个]我们|H|10501001050100105010010501001050100PSNR26.5 28.53024.8 25.92625.3 28292830.231.526.7 29.3 30.4图7：一元项的可视化。第一行对应于地面实况图像。我们在第三行中可视化一个可能的着色，并在第二行中可视化其对应的一元项。可控性实验中的用户输入：我们训练一元分支15个epoch（阶段1，阶段1），然后训练HOC项15个epoch（阶段1，阶段2）。我们使用对角矩阵H随机指定L个像素，这些像素的颜色由一元分支α编码。我们按照训练时间表将L从100%减少到像素分别在时期2、4、6、8、10和12之后。注意，可以向训练调度添加附加阶段以适应其中期望非常稀疏的用户输入图图6中，我们示出了利用单个像素作为用户编辑（E1），我们能够分别在图6中将靴子着色为粉红色，将海珊瑚着色为蓝色，并且将蜘蛛后面的背景着色为黄色。6（a-c）.通过两次编辑（E1和E2），我们将面部着色为绿色（Zhanget al. [14]使用3个编辑）在图6（d）和天空和建筑物在不同的颜色图。6（e，f）。通过三次用户编辑（E1，E2和E3），我们展示了我们可以在图中对更复杂的图像进行着色。6（g-i）。我们使用红色标记显示编辑E 我们以蓝色可视化在最小矩阵 S 中沿着像素的方向行进的特定像素的位置，其中较暗的阴影对应于较强的相关性。定量地，我们在Tab中报告了ImageNet测试集上10，50和100次编辑的平均PSNR。3，其中对应于随机选择的7×7块的编辑（点）被揭示给算法。我们观察到，我们的方法取得了略好的结果比莱文等人提出的。[2]因为我们的算法对每个像素都进行了分析，或者一个自动化处理器处理了图像中的所有像素，而Levin等人的算法对每个像素都进行了分析。施加局部平滑。HOC和一元项的可视化：为了在所述改进的设计中获得更多的信息，我们分别在图1A和图1B中利用所述非线性项B和所述HOC项A。7和图8。如示于图在图8中，HOC项已经通过端到端通信学习了复杂的长程像素亲和度。14Safa Messaoud、David Forsyth和Alexander G. Schwing图图8：HOC项的可视化对于每个示例，我们显示了地面实况图像和对应于三个不同像素的三个HOC项，这些像素用红色标记。训练结果表明，该方法是可行的。7进一步表明，一元项输出可能具有一些噪声或不一致的着色，HOC项修复该噪声或不一致以确保全局一致性。例如，对于图2中的第二列中的图片。如图7所示，由一元项预测的面部、胸部和肩部的颜色不一致，并且由捕获长程相关性的二元项固定，如图7所示。8（c）。我们注意到不同的有趣的策略来编码长范围的映射：在LSUN-Church数据集上，该模型鼓励局部平滑，因为每个像素似乎与其邻居密切相关。这就是图中天空的情况。8（e）项。该模型在LFW数据集上训练，但编码了长程相关性。为了确保在大面积上的一致性，它选择一些参考像素并将该区域中的每个像素关联起来，如图所示8（c）。我们在补充材料中提供了所采用的深度网络架构的更多结果和细节。5结论我们提出了一种基于高斯条件随机场的变分自动编码器的彩色化配方，并说明了其在各种基准数据集上的功效，优于现有的方法。所开发的方法超越了在着色任务中的结构一致性，并且不仅考虑了结构一致性，还考虑了致谢：这份材料是基于部分支持的工作，美国国家科学基金会批准号 1718221 、 Samsung 和 3M 。我们感谢 NVIDIA 提供用于本研究的GPU。结构一致性与不同着色的可控性15引用1. Welsh，T.，Ashikhmin，M.，Mueller，K.：将颜色转换为灰度图像。02The Dog（2002）2. Levin，A.，Lischinski，D.，Weiss，Y.：使用最佳化着色。03 The Fantasy（2004）3. Chia，A.Y.S.，Zhuo，S.，R.K.古普塔Tai Y.W.周S.Y. Tan，P.，Lin，S.：网络图像的语义着色。02 The Dog（2011）4. R.K.古普塔Chia，A.Y.S.，Rajan，D. Ng，E.S.，志勇，H.：使用相似图像的图像着色。03 The Dog（2012）5. Cohen-Or，D.，Lischinski，D.：以色彩为例。欧洲图形研讨会渲染（2005）6. Morimoto，Y.，田口Y. Naemura，T.：使用网络上的多个图像对灰度图像进行自动着色。02 The Dog（2009）7. Carpiat，G.， H〇fmann，M.， S choülkopf，B. ：自组织颜色模型预测。ECCV（2008）8. Deshpande，A.，Rock，J. Forsyth，D.：学习大规模自动图像着色。ICCV（2015）9. Cheng，Z.，Yang，Q.，Sheng，B.：深着色。 ICCV（2015）10. Iizuka，S.，Simo-Serra，E.，Ishikawa，H.：要有颜色！：联合端到端学习全局和局部图像先验，用于自动图像着色和同时分类。02 The Dog（2016）11. Larsson，G.，Maire，M.，Shakhnarovich，G.：学习自动着色的表示。ECCV（2016）12. 张，R. Isola，P.，Efros，A.A.：彩色图像着色。 ECCV（2016）13. Varga，D. 、Szir'anyi、T. ：用于基于像素的图像着色的两个并行计算任务。CAIP（2017）14. 张，R. Zhu，J.Y.，Isola，P.，耿X，Lin，A.S.，余，T.，Efros，A.A.：实时用户引导的图像彩色化与学习的深度先验。电影SIGGRAPH（2017）15. Deshpande，A.，卢，J，是的MC Forsyth，D.：学习多样化的图像着色。CVPR（2017）16. Isola，P.，Zhu，J.Y.，周，T.，Efros，A.A.：使用条件对抗网络的图像到图像翻译。CVPR（2017）17. Guadarrama，S.，达尔河Bieber，D.，Norouzi，M.，Shlens，J.，Murphy，K.：像素递归着色。BMVC（2017）18. Royer，A.，Kolesnikov，A.，Lampert，C.H.：概率图像着色。BMVC（2017）19. 曹玉，周志，张伟，Yu，Y.：通过生成对抗网络的无监督多样着色。arXiv预印本arXiv：1702.06674（2017）20. Zhu，J.Y.，张，R. Pathak，D.，Darrell，T.，埃夫罗斯，匿名戒酒会Wang，O.，Shechtman，E.：走向多模态图像到图像翻译。在：NIPS。（2017年）21. 金玛，D.P.，Welling，M.：自动编码变分贝叶斯。 ICLR（2014）22. Learned-Miller，E.Huang，G.B.，RoyChowdhury，A.Li，H.，Hua，G.：在野外贴上标签的脸：一个调查。在：人脸检测和面部图像分析的进展。（2016年）23. 余，F.，Seff，A.，张玉，Song，S.，Funkhouser，T.，Xiao，J.：Lsun：使用深度学习构建大规模图像数据集，其中人类处于循环中。CoRR，abs/1506.03365（2015）24. Russakovsky，O.，Deng，J.，Su，H.，Krause，J.，Satheesh，S.，妈妈，S.，黄志，Karpathy，A.，Khosla，A. Bernstein，M.等：Imagenet大规模视觉识别挑战。IJCV（2015）16Safa Messaoud、David Forsyth和Alexander G. Schwing25. Varga，D. 、Szir'anyi、T. ：用于基于像素的图像着色的两个并行计算任务。ICCAIP（2017）26. van den Oord，A.，Kalchbrenner，N.埃斯佩霍尔特湖Vinyals，O.，格雷夫斯，A.，等：用pixelcnn解码器生成条件图像。NIPS（2016）27. Bishop，C.M.混合密度网络阿斯顿大学（1994）28. P.Y.拉丰Ren，Z.，陶X钱，C.，Hays，J.：瞬态属性用于户外场景的高级理解和编辑。02 The Dog（2014）29. Cordts，M.，Omran，M.，Ramos，S.，Rehfeld，T.，Enzweiler，M.，Benenson河弗兰克，美国，Roth，S.，Schiele，B.：用于语义城市场景理解的cityscapes数据集在：CVPR中。（2016年）30. Isola，P.，Zhu，J.Y.，周，T.，Efros，A.A.：使用条件对抗网络的图像到图像翻译。CVPR（2017）31. Yu，A.，Grauman，K.：与本地学习的细粒度视觉比较。在：CVPR中。（2014年）32. Zu， J. 是的， Kr¨ahenb u¨hl ， P. ， Shechtman ， E. ， Efros ， A. A. ：Generativevis在自然图像流形上的u_i_l_a_ulation。In：ECCV. （2016年）33. 金德曼河Snell，J.L.：马尔可夫随机场及其应用。美国数学学会（1980）34. Schwing，A.G.，Hazan，T.，Pollefeys，M.，乌尔塔松河：大规模图形模型的分布式消息传递。In：Proc. CVPR. （2011年）35. Schwing，A.G.，Hazan，T.，Pollefeys，M.，乌尔塔松河：使用Fenchel-Young Margins的全局收敛双MAP LP松弛解算器。In：Proc. NIPS. （2012年）36. Schwing，A.G.，Hazan，T.，Pollefeys，M.，乌尔塔松河：使用Frank-Wolfe算法的全局收敛In：Proc.ICML.（2014年）37. Meshi，O.，Schwing，A.G.：MAP推理的异步并行坐标最小化。In：Proc.NIPS. （2017年）38. Rue，H.：高斯马尔可夫随机场：理论与应用CRC Press（2008）39. 维穆拉帕利河Tuzel，O.，Liu，M.Y.切拉帕河：用于语义分割的高斯条件CVPR（2016）40. Chandra，S.，Usunier，N.，科基诺斯岛：使用深度嵌入的稠密低秩高斯crfs。ICCV（2017）41. Chandra，S.，科基诺斯岛：基于深度高斯crfs的语义图像分割的快速、精确和多尺度推

下载后可阅读完整内容，剩余1页未读，立即下载