学习多样的图像着色的变分自动编码器模型

52 浏览量更新于2023-10-17 收藏 2.31MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1k=1{k}学习多样的图像着色Aditya Deshpande，Jiajun Lu，Mao-Chuang Yeh，Min Jin Chong和DavidForsyth伊利诺伊大学香槟分校{ardeshp2，jlu23，myeh2，mchong6，daf}@ illinois.edu摘要彩色化是一个模糊的问题，对于单个灰度级图像具有多个可见的彩色化。然而，先前的方法仅产生单个最可能的着色。我们的目标是建立彩色化问题内在多样性的模型，并产生显示长尺度空间协调的我们使用变分自动编码器（VAE）学习颜色场的低维嵌入。我们为VAE解码器构造损失项，以避免模糊输出并考虑像素颜色的不均匀分布。最后，我们建立了一个条件模型的灰度图像和颜色场嵌入之间的多模态分布。来自该条件模型的样本导致不同的着色。我们证明了我们的方法比标准的条件变分自动编码器（CVAE）模型以及最近提出的条件生成对抗网络（cGAN）获得了更好的多样化着色1. 介绍在彩色化中，我们预测输入灰度图像的2通道颜色场。这是一个固有的不适定，所期望的，即，从静态图像生成运动场[25]、合成未来帧[27]、延时视频[31]、交互式分割和姿态估计[1]等。解决这个问题的一个自然方法是学习一个连续模型P（C|G），用于以输入灰度级图像G为条件的色场C。然后我们可以从这个条件模型{Ck}N中提取样本中国（C）|（二）ob-保持不同的颜色。建立这种显式的条件模型是困难的。难点在于C和G是高维空间.因此，自然色场和灰度特征在这些高维空间中的分布是分散的。这不会暴露学习多模态条件模型所需的共享因此，我们寻求C和G的特征表示，使我们能够建立一个条件模型。我们的策略是用C的低维隐变量嵌入z来表示C。这种嵌入是通过生成模型来学习的，例如变分自动编码器（VAE）[14]（参见图1的步骤1）。接下来，我们撬- 使用混合密度网络（MDN）学习多模态条件模型P（z|G）（见图2的步骤①的人。我们对灰度图像G的特征表示包括来自着色CNN的conv-7层的特征[30]。这些特征编码空间结构和每像素对颜色的亲和力。最后，在测试时，模棱两可的问题多种不同的颜色是zN k=1 P（z|G）并使用VAE解码器来获得对于单个灰度级图像是可能的。例如，天空的不同蓝色阴影、建筑物的不同颜色、人的不同肤色以及其他明显或微妙的颜色变化都是可接受的着色。在本文中，我们的目标是为一个单一的灰度级图像，是不同的，在同一时间，每一个现实的多个着色。这是一项艰巨的任务，因为颜色场不仅提示局部外观，而且具有长尺度的空间结构。采样颜色独立于每像素的分布，使输出空间Incoher- ent，它不会产生一个现实的颜色场（见图- ure2）。因此，我们需要一种方法，可以生成多种颜色，同时平衡每个像素的颜色估计和长尺度空间协调。这种模式在许多模糊的视觉任务中很常见，对于每个zk，对应的着色Ck（参见图1）。请注意，我们的低维嵌入编码颜色场的空间结构，我们通过对条件模型进行采样来获得空间我们工作的贡献如下。首先，我们学习一个平滑的低维嵌入以及一个设备，以生成具有高保真度的相应色场（第3节，7.2）。其次，我们在灰度特征和低维嵌入之间建立了一个学习多模态条件模型，能够产生不同的颜色（第4节）。第三，我们证明了我们的方法优于条件变分自编码器（CVAE）和条件生成对抗网络（cGAN）[10]的强基线，以获得不同的着色（第7.3节，图7）。68376838k=1k=1彩色图像（C）训练过程步骤1测试程序彩色图像C1（C）灰度图像（G）编码器MDNGMM解码器步骤2灰度图像（G）MDNz12解码器z3C2C3多样化的色彩图1：步骤1，我们学习颜色场C的低维嵌入z。步骤2，我们训练多模态条件模型P（z|G），其从灰度级特征G生成低维嵌入。在测试时，我们可以对条件模型{zk}NP（z|G）并使用VAE解码器来生成对应的不同颜色场{Ck}N。2. 背景及相关工作着色。早期的彩色化方法是交互式的，它们使用参考彩色图像[26]或基于涂鸦的彩色注释[18]。随后，[3，4，5，11，20]在没有任何人工注释或交互的情况下执行自动图像着色。然而，这些方法是在有限大小的数据集上训练的，从几十到几千张图像不等。最近的基于CNN的方法已经能够扩展到更大的数据集的一百万张图像[8，16，30]。所有这些方法的目的是仅产生单色图像作为输出。[3，16，30]预测每个像素上颜色的多模态分布但是，[3]执行图形切割推理以产生单一颜色场预测，[30]在使每像素分布达到峰值后获取期望值，[16]对模式进行采样或在每个像素处获取期望值以生成单一彩色化。为了从[16，30]中获得不同的着色，必须对每个像素独立采样颜色。这导致输出色场中的散斑噪声，如图2所示。此外，利用该噪声获得很少的分集。 Isola等人[10]使用条件GAN用于着色任务。他们的重点是为灰度级输入生成单一彩色化。我们为一个单一的输入产生不同的颜色，这都是现实的。可变自动编码器。如第1节所讨论的，我们希望学习色场C的低维嵌入z。Kingma和Welling [14]证明了这可以使用由编码器网络和解码器网络组成的变分自动编码器来实现。他们推导出以下对数似然的下限：EzQ[log P（C|z，θ）] − KL[Q（z）|C，θ）<$P（z）]（1）(a) [30]（b）地面实况图2：Zhang et al.[30]预测颜色上的每像素概率分布。前三个图像是通过独立地对每像素分布进行采样而获得的不同颜色。最后一个图像是地面实况彩色图像。这些图像展示了斑点噪声和缺乏空间协调导致独立采样的像素颜色。通过使方程1相对于参数θ最大化来使下限最大化。它们作为后P（C|z，θ）是高斯分布N（C|f（z，θ），σ2）。因此，等式1的第一项简化为具有L2损失<$C-f（z，θ）<$2的解码器网络f（z，θ）。此外，他们假设分布P（z）是零均值单位方差高斯分布。因此，编码器网络Q（z|C，θ）被训练成具有KL发散损失的分布N（0，I）。使用重新参数化技巧来执行采样，VAE已用于嵌入和解码数字[6，12，14]，面部[15，28]以及最近的CIFAR图像[6，13]。然而，已知它们会产生模糊和过度平滑的输出。我们仔细设计了损失术语，以避免模糊、灰色的输出，并将特异性和色彩结合起来（第3节）。z采样z68392+HH3. 颜色场的嵌入和解码我们使用VAE来获得颜色场的低维嵌入。除此之外，我们还需要一个高效的解码器，从给定的嵌入生成一个逼真的颜色场。在这里，我们开发了VAE解码器的损失项，避免了标准L2损失所获得的过平滑和洗出（或灰色）的颜色场。Zhang et al.[30 ]第30段。我们使用[ 30 ]计算的量化“ab”色场中颜色的经验概率估计（或归一化直方图）H对于像素p，我们对其进行采样以获得其bin并检索概率1的逆。1被用作平方差中的权重p p预测颜色fp（z，θ）和地面实况Cp之间的关系在像素P处。把这个损失历史写成矢量形式，3.1.解码器损耗L历史=<$（H−1）T[C−f（z，θ）]<$2（二）的特异性Top-k主成分Pk是彩色场的高维空间因此，产生主要沿着前k个主分量变化的色场以牺牲物种为代价梯度离心除了上述内容之外，我们还使用了一个第一阶损失项，它鼓励生成的颜色场具有与地面实况相同的梯度。写出水平和垂直梯度运算符的函数。损失术语是，在生成的颜色字段中的ficity。为了不允许这种情况，我们设计22生成的色场f（z，θ）和沿前k个主分量的地面实况色场C我们在实现中使用k=20接下来，我们将沿着每个主成分的这些投影之间的差异除以从训练估计的相应标准差σkLgrad=hC−hf（z，θ）<$2+vC−vf（z，θ）<$2（三）将解码器上的总损耗Ldec写为Ldec=Lhist+λmahLmah+λgradLgrad（4）设置。这将推动所有主要公司的变革，在我们的损失中处于平等的地位将残余物我们设置超参数λmAh=. 1和λgrad =10−3。除以第k次的标准差（对于我们的情况是第20次）编码器上的损失是对N（0）的KL发散|I），成分写入特异性损失L这些距离和残差之和，mAh使用平方如[14]。对于解码器损失，我们将此损失加权为10−2这放松了正则化但对解码器产生的色场保真度影响较大Σ20 [C−f（z，θ）]TP<$2C −f（z，θ）2我们对嵌入空间的放松约束并没有Lmah =k=1K2水库2Kres2202不良影响因为，我们的条件模型（参考第二节）（4）设法产生低维嵌入Σ20Cres= C−CTPkPkk=1Σ20fres（ z，θ）= f（ z，θ）− f（ z，θ）T Pk Pk，k=1上述损失是向量[CTP1，CTP2，· · ·，CTP20]和[f（z，θ）TP1，f（z，θ）TP2，···，f（z，θ）TP20]之间的 Mahalanobis 距离 [19] 与对角协方差矩阵k=diag（σk）k=1至20和附加残差项的组合。色彩丰富。图像中的颜色分布非常不平衡，灰色比其他颜色多。这使生成模型产生偏差，从而产生被洗掉的颜色场。 Zhang等人[30]通过在考虑训练数据中不同颜色群体的损失中执行重新平衡来解决这个问题。重新平衡的目标是相对于常见颜色，为稀有颜色赋予更高的权重。我们采用了类似的策略，即在连续色场空间而不是离散色场空间其解码为自然着色（参见图6、7）。4. 条件模型（G到z）我们要学习多模态（一对多）条件模型P（z|G），在灰度级图像G和低维嵌入z之间。混合密度网络（MDN）对目标向量的条件概率分布进行建模，条件是输入为高斯混合[2]。这考虑了一对多映射，并允许目标向量采用以同一输入向量为条件的多个值，从而提供多样性。MDN丢失。现在，我们用公式表示损失函数，对条件分布P（z）进行建模的MDN |G）。这里，P（z|G）是具有M个分量的高斯混合模型。损失函数最小化条件负对数似然− log P（z|（三）这种分配。将MDN损失记为Lmdn，混合系数记为πi，均值记为μi，GMM的固定球面协方差记为σπi和μi是由一个以φ为参数的神经网络产生的，输入为G。MDN的损失是，σσ6840L mdn=−logP（z|G）=−logΣMi=1π i（G，φ）N（z|µ i（G，φ），σ）（五）彩色图像（C）灰度图像（G）(a) CVAE彩色图像（C）灰度图像（G）跳过连接(b) cGAN彩色图像（C）很难优化方程6，因为它在-对以下形式− z −µi（G，φ）<$22图3：CVAE基线（左）和cGAN基线（右）的对于CVAE，生成嵌入ze2σ2。距离<$z−µi（G，φ）<$2很高，训练开始了，它导致了一个数字不足-在指数中流动为了避免这种情况，我们选择高斯分量m=arg min <$z−µi（G，φ）<$2，我平均值最接近地面真值代码z，并且仅优化每个训练步骤的组成部分。这将损失函数减少到z−µm（G，φ）通过使用C和G。解码器网络除了z之外还以G为条件。在测试时，我们不使用突出显示的编码器，嵌入z是随机采样的。cGAN由具有跳跃连接的编码器-解码器网络组成，并且噪声或嵌入是由于丢弃。其中之一是彩色灰度图像。它们使用编码器-解码器架构以及跳过连接Lmdn =−logπm （G，φ）+2σ2第二章（六）that propagate传播low低level水平detail细节.对网络进行训练直观地说，这种最小近似解决了MDN中的可识别性（或对称性）问题，因为我们将灰度级特征与分量（如上所述的第m个其他组件可以自由地通过附近的灰度级特征进行优化。因此，聚集的灰度级特征共同优化整个GMM，从而导致不同的着色。在第7.3节中，我们表明这种基于MDN的策略比CVAE和cGAN的基线产生更好的多样化着色（第5节）。5. 基线条件变分自动编码器（CVAE）。CVAE是以特定的输入为条件的VAE的生成过程.因此，从CVAE采样会为单个输入产生不同的输出。Walker等人[25]使用全卷积CVAE从静态图像进行不同的运动预测Xue等人。[27]在CVAE中的图像和运动编码器之间引入交叉卷积层，以获得不同的未来帧合成。Zhou和Berg [31]通过将有条件的，双栈和循环架构修改合并到标准生成模型来生成不同的时间流逝视频回想一下，对于我们的图像着色问题，CVAE的输入是灰度图像G，输出是颜色场C。Sohn等人。[23]推导出条件对数似然P（C|C. CVAE。他们表明，CVAE包括训练编码器Q（z|具有KL-发散损失的C，G，θ）网络和译码器网络 f（z，G，θ）的L2损失.相对于VAE的区别在于，生成嵌入和解码器网络都具有额外的输入G。条件生成对抗网络（cGAN）。 Isola等人[10]最近提出了一种基于cGAN的架构来解决各种图像到图像的翻译任务。除了L1损失之外，还具有基于补丁的对抗性损失噪声（或嵌入z）以dropout的形式提供[24]。在测试时，我们使用dropout来生成各种颜色。我们将256种颜色聚类到5个聚类中心（参见图7中的cGAN）。这些基线方法的说明见图3。我们将CVAE和cGAN与我们使用VAE和MDN的策略（图1）进行比较，以解决多样化着色的问题（图7）。6. 体系结构和实施细节记法。在我们开始描述网络体系结构之前，请注意以下符号。写Ca（k，s，n）用于具有内核大小k、步幅s、输出通道n和激活a的卷积，B用于批归一化，U（f）用于具有比例因子f的双线性上采样，F（n）用于具有输出通道n的全连接层。注意，我们使用零填充执行卷积，我们的全连接层使用dropout正则化[24]。6.1. VAERadford等人提出了一种具有生成器（或解码器）网络的DCGAN架构，可以对图像的复杂空间结构进行建模[21]。我们的解码器网络模型的VAE是类似于雷德福等人的生成器网络。[21 ]第20段。我们遵循他们的最佳实践使用跨越卷积而不是池化，批量归一化[9]，中间层的ReLU激活和输出层的tanh，避免完全连接的层，除非需要去相关以获得低维嵌入。根据自动编码器网络的标准实践，编码器网络大致上是解码器网络的镜像。参见图4，解码器编码器（灰跳过连接列车编码器z编码解码辍学6841C（5，2，128）; BNC（5，2，256）; BNC（5，2，512）;BNMDN，然后使用VAE解码器生成不同的着色。然而，为了以一种有原则的方式研究不同的着色，我们采用了不同的程序。我们命令C（4，2，1024）; BN简体中文预测均值µi按混合物重量64 x 64 x 232 x 32 x 1284 x 4 x 10248 x 8 x 51216 x 16 x 256d = 644 x 4 x 102464 x 64 x 2π i并使用这些top-k（k=5）均值作为图7中所示的不同着色（见我们的，我们的+跳过）。6.3. CVAE在CVAE中，编码器和解码器都采用ad-编码解码图4：我们的VAE架构的说明。特征图的尺寸在底部，应用于特征图的操作在顶部指示。此图显示了编码器。解码器架构详见6.1节。我们VAE架构的说明编码器网络。编码器网络接受一个64×64×2的色场，并输出一个d维嵌入。编码器网络可以写为，输入：64×64×2→C ReLU（5，2，128）→B→CReLU（5， 2， 256）→B→CReLU（5， 2， 512）→B→CReLU（4，2，1024）→B→F（d）。中国广播电视网. 解码器网络接受d维嵌入。它执行5次双线性上采样和卷积操作，最终输出64×64×2色场（Lab颜色空间的a和b包括两个输出通道）。解码器网络可以写成，输入： 1×1×d→U （ 4 ） →C ReLU（4，1，1024）→B→U（2） →CReLU（5，1，512） →B →U（2）→CReLU（5， 1， 256）→B→U（2）→CReLU（5，1， 128）→B→U（2）→Ctanh（5，1，2）.我们对所有三个数据集都使用d=64（第7.1节）。6.2. MDN到MDN的输入是来自[30]尺寸为28×28×512。在MDN的输出GMM中，我们使用了8个组件。输出层包括用于均值的8×d激活和用于8个分量的混合权重的8个softmax-ed激活。我们使用一个固定的球形方差。1.一、MDN网络使用5个卷积层，然后是两个完全连接的层，可以写为Input：28×28×512→C ReLU（5，1，384）→B→C ReLU（5，1，320）→B→C ReLU（5，1，288）→B→C ReLU（5，2，256）→B→C ReLU（5，1，128）→B→FC（4096）→FC（8×d+8）。同样，MDN是一个具有12个卷积层和2个全连接层的网络，前7个卷积层在[30]的任务上进行了预训练并保持固定。在测试时，我们可以从输入G.我们需要一个用于灰度图像的编码器，如图3所示。彩色图像编码器和解码器与VAE相同（第6.1节）。CVAE的灰度级编码器可以写为，Input：64×64→C ReLU（5，2，128）→ B→ C ReLU（5，2，256）→ B→CReLU（5，2，512）→B→CReLU（4，2，d）。这会产生一个4×4×d的输出特征图。由VAE（或颜色）编码器生成的d维潜变量被空间复制（4×4）并乘以灰度级编码器的输出，其形成解码器的输入此外，我们从灰度级添加跳过连接[10]与[10]类似的编码器到解码器。在测试时，我们将多个嵌入（随机采样）与固定的灰度级输入一起馈送到CVAE解码器。我们将256个嵌入和集群输出提供给 5 种颜色（参见图 7 中的CVAE）。请参考http://vision.cs.illinois.edu/projects/divcolor获取我们的tensorflow代码。7. 结果在第7.2节中，我们通过为VAE解码器构造的损失项来评估性能改善。第7.3节显示了通过我们的方法获得的各种颜色，并将其与CVAE和cGAN进行了比较。我们还展示了我们方法的另一种变体的性能：“我们的+跳过”。在我们的+skip中，我们使用带有额外灰度级编码器的VAE，并跳过与解码器的连接（类似于图3中的cGAN），MDN步骤相同。灰度级编码器架构与上述CVAE相同。7.1. 数据集我们使用三个数据集，具有不同的颜色场的复杂性。首先，我们使用野生数据集（LFW）中的标记人脸[17]，该数据集由13，233张通过深度函数对齐的人脸图像组成[7]。由于人脸图像是对齐的，因此该数据集具有一定的结构。接下来，我们使用LSUN-Church[29]数据集，其中包含126，227张图像。这些图像没有对齐，并且缺乏LFW数据集中存在的结构。然而，它们是相同场景类别的图像，因此，它们比野外图像更有结构最后，我们使用ILSVRC-2015 [22]的验证集（称为ImageNet-Val），其中包含50，000张图像作为我们的第三个数据集。这些图像是6842数据集L2-损失Mah-LossMah-Loss+色彩+梯度所有网格所有网格所有网格LFW.034 .035 .034 .032 .029.029教会.024 .025 .026 .026 .023.023ImageNet- 瓦尔.031 .031 .039 .039 .039.039数据集L2-损失Mah-LossMah-Loss+色彩+梯度所有网格所有网格所有网格LFW7.2011.296.697.332.652.83教会4.94.686.546.421.741.71ImageNet- 瓦尔10.029.2112.99 12.19 4.824.66L2损失只Lmah所有术语地面实况LFWLSUN教会ImageNet-Val图5：VAE解码器网络的不同损耗项的定性结果。顶部或第一行仅使用L2损失，第二行使用Lmah，第三行使用所有损失项：Mahalanobis、色彩度和梯度（参见等式4的Ldec），并且最后一行是地面实况颜色场。这些定性的结果表明，使用我们所有的损失条款产生更好的质量色场相比，标准的L2损失的VAE解码器。表1：对于测试集，与LFW和Church上的标准L2损失相比，我们的损失项显示出更好的每像素平均绝对误差（wrt地面实况色场）。这三个数据集中最无结构的。对于每个数据集，我们随机选择1000个图像的子集作为测试集，并使用剩余的图像进行训练。7.2. 损失项对VAE解码器的影响我们训练VAE解码器：（i）标准L2损失，（ii）第3.1节的特异性损失Lmah，以及（iii）等式4的所有损失项。图5显示了颜色-这些不同损失的测试集获得的结果。为了实现这种彩色化，我们从编码器网络中对嵌入进行采样因此，这并不包括表2：对于测试集，与所有数据集上的L2损失相比，我们的损失项显示出更好的加权绝对误差/像素（wrt地面实况颜色字段）注意，具有较低的加权误差意味着，除了常见的颜色之外，还可以正确预测较罕见的颜色。这意味着更高质量的着色，一个是不洗出来。真彩色任务。然而，它允许我们在最佳嵌入可用时评估解码器网络的性能图5显示了L2损失所得到的着色是灰色的.相比之下，通过使用我们所有的损失项，我们获得了具有生动色彩的似是而非的现实请注意图5第三行的黄色衬衫和黄色设备、棕色办公桌和绿色树木。对于所有数据集，使用我们所有的损失项6843方法LFW教会ImageNet-ValEob。变种Eob。变种Eob。变种CVAE.0311 .一、0×10−4.029二、2×10−4.037二、5×10−4cGAN.0478. 4× 10−6.048六、2×10−6.0488. 88×10−6我们.0301 .一、1×10−3.0363 .第三章。1×10−4.043六、8×10−4我们的+skip.0314.第一章4× 10−4.036二、9×10−4.041六、0×10−4表3：对于每个数据集，我们获得了高方差（多样性的代理度量）和通常较低的每像素最佳误差（Eob）。用我们的方法得到地面实况。这表明我们的方法生成的颜色场更接近地面实况，与基线相比具有更多的多样性。与标准L2损失相比，提供了更好的着色。注意，与第一行相比，第二行中的面部图像具有更多包含的肤色。这显示了从特异性损失中获得的微妙益处在表1中，我们比较了每个像素的平均绝对误差相对于不同损失项的地面实况。在表2中，我们比较了这些损失项的每像素加权误差使用与第3.1节的色彩损失相同的权重。我们计算误差：1）所有像素（All）和2）在一个图像中心的8×8均匀间隔网格（网格）。我们在网格上计算误差，以避免使用太多的核心-相关的相邻像素。在表1的绝对误差度量上，对于LFW和Church，与标准的L2损失相比，我们获得了所有损失项的较低误差。注意，与L2损失不同，我们没有专门针对这个绝对误差指标进行训练，但我们的损失项却达到了合理的性能。在表2的加权误差度量上，我们的损失项在所有数据集上都优于标准的L27.3. 与基线相比在图7中，我们比较了由我们的策略（第3、4节）和基线方法生成的各种颜色– CVAE and cGAN (Section 质量方面，我们观察到，我们的策略产生了更好的质量不同的colorizations-tions这是每一个，现实。请注意，对于每个数据集，不同的方法使用相同的训练/测试分割，我们训练它们10个epoch。不同的颜色有很好的质量为LFW和LSUN教会。我们观察到肤色，头发，衣服和背景颜色为LFW，我们观察不同的砖，天空和草的颜色为LSUN教堂。图6中显示了一些额外的颜色。在表3中，我们显示了最佳误差（即，选择具有与地面实况的最小误差的着色）和不同着色的变化。较低的最佳误差意味着不同的预测之一接近地面真理。请注意，我们的方法可靠地产生高方差，具有与其他方法可比的最佳误差我们的目标是生成多种颜色。然而，由于不同的色彩-6844我们的GT图6：我们的方法中的不同颜色。上两行是LFW，下两行是LSUN Church，最后两行是ImageNet-Val。与基线的比较见图7如果在单个图像的地面实况中没有观察到因此，我们使用较弱的代理方差来评估多样性。大的变化是所需的不同的着色，我们获得。我们依靠定性评估来验证预测池中不同着色的自然度。8. 结论我们的损失条款帮助我们建立一个变分自动编码器高保真色场。多模态条件模型产生解码为真实的不同颜色的嵌入从我们的方法获得的着色该方法也可应用于其它模糊问题。我们的低维嵌入允许我们用多模态条件模型预测多样性，但它们不编码高空间细节。在未来，我们的工作将集中在改善空间细节以及多样性。鸣谢。我们感谢Arun Mallya和Jason Rock的有益讨论和建议。这项工作部分由ONR MURI Award N00014 -16- 1-2007支持，部分由 NSF 在 Grants No.NSF IIS- 1421521。6845cGAN CVAE GTOurs Ours+跳过cGAN CVAE GTOurs Ours+跳过cGAN CVAE GTOurs Ours+跳过cGAN CVAE GTOurs Ours+跳过cGAN CVAE GTOurs Ours+跳过cGAN CVAE GTOurs Ours+跳过图7：将我们方法的各种着色与CVAE，cGAN和地面实况（GT）进行比较。我们可以生成不同的颜色，cGAN [10]没有。CVAE着色具有低多样性和伪影。6846引用[1] D. 巴特拉P. 亚多拉普尔，A. 古兹曼-里韦拉和G.沙赫纳洛维奇马尔可夫随机域中的多样m-最佳解。在ECCV（5），Lecture Notes in Computer Science的第7576卷，第1-16页。Springer，2012. 1[2] C. M.主教混合密度网络，1994年。3[3] G. Charpiat，M. Hofmann和B. Sch oülk opf. 通过多模态预测的自动图像第十届欧洲计算机视觉会议论文集：第三部分，ECCV '08，第126-139页，2008年。2[4] Z. 成角，澳-地Yang和B.盛深着色。2015年IEEE国际计算机视觉会议（ICCV），第415-423页2[5] A.德什潘德Rock和D. A.福赛斯学习大规模图像自动着色.在ICCV中，第567575. IEEE计算机学会，2015年。2[6] K. 格雷戈尔 I. 丹妮赫卡 A. 格拉夫D. Rezkirk，以及D.维尔斯特拉Draw：用于图像生成的递归神经网络。第32届国际机器学习会议（ICML-15）集，第1462-1471页，2015年2[7] G. B. Huang，M.Mattar，H.Lee和E.学习米勒。从零开始学习对齐。 NIPS，2012年。5[8] S. Iizuka、E. Simo-Serra和H.石川让我们有颜色！：联合端到端学习全局和局部图像先验知识，用于自动图像着色和同时分类。ACM Transactions on Graphics（Proc.of SIGGRAPH 2016），35（4），2016. 2[9] S. Ioffe和C.赛格迪批次标准化：通过减少内部协变量偏移来加速深度网络训练。CoRR，abs/1502.03167，2015。4[10] P. Isola，J. Zhu，T. Zhou和A. A.埃夫罗斯使用条件对抗网络的图像到图像翻译。在计算机视觉和模式识别，2017年。一、二、四、五、八[11] J. Jancsary，S. Nowozin和C.罗瑟非参数图像恢复模型的损失特定训练：最新技术水平。Proceedings of the 12thEuropean Conference on Computer Vision-Volume PartVII，pages 112 -125，2012. 2[12] D. P. Kingma，S.Mohamed，D.J. Rezende和M.威林使用深度生成模型的半监督学习。在Z. Ghahramani，M.威灵角Cortes，N.劳伦斯和K. Weinberger，编辑，《神经信息处理系统进展》，第3581-3589页2014. 2[13] D. P. 金玛 T. 萨利曼人， R. 耶福维奇， X. 陈先生，I. Sutskever和M.威林用逆自回归流改进变分自编码器。在NIPS，第47362[14] D. P.Kingma和M.威林自动编码变分贝叶斯。2014年国际学习代表会议（ICLR）。一、二、三[15] T. D. Kulkarni、W.F. Whitney，P.Kohli和J.特南鲍姆深度卷积逆图形网络。神经信息处理系统进展28，第2539- 2547页2015. 2[16] G. Larsson，M. Maire和G.沙赫纳洛维奇学习自动着色的表示在欧洲计算机视觉会议（ECCV），2016年。2[17] E. Learned-Miller ， G. B. Huang ，黄背天蛾 A.RoyChowdhury，H. Li和G.华《荒野中的脸》（Faces inthe Wild ）：《概览》，第 189-248 页。 SpringerInternational Publishing，Cham，2016. 5[18] A. Levin，D.Lischinski和Y.韦斯使用优化着色。ACM事务处理图表，23（3）：689-694，Aug. 2004. 2[19] P. C. 马哈拉诺比斯群体分化的检验与测度国际杂志的亚洲社会的贝纳加尔，26，1930年。3[20] Y. Morimoto，Y. Taguchi和T.内村使用网络上的多个图像对灰度图像进行自动着色。SIGGRAPH 2009：会谈，SIGGRAPH '09，纽约，纽约，美国，2009年。ACM。2[21] A.拉德福德湖，澳-地Metz和S.钦塔拉使用深度卷积生成对抗网络进行无监督表示学习 CoRR ，abs/1511.06434，2015。4[22]O. 鲁萨科夫斯基Deng，H.Su，J.Krause，S.萨蒂希S.妈Z。Huang，黄背天蛾A. 卡帕西A.科斯拉，M。伯恩斯坦A. C. Berg和L.飞飞ImageNet大规模视觉识别挑战。国际计算机视觉杂志（IJCV），115（3）：211-252，2015年。5[23] K. Sohn，X. Yan和H.李你使用深度条件生成模型学习结构化输出表示。在第28届神经信息处理系统国际会议论文集，NIPS麻省理工学院出版社. 4[24] N. Srivastava、G.Hinton，A.克里热夫斯基岛Sutskever和R.萨拉赫季诺夫Dropout：一种防止神经网络过度拟合的简单方法。 J. 马赫学习. Res. ，15（1）：19294[25] J. Walker，C.多尔施A. Gupta，和M。赫伯特不确定的未来：使用变分自动编码器从静态图像进行预测。2016年欧洲计算机视觉会议。1、4[26] T. 威尔士湾Ashikhmin和K.穆勒将颜色转换为灰度图像。SIGGRAPH，2002年。2[27] T. Xue，J. Wu，K. L. Bouman和W. T.弗里曼。视觉动力学：通过交叉卷积网络的可能未来框架合成在NIPS，2016年。1、4[28] X. Yan，J. Yang，K. Sohn和H.李你属性2image：从视觉属性生成条件图像。在Computer Vision-ECCV 2016 -14thEuropeanConference ， Ambassador ， TheNetherlands，October 11-14，2016，Proceedings，PartIV，pages 7762[29] F. Yu，Y. Zhang，S. Song，中国黑杨A. Seff和J. 萧Lsun：使用深度学习构建大规模图像数据集，并将人类纳入循环。CoRR，abs/1506.03365，2015。5[30] R. Zhang，P.Isola 和A.A. 埃夫罗斯彩色图像着色。ECCV，2016。一、二、三、五[31] Y. Zhou和T.L. 伯格。从时间流逝视频学习时间，第262-277页。Springer Interna-出版社，2016年。1、4

下载后可阅读完整内容，剩余1页未读，立即下载