深度图像协调网络的研究与实验

150 浏览量更新于2023-10-15 收藏 1.69MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1深度图像协调蔡怡萱1沈晓辉2林哲2孙卡瓦利2卢欣2杨铭萱11加州大学默塞德分校2Adobe Research1 2{ytsai2，mhyang}@ ucmerced.edu{xshen，zlin，sunkaval，xinl}@ adobe.com摘要合成是照片编辑中最常见的操作之一。为了生成逼真的合成效果，需要调整前景和背景的外观以使它们兼容。以前的合成方法集中在学习前景和背景的手工制作的外观特征之间的统计关系，这是不可靠的，特别是当两层中的内容相差很大时。在这项工作中，我们提出了一种用于图像协调的端到端深度卷积神经网络，它可以在协调过程中捕获合成图像的上下文和语义信息。我们还介绍了一种有效的方法来收集大规模和高质量的训练数据，可以促进训练过程。在合成数据集和真实合成图像上的实验表明，该网络的性能优于以前的最先进的方法。1. 介绍合成是图像编辑中最常见的操作之一。为了生成合成图像，提取一个图像中的然而，所提取的前景区域的外观可能与新背景不一致，使得合成图像不真实。因此，必须调整前景区域的外观，使其与新背景兼容（图1）。以前的技术通过在前景和背景区域之间转移手工制作的特征的统计数据来提高合成图像的真实性，包括颜色[13，28]和纹理[25然而，这些技术没有考虑合成图像的内容，导致当前景和背景区域的外观非常不同时不可靠的结果。在这项工作中，我们通过训练一个端到端深度卷积神经网络，[28]第二十八话朱[32]我们的协调结果图1。我们的方法可以调整合成前景的外观，使其与背景区域兼容。给定一个合成图像，我们显示协调的图像gener-[28]，[32]和我们的深度协调网络。(CNN)用于图像协调，其可以在协调期间捕获合成图像的上下文和语义信息。给定一个合成图像和一个前景蒙版作为输入，我们的模型直接输出一个协调的图像，其中内容与输入相同，但在前景区域上调整了外观。上下文信息已被用于若干图像编辑任务中，诸如图像增强[6，29]、图像编辑[27]和图像修复[20]。对于图像谐波化，关键是要了解它在前景区域附近的周围背景区域因此，可以相应地调整前景外观为此，我们训练了一个深度CNN模型，该模型由一个编码器和一个解码器组成，编码器用于捕获输入图像的上下文，解码器用于使用从编码器学习的表示来重建协调图像此外，语义信息也是非常重要的37893790改善形象协调。例如，如果我们知道要协调的前景区域是天空，则自然地调整外观和颜色以与周围内容混合，而不是使天空绿色或黄色。然而，上述编码器-解码器在没有高级语义标签的监督的情况下不显式地建模语义信息。因此，我们在公司的另一个解码器提供输入图像的场景解析，同时共享相同的编码器学习特征表示。采用联合训练方案将语义信息传播到协调解码器。利用这样的语义指导，协调过程不仅捕获图像上下文，而且还理解语义线索以更好地调整前景区域。训练端到端深度CNN需要大规模的训练集，包括各种高质量的样本。然而，与其他图像编辑任务（如图像着色[30]和修复[20]）不同，可以轻松生成无限量的训练数据，收集用于图像协调的大规模训练集相对困难，因为生成合成图像和地面实况协调输出需要专业的编辑技能和大量的时间。为了解决这个问题，我们开发了一种训练数据生成方法，可以合成大规模和高质量的训练对，这加快了学习过程。为了评估所提出的算法，我们进行了广泛的实验合成和真正的复合图像。我们首先定量地比较我们的方法与不同的设置，其他现有的方法，图像协调我们的合成数据集，其中地面实况图像提供。然后，我们对真实的合成图像进行了用户研究，并表明我们在合成数据集上训练的模型在真实情况下表现良好。这项工作的贡献如下。首先，据我们所知，这是第一次尝试使用端到端学习方法进行图像协调。其次，我们证明了我们的联合CNN模型可以有效地捕获上下文和语义信息，并且可以有效地训练协调和场景解析任务。第三，开发了一种有效的方法来收集大规模和高质量的训练图像，以促进图像协调的学习过程。2. 相关工作我们的目标是通过调整前景外观来协调合成图像在本节中，我们将讨论与此设置密切相关的现有方法。此外，该方法采用了基于学习的框架和联合训练方案。因此，最近的图像编辑方法在这个范围内也进行了讨论。图像协调。生成逼真的合成图像需要前景和背景区域之间的外观和内容的良好匹配。示例方法使用颜色和色调匹配技术来确保一致的外观，例如传输全局统计数据[24，23]，应用梯度域方法[21，26]，匹配多尺度统计数据[25]或利用语义信息[27]。虽然这些方法直接匹配外观以生成逼真的合成图像，但是没有考虑图像的真实性。Lalonde和Efros [13]通过从自然图像中学习颜色统计来预测照片的真实性，并使用这些统计来调整前景外观以提高色彩兼容性。另一方面，开发了一种数据驱动方法[10]，通过检索一组具有相似全局布局的真实图像来传输外观，从而提高计算机生成图像的真实性。此外，图像的真实性进行了研究，并用于改善协调结果。Xue等人。[28]进行人类受试者实验，以确定确定合成图像真实性的最重要的统计措施，并相应地调整前景外观。最近，朱等。[32]学习CNN模型以预测合成图像的真实性，并将真实性得分并入颜色优化函数中，用于前景区域上的外观调整。与上述方法不同，我们的端到端CNN模型直接从作为输入的合成图像和地面实况图像对学习，这确保了输出结果的真实性。基于学习的图像编辑。最近，用于图像编辑任务（例如图像着色[7，14，30]、修复[20]和过滤[18]）的基于神经网络的方法由于其效率和令人印象深刻的结果而引起了广泛关注与自动编码器[1]类似，这些方法采用无监督学习方案，学习输入图像的特征表示，其中原始数据用于监督。虽然我们的方法共享类似的概念，据我们所知，这是第一个端到端可训练的CNN架构，用于图像协调。然而，这些图像编辑流水线在重构期间可能遭受丢失更精细级别的语义信息，并且这样的语义是理解图像内容的重要线索与以前不明确使用语义的方法不同，我们引入了一个额外的模型来预测像素场景解析结果，然后将此信息传播到协调模型，其中整个框架仍然是端到端可训练的。3. 深度图像协调在本节中，我们将详细介绍我们提出的用于图像协调的端到端CNN模型给定3791(a) Miscrosoft COCO Flickr(b) Adobe FiveK图2. 数据采集方法。我们说明了收集数据集的训练对的方法（a）通过颜色转移的Miscrosoft COCO和Flickr，以及（b）具有不同风格的MIT-Adobe FiveK。该模型以合成图像和前景蒙版作为输入，通过调整前景外观，同时保留背景区域，输出一幅和谐的图像。此外，我们设计了一个联合训练过程与场景解析理解图像语义，从而提高协调结果。图3示出了所提出的CNN架构的概述。在描述这个网络之前，我们首先介绍一种数据收集方法，它允许我们获得大规模和高质量的训练对。3.1. 数据采集数据采集是成功训练CNN的关键步骤。如上所述，需要包含合成图像和协调图像的图像对作为网络的输入和地面实况。与其他无监督学习任务（如[30，20]）不同，图像协调任务需要专业知识从合成图像中生成高质量的协调图像，这对于收集大规模训练数据是不可行的。为了解决这个问题，我们从一个真实的图像开始，我们将其视为网络的输出地面实况然后我们对象或场景）并编辑其外观以生成编辑图像，我们将其用作网络的输入合成图像。图2描述了整个过程。这种数据采集方法确保地面实况图像始终是真实的，因此所提出的CNN的目标是直接从合成图像重建真实的输出在下文中，我们将介绍如何生成合成数据集的细节使用分割掩码的图像。我们首先使用Microsoft COCO数据集[17]，其中为每个图像提供为了生成合成的合成图像，我们随机选择一个对象，并通过颜色转移方法编辑为了确保表1. 三个合成数据集上的训练和测试图像的数量。MSCOCOMIT AdobeFlickr训练集5118740864720测试集38426896由于编辑后的图像在颜色和色调上既不是任意的，也不是不真实的，因此我们通过寻找适当的参考对象来构造颜色传递函数。具体地，给定一个目标图像和其对应的对象掩码，我们搜索一个参考图像，其中包含具有相同语义的对象。然后，我们将外观从参考对象转移到目标对象。因此，我们确保编辑后的对象看起来仍然很好，但不匹配背景上下文。对于颜色传递，我们计算亮度和色温的统计数据，并使用直方图匹配方法[16]。为了生成更多种类的传输结果，我们在一张图像上为亮度和色温应用不同的传输参数，以便我们的学习网络可以适应实际情况中的不同场景此外，我们应用美学预测模型[11]来过滤掉低质量的图像。生成的合成输入和输出对的示例在图2（a）中示出。不同风格的图像。尽管Microsoft COCO数据集为我们提供了丰富的对象类别，但它仍然局限于某些对象。为了覆盖更多的对象类别，我们使用MIT-Adobe FiveK数据集对其进行了扩展[3]。在这个数据集中，每个原始图像都有另外5种不同的风格，这些风格由专业摄影师使用Adobe Lightweight进行修改，从而产生同一图像的6要编辑原始图像，我们从一个随机选择的风格开始，手动分割一个区域。然后，我们裁剪这个分割区域，并在图像上用另一种风格覆盖，以生成合成的合成图像。图2（b）中给出了一个示例集。Flickr图像多样性。由于MIT- Adobe FiveK和MicrosoftCOCO数据集中的图像仅包含某些场景和样式，因此我们从Flickr收集了具有更大多样性的数据集，例如包含不同场景或风格化图像的图像。为了生成输入和地面真值对，我们应用了与Microsoft COCO数据集相同的颜色转移技术。然而，由于该数据集中没有提供语义信息来搜索适当的参考对象以进行传输，因此我们使用预训练的场景解析模型[31]来预测语义像素标签。然后，我们计算目标图像的空间金字塔标签直方图[15]，并从ADE 20K数据集[31]中检索参考图像，这些参考图像具有根据地面实况注释计算的类似接下来，我们手动分割区域（例如，对象或37922图3.所提出的联合网络架构的概述给定合成图像和所提供的前景掩模，我们首先通过编码器传递输入以用于学习特征表示。编码器然后连接到两个解码器，包括用于重构协调输出的为了使用学习到的语义和改善协调结果，我们连接的特征映射从场景解析解码器的协调解码器（表示为点橙色线）。此外，我们在编码器和解码器之间添加跳过链接（表示为蓝点线），以保留图像细节和纹理。请注意，为了保持图清晰，我们仅描绘用于协调解码器的链路，而场景解析解码器具有连接到编码器的相同跳过链路。场景）。基于分割的目标区域内的预测场景解析标签，我们在参考图像中找到与目标区域共享相同标签的区域。然后通过上述颜色转移方法生成合成图像（图2（a））。讨论。通过上述三个数据集上的数据采集方法，我们能够收集大规模和高质量的训练和测试对（见表1总结）。这使我们能够训练一个端到端的CNN来实现图像协调，这有几个好处。功能和建议的网络架构，并讨论了新的组件。目标函数给定一幅RGB图像I∈RH×W×3和所提供的复合前景区域的二值掩码M∈RH×W×1，我们通过连接I和M形成输入X∈RH×W×4，其中H和W是图像尺寸.我们的目标是预测输出图像Y=F（X），其相对于地面实况图像Y优化反射率（L2）损失：首先，我们的数据收集方法确保地面实况图像是真实的，因此网络可以真正捕获图像真实性并根据L记录1Σ（X）=Y2 h，wh，w-是的2.（一）学习的表征。我们的方法的另一个优点是能够定量评估。也就是说，我们可以使用合成的合成图像通过与地面实况图像进行比较来测量误差。虽然图像协调任务不应该有单一的最佳解决方案，但这种定量测量可以让我们了解不同方法生成的图像与真正逼真的图像（在第4节中讨论）有多接近，这是以前的方法没有解决的3.2. 上下文感知编码器解码器受上下文编码器[20]潜力的启发，我们的CNN通过编码器学习输入图像的特征表示，并通过解码器重建协调的虽然所提出的深度网络有一些相似之处，但我们为图像协调添加了新的组件。在下文中，我们介绍了由于L2损失是用数据分布的平均值优化的，因此结果通常是模糊的，从而错过了输入图像的重要细节和纹理。为了克服这些问题，我们证明了从编码器到解码器添加跳过链接可以在所提出的网络中恢复这些图像细节。网络架构。图3显示了我们的网络架构的基本组成部分与编码器和谐波解码器。编码器是一系列卷积层和一个全连接层，用于学习从低级图像细节到高级上下文信息的特征表示。请注意，由于我们没有任何池化层，因此编码器中保留了精细细节[20]。解码器是一系列去卷积层，其目的是通过从编码器中学习的表示进行上采样来重建图像，并同时调整前景区域的外观。3793然而，在编码器中的压缩过程期间可能丢失图像细节和纹理，并且因此存在较少的信息来重构输入图像的内容为了保留这些细节，我们必须从编码器中的每个卷积层到解码器中的每个对应的解卷积层添加一个跳过链接。我们表明，这种方法是有效的有用的，而不增加广告负担的训练网络。此外，它可以减轻L2损失的问题，更喜欢模糊的图像解决方案.实施详情。我们在Caffe [9]中实现了所提出的网络，并使用随机梯度下降求解器以固定的学习率10−8进行优化。此外，我们计算整个图像而不是前景掩模上的损失，以考虑背景区域中的反射差异。我们还尝试了加权损失，认为前景区域更重要，但结果是相似的，因此我们使用一个简单的损失函数。由于整个网络是从头开始训练的，因此我们在每个卷积和去卷积层之后使用批量归一化[8]，然后是缩放层和ELU层[5]，以促进训练过程。讨论。我们进行实验，使用不同的输入大小的建议的网络架构。有趣的是，我们发现具有较大输入尺寸的一个在实践中表现得更好，因此我们使用512×512的输入分辨率。这一观察也与我们在设计具有跳过链接的编码器-解码器架构时的直觉相其中网络可以从更大的输入图像中学习更多的上下文信息和细节。为了生成更高的分辨率结果，我们可以使用联合双边滤波对网络的输出进行上采样[22]，其中输入的复合图像用作保持清晰细节和锐利纹理的指导。3.3. 语义学联合训练在上一节中，我们提出了一种用于图像协调的编码器-解码器网络架构。为了进一步改善协调结果，考虑合成前景区域的语义是自然的。接下来的问题是如何将这种语义纳入我们的CNN中，以便整个网络仍然是端到端可训练的。在本节中，我们提出了一个修改后的网络，它可以同时联合训练图像协调和场景解析任务，同时传播语义以改善协调结果。整体架构如图3所示，其中增加了场景解析解码器分支。联合损失。除了（1）中描述的图像协调的重建损失之外，我们还引入了像素级的用于场景解析的标准softmax函数E的交叉熵损失ΣLcro（X）= −log（E（X h，w; θ））。（二）h，w然后，我们为这两个任务定义一个组合损失，并联合优化它L=λ1Lrec+λ2Lcro，（3）其中λi是用于控制图像协调和场景解析的损失之间的平衡的权重网络架构。我们通过继承上一节中描述的编码器-解码器架构来具体来说，我们添加了一个解码器来预测场景解析结果，而编码器是学习特征表示，并为两个解码器共享。为了从场景解析模型中提取语义知识并帮助协调过程，我们将场景解析解码器的每个去卷积层的特征图连接到协调解码器，除了最后一层专注于图像重建。此外，跳过链接[19]也连接到场景解析解码器以从编码器获得更多信息。实施详情。为了实现所提出的联合网络的训练过程，需要用于协调和场景解析的地面实况图像然后，我们使用ADE20K数据集的一个子集[31]，其中包含12080个训练图像，其中包含前25个频繁标签。类似地，用于协调的训练对以数据采集部分中所描述的方式经由颜色转移来获得。为了训练联合网络，我们从ADE20K数据集的训练数据开始，通过优化（3）获得协调和场景解析我们设置λ1=1和λ2=100，具有固定的学习率10-8。接下来，我们将场景解析解码器固定为λ2=0并使用所有训练数据微调网络的其余部分在第3.1节中介绍了一种方法，以实现图像协调的最佳解决方案注意，在该微调步骤期间，场景解析解码器能够通过两个解码器之间的链路传播学习到的语义信息讨论。通过结合的场景解析模型，我们的网络可以学习某些语义类别的颜色分布，例如，人类的肤色或者天空的颜色。此外，所学习的背景语义可以帮助识别要匹配哪个区域以进行更好的前期调整。在协调过程中，它基本上使用这些学习到的语义先验来提高输出结果的真实性。此外，通过联合训练合并语义信息不仅有助于我们的图像协调任务，而且还可以用于其他图像编辑任务[30，20]。3794[13]第28话：我爱你[32]23.68 14.01 24.19 23.8917.59 19.26 18.26 17.85 24.4015.97 14.71 16.13图4. 输入、地面实况、三种最先进的方法和我们提出的网络的合成数据集的示例结果。从第一行到第三行，我们展示了MSCOCO、MIT-Adobe和Flickr数据集的一个示例每个结果与PSNR分数相关联在所有的方法中，我们的协调结果获得了最高的分数。表2. 在三个合成数据集上比较具有均方误差（MSE）的方法。MSCOCOMIT AdobeFlickr剪切粘贴400.5552.5701.6拉隆德[13]667.01207.82371.0[第28话]351.6568.3785.1朱[32]322.2360.3475.9我们的（无语义）80.5168.8491.7我们76.1142.8406.8为了验证我们的场景解析模型，我们将所提出的联合网络与deeplab模型[4] MSc-COCO-LargeFOV进行了比较，该模型与我们的模型具有类似的模型容量和大小，但从预先训练的模型初始化我们评估的场景解析结果的验证集的ADE20K数据集与前25个频繁的标签。我们的联合网络的平均交并（IoU）精度为32。2，而MSc-COCO-LargeFOV模型实现的IoU为36。0的情况。虽然我们的模型不是专门为场景解析而设计的，而是从头开始学习的，但它表明我们的方法与最先进的语义分割模型相比具有竞争力。表3.在三个合成数据集上比较方法与PSNR分数MSCOCOMIT AdobeFlickr剪切粘贴26.323.925.9拉隆德[13]22.721.118.9[第28话]26.924.625.0朱[32]26.925.825.4我们的（无语义）32.227.527.2我们32.928.727.44. 实验结果我们提出了图像协调的主要结果，并与本节中最先进的方法进行了比较更多的结果和分析可以在补充资料中找到。代码、模型和测试集可在https://github.com/wasidennis/DeepHarmonization上获得。合成数据。我们首先在我们的合成数据集上评估所提出的方法进行定量比较。表2和表3显示了地面真实值和协调值之间的均方误差（MSE）和PSNR分数3795Input No semantics With semantics(a) 输入18.86 28.15 33.32图5. 示例结果显示了我们的网络与语义信息的比较。结合语义，我们的结果可以恢复肤色，并获得更高的PSNR值.形象注意，这是第一次对图像协调性进行定量评价，反映了不同结果与真实图像的接近程度我们表明，与单个网络相比，我们的联合网络始终实现更好的性能，而不结合场景解析解码器和其他最先进的算法[13 ， 28 ， 32] 在所有三个合成数据集上的 MSE 和PSNR。此外，还值得注意的是，我们的基线网络与-out语义已经优于其他现有的方法。在图4中，我们显示了从不同方法生成的协调结果的PSNR的视觉比较总的来说，所提出的方法的协调图像更真实，更接近地面实况图像，具有更高的PSNR值。此外，图5给出了我们的网络与不包含场景解析解码器的网络的比较。有了语义理解，我们的联合网络能够根据它们的语义协调前景区域，并产生逼真的外观调整，而没有语义的网络在某些情况下可能会产生令人不满意的结果。真实合成图像。为了评估所提出的联合网络在真实场景中的有效性，我们创建了一个52个真实合成图像的测试集，并结合48个Xue等人的例子。[28]，总共产生了100幅高质量的合成图像。为了覆盖各种真实示例，我们创建包括各种场景和风格化图像的合成图像，其中合成前景区域可以是对象或场景。我们遵循与 [28 ， 32] 相同的过程，在 AmazonMechanical Turk上设置用户研究，每个用户一次看到两个随机选择的结果，并被要求选择看起来更真实的结果。对于健全性检查，我们使用来自合成数据集的地面实况图像和大量编辑的图像来创建容易区分的对，用于过滤掉不良用户。因此，共有225名受试者参加了这项研究，总人数为10773人pairwise结果（10. 每对不同的冰毒有8个结果(b) 掩码（c）输出图6. 给定输入图像（a），我们的网络可以根据提供的掩码（b）调整前景区域并产生输出（c）。在本例中，我们将掩码从第一行中的掩码反转为第二行中的掩码，并生成考虑不同上下文和语义信息的协调化结果。表4. 方法与真实复合数据集上B-T评分的比较。数据集[28日]我们的测试集整体剪切粘贴1.0801.1681.139拉隆德[13]0.5570.0670.297[第28话]1.1300.8851.002朱[32]0.8750.8670.876我们1.2371.5681.424平均值在获得所有成对结果后，我们使用Bradley-Terry模型（B-T模型）[2，12]计算每种方法的全局排名得分。表4显示，与我们创建的测试集和[28]中的示例的最新方法相比，我们的方法在真实性方面获得了最高的B-T分数。有趣的是，我们的方法是唯一一个可以提高与输入图像（通过剪切和粘贴）的显着利润率的协调结果。图7显示了通过评价方法得到的样本协调图像总的来说，我们的联合网络产生了逼真的输出图像，这验证了使用合成数据直接学习如何从逼真的地面实况图像协调合成图像的有效性。[28]的结果很容易受到匹配过程中背景和前景区域之间较大的外观差异的对于方法[32]，由于在真实性预测期间引入的误差，可能会产生不令人满意的结果，这可能会影响颜色优化步骤。相比之下，我们的网络采用从构造良好的训练集学习的单一前馈方案，并利用语义信息来改善协调结果。补充材料中提供了真实复合材料测试集的完整结果3796[28]第十三届中国国际纺织品博览会[32]图7. 输入的真实合成图像的示例结果，三个国家的最先进的方法和我们提出的网络。我们表明，我们的方法产生现实的和谐图像，通过调整复合前景区域包含各种场景或对象。一般化为背景遮罩。通过提供的前景蒙版，我们的网络可以学习上下文和语义信息，同时将合成图像转换为逼真的输出图像。因此，我们的方法可以适用于任何前景蒙板包含任意对象，场景或杂乱的背景。图6示出了一个示例，其中最初调整的前景区域是子区域。相反，我们可以反转面具，并专注于协调反转子区域。结果表明，我们的网络可以从不同的前景蒙板产生逼真的输出。运行时性能。以前的协调方法依赖于匹配统计数据[13，28]或优化调整函数[32]，这通常需要更长的处理时间（使用3.4GHz Core Xeon CPU超过10秒512×512的测试图像。相比之下，我们提出的CNN能够在0.05秒内与泰坦X GPU和12GB内存，或3秒与CPU。5. 总结发言在本文中，我们提出了一种新的网络，可以捕获的背景和语义信息的图像协调。我们证明，我们的联合网络可以在一个端到端的方式训练，其中的语义解码器分支可以有效地提供语义，以帮助协调。此外，为了方便训练过程，我们开发了一种有效的方法来收集大规模和高质量的训练对。实验结果表明，我们的方法表现出良好的合成数据集和实际的复合图像对其他国家的最先进的算法。致谢。这项工作得到了NSF CAREER Grant#1149783，NSF IIS Grant #1152576的部分支持，还有Adobe的礼物部分工作在Y.-H. Tsai是AdobeResearch的实习生3797引用[1] Y. Bengio，A. Courville和P。文森特表征学习：回顾与新的视角。PAMI，35（8）：1798- 1828年，2013年。2[2] R. A. Bradley和M. E.特里.不完全区组设计的秩分析：I.配对比较法Biometrika，39：324-345，1952. 7[3] V. Bychkovsky，S. Paris，E. Chan和F.杜兰德学习- ING摄影全球色调调整与数据库的输入/输出图像对。CVPR，2011。3[4] L- C. Chen，G.帕潘德里欧岛科基诺斯角墨菲和A. L.尤尔。基于深度卷积网和全连接crf的语义图像分割。2015年，国际会议。6[5] D. Clevert，T.Unterthiner和S.Hochreiter。通过指数线性单元（elus）进行快速准确的深度网络学习ICLR，2016年。5[6] S. J. Hwang，A. Kapoor和S. B.康基于上下文的自动局部图像增强。ECCV，2012年。1[7] S. Iizuka、E. Simo-Serra和H.石川要有颜色！：全局和局部图像先验的联合端到端学习，用于自动图像彩色化和同时分类。 ACM 事务处理图表（ proc.SIGGRAPH），35（4），2016. 2[8] S. Ioffe和C.赛格迪批次标准化：通过减少内部协变量偏移来加速深度网络训练。ICML，2015。5[9] Y. Jia、E.Shelhamer，J.多纳休S.Karayev，J.隆河，西-地Gir- shick，S. Guadarrama和T.达雷尔。Caffe：用于快速特征嵌入的卷积架构 arXiv 预印本 arXiv ：1408.5093，2014。5[10] M. K.约翰逊，K。Dale，S. Avidan，H. Pfister，W. T.自由人和W。马图西克Cg2real：使用大量的照片来提高计算机生成图像的真实感。IEEE Trans.Vis.对比图，17（9），2011. 2[11] S.孔，X.沈，Z.林河，巴西-地Mech和C.福克斯具有属性和内容自适应的照片美学排名网络。在ECCV，2016年。3[12] W.- S.赖，J. - B. Huang，Z. Hu，N. Ahuja和M. H.杨单幅图像盲去模糊的比较研究。在CVPR，2016年。7[13] J. - F. Lalonde和A. A.埃夫罗斯使用颜色兼容性评估图像真实性。载于ICCV，2007年。一二六七八[14] G. Larsson，M. Maire和G.沙赫纳洛维奇学习自动着色的表示。在ECCV，2016年。2[15] S.拉泽布尼克角Schmid和J.庞塞除了功能袋之外：用于识别自然场景类别的空间金字塔匹配。CVPR，2006。3[16] J. - Y.李，K. Sunkavalli，Z. Lin，X.沈和我S.奎恩自动内容感知颜色和色调风格化。在CVPR，2016年。3[17] T.- Y. 林，M。迈尔，S。贝隆吉，J.Hays，P.Perona，D.Ra-manan ， P.Dolla'r 和 C.L.Zitnick.MicrosoftCOCO：上下文中的通用对象。2014年，在ECCV。3[18] S. Liu，J. Pan和M.- H.杨通过混合神经网络学习低级视觉的递归滤波器。在ECCV，2016年。2[19] J.朗，E. Shelhamer和T.达雷尔。用于语义分段的全卷积网络。CVPR，2015。5[20] D. Pathak，P. Kr aühenbuühl，J. 多纳休，T. Darrell和A. A.埃夫罗斯上下文编码器：通过图像修复进行特征学习。在CVPR，2016年。一、二、三、四、五[21] P. 我是佩雷斯先生。Gangnet和A. Bla k e. 泊松图像编辑。ACM事务处理图表（proc. SIGGRAPH），22（3），2003.2[22] G.彼得希尼格，R. 塞利斯基 M. 阿格拉瓦拉M. 科恩H. Hoppe和K.富山使用闪光灯和无闪光灯图像对的数码摄影。ACM事务处理图表（proc. SIG-GRAPH），23（3），2004. 5[23] F. Patie和A.科卡兰线性蒙格-康托洛维奇线性色彩映射用于基于实例的色彩传递。在CVMP，2007年。2[24] E. Reinhard，M.阿希赫明湾Gooch和P.雪莉图像之间的颜色转换。IEEE Comp. Graph. Appl. ，21（5）：34-41，2001. 2[25] K. Sunkavalli，M. K. Johnson，W. Matusik和H.菲斯特多尺度图像协调。 ACM Trans. Graph. （proc.SIGGRAPH），29（4），2010. 一、二[26] M. W. 陶， M.K. Johnson 和 S. 巴黎容错图像合成。IJCV，103（2）：178-189，2013. 2[27] Y.-- H. Tsai，X.沈，Z.Lin，K.Sunkavalli和M.-H. 杨天空不是极限：语义感知的天空替换。ACM事务处理图表（proc. SIGGRAPH），35（4），2016. 一、二[28] S. Xue、黑腹拟步行虫A. Agarwala，J. Dorsey和H.拉什迈尔理解和提高图像合成的真实感ACM事务处理图表（proc. SIGGRAPH），31（4），2012。一二六七八[29] Z. Yan，H.张湾，澳-地Wang，S. Paris和Y. Yu.使用深度神经网络的自动照片调整。ACM Trans.Graph. ，2015年。1[30] R. Zhang，P.Isola和A.A. 埃夫罗斯彩色图像着色。在ECCV，2016年。二三五[31] B.Zhou ， H.Zhao ， X.普伊格 S 。菲德勒， A.Barriuso，以及A.托拉尔巴通过ADE20K数据集对场景进行语义理解。CoRR，abs/1608.05442，2016。三、五[32] J. - Y. Zhu ，P. K r¨ henb ¨ hl，E. Shechtman 和A. A.埃夫罗斯学习一个判别模型，用于感知合成图像中的真实感。在ICCV，2015年。一二六七八

下载后可阅读完整内容，剩余1页未读，立即下载