多尺度神经元块合成的修复方法

36 浏览量更新于2023-10-16 收藏 2.71MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

6721基于多尺度神经元块合成的杨超1、卢欣2、林哲2、伊莱·谢赫特曼2、王立文2、李浩1、3、41南加州2Adobe研究3针屏USC Institute for Creative Technologies南加州大学创意技术学院摘要深度学习的最新进展显示出令人兴奋的前景，即用语义上合理的和上下文感知的细节来填充自然图像中的大洞，影响基本的图像处理任务，如对象删除。虽然这些基于学习的方法在捕获高级特征方面比现有技术明显更有效，但是由于记忆限制和训练困难，它们只能处理非常低分辨率的输入即使对于稍大的图像，补漆区域也会显得模糊，并且令人不快的边界变得可见。本文提出了一种基于图像内容和纹理约束联合优化的多尺度神经元图像块合成方法，该方法通过匹配和调整图像块与深度分类网络的最相似中层特征相关性，不仅保留了图像的上下文结构，而且产生了高频细节。我们在ImageNet和Paris Streetview数据集上评估了我们的方法，并实现了最先进的修复精度。我们表明，我们的方法产生更清晰，更连贯的结果比以前的方法，特别是对于高分辨率图像。1. 介绍在共享照片之前，用户可能希望进行修改，例如擦除分散注意力的场景元素、调整图像中的对象位置以获得更好的合成、或恢复被遮挡图像区域中的图像内容。这些以及许多其他编辑操作需要自动填充孔（图像完成），y@usc.edu§xinl@adobe.com†zlin@adobe.com‡elishe@adobe.com下载ang@adobe.comhao@hao-li.com(a) 输入图像（b）上下文编码器(c)PatchMatch（d）我们的结果图1.任务的定性说明。给定一幅（512×512）的图像，其中有一个缺失的孔（256×256）（a），我们的算法可以合成更清晰和更连贯的孔内容（d）com。使用上下文编码器[32]（b）和使用PatchMatch [1]（c）的内容感知填充进行配对。在过去的几十年里，它一直是计算机视觉和图形领域的一个活跃的研究课题。由于其固有的模糊性和自然图像的复杂性，一般的孔填充仍然具有挑战性。现有的方法，解决孔填充问题分为两组。第一组方法依赖于纹理合成技术，其通过从周围区域延伸纹理来填充孔[14，13，27，26，6，12，40，41，23，24，2]。一个共同的想法，这些技术是使用相似纹理的片以从粗到细的方式合成孔区域的内容。在[12，41]中，引入了多个尺度和方向以找到更好的匹配贴片。 Barnes 等 [2] 提出PatchMatch作为快速近似最近6722邻域块搜索算法虽然这样的方法是很好的传播高频纹理细节，他们不捕捉图像的语义或全局结构。第二组方法以数据驱动的方式对丢失的图像区域进行幻觉，从而存储大型外部数据库。这些方法假设被相似背景包围的区域可能具有相似的内容[19]。这种方法在找到与查询具有足够视觉相似性的示例图像时非常有效，此外，这样的方法需要访问外部数据库，这极大地限制了可能的应用场景。最近，深度神经网络被引入纹理合成和图像风格化[15，16，28，3，39，22]。特别地，Phatak etal.[32]训练了一个编码器-解码器CNN（上下文编码器），并结合了BMP2和对抗性损失[17]，以直接预测丢失的图像区域。这项工作能够预测合理的图像结构，并且评估速度非常快，因为孔区域在单个向前通过中被虽然结果令人鼓舞，但这种方法的修补结果有时缺乏精细的纹理细节，这会在孔的边界周围产生可见的伪影。该方法也无法处理高分辨率图像，因为当输入很大时，关于对抗性损失的训练很在最近的一项工作中，Li和Wand [28]表明，可以通过优化图像来实现令人印象深刻的图像风格化结果，该图像在中间层的神经响应这些局部反应由小的（通常为3×3）神经块代表。该方法证明能够将高频细节从风格图像转移到内容图像，因此适合于现实的转移任务（例如，面部或汽车外观的转移）。然而，通过使用神经反应的gram矩阵可以更好地解决更多艺术风格的转移[15]。为了克服上述方法的局限性，我们提出了一种混合优化方法，该方法利用编码器-解码器CNN的结构化预测能力和神经补丁的能力来合成尺寸逼真的高频细节。类似的风格转移任务，我们的方法处理的编码器-解码器预测的全局内容约束，和局部神经块之间的洞和已知区域的纹理约束的相似性。更具体地，可以通过训练类似于上下文编码器的全局内容预测网络来构造内容约束，并且可以使用中间层的补丁响应，使用预先训练的分类网络，利用孔周围的图像内容来对纹理约束进行建模。两可以使用具有有限存储器BFGS的反向传播来优化约束。为了进一步处理高分辨率的大孔洞图像，我们提出了一种多尺度神经块合成方法。为了简化公式，我们假设测试图像总是被裁剪为512×512，中心有一个256×256的孔然后，我们创建一个三层金字塔，步长为2，在每一层将图像缩小一半。它渲染最低分辨率的128×128图像，带有64×64孔。然后，我们以由粗到细的方式执行孔填充任务。利用最低级别的内容预测网络的输出进行初始化，在每个尺度处（1）我们执行联合优化以更新孔，（2）上采样以初始化联合优化并为下一尺度设置内容约束然后我们重复此操作，直到以最高分辨率完成联合（3）第三章。实验结果表明，提出的多尺度神经元片合成方法可以生成更真实和连贯的结果，同时保留结构和纹理细节。我们在两个公共数据集上定量和定性地评估了所提出的方法，并证明了其在各种基线和现有技术上的有效性，如图所示。1（第1节）4）.本文的主要贡献概括如下：• 我们提出了一个联合优化框架，可以通过用卷积神经网络建模全局内容约束和局部纹理• 在此基础上，提出了一种基于联合优化框架的高分辨率图像修复的多尺度神经元补丁• 我们表明，从神经网络的中间层提取的特征可用于合成尺寸逼真的图像内容和纹理，除了以前的作品，使用它们来转移艺术风格。2. 相关工作近年来，卷积神经网络显著提高了图像分类性能，如[25，36，37，20]所示。与此同时，研究人员使用用于结构预测的深度神经网络[29，4，30，7，38，17，18，21，9，31]，语义分割[29，4，30]，和图像生成[17，18，7，31]。我们受到深度神经网络的生成能力的激励，并将其作为填充漏洞方法的支柱。与[11，17，18，7]中讨论的图像生成任务不同，其中输入是随机噪声向量，输出是图像，我们的目标是预测洞中的内容，以已知图像区域为条件。最近，[32]6723f（x0）内容网络（内容预测培训）h（x，R）Pl纹理网络（接受分类培训）Pnn（l）φg（x）局部纹理损失Et（φg（x），R）图2. 框架概述。我们的方法解决了一个未知的图像x使用两个损失函数，整体内容损失（Ec）和局部纹理损失（Et）。在最小尺度上，整体内容丢失取决于给定输入x0（f（x0））的预训练内容网络的输出。通过将x馈送到预先训练的网络（纹理网络）中并比较R（孔）和边界之间的局部神经补丁来导出局部纹理损失。提出了一种用于图像修补的编码器-解码器网络，使用了C2 D2损失和对抗损失的组合（上下文编码器）。在我们的工作中，我们采用上下文编码器作为全局内容预测网络，并使用输出在最小尺度上初始化我们的多尺度神经补丁合成算法。风格转移为了创建逼真的图像纹理，我们的工作受到最近神经风格转移的成功推动[15，16，28，3，39，22]。这些方法主要用于生成结合“风格”的图像。一个图像的“内容”和另一个图像的“内容”。我们的技术的动机是神经风格转移的惊人性能。特别是，我们表明神经功能也非常强大，可以创建自然图像的精细纹理和高频细节。3. 的方法3.1. 框架概述我们寻求在损失函数上进行优化的修复图像x，损失函数被公式化为三个项的组合：整体内容项、局部纹理项和TV损失项。内容项是捕获图像的语义和全局结构的全局结构约束，并且纹理项对输入图像的局部纹理统计进行建模。我们首先训练内容网络，并使用它来初始化内容项。纹理项使用在ImageNet上预先训练的VGG- 19网络[35]（图2）计算。为了对内容约束进行建模，我们首先训练整体内容网络f。输入是一个去除了中心平方区域并填充了平均颜色的图像，地面实况图像xt是原始图像中心的内容。我们在两个数据集上进行了训练，如第4节所述。一旦训练好内容网络，我们就可以使用网络的输出f（x0）作为联合优化的初始内容约束。纹理项的目标是确保缺失孔中的精细细节与孔外的细节相似。我们用神经补丁定义了这种相似性，神经补丁在过去已经成功地用于捕获图像风格。为了优化纹理项，我们将图像x馈送到预先训练的VGG网络（本文中我们将该网络称为局部纹理网络）中，并强制孔区域内的小（通常为3×3）神经块的响应与网络预定特征层处孔外的神经块相似。在实践中，我们使用relu31和relu41层的组合来计算神经特征。我们使用有限内存的BFGS通过最小化联合内容和纹理损失来迭代更新x所提出的框架自然适用于使用多尺度方案的给定一个具有大孔洞的高分辨率图像，我们首先缩小图像，并使用内容网络的预测来获得参考内容。给定参考内容，我们优化w.r.t.低分辨率下的内容和纹理约束然后对在实践中，对于大小为512×512的图像，我们将尺度数设置为3。我们将详细描述三个损失项，以下.3.2. 联合损失函数给定输入图像x，我们希望找到未知的输出图像x.我们用R表示x中的空穴区域，Rφ表示VGG-19网络的特征映射φ（x）h（·）定义在矩形区域中提取子图像或子特征图的操作，即h（x，R）返回x在R中的颜色含量，h（φ（x），Rφ）返回φ（x）在Rφ中的含量。我们表示内容x0的整体内容丢失Ec（h（x，R），f（x0））6724163284481664 3284481282565125126425664646432321286464128128222321616x0编码器4000解码器3f（x0）图3.用于结构化内容预测的网络架构。与[ 32 ]中提出的2损耗架构不同，我们用ELU层[ 5 ]替换了所有ReLU/ReLU泄漏层，并采用全连接层而不是通道全连接层。ELU单元使回归网络训练比ReLU泄漏层更稳定，因为它可以在训练过程中处理大量的负面网络为f，纹理网络为t。在每个尺度i=1，2…N（N是尺度的数量），通过求解以下最小化问题获得最佳重建（孔填充）结果x∈N：nn（i）计算为nn（i）= argmin <$h（φt（x），Pi）−h（φt（x），Pj）<$2j∈N（i）< $j∈/Rφ（四）x∈i+1=argminEc（h（x，R），h（xi，R））X+αEt（φt（x），Rφ）+β φ（x）（1）其中N（i）是iex的相邻位置的集合包括与Rφ的重叠。最近的邻居可以是[28]如图所示，快速计算为卷积层我们还增加了电视损失项，以鼓励平滑-ness：其中h（x1，R）=f（x0），φt（·）表示纹理网络t中的中间层处的特征图（或特征图的组合），并且α是反映纹理网络t中的特征图的权重Σ（x）=（（xi、ji，j+1— xi，j）2+（xi+1，j— xi，j）2）（五）这两个词之间的重要性。根据经验，将α和β设为5e−6可以平衡每种损失的大小，并在我们的实验中得到最佳结果。对整体内容约束进行建模的等式1中的第一项E。。被定义为惩罚优化结果与不确定内容预测（来自内容网络或在较粗尺度下的优化结果）之间的1023.3. 内容网络学习初始内容预测网络的直接方式是训练回归网络f，以使用输入图像x（具有未知区域）的响应f（x）来近似区域R处的地面实况xg。最近的研究已经将各种损失函数用于图像恢复任务，例如，102损失、SSIM损失[42，10，33]、101损失[42]、感知损失[22]和Ec（h（x，R），h（xi，R））=<$h（x，R）−h（xi，R）<$2（二）[32 ]第32话。我们尝试了102损失和对抗性损失。对于每个训练图像，102损失为等式1中的第二项Et对局部纹理约束进行建模，其惩罚孔内部和外部的纹理外观的差异。我们首先在网络t中选择某个特征层（或特征层的组合），并提取其特征定义为：Ll2（x，xg，R）=<$f（x）−h（xg，R）<$2对抗性损失定义为：（六）mapφt. 对于大小为s×s×c的每个局部查询补丁P，L（x，x，R）=maxE[log（D（h（x，R）]在洞Rφ中，我们发现它在洞外的最相似的补丁。adv gx∈XgD孔，并通过平均查询补丁及其最近邻居的距离来计算损失。Et（φt（x），R）=+log（1−D（f（x）]（7）其中D是对抗性的6725我们使用联合损失和对抗损失，1|Rφ|Σi∈Rφh（φt（x），Pi）−h（φt（x），Pnn（i））<$2（3）与上下文编码器相同[32]：L=λLl2（x，xg，R）+（1−λ）Ladv（x，xg，R）（8）哪里|Rφ|是区域中采样的面片数Rφ，Pi是以位置i为中心的局部神经块，以及其中λ为0。第999章在我的身边67263.4. 纹理网络我们使用为ImageNet分类预训练的VGG-19[35]网络作为纹理网络，并使用relu 3 1层和relu 4 1层来计算纹理项。我们发现使用relu 3 - 1和relu 4 - 1的组合导致比使用单层更准确的结果。作为替代方案，我们尝试使用上一节中讨论的内容网络作为纹理网络，但发现结果的质量低于使用预训练的VGG-19。这可以通过以下事实来解释：VGG-19网络被训练用于语义分类，因此其中间层的特征具有较强的不变性。纹理扭曲。这有助于推断孔内容的更准确的重建。4. 实验本节从视觉上和定量上评估我们提出的方法。我们首先介绍了数据集，然后将我们的方法与其他方法进行了比较，证明了它在高分辨率图像修复中的有效性在本节的最后，我们展示了一个现实世界的应用程序，我们从照片中删除干扰。数据集我们在两个不同的数据集上评估所提出的方法：Paris StreetView [8]和ImageNet [34]。与这些图像不被使用。Paris StreetView包含14，900张训练图像和100张测试图像。ImageNet有1，260，000张训练图像和200张从验证集中随机挑选的测试图像。我们还挑选了20张有干扰项的图像来测试我们的干扰项去除算法实验设置我们首先在低分辨率（128×128）下将我们的方法与几种基线方法进行了比较。首先，我们比较了使用102损失训练的上下文编码器的结果。第二，我们--该方法具有上下文编码器使用对抗性损失实现的最佳结果，这是使用深度学习的图像修复领域的最新技术最后，将实验结果与基于AdobePho- toshop的PatchMatch算法的内容感知填充结果进行了比较我们的比较证明了所提出的联合优化框架的有效性。与基线的比较表明了整体联合优化算法的有效性和纹理网络在联合优化中的作用，并进一步分析了通过改变内容网络和纹理网络的权值来分别实现联合优化的作用。最后，我们展示了我们在高分辨率图像修复上的结果，并与内容感知填充和上下文编码器（C32和对抗性损失）进行了比较。请注意，对于上下文编码器，高分辨率结果是通过从低分辨率输出直接上采样获得的。我们的方法在以下方面显示出显着的改善：视觉质量。定量比较我们首先将我们的方法与Paris StreetView数据集上低分辨率图像（128×128）的基线方法进行定量比较。表1中的结果表明，我们的方法实现了最高的数值性能。我们将此归因于我们的方法的性质-它4）. 此外，我们认为，定量评估可能不是修复任务的最有效措施，因为目标是生成逼真的内容，而不是与原始图像中的内容完全相同。方法平均L1损失平均L2损失PSNR上下文编码器102丢失10.47%2.41%17.34分贝内容感知填充12.59%百分之三点一四16.82分贝上下文编码器（102+对抗性损失）10.33%2.35%17.59分贝我们的方法10.01%2.21%18.00分贝表1. 巴黎街景数据集的数值比较。PSNR值越高越好。表中的注释%是为了方便阅读。图4. 与Context Encoder（Context2loss），Context Encoder（Context2 loss + adversarial loss）和Content-Aware Fill的比较。我们可以看到，我们的方法修复了由Content-Aware Fill生成的错误纹理，并且比Context Encoder的输出更清晰。内容和纹理网络的影响我们所做的一个消融研究是放弃内容约束项，并在联合优化中仅使用纹理项如图8、没有使用内容项来指导优化，修复结果的结构是完全不正确的。我们还调整了内容项和纹理项之间的相对我们的发现是，通过使用更多的内容约束，结果与内容网络的初始预测更一致，但可能缺乏高频细节。类似地，使用更多的纹理项可以得到清晰的结果，但并不能保证整体图像结构是正确的（图1）。（六）。对抗性损失的影响我们分析了使用对抗性损失训练内容网的效果，6727图5. ImageNet结果的视觉比较。从上到下：输入图像，内容感知填充，上下文编码器（C2D2和对抗性损失），我们的结果。所有图像都从512×512缩放以适应页面大小。(a) 输入图像（b）α=1e−6（c）α=1e−5（d）α=4e−5图6.研究了不同纹理权重α.工作人们可能会认为，在不使用对抗性损失的情况下，内容网络仍然能够预测图像的结构，联合优化将在稍后校准纹理。然而，我们发现内容网络给出的初始化质量对最终结果很重要。当初始预测是模糊的（仅使用R2损失）时，与使用R2和对抗性损失训练的内容网络相比（七）.高分辨率图像修复我们展示了我们的（a）（b）（c）（d）图7。(a)使用102损失训练的内容网络的输出（b）使用（a）的最终结果。(c)使用Node2和对抗性损失训练的内容网络的输出。(d)使用（c）的最终结果。高分辨率图像（512×512）修复的结果如图所示。图5和图10，并与内容感知填充和上下文编码器（C12+对抗性损失）进行比较。由于Con-text Encoder仅适用于128 x128图像，当输入较大时，我们使用双线性插值直接将128×128输出上采样为512×512在大多数6728结果中，我们的多尺度迭代方法结合了其他方法的优点，产生了结果6729(a)(b)（c）第（1）款图8.不同组件的评估。 (a)输入图像。(b) 不使用内容约束的结果。(c)我们的成果具有连贯的全局结构以及高频细节。如图所示，我们的方法比内容感知填充的一个显着优势是，我们能够生成新的纹理，因为我们不直接传播然而，一个缺点是，考虑到我们目前的实现，我们的算法大约需要1分钟才能用Titan X GPU填充512×512图像的256×256孔，这比内容感知填充要慢得多。图9. 我们方法的失败案例。最后，我们的算法很容易扩展到处理任意形状的孔。我们首先使用一个边界矩形来覆盖任意孔，该孔再次用平均像素值填充经过适当的裁剪和填充，使矩形位于中心，图像作为输入提供给内容网络。在联合优化中，内容约束初始化为任意孔内内容网络的输出。纹理约束基于孔外区域。图11示出了几个示例及其与内容感知填充算法的比较（注意，上下文编码器不能显式地处理任意孔，所以我们在这里不与它比较5. 结论我们已经先进的艺术状态的语义绘画使用神经补丁合成.我们的见解是，纹理网络是非常强大的，在产生高频细节，而内容网络提供了强大的先验的语义和全局结构。这可能是潜在的有用的其他应用，如去噪，超分辨率，重定向和视图/时间插值。在某些情况下，我们的方法会引入不连续性和伪影（图1）。（9）当场景复杂时。此外，速度仍然是我们的算法的瓶颈。我们的目标是在今后的工作中解决这些问题6. 确认这项研究得到了 Adobe ， Oculus Facebook ，华为， GoogleFacultyResearchAward ， OkawaFoundation Research Grant ，美国海军研究办公室（ONR）/美国海军研究中心的部分支持美国海军，合同号为N 00014 -15-1-2639;国家情报总监办公室（ODNI）和情报高级研究项目活动（IARPA），合同号为2014- 14071600010;美国国防部，合同号为2014- 14071600010。陆军研究实验室（ARL），合同编号W 911 NF-14-D-0005。本文所含的观点和结论是作者的观点和结论，不应被解释为必然代表ODNI，IARPA，ARL或美国的官方政策或认可，无论是明示还是暗示。政府。美国政府被授权为政府目的复制和分发重印本，但不附带任何版权注释。引用[1] https://research.adobe.com/project/content-aware-fill. 1[2] C. Barnes，E.Shechtman ，A.Finkelstein 和 D.戈德曼PatchMatch：一种用于结构图像编辑的随机对应算法。TOG，28（3）：24：1-24：11，2009. 1[3] A.尚潘达语义风格转移和把两个位涂鸦成精美的艺术品。在arXiv：1603.01768v1，2016.二、三[4] L. Chen，G.帕潘德里欧岛科基诺斯角墨菲和A.尤尔。基于深度卷积网和全连接crf的语义图像分割。2015年，国际会议。 2[5] D. Clevert，T. Unterhiner，Hochreiter和S.通过指数线性单位（ELUS）进行快速准确的深度网络学习。ICLR，2016年。4[6] A. 克里米尼西山口 Pe'rez和K. 去山。基于样本的图像修复方法在 IEEE 计算机视觉和模式识别会议（CVPR），第2卷，第II-721 - II-728页，第2卷，2003中。1[7] E. Denton，S. Chintala、A. Szlam和R.费格斯。使用拉普拉斯金字塔的深度生成图像模型。在arXiv：1506.05751v1，2015. 2[8] C. Doersch，S.辛格A. Gupta，J. Sivic，and A. 埃夫罗斯是什么让巴黎看起来像巴黎？ TOG，31（4），2012.5[9] A. Dosovitskiy和T.布洛克斯使用卷积网络反转视觉表示。在arXiv：1602.02644v1，2015. 2[10] A. Dosovitskiy和T.布洛克斯基于深度网络生成具有感知相似性度量的图像。在arXiv：1602.02644v1，2016.4[11] A. 多索维茨基T. Springenberg和T.布洛克斯学习用卷积神经网络生成椅子。在CVPR，第1538-1546页，2015年。2[12] I. Drori，D. Cohen-Or和H.叶书润基于片段的图像完成。TOG，22（3）：303-312，2003. 1[13] A. A. Efros和W.T. 弗里曼。图像绗缝纹理合成和转移。ACM SIGGRAPH，第341- 346页，2001年。16730图10. 巴黎街景的视觉比较结果。从上到下：输入图像，内容感知填充，上下文编码器（E22和对抗性损失）和我们的结果。所有图像都从512×512缩放以适应页面大小。图11.任意对象删除。从左到右：输入图像，对象掩码，内容感知填充结果，我们的结果。[14] A. A. Efros和T. K.梁非参数采样纹理合成。 ICCV，第1033-1038页，1999年。1[15] L. A. Gatys，A. S. Ecker和M.贝丝艺术风格的神经算法。在arXiv：1508.06576v2，2015. 二、三6731[16] L. A. Gatys，A. S. Ecker和M.贝丝使用卷积神经网络的纹理合成和自然刺激的受控生成。2015年，在NIPS中。二、三[17] I. 古德费罗 J. Pouget-Abadie， M. 米尔扎 B. 许、D.沃德-法利，S。奥扎尔A. Courville和Y.本吉奥。生成性对抗网。在NIPS，第2672-2680页2[18] K. 格雷戈尔岛 Danihelka，A. 格雷夫斯D. Rezkirk，以及D. 维尔斯特拉DRAW：用于图像生成的递归神经网络在arXiv：1511.08446v2，2015. 2[19] J. Hays和A. A.埃夫罗斯使用数百万张照片完成场景。TOG，26（3），2007. 2[20] K.他，X。Y. Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。InarXiv：1409.1556v6，2016. 2[21] D. Im，C. Kim，H. Jiang，和R.梅米塞维奇使用循环对抗网络生成图像。InarXiv：1602.05110v1，2016. 2[22] J. Johnson，A. Alahi和F. 李实时风格转换和超分辨率的感知损失。在arXiv：1603.08155v1，2016. 二、三、四[23] N.小木使用全局优化的图像完成。见CVPR，第442-452页，2006年。1[24] N. Komodakis和G.齐里塔斯通过优先级调度和动态修剪使用有效的置信度传播的TIP，16（11）：2649-2661，2007. 1[25] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分类与深度卷积神经网络。在NIPS中，第1106-1114页，2012年。2[26] 诉夸特拉岛Essa，A.Bobick和N.夸特拉基于实例合成的纹理TOG，24（3）：795 1[27] V. Kw atra、黑果草A. 舍奥德尔岛埃萨湾 Turk和A.Bobick Graphcut纹理：使用图切割的图像和视频合成。在ACM SIGGRAPH，第277-286页，2003中。1[28] C. Li和M.魔杖结合马尔可夫随机场和卷积神经网络进行图像合成。在arXiv：1601.04589v1，2016. 二、三、四[29] J. Long，E.Shelhamer和T.达雷尔。用于语义分段的全卷积网络在CVPR，第12[30] J.朗，E. Shelhamer和T.达雷尔。用于语义分割的学习反卷积网络在ICCV，第15202[31] A.奥德湾Kalchbrenner和K. Kavukcuoglu像素递归神经网络。InarXiv：1601.06759v1，2016. 2[32] D. Pathak，P. Kr aehenbuhl，J. 多纳休，T. Darrell和A.埃夫罗斯上下文编码器：通过图像修复进行特征学习。在CVPR，2016年。一、二、四[33] K. Ridgeway，J.斯内尔湾罗兹河Zemel和M.莫泽学习使用感知相似度度量生成图像。在 arXiv ：1511.06409v1，2015. 4[34] O. 鲁萨科夫斯基Deng，H.Su，J.Krause，S.萨蒂希S.妈Z。Huang，黄背天蛾A.卡帕西A.科斯拉，M。Bernstein等人图像网大规模视觉识别挑战。IJCV，115（3）：211-252，2015. 5[35] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络。见ICLR，2014年。三、五[36] C. 塞格迪W. 刘先生，Y. 贾，P. Sermanet，S.里德D. 安格洛夫，D。Erhan，V.Vanhoucke和A.拉比诺维奇。更深的回旋。在CVPR，第1-9页2[37] C. 塞格迪W. 刘先生，Y. 贾，P. Sermanet，S.里德D. 安格洛夫，D。Erhan，V.Vanhoucke和A.拉比诺维奇。用于大规模图像识别的深度卷积网络。InarXiv：1409.1556v6，2015. 2[38] L. Theis和M.贝丝使用空间LSTM的生成图像建模在arXiv：1603.03417v1，2015. 2[39] D. Ulyanov，V. Lebedev，A. Vedaldi和V. Lempitsky纹理网络：纹理和风格化图像的前馈合成。在arXiv：1603.03417v1，2016. 二、三[40] Y. Wexler，E. Shechtman和M.伊拉尼时空影像完成。见CVPR，第120-127页，2001年。1[41] M. Wilczkowiak，G.布罗斯托湾Tornival和R. 西波拉通过照片蒙太奇填补漏洞。BMVC，第492- 501页，2005年1[42] H. Zhao，O.加洛岛Frosio和J.考茨l2是图像处理神经网络的一个好的损失函数吗？ InarXiv ：1511.08861v1，2015. 4

下载后可阅读完整内容，剩余1页未读，立即下载