深度特征重排的图像修复网络：Shift-Net

133 浏览量更新于2023-10-13 收藏 1.82MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Shift-Net：基于深度特征重排的图像修复闫兆义1[0000 - 0001 - 5155 - 5741]、李晓明1[0000 - 0003 - 3844 - 9308]、李牧2[0000- 0002 - 7327 - 3304]、左王梦1（R）[0000 - 0002 - 3330 - 783X]、单世光3[0000 - 0002- 8348 - 392X]1哈尔滨工业大学计算机科学与技术学院网址：yanzhaoyi@outlook.com，csxmli@hit.edu.cn，网址：www.example.com，wmzuo@hit.edu.cn2香港理工大学电子计算学系csmuli@comp.polyu.edu.hk3中国科学院计算技术研究所，北京，100049sgshan@ict.ac.cn抽象。深度卷积网络（CNN）已经在图像修复中展示了它们的潜力，以产生合理的结果。然而，在大多数现有方法中，例如，在上下文编码器中，通过将周围的卷积特征传播通过完全连接的层来预测丢失的部分，这旨在产生语义上合理但模糊的结果。在本文中，我们引入了一个特殊的移位连接层的U-Net架构，即移位网，用于填充任何形状的缺失区域与尖锐的结构和精细的纹理。为此，已知区域的编码器特征被移位以用作缺失部分的估计。在解码器特征上引入引导损失，以最小化完全连接层之后的解码器特征与缺失部分的地面实况编码器特征之间的距离。在这种约束下，缺失区域中的解码器特征端到端的学习算法被进一步开发来训练Shift-Net。在Paris StreetView和Places数据集上的实验证明了我们的Shift-Net在产生更清晰，细节更精细，视觉上更合理的结果方面的效率和有效性。代码和预训练模型可在https://github.com/Zhaoyi-Yan/Shift-Net上获得。关键词：图像修复·特征重排·深度学习1介绍图像修复是用合理的假设填充缺失区域的过程，可以用于许多现实世界的应用，如去除干扰对象，修复损坏或损坏的部分，以及完成遮挡区域。例如，当拍摄照片时，很少有你对你直接得到的东西感到满意的情况。分散注意力的场景元素，例如不相关的人或令人不安的物体，通常是不可避免的，但不希望被观众看到。2Yan等(a)（b）（c）（d）图1.一、修复方法的定性比较给定（a）具有缺失区域的图像，我们通过（b）内容感知填充[11]，（c）上下文编码器[28]和（d）我们的Shift-Net呈现修复结果用户.在这些情况下，图像修复可以作为一种补救措施来移除这些元素并填充合理的内容。尽管经过了几十年的研究，图像修复仍然是计算机视觉和图形学中一个非常具有挑战性的问题。通常，对图像修复结果有两个要求：（i）全局语义结构和（ii）精细细节纹理。经典的基于样本的修复方法，例如，PatchMatch [1]，通过从已知区域中搜索相似的补丁来逐步合成缺失部分的内容。即使这样的方法在填充高频纹理细节方面是有希望的，它们在捕获图像的全局结构方面失败（参见图13）。（b）款。相比之下，深度卷积网络（CNN）也被建议预测以其周围环境为条件的缺失部分[28，41]。得益于大规模训练数据，它们可以产生语义上可行的修复结果。然而，现有的基于CNN的方法通常通过将周围的卷积特征传播通过全连接层（即，卷积层）来完成缺失部分。瓶颈），使得修复结果有时缺乏精细的纹理细节并且模糊。引入对抗性损失有助于提高结果的清晰度，但不能从根本上解决这个问题（见图11）。（c）第1段。在本文中，我们提出了一种新的CNN，即Shift-Net，以考虑到基于样本和基于CNN的图像in-painting方法的优点。我们的Shift-Net采用了U-Net架构，通过添加一个特殊的移位连接层。在基于样本的修复[4]中，迭代地执行基于块的复制和填充过程，以从已知区域到缺失部分生长纹理和结构。和补丁处理顺序在产生合理的修复结果中起关键作用[22，40]。我们注意到CNN在预测图像结构和语义方面是有效的。零件在CNN产生的显著结构的指导下，填充过程在Shift-Net中，通过引入一个移位连接层来连接已知区域的编码器特征和解码器特征，从而可以并行完成缺失的部分。因此，我们的Shift-Net继承了基于样本和基于CNN的方法的优点，并且可以产生具有合理语义和精细细节纹理的修复结果（见图1）。1（d））。Shift-Net：基于深度特征重排的图像修复3引入引导损失、重构损失和对抗学习为了确保解码器特征可以用作良好的引导，引入引导损失此外，还考虑了M1通过最小化模型目标，我们的Shift-Net可以通过训练集进行端到端学习。实验在Paris StreetView数据集[5]、Places数据集[43]和真实世界图像上进行结果表明，我们的Shift-Net可以处理任何形状的缺失区域，并且可以有效地产生更清晰，细节更精细，视觉上更合理的结果（见图1）。1（d））。此外，Yanget al. [41]还提出了一种多尺度神经补丁合成（MNPS）方法，以将基于CNN的方法与基于范例的方法相结合。他们的方法包括两个阶段，其中使用编码器-解码器网络以在第一阶段中生成初始估计。通过考虑全局内容和纹理损失，VGG-19 [34]上的联合优化模型被最小化以在第二阶段中生成精细详细的结果。连阳等人al. [41]产生令人鼓舞的结果，这是非常耗时的，需要大约40， 000毫秒（ms）来处理大小为256× 256的图像。相比之下，我们的Shift-Net可以实现相当或更好的结果（见图1）。4和图5对于几个例子）并且仅花费大约80 ms。考虑到有效性和效率，我们的Shift-Net可以提供一个有利的解决方案，结合基于样本和基于CNN的修复，以提高性能。概括起来，这项工作的主要贡献有三方面：1. 通过在U-Net中引入移位连接层，开发了一种新的移位网络架构，以有效地结合基于CNN和基于样本的修复。2. 引入引导、重构和对抗损失来训练我们的Shift-Net。即使部署了轮班操作，也可以以端到端的方式学习所有网络参数。3. 与[1，28，41]相比，我们的Shift-Net实现了最先进的结果，并且在生成精细纹理和视觉上可行的结果方面表现良好2相关工作在本节中，我们简要回顾了三个子领域的工作，即：基于样本的修复、基于CNN的修复和风格转移，并特别关注与这项工作相关的内容2.1基于样本的修复在基于样本的修复[1，2，4，6，8，15，16，204Yan等2562561281286432643216168842124512512512512512512512512512256256128Φ1（I）ΦL−l（I）1286464移位Φ位移（I）L−l33图二. 我们模型的架构。我们在32 × 32的分辨率上增加了移位连接层。从所述已知区域中搜索并复制最佳匹配块。对于快速补丁搜索，Barneset al.建议PatchMatch算法[1]以利用图像相干性，并将其推广用于寻找k-最近邻[2]。通常，基于样本的修复在合成纹理方面是优越的，但不太适合于保留边缘和结构。为了更好地恢复图像结构，已经提出了几种补丁优先级措施，以首先填充结构补丁[4，22，40]。全局图像相干性也被引入到马尔可夫随机场（MRF）框架中，以提高视觉质量[20，29，37]。然而，这些方法仅在具有简单结构的图像上工作良好，并且在处理具有复杂对象和场景的图像时可能失败。此外，在大多数基于样本的修复方法[20，21，29]中，缺失部分被恢复为像素/区域级别的已知区域的移位表示，这也激发了我们对卷积特征表示的移位操作2.2基于CNN的图像修复最近，深度CNN在图像修复方面取得了巨大成功。最初，基于CNN的修复仅限于小而薄的掩模[19，31，39]。Phatak等人[28]提出了一种编码器-解码器（即，上下文编码器）网络来预测丢失的部分，其中在训练中采用对抗性损失以提高修复图像的视觉质量。即使上下文编码器在捕获图像语义和全局结构方面是有效的，它也仅用一次前向传递来完成输入图像，并且在生成精细细节纹理方面表现不佳。语义图像修复被引入以填充以来自特定语义类的图像的已知区域为条件的缺失部分[42]。为了获得具有局部真实细节的全局一致的结果，在图像修复[13]和面部完成[25]中已经提出了全局和局部判别器。为了更好地恢复细节，MNPS被提出来结合基于样本和基于CNN的修复[41]。2.3风格迁移图像修复可以看作是风格传递的一种扩展，它对缺失部分的内容和风格（纹理）进行估计和传递Shift-Net：基于深度特征重排的图像修复5¨2¨已知区域。近年来，风格迁移[3，7，9，10，12，17，24，26，36]一直是一个活跃的研究课题。Gatys等人[9]示出了可以通过求解在现有CNN上定义的优化目标来将代替革兰氏矩阵，Liet al.[24]将MRF正则化器应用于风格转换以抑制失真和涂抹。在[3]中，在预训练网络的卷积层上执行局部匹配以组合内容和风格，然后部署逆网络以从特征表示生成图像。3方法给定输入图像I，图像修复旨在通过填充缺失部分来恢复地面实况图像Igt为此，我们采用U-Net [32]作为基线网络。通过结合指导损失和移位操作，我们开发了一种新的Shift-Net，以更好地恢复语义结构和细节纹理。在下文中，我们首先介绍了制导损失和Shift-Net，然后描述了模型的目标和学习算法。3.1解码器特征U-Net由一个编码器和一个对称的解码器组成，其中引入了跳跃连接来连接来自编码器的每一层的特征和对应的解码器层这种跳过连接使得方便地利用瓶颈之前和之后的信息，这对于图像修复和捕获局部视觉细节的其他低级视觉任务是有价值的[14，44]。在这项工作中采用的U-Net的体系结构如图所示。二、有关网络参数的更多详细信息，请参阅补充材料。设Ω为缺失区域，Ω为已知区域。给定L层的U网，Φ1（I）用于表示第1层的编码器特征，ΦL-1（I）表示第（L-1）层的解码器特征。对于恢复Igt的结尾，我们期望Φl（I）和ΦL−l（I）传递Φl（Igt）中的几乎所有信息。为在任何位置y∈Ω，我们有（Φl（I））y≈0。因此，（ΦL−l（I））y应该表示的等价信息。在这项工作中，我们建议显式地建模（ΦL−l（I））y之间的关系和（Φl（Igt））y通过引入以下的引导损失，Lg= Σ¨¨（Φy∈ΩL−l（I））y.Σ-Φ1（Igt）¨¨。（一）2我们注意到，对于任何x∈Ω，（Φl（I））x≈（Φl（Igt））x。所以，只有在y∈Ω上定义了引导损失，使得（ΦL−l（I））y≈（Φl（Igt））y。通过连接Φl（I）和ΦL−l（I），可以近似地获得Φl（Igt）中的所有信息y6Yan等Φ（）y.Σy(a)（b）（c）（d）了图3.第三章。我是一个莉兹。如果您的模型已安装，请执行以下操作。Given（a）aniptimage，（b）是Φ1（Igt）（i. 例如，Hgt），（c）f（ΦL−l（I））的结果（i. 例如，y.（d）和（d）证明了Σy第一班L−ly进一步进行了深度特征可视化实验，以说明（ΦL−l（I））y和（Φl（Igt））y之间的关系。为了可视化{（Φ 1（I gt））y|y∈ Ω}，我们通过求解优化问题来采用方法[27Hgt= arg min Σ¨¨（Φ（H））¨-Φ（Igt）¨.（二）lH2y∈Ω类似地，{（Φ L−l（I））y |y ∈ Ω}由下式可视化：Σ¨ ¨2Hde= arg min¨（Φ（H））−（Φ（I））¨.（三）¨lHy∈ΩL−lY¨2图图3（b）（c）示出了Hgt和Hde的可视化结果。随着制导损失的引入，显然Hde可以作为Hgt的合理估计，并且U-Net在恢复图像语义和结构方面效果良好。然而，在这方面，与Hgt和Igt相比，结果Hde是模糊的，这与基于CNN的修复在恢复精细纹理方面的不良性能一致[41]。最后，我们注意到，制导损失有助于构建（ΦL−l（I））y和（Φl（Igt））y之间的显式关系。在下一节中，我们将解释如何利用这样的属性来更好地估计（Φ1（I>））y并增强修复结果。3.2移位操作和Shift-Net在基于示例的修复中，通常假设缺失部分是已知区域中的像素/块的空间重排。对于在缺失部分中定位在y处的每个像素/块，基于样本的修复显式地或隐式地找到移位向量u，y，并且利用（I）y+u，y恢复（I）y，其中y+ uy∈ Ω在已知区域内。像素值（I）y在修复之前是未知的。因此，移位向量通常从移位向量逐步地获得。2.yShift-Net：基于深度特征重排的图像修复7L−lL−lL−l外部到缺失部分的内部，或者通过考虑全局图像相干性来求解MRF模型。然而，这些方法可能无法恢复复杂的图像语义和结构。我们在U-Net中引入了一个特殊的移位连接层，它取Φl（I）和ΦL−l（I）来获得Φl（Igt）的更新估计。对于每个（ΦL−l（I））y，其中y∈N，其基于（Φl（I））x（x∈N）中的互相关的最近邻（NN）搜索可以独立地获得，x*（y）= argmax.Σ（ΦL−l（I））y，（Φl（I））x、（四）x∈Ω（ΦL−l（I））y2（Φl（I））x2移位向量定义为uy=x*（y）−y。我们还通过经验发现，在我们的Shift-Net中，互相关比1和2范数更有效类似于[24]，NN搜索可以计算为卷积层。然后我们更新（Φ1（1>））y的估计作为编码器特征（Φ 1（I））x，.ΣΦ位移（I）y=（Φ1⑴）y+uy .（五）见图3（d）用于可视化。最后，如图所示2、卷积有限元法将Φ L−l（I）、Φ l（I）和Φ shift（I）连接起来，并作为第（L−l+ 1）层的输入，得到我们的移位网。移位操作与基于样本的修补不同，其他方面。(i)当基于样本的修复在像素/补丁上操作时，移位操作在从训练数据端到端学习的深度编码器特征域上执行。（ii）在基于样本的修复中，移位向量通过求解优化问题或以特定顺序获得。对于移位运算，在ΦL−l（I）的指导下，可以并行计算所有移位向量。(iii)对于基于样本的修复，两个补丁处理-执行顺序和全局图像相干性不足以保持复杂的结构和语义。相反，在移位操作中，ΦL−l（I）从大规模数据，并且在捕获全局语义方面更强大（四）在在基于样本的修复中，在获得移位向量之后，可以直接获得完成结果作为已知区域的移位表示。对于移位操作，我们将移位表示Φ shift（I）与ΦL−l（I）和Φ l（I）一起作为U-Net的第（L−l+ 1）层的输入，并采用数据驱动的方式来学习合适的图像修复模型。此外，委员会认为，即使引入了shift-connection层，我们的Shift-Net中的所有模型参数都可以从训练数据中端到端学习。因此，我们的Shift-Net自然继承了基于样本和基于CNN的修复的优点3.3模型目标和学习Objective. 用Φ（I; W）表示移位网络的输出，其中W是要学习的模型参数。除了引导损失之外，还包括了101损失和对抗损失来训练我们的Shift-Net。1损失定义为，L1= Φ（I;W）−Igt1，（6）8Yan等LLL−lL−lL−l其被建议约束修复结果应当近似地面实况图像。此外，对抗性学习已被用于低级视觉[23]和图像生成[14，30]，并在恢复细节和照片般逼真的纹理方面表现出其优势。因此，我们使用p_data（I_gt）来表示地面实况图像的分布，并且使用p_miss（I）来表示输入图像的分布。则对抗性损失被定义为，Ladv=最小值最大值EIgt对数数据（Igt）[logD（Igt）]（7）WD+ EIpmiss（I）[log（1−D（Φ（I;W）]，（8）其中，D（·）d表示不存在用于从分布p_data（I> t）中获得图像的概率的临界条件。考虑到指导、1和对抗损失，我们的Shift-Net的总体目标定义为：L = L1 其中λg和λadv是两个折衷参数。学习给定训练集{（I，Igt）}，通过最小化等式1中的目标来训练移位网络。（9）通过反向传播。我们注意到，Shift-Net和鉴别器是以对抗的方式训练的移位网Φ（I;W）通过最小化对抗损失Ladv来更新，而通过最大化Ladv来更新鉴别器D。由于移位连接的引入，需要对梯度进行修正w.r.t. 特征的第1层F1= Φ1（I）。为了避免混淆，我们使用Fskip来表示跳过连接之后的特征Fl，并且当然我们具有Fskip=Fl。根据方程式（5）Φshift（I）与Φl（I）的关系可以写成：因为，Φ移位 ⑴ =P Φ1 ⑴，（10）其中P表示{0， 1}的移位矩阵，并且在P的每一行中仅存在一个1的元素。因此，关于Φ1（I）的梯度由三项组成：(i) 来自第（1+1）层，（ii）来自跳过连接，以及（iii）来自移位连接，并且可以被写为，联系我们=+L、（11）FlFskipFl+1FlΦ偏移（I）其中前两项的计算与U-Net相同，并且还可以直接计算相对于Φshift（I因此，我们的Shift-Net也可以进行端到端训练，以学习模型参数W。LL−lShift-Net：基于深度特征重排的图像修复9(a)（b）（c）（d）（e）见图4。巴黎街景数据集上的定性比较。从左到右是：（a）输入，（b）内容感知填充[11]，（c）上下文编码器[28]，（d）MNPS [41]和（e）我们的。所有图像均缩放至256 ×256。4实验我们在两个数据集上评估我们的方法：Paris StreetView [5]和Places 365-Standard数据集[ 43 ]中的六个场景。Paris StreetView包含14，900张训练图像和100张测试图像。我们从Paris StreetView中的100张测试图像中随机选择20 张来形成验证集，并使用剩余的作为测试集。Places 365-Standard 中有来自 365 个场景类别的 160 万张训练图像从 Places 365-Standard中选择的场景类别是孤峰、峡谷、田野、犹太教堂、苔原和山谷。每个类别有5,000张训练图像、900张测试图像和100张验证图像。型号选择详见补充资料。对于Paris StreetView和Places，我们调整每个训练图像的大小，使其最小长度/宽度为350，并随机裁剪大小为256× 256的子图像作为模型的输入。此外，我们的方法也测试了现实世界的图像去除对象和干扰物。我们的Shift-Net使用Adam算法[18]进行优化，学习率为2 ×10 −4，β1= 0。5.批量大小为1，并且训练在30个时期之后停止。在训练期间还采用了诸如翻转的数据增强。折衷参数被设置为Ag= 0。01且λ adv=0。002.在Nvidia Titan X Pascal GPU上训练我们的Shift-Net大约需要一天的时间。4.1与最新技术水平的我们将我们的结果与基于[1]，上下文编码器[28]和MNPS [41]的Photoshop内容感知填充[ 11 ]进行比较。由于上下文编码器仅接受128 ×12810Yan等(a)（b）（c）（d）（e）图五、对地点进行定性比较从左到右是：（a）输入，(b)内容感知填充[11]，（c）上下文编码器[28]，（d）MNPS [41]和（e）我们的。所有图像均缩放至256 ×256。图像，我们将结果上采样到256×256。对于MNPS [41]，我们将金字塔级别设置为2，以获得256 × 256的分辨率。巴黎街景和景点评价。图4显示了我们的方法与Paris StreetView上的三种最先进方法内容感知填充[11]在恢复低级别纹理方面是有效的，但每个在处理具有复杂结构的闭塞时，形成稍微差一些。上下文编码器[28]在语义修复中是有效的，但由于瓶颈的影响，结果似乎模糊和细节缺失。MNPS[41]采用多级方案将CNN和基于示例的修复相结合，并且通常比内容感知填充[11]和上下文编码器[28]更好。然而，MNPS [41]中的多尺度不是联合训练的，其中第一阶段产生的一些不利影响可能不会被后续阶段消除。与竞争方法相比，我们的Shift-Net以端到端的方式结合了CNN和基于示例的修复，并且通常能够生成视觉上令人愉悦的结果。此外，我们还注意到，我们的Shift-Net是比MNPS更有效[41]。我们的方法对于256× 256图像仅消耗约80 ms，比MNPS [41]（约40秒）快约500倍。此外，我们还在Places数据集上评估我们的方法（请参见图5）。同样，我们的Shift-Net在生成精细详细、语义合理和逼真的图像方面表现良好。定量评价。我们还将我们的模型与Paris StreetView数据集上的竞争方法进行了定量比较。表1列出了不同方法的PSNR、SSIM和平均2损失我们的Shift-Net实现了最佳Shift-Net：基于深度特征重排的图像修复11表1. PSNR、SSIM和Paris StreetView数据集上的平均2损失的比较。方法PSNR SSIM平均2损失见图6。随机区域完成。从上到下是：输入，内容感知填充[11]和我们的。数值性能我们将其归因于基于CNN与基于示例的修复以及端到端训练的结合。相比之下，MNPS [41]采用两阶段方案，不能联合训练。随机掩码完成。我们的模型也可以训练为任意区域完成。图6显示了内容感知填充[11]和我们的Shift- Net的结果。对于纹理和平滑区域，Content-Aware Fill [11]和我们的Shift-Net都表现良好。而对于结构域，我们的Shift-Net算法更有效地用与全局内容和结构一致的上下文填充裁剪区域4.2真实世界图像我们还通过考虑两种类型的缺失区域来评估在Paris StreetView上训练的Shift-Net，以修复真实世界的图像：（i）中央区域，(ii) 对象移除从图的第一行开始。7，可以看到我们用中心掩码训练的Shift-Net可以推广到处理真实世界的图像。从内容感知填充[11]23.710.740.0617上下文编码器[28]（2+对抗性损失）24.160.870.0313MNPS [41]25.980.890.0258我们26.51 0.900.020812Yan等L−l见图7。真实图像上的结果。从上到下分别是：中心区域修复和对象移除。(a)U-Net(b)U-Net(c)我们(d)我们（w/oLg）（w/Lg）（w/oLg）（w/Lg）图8. U-Net和我们的Shift-Net中的制导损失Lg的影响。图2的第二行7，我们展示了使用随机掩码训练的Shift-Net从图像中去除不需要的对象的可行性。5消融研究本文提出的Shift-Net方法与其他方法的主要区别在于引入了制导损失和移位连接层。因此，首先进行实验来分析导引损失和换档操作的影响。然后，我们分别将第（L-l + l）层的相应权重归零，以验证移位特征Φshift在生成精细细节结果中的有效性。此外，移位连接的好处并不归因于特征的增加地图大小。因此，我们还比较了移位网络与基线模型，通过替代NN搜索与随机移位连接的补充材料。Shift-Net：基于深度特征重排的图像修复13(a)λ g = 1（b）λ g = 0。1（c）λ g = 0。01 （d）λ g= 0. 001图9.第九条。制导损失的折衷参数λg的影响5.1失导效应进行了两组实验来评估制导损失的影响在第一组中，我们添加和删除U-Net和Shift-Net的指导损失Lg图8示出了通过这四种方法的修复结果。可以观察到，对于U-Net和Shift-Net，引导损失有助于抑制伪影并保留显著结构。在第二组中，我们评估了折衷参数λg的影响。需要注意的是，引入引导损失用于恢复缺失区域的语义结构和引导编码器特征的移位。因此，应选择适当的折衷参数λ g。图9显示了通过设置不同的λg值得到的结果当λg较小时（例如， = 0。001），则解码器特征可能不用作保证编码器特征的正确移位的合适引导从图9（d），仍然可以观察到一些伪影当λg变得太大时（例如，≥0。1），约束将过于过度，并且还可能引入伪影（参见图1）。9（a）（b））。因此，我们根据经验设定λ g= 0。01在我们的实验中5.2不同层次移位操作可以被部署到不同层，解码器的第（L-l当l较小时，特征图尺寸变大，并且需要更多的计算时间来执行移位操作。当l较大时，特征图尺寸变小，但更多的细节信息可能会在相应的编码器层中丢失。因此，应该选择适当的l，以便在计算时间和修复性能之间进行更好的权衡。图10示出了通过将移位连接层添加到第（L-4）个、第（L-3）个和第（L-4）个中的每一个的移位网络的结果。第（L-2）层当将移位连接层添加到第（L-2）层，Shift-Net通常在产生视觉上令人愉悦的结果方面工作得很好，但它需要更多的时间，即，400 ms/图像（见图10（d））。当移位连接层被添加到第（L-4）层时，移位网络变得非常高效（即，每幅图像大约40毫秒），但往往会产生纹理较少和细节粗糙的结果（见图。10（b））。通过执行移位操作，在第（L-3）层中，效率（即，80 ms/图像），性能可以通过Shift-Net获得（见图1）。10（c））。14Yan等L−lL−lL−l(a)地面实况（b）L−4（c）L−3（d）L −2见图10。在不同层L-l上执行移位操作的效果。(a)（b）（c）（d）（e）见图11。给定（a）输入，（b）、（c）和（d）分别是当第（L-1+1）层中的权重的第1、第2、第3部分为零时的结果。（e）是我们的结果5.3移位特征移位网络的第（L−l+ 1）层将Φ L−l（I）、Φ l（I）和Φ shift作为输入。为了分析其效果，图。图11显示了通过将第（L-l+1）层中每个切片的权重归零得到的Shift-Net结果当我们放弃ΦL−l（I）时，中心部分无法恢复任何结构（见图1）。当我们忽略Φ1（I）时，一般结构可以恢复（见图）。11（c）），但其质量是劣于图中的最终结果。11（e）项。最后，当我们丢弃移位特征Φshift时，结果完全变成了结构的混合（见图1）。11（d））。因此我们得出Φ偏移在恢复过程中起到细化和增强作用在我们的Shift-Net中有清晰和精细的细节。6结论本文提出了一种新的Shift-Net图像完成，具有快速的速度与有前途的细节，通过深特征重排。引入引导损失，以增强已知区域中的编码特征和缺失区域中的解码特征之间的显式关系。通过利用这样的关系，可以有效地执行移位操作，并且在提高修复性能方面是有效的。实验表明，我们的Shift-Net表现良好，相比国家的最先进的方法，是有效的，在产生锐利，精细的细节和照片般逼真的图像。今后，将有更多的研究将移位连接扩展到其他低水平视觉任务。鸣谢。本工作得到了国家自然科学基金项目的部分资助，资助号为61671182和61471146。Shift-Net：基于深度特征重排的图像修复15引用1. 巴恩斯角Shechtman，E.，Finkelstein，A.，Goldman，D.B.：Patchmatch：一种用于结构图像编辑的随机化对应算法。ACM Transactions on Graphics（TOG）第28卷，第24页。ACM（2009）2. 巴恩斯角Shechtman，E.，戈德曼，D. B. Finkelstein，A.：广义面片匹配对应算法。欧洲计算机视觉会议。pp. 29比43 03TheFamous（2010）3. Chen，T.Q.，施密特，M.：快速的基于补丁的任意风格转移。arXiv预印本arXiv：1612.04337（2016）4. Criminisi，A.，Perez，P.，Toyama，K.：通过基于示例的修补来移除对象。计算机视觉与模式识别， 2003 年。诉讼 2003 年 IEEEComputerrSocietyConferenceon. vol. 第2页。我-我。03The Dog（2003）5. Doersch，C.辛格，S.，Gupta，A.，Sivic，J.，Efros，A.：是什么让巴黎看起来像巴黎？ACM Transactions on Graphics 31（4）（2012）6. 德罗里岛Cohen-Or，D.，叶书润，H.：基于片段的图像完成。在：ACMTra nsacti o nso ngraphics（TOG）中。vol. 第22页。303ACM（2003）7. Dumoulin，V.，Shlens，J.，Kudlur，M.：对艺术风格的博学的表现。arXiv预印本arXiv：1610.07629（2016）8. 埃夫罗斯，匿名戒酒会梁振英：基于非参数采样的纹理合成见：计算机视觉，1999年。第七届IEEE国际会议论文集。vol. 第2页。103301TheDog（1999）9. 洛杉矶的加蒂斯Ecker，A.S. Bethge，M.：艺术风格的神经算法。arXiv预印本arXiv：1508.06576（2015）10. 洛杉矶的加蒂斯Ecker，A.S.Bethge，M.，Hertzmann，A.，Shechtman，E.：神经风格迁移中知觉因素的arXiv预印本arXiv：1611.07865（2016）11. Goldman，D.Shechtman，E.，巴恩斯角贝朗德岛Chien，J.：内容感知填充。https://research.adobe.com/project/content-aware-fill12. 黄，X.，Belongie，S.：实时任意样式传输，具有自适应实例规范化。arXiv预印本arXiv：1703.06868（2017）13. Iizuka，S.，Simo-Serra，E.，Ishikawa，H.：全局和局部一致的图像完成。ACM Transactions on Graphics（Proc. 36（4），107：1 - 107：14（2017）14. Isola，P.，Zhu，J.Y.，周，T.，Efros，A.A.：使用条件对抗网络的图像到图像翻译arXiv预印本arXiv：1611.07004（2016）15. 贾，J.，Tang，C.K.：图像修复：基于自适应nd张量投票的鲁棒图像合成。计算机视觉与模式识别， 2003 年。诉讼 2003IEEEComputerrSocietyConferenceon. vol. 第1页。我-我。03The Dog（2003）16. 贾，J.，Tang，C.K.：基于张量投票的分割颜色和纹理描述推理IEEETransactions on Pattern Analysis and Machine Intelligence 26（6），77117. Johnson，J.，Alahi，A.，李菲菲：实时风格转换和更新的感知损失。 In：EuropeanConferenceonCom up uterVison。pp. 694-711 Springer（2016）18. 金玛，D.P.，Ba，J.L.：Adam：随机最佳化的方法学习表征国际会议（2015）19. K o¨hler，R.， S chuler，C.， S cho？lkopf，B.， Harmeling，S. ：Mask-与两个工作的预期神经元一起进行的性能分析。 I n ： Ger manC onfe renceonPater nRe gnition。pp. 523-534 Spuringer（2014）16Yan等20. Komodakis，N.：使用全局优化的图像完成。在：计算机视觉和模式识别，2006年IEEE计算机学会会议上。第1卷，第100页。442-452 02The Dog（2006）21. Komodakis，N.，Tziritas，G.：通过优先级调度和动态修剪使用有效置信传播的图像完成IEEE Transactions on Image Processing16（11），264922. Le Meur，O.Gautier，J.，Guillemot，C.：基于局部几何的基于示例的修复图像处理（ICIP），2011年第18届IEEE国际会议。pp. 340102TheDog（2011）23. L edig ， C. ，这是 LHusza'r ， F. ， Caballero ， J. ， Cunningham ， A.Acosta，A. Aitken，A. Tejani，A.，托茨，J.，王志，等：使用生成对抗网络的照片级真实感单幅图像超分辨率arXiv预印本arXiv：1609.04802（2016）24. Li，C.，Wand，M.：结合马尔可夫随机场和卷积神经网络的图像合成。在：ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition中。pp. 247925. 李，Y.，Liu，S.，杨杰，Yang，M.H.：生成面完成。arXiv预印本arXiv：1704.05838（2017）26. Luan，F.，巴黎，S.，Shechtman，E.，Bala，K.：深度照片风格转移。arXiv预印本arXiv：1703.07511（2017）27. Mahendran，A.Vedaldi，A.：通过反转来理解深层图像表示在：IEEE计算机视觉和模式识别会议论文集中。pp. 518828. Pathak，D.，Krahenbuhl，P. Donahue，J.，Darrell，T.，Efros，A.A.：上下文编码器：通过图像修复进行特征学习。In：Proceedings of the IEEEConference on C〇mputerVis i sinandPater nRec 〇 gnit i tin. pp. 253629. Pritch，Y.，Kav-Venaki，E.，Peleg，S.：Shift映射图像编辑。In：ComputerVi-sion ， 2009IEEE12thInternationalConferenceon.pp.151-158 第一章（2009）30. Radford，A.梅斯湖Chintala，S.：使用深度卷积生成对抗网络进行无监督表示学习arXiv预印本arXiv：1511.06434（2015）31. Ren，J.S.，徐，L.，阎青，越-地Sun，W.：Shepard卷积神经网络在：新一代生产系统中的设备。pp. 90132. Ronneberger，O.，Fischer，P.，Brox，T.：U-net：用于生物医学图像分割的卷积网络医学图像计算和计算机辅助干预（MICCAI）（2015）33. Simakov，D.，Caspi，Y.，Shechtman，E.，Irani，M.：使用双向相似性总结视觉数据。在：计算机视觉和模式识别， 2008 。 CVPR 2008 。IEEEConferenceon。pp. 一比八02The Dog（2008）34. 西蒙尼扬，K.，齐瑟曼，A.：用于大规模图像识别的深度卷积网络。ArXiv预印本arXiv：1409.1556（2014）35. 孙， J. ， Yuan ， L. 贾， J. ，沈希尧：用结构传播完成图像。ACMTransacti o nso nGr a pi cs（ToG）24（3），86136. Ulyanov，D.，Lebedev，V.，Vedaldi，A.，Lempitsky，V.S.：纹理网络：在纹理和纹理化图像的基础上的馈送形式。In：ICML.pp. 134937. Wexler，Y.，Shechtman，E.，Irani，M.：时空影像完成。计算机视觉与模式识别， 2004 年。 CVPR 2004 。 Proceedings of the 2004 IEEEComuterSocietyConferenceon. vol. 第1页。我-我。02The Dog（2

下载后可阅读完整内容，剩余1页未读，立即下载