可学习双向注意图提升图像修复效果：解决不规则孔洞问题

74 浏览量更新于2024-06-20 收藏 1.37MB PDF 举报

本文主要探讨了一种创新的图像修复方法，即"基于可学习双向注意图的图像修复"。该方法针对传统CNN在处理不规则孔洞时的局限性进行了改进。传统的卷积操作在修复过程中往往无法区分有效像素和孔洞，导致修复结果可能存在颜色差异和模糊。为解决这一问题，部分卷积被提出，但其依赖于手工特征规范化和单向掩码更新，限制了模型的灵活性。本文的核心贡献在于引入了一个可学习的注意力地图模块，这个模块能够以端到端的方式自动学习特征的重新规范化和掩码更新过程，从而提高了修复的精度和一致性。同时，为了更有效地处理不规则孔洞，文中提出了可学习的反向注意力图，它使U-Net的解码器能够专注于填补空洞，避免了同时过度重建已知区域。这种双向注意力机制使得模型能够更加聚焦于孔洞的修复，减少全局干扰，生成更为清晰、连贯且视觉上合理的修复结果。与传统的基于范例的方法相比，如PatchMatch，基于CNN的方法在捕捉高级语义上有显著优势，能够处理复杂和非重复的结构。然而，这些方法仍然存在挑战，特别是在处理复杂孔洞时。本文提出的新型框架在保持细节纹理生成能力的同时，显著提升了对不规则结构的理解和恢复能力。通过一系列定性和定量实验，该方法证实了其在图像修复任务中的优越性能，能够超越当前国家最先进的算法。研究者们承诺，他们将在GitHub上提供源代码和预训练模型，以便其他研究人员和开发者进行参考和进一步的研究。这篇论文在图像修复领域开辟了新的研究方向，通过引入可学习的双向注意力图，为图像处理和计算机视觉任务提供了强有力的技术支持。对于那些关注图像修复、深度学习和视觉恢复应用的读者来说，这是一篇值得深入研究的论文。

8860

输入

在

部分转换

out

米

l+1

1/9

输入

在

向前关注

出

在

反向注意力

out

输出

米

l+1

-1

1-M

L-1 +1

L-l+1

(a)

PConv（b）可学习的前向注意力图（c）可学习的反向注意力图

图

2.PConv

的掩码和中间特征之间的相互作用模型以及我们可学习的双向注意力地图。这里，

中的白洞表示值为

的缺

失区域，黑色区域表示值为

的已知区域

Phatak等人[20]采用编码器-解码器网络（

即

，上下文

编码器），并结合了重建和对抗性损失，以更好地恢

复语义结构。Iizuka等人[10]结合了全局和局部描述

符，用于再现语义上合理的结构和局部真实的细节。

Wang等人[28]提出了一种生成式多列CNN，其中包含

置信度驱动的重建损失和隐式多样化MRF（ID-MRF）

项。

还研究了多阶段方法，以减轻训练深度修复网络的

难度 Zhang 等人 [37] 提出了一种渐进生成网络

（PGN），用于填充具有多个阶段的孔，而LSTM则

用于利用跨阶段的依赖关系。Nazeri等人[19]提出了一

种两阶段模型EdgeConnect，首先预测显著边缘，然后

生成由边缘引导的修复结果。相反，Xionget al. [31]提

出了前景感知修复，其包括三个阶段，

即

，轮廓检

测、轮廓补充和图像补充，用于结构推理和内容幻觉

的分离。

为了结合基于范例和基于CNN的

特征重新规范化和掩码更新。Yu等人[35]提供了门控

卷积，它通过考虑损坏的图像，掩码和用户草图来学

习通道软掩码。然而，PConv采用手工制作的特征重

新规范化，并且仅考虑正向掩码更新，使得其在处理

颜色差异和模糊方面仍然受到限制（参见图2）。1

（d））。

该方法

在本节中，我们首先回顾PConv，然后展示我们可

学习的双向注意力地图。随后，我们的方法的网络结

构和学习目标也提供。

3.1.

再谈部分卷积

PConv [17]层通常包括三个步骤，

即

，

(i)

掩模卷积，（ii）特征重新归一化，和（iii）

掩模

更新。在输入特征图

中

用

表示，

表示对应的硬

0-1

掩码。我们进一步令

是卷积滤波器并且

是其偏

置。首先，我们引入卷积掩码

，其中

表示卷积算子，

表示3

3卷积算子，

卷积滤波器与每个元素

. PConv的过程

方法，Yanget al.[34]多尺度神经补丁

综合（MNPS），通过整体内容和局部内容的联合优

化来

可以配制为，

(i)

conv

（

WMM

）

，

（

）

纹理约束其他两阶段前馈模型，

例如

，[26]和[36]，是一个很好的例子。

(ii)

输出

转化

率

（M

）

，

如果

（二

）

的其他发展，以克服高计算成本的MNPS，同时明确

利用图像特征的已知区域。同时，Yanet al.[33]修改了

U-Net以形成一级网络，

即

，Shift-Net，利用编码器特

征从已知区域的最重-

，

否则

(iii)

′

（

）

（3）

其中A

（M

）

表示注意力映射，并且

′

（M

）表示更新的掩码。我们进一步将

注意力图

和更新的掩模的激活函数定义为：

最近，Zhenget al.[39]引入了增强的短期+长期注意力

层，并提出了一个概率框架，具有用于多元修复的两

个并行路径。

大多数现有的基于CNN的修复方法通常不太适合处

理不规则的洞。解决

（

）

（

）

，

如果

，

否则

、

如果

，

否则

（四

）

（五

）

剩余14页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

可学习双向注意图提升图像修复效果：解决不规则孔洞问题

基于示例的图像修复

边缘引导的可学习双向注意图实现图像修复技术

基于CycleGan开源项目实战图像合成-TF2_tensorflow

11.CycleGAN 与非配对图像转换 python代码实现

超越综合数据，对真实雨量图像进行盲目减量质量评估

数字图像和视频处理基础-Image and video processing-西北大学-Coursera数字图像和视频处理基课件

移动流媒体技术（基于3g技术）

Lux:Lux –基于物理的开源物理着色器框架

双向非局部模型提升图像插值性能：利用自相似性创新算法

图像块匹配与多方向插值的误码掩盖效果对比

最新资源