增量Transformer结构增强图像修复技术

PDF格式 | 2.47MB | 更新于2025-01-16 | 195 浏览量 | 举报

"增量Transformer结构增强的掩蔽位置编码图像修复" 本文主要探讨了一种新的图像修复方法，通过结合增量Transformer结构和掩蔽位置编码策略，旨在解决传统图像修复技术面临的挑战，尤其是对于大图像和复杂纹理的处理。作者团队来自复旦大学，包括董巧乐、曹晨杰和傅艳伟。 1. 图像修复挑战与现有方法图像修复的目标是填补图像中缺失或损坏的部分，使之看起来自然且连贯。早期的经典算法依靠启发式搜索相似补丁来重建，但在处理大图像和复杂纹理时效果不佳。深度学习技术，特别是CNN和GAN的引入，显著提升了修复质量，但仍存在局限性。CNN的局部感受野限制了其处理大范围结构的能力，而扩张卷积虽有所改善，但对大规模损坏或高分辨率图像的处理仍有不足。 2. 增量Transformer结构为了解决这些问题，论文提出了一种新的模型，该模型在低分辨率草图空间中利用基于注意力的Transformer进行结构恢复。Transformer因其在捕捉长程依赖性和全局上下文方面的优势，能更好地恢复图像结构。将修复过程分步进行，即“增量”修复，可以更高效地处理大尺寸图像，同时减轻计算负担。 3. 掩蔽的位置编码策略为了提升模型在处理大型不规则遮罩情况下的性能，文章引入了一种掩蔽的位置编码方法。这种策略能够帮助模型更好地理解遮罩区域的边界和形状，从而在修复过程中保持结构的准确性和完整性。 4. 结构恢复器设计结构恢复器采用零初始化的残差加法设计，这使得它可以无缝集成到其他预训练的修复模型中，无需额外的训练。这种方法增强了模型的兼容性和泛化能力。 5. 实验与结果大量实验在多个数据集上验证了所提模型的有效性，与当前最先进的图像修复方法（如LaMa[44]）相比，展示了更优的修复质量和结构保真度。作者提供了代码，以便于社区进一步研究和应用。 6. 应用场景图像修复技术广泛应用于现实世界，包括对象删除、照片恢复和图像编辑等。本文提出的增量Transformer结构和掩蔽位置编码策略为解决这些应用场景中的难题提供了一个新的视角和解决方案。这篇论文通过引入增量Transformer和掩蔽位置编码，为图像修复领域带来了一种新颖而有效的方法，尤其在处理大图像和复杂结构时表现出色，对于未来的研究和实际应用具有重要价值。

展开

11360

、

∈

联系

我们

、

与基于CNN的方法相比，该方法具有更好的性能

方法

概况. ZITS的整个管道显示在

行i和j之间的RPE值，并且R

col

表示列i

、

j之间的RPE

值。然后，通过softmax操作处理注意力分数。为了稳

定训练，我们使用[50]中的预范数技巧。与标准自我

注意的O（n

）复杂度相比，

图二、给定掩蔽图像I ，canny edgeI [10]，

时间复杂度为

（2

），这使得我们可以

线I

[4]和二进制掩码M

为了更好的容量，可以省略更多的注意层。再说我们

我

，我们连接起来

将它们放入Transformer Structure Restoration（TSR）模

型，以恢复边和线作为草图空间

[

，

m，

]

TSR

（

，

）

（

Sec.

第

3.1

节）。在

在参考级，简单结构上采样器（SSU）可以

轻松地将灰度草图上采样为任意大小（第3.2）。然

后，基于门卷积的结构特征编码器（SFE）提取多尺

度特征

来自上采样

的

SFE

（

，

}

，

还保留了一些用于学习全局相关性的标准注意模块。

我们的消融表明，这种设置可以提高性能，相同的内

存成本。

在对堆叠的Transformer块进行编码之后，在256中

通过三个转置卷积对特征进行上采样以用于我们使用

二进制交叉熵（BCE）损失来优化预测的连续

S-K

蚀刻结构的边缘

线

和线

素描我们递增地将S

添加到基于傅立叶卷积的CNN纹

理恢复（FTR）

当

，

时，

零初始化的可训练系数α

的总和

，

即

、

ZeroRA（第3.3）。

3.1.

Transformer结构修复

由于Transformer显示出获得表达性全局结构恢复的

能力 [46]，因此我们利用Transformer的能力对于256

256中的输入掩码图像

、边缘

、线

和掩码M，我们

首先用三个卷积对它们进行下采样，以减少注意力学

习的计算与基于补丁的MLP嵌入相比，这种简单的卷

积还可以为视觉变换器注入有益的卷积归纳偏差

[49]。然后，我们在每个空间位置向特征添加可学习

的绝对位置嵌入，并获得X R

h× w × c

对于到关注层

的输入，其中h

、

32是高度和宽度，并且c

256是特

征通道。

为了克服标准自我注意力的二次复杂性[45]，我们

交替使用轴向注意力模块[21]和标准注意力模块，如

图2左上角所示。轴向注意模块可以通过调整行方向和

列方向的张量形状，然后分别用基于点积的自注意进

行处理来容易地实现。为了改善空间关系，我们还为

每个轴向注意模块提供了相对位置编码（RPE）[40]。

对于输入要素

我们假设

，

X的行

，

和列

，

的平均特征向量。

然后，基于行和列的RPE的轴向注意力分数

row

，

col

可以写为

BCE（

BCE

，

BCE

）

，

BCE（

BCE

，

BCE）

，

（

）

其中，

表示二进制地面真值可以是

个边，并且

图

指示从

来自[4]

的掩蔽

增强线框检测器

获得的抗锯齿线

图

3.2.

简单结构上采样器

为了捕获可能的高分辨率图像的整体结构然而，基

于香草插值的插值导致锯齿形，如图3（f）这样的伪

影对于大图像尺寸更严重，这使修复结果恶化。幸运

的是，灰度草图张量易于使用基于学习的方法进行上

采样。首先，我们训练一个简单的CNN作为SSU，以

上采样边缘和线到两倍大小。尽管可以成功地对线进

行上采样，但是边缘不能得到正确的结果，如图3

（j）所示。因为如图3（b）和图3（c）所示，在来自

不同图像尺寸的Canny边缘中存在模糊性。由于从线框

解析器获得的线具有良好的离散表示[22，52]，

即

一

条线可以表示为两个端点的位置及其关系，我们可以

绘制各种分辨率的线图，而没有任何歧义，如图3

（d）和图3（e）所示。如果模型是在线训练的，

由于如图3（k）所示的网络的一般化，它还可以实现

平滑的高分辨率边缘图。通过迭代调用SSU，我们可

以得到高质量的边缘和线条的高分辨率。

3.3.

ZeroRA结构增强修补

傅立叶CNN纹理恢复（FTR）。对于纹理恢复，我们

采用[44]的优秀作品作为我们的修复骨干。Suvorov等

人[44]建议使用

行

，

傅立叶卷积[7]用于频域学习，

、

rk rj

、

（一）

其可以实现分辨率鲁棒的修补结果。作为

col

，

、

CK CJ

、

其他修复模型使用的主干[4，38]，FTR是

其中，

、

是用于行和列中的查

询和关键字的可训练参数

行

是可训练参数。

一个自动编码器模型，具有用于下采样和上采样图像

特征的几个卷积。按键模块

下载后可阅读完整内容，剩余10页未读，立即下载

身份认证购VIP最低享 7 折!

30元优惠券

cpongm

粉丝: 6

增量Transformer结构增强图像修复技术

Transformer模型在图像协调与修复中的创新应用

基于Swin Transformer的图像修复模型SwinIR的技术实现与应用提供源码

基于Swin Transformer的SwinUNet架构在裂缝图像分割的应用与实现

基于CNN与Transformer联合网络的红外可见图像压缩融合算法研究

transformer结构

深入解析transformer位置编码原理

基于P-VQVAE的PUT: 减少Transformer图像修复中的信息损失

Transformer中的位置编码：解决序列理解难题

图像修复算法教程：深度学习Transformer与GAN技术应用

Transformer驱动的 PlaneTR：单一图像3D平面恢复创新

最新资源