Uformer：Transformer在图像恢复中的新应用

21 浏览量更新于2024-06-20 收藏 1.11MB PDF 举报

"Uformer是一种基于Transformer的图像恢复架构，由两个关键设计组成：局部增强窗口Transformer块和可学习的多尺度恢复调制器。这种方法在处理图像去噪、运动去模糊、散焦去模糊和去除其他退化时，能够有效地捕获局部和全局依赖关系，同时保持较低的计算复杂度。Uformer在多个图像恢复任务上展现出优秀的性能，与现有最先进的算法相媲美。" Uformer是针对图像恢复领域的一个创新架构，主要针对基于卷积神经网络（ConvNet）的传统方法在捕捉长期依赖关系上的不足。传统的ConvNet在处理高分辨率图像时可能会丢失重要的局部细节，尤其是在处理复杂的图像恢复任务时。为此，Uformer引入了两个独特的设计： 1. 局部增强窗口Transformer块（LeWin Transformer block）：该块采用了非重叠窗口的自注意力机制，以取代全局自注意力。这使得Uformer能够在保持较低计算复杂度的同时，有效地捕获局部上下文信息。通过限制注意力范围，LeWin Transformer在处理高分辨率特征图时避免了计算复杂度的急剧增加。 2. 可学习的多尺度恢复调制器（Multi-scale Spatial Bias）：这个调制器设计用于调整Uformer解码器不同层的功能，特别是在多个尺度上。这种调制器以轻量级的形式引入，能够在恢复图像细节方面表现出色，而不会显著增加额外的参数和计算成本。 Uformer的这两个核心组件协同工作，使其能够同时处理局部和全局的信息，这对于图像恢复至关重要。在实际应用中，Uformer在多项图像恢复任务，如图像去噪、运动去模糊、散焦去模糊等上进行了测试，并取得了优异的性能，甚至超越了一些现有的最佳算法。这表明，Transformer架构在处理图像恢复问题上有巨大的潜力，可以弥补传统ConvNet的不足。此外，值得注意的是，Uformer的研究是在华为诺亚方舟实验室实习期间完成的，体现了学术界与工业界的合作。通过开源代码和模型，研究者们鼓励社区进一步探索和优化这一架构，推动图像恢复技术的发展。总结来说，Uformer是Transformer架构在图像恢复领域的一个重要突破，它通过创新的LeWin Transformer块和多尺度恢复调制器，实现了高效且精确的图像恢复，有望成为未来图像处理和计算机视觉领域的一个重要工具。

17685

∈

















…







退化图像

输入投

影





Lewin

块





Lewin

块



...





Lewin

块

调制器

恢复图像

输出投

影

LeWin

块





Lewin

块

下采样上采样

（

一

）

（b）第（1）款

特征图

（c）第

（1）款

图

2. (a)Uformer

概述。

(b)LeWin Transformer

块。

(c)

调制器如何调制每个

LeWin Transformer

块中的

W-MSA

的图示，其在（

）中

被命名为MW-MSA。

方法

在本节中，我们首先描述用于图像恢复的Uformer的

整体流水线和层次结构。然后，我们提供了Uformer的

基本组件 LeWin Transformer

块

的详细信息在此基础

上，我们提出了

多尺度恢复调制器

。

3.1.

整体管道

如图

（

）所示，所

提出的Uformer的总体结构是

在

编码器和解码器之间具有跳跃连接的

形分层网络。

具体来说，给定一幅退化图像

，

Uformer

首

先应用

LeakyReLU

的

× 3卷积层来提取低级特征

。接下来，在

形结构的设计之后

[24

，

49]

，特

征图

通过

个

编码器级。每个阶段都包含一个

LeWin Transformer

块堆栈和一个下采样层。

The

LeWin Trans- former block takes advantage of the self-

attention mecha- nism for capturing long-range

dependencies, and also cuts the computational cost due

to the usage of self-attention through non-overlapping

windows on the feature maps.

在下采样层，我们首先

将扁平化的特征重塑为

空间特征图，然后对地图

进行下采样，使用步长为

的4 4 例如，给定输入特

征图

∈

，编码器的第

级产生

我们使用步长为

的转置卷积进行上

采样。此图层减

少了一半的特征通道，并

将特征贴图的大小加倍。之

后，输入到

LeWin Transformer

块的特征是上采样特

征和

来自编码器的对应特征通过跳过连接的级联。接下

来，利用LeWin Transformer块来学习恢复映像。

在

个

解码器阶段之后，我们将平坦化的特征重塑为

特

征图，并应用

3 3

卷积层以获得残差图像

。

最后通过

′

得到恢复图像

。我们使用

Charbonnier

损失训练

Uformer [7

，

76]

：

（

′

，

）

+12

，（

）

(1)

式中，

是地面实况图像，Σ

−

是所有实验中的

常

数。

3.2.

LeWin Transformer模块

将Transformer应用于图像恢复存在两个主要挑战。

首先，标准Transformer架构[15，59]在所有令牌之间全

局计算自注意力，这导致了相对于令牌数量的二次计

算成本。在高分辨率特征地图上应用全局自注意是不

合适的。其次，局部上下文信息对于图像恢复任务是

必不可少的，因为退化像素的邻域

特征图

∈

可以用来恢复其干净的版本，但以前的

然后，在编码器的末端添加具有LeWin Trans-former

块的堆栈的瓶颈阶段。在这个阶段，由于分层结构，

Transformer块捕获更长的依赖关系（当窗口大小等于

特征图大小时甚至是全局的）。

对于特征重构，所提出的解码器还包含K

个

阶段。

每个都由一个上采样层和一个LeWin Transformer块堆

栈组成，类似于编码器。

works [35，66]建议Transformer在捕获本地依赖性方面

显示出限制。

为了解决上述两个问题，我们提出了局部增强的

Window（LeWin）Transformer块，如图2（b）所示，

其受益于Transformer中的自关注以捕获长程依赖性，

并且还将卷积运算符涉及到Transformer中以捕获有用

的局部上下文。具体来说，考虑到

Leff

W/MW -MSA

MSA

调制器

窗口

…

剩余14页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

Uformer：Transformer在图像恢复中的新应用

transformer：图像分割中图像增广的实现，包含随机裁剪、随即翻转等等

Swin-Transformer 图像分类网络实战项目：30种水果图像分类数据集（迁移学习）

Swin Transformer实战：timm中的 Swin Transformer实现图像分类（多GPU）。

Transformer 架构的预训练模型能具体说一下吗

基于swin transformer的图像分类的国内外研究现状

transformer架构包含什么

VIT transformer

大模型涉及到的算法包括哪些

Transformer架构和人类大脑信息处理有什么相似之处

GAN+Transformer架构

最新资源