DynaST：动态稀疏注意力Transformer模型在样本引导图像生成中的效率与优化

151 浏览量更新于2024-06-19 收藏 8.82MB PDF 举报

“动态S解析Transformer模型：样本引导图像生成的关键挑战与效率优化” 这篇论文主要探讨了样本引导图像生成中的核心问题，即如何在输入图像和引导图像之间建立精细的对应关系，以及如何提高该过程的效率。研究人员提出了一种名为动态稀疏注意力Transformer（DynaST）的新型模型，旨在解决这些问题。 DynaST模型是基于Transformer架构设计的，它克服了以往方法在处理细粒度对应关系时的局限性。传统的技术往往依赖于估计密集的注意力来计算每点匹配，但由于内存限制，它们通常只能提供粗略的尺度或固定数量的对应关系，导致灵活性不足。DynaST通过引入动态注意力单元，能够根据需要动态调整关注的标记数量，从而实现更精细的匹配。这一机制充分利用了Transformer的多层特性，通过级联的方式执行动态注意力方案，逐步优化匹配结果，进而生成视觉效果更佳的输出图像。论文还提出了一种统一的训练目标，使得DynaST不仅能适应监督学习场景，也能适应无监督学习环境，将其转变为一个通用的基于参考的图像翻译框架。在多个应用领域，如姿态引导的人物图像生成、基于边缘的人脸合成和不失真的图像风格转移中，DynaST显示出了在局部细节方面的优异性能，并在减少计算成本的同时超越了现有的最佳方法。关键词强调了动态稀疏注意力、Transformer模型以及样例引导图像生成这三个关键概念。文章的介绍部分进一步阐述了这一领域的应用背景，例如从标签到场景、草图到照片以及地标到面部的图像转换，以及样本引导图像生成在灵活性和控制输出样式方面的优势。这篇研究贡献了一种新的Transformer模型，它解决了样本引导图像生成中的效率和精确匹配问题，为未来的研究提供了新的方向。通过动态稀疏注意力机制，DynaST能够在保持高质量图像生成的同时，显著降低计算需求，对于推动人工智能在图像处理领域的应用具有重要意义。

+v：mala2255获取更多论

文

ref

动态稀疏

Transformer 5

图二. DynaST概述。实线箭头表示特征流，虚线箭头表示注意力图的中间的黄色、绿色

和蓝色块分别采用密集注意、尺度间稀疏注意和尺度内稀疏注意

取三个图像作为输入：参考图像

ref

、I ref的对应语义映射

ref

（

例如，

姿态图像或边缘图）和目标语义图

St g

。

它

的目的

是

将

图像

与

t gt

中

指定

的目标

语义

信息

以及

ref

中的外观和风格进行合成。

拟议的DynaST由三个部分组成。第一个是

嵌入模块

（Sec. 3.1），它是由

一组多尺度层建立的，并在不同级别上聚合特征。第二个是

Transformer

模块

（第3.2），该方法利用语义特征恢复

目标

图像的特征，地图作为

目

标

，参考信息的特征作为记忆。最后一个是一个轻量级

的解码器模块

，用

于合成最终图像，其中多个由Transformer模块生成的比例要素是输入。管

道的训练目标和监督信号在第2.1节中描述三点三

3.1

嵌入模块

给定输入语义图像

Stgt

和参考图像

ref

以及其对应的语义

ref

，嵌入模块

产生特征嵌入集合

tgt

和

ref

。DynaST采用分层补丁嵌入模块作为多尺

度生成模型，以实现尺度级联匹配过程。所提出的嵌入模块被用来获

得丰富的功能和上下文表示。此外，还包括位置嵌入，使网络知道的

位置信息，在随后的匹配过程中。具体来说，我们使用两组独立的线

性变换：

和

，以获得目标语义图

Stgt

以及参考信息

ref

和

ref

，其中

表示嵌入

第

个尺度的斑块大小为

。第

个尺度的特征，

和

参

考

，则可以写成：

我

tgt

（

] j

（S

tgt

）

′

<[<M

]

）

，

（一）

参

考

（

（[

ref

，

ref

]

）

′

<[<M

]

）

，

···

阿

内标度

DynaST Block DynaST Block

···

内标度

DynaST块

Conv

Conv块

货

币

内标度

DynaST Block DynaST Block

···

内标度

DynaST块







Conv Block

密集型

Attn块

密集型

Attn块

···

密集型

Attn块

货

币

嵌入模块

Transformer模块

解码器模块

···

多尺度

剩余24页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

DynaST：动态稀疏注意力Transformer模型在样本引导图像生成中的效率与优化

扩散Transformer：DiffiT推动图像生成新纪元

GPT的语言模型：模仿还是预测，技术挑战解析

Swin-Transformer实战：迁移学习实现五种水果图像分类

深度生成模型：结构、方法与应用深度解析

Transformer端到端目标检测模型DETR深入解析

Donut：无需OCR的端到端文档理解Transformer模型

CNN+Transformer图像质量评估模型实战教程

【Transformer模型推理常见问题解决方案】： 解析Transformer模型推理中的常见问题与解决方案

【Layer Normalization解析】： Transformer模型层归一化解析

【PyTorch与Transformer】：构建最新NLP模型架构的实战技巧

最新资源

【Transformer模型推理常见问题解决方案】：解析Transformer模型推理中的常见问题与解决方案