QueryOTR：Transformer架构下的图像外绘与视觉变换

82 浏览量更新于2024-06-19 收藏 2.55MB PDF 举报

"本文主要探讨了基于查询的图像外绘技术，通过引入Transformer架构来解决传统卷积神经网络（CNN）在图像外绘中的局限性。作者提出了一个名为Query Outpainting TRansformer (QueryOTR)的新框架，该框架将图像外绘转化为逐块序列到序列的自回归问题，旨在利用查询扩展来生成视觉上吸引人且现实的图像扩展。" 文章首先指出，基于CNN的图像外绘方法虽然取得了显著的进步，但其内在的归纳偏差限制了性能。Transformer架构中的自注意力机制则提供了更小的归纳偏差和更强的建模能力。因此，作者重新定义了广义图像外绘问题，将其视为一个需要预测图像周围视觉上下文的序列处理任务。 QueryOTR框架的核心包括两个关键组件：查询扩展模块（Query Extension Module, QEM）和补丁平滑模块（Patch Smoothing Module, PSM）。QEM设计用于增强不同补丁之间的连接，通过编码器获取的信息来指导新的查询生成，从而更好地捕捉图像的整体结构。而PSM则处理重叠区域，通过重新分配和平均值计算来确保预测图像的无缝过渡。实验结果显示，QueryOTR在图像外绘任务上表现优秀，能够生成既美观又现实的图像扩展，优于现有的先进方法。该方法不仅在视觉效果上表现出色，而且其自回归和序列化的方法也使得模型能更有效地处理远离边界的未知像素，减少了误差积累的可能性。关键词涵盖了图像外绘、Transformer以及查询扩展，强调了Transformer在解决图像外绘挑战中的作用，如确定未知区域特征的位置、保证内容的合理性以及处理远距离像素的扩展。这项工作为图像外绘提供了新的视角和解决方案，通过融合Transformer架构，提高了模型的泛化能力和对图像语义结构的捕捉能力。QueryOTR的代码已在GitHub上开源，为研究者和开发者提供了进一步探索和应用的基础。

+v：mala2255获取更多论

文

∈

外绘：105

传输（RCT）块，用于以长短期记忆（LSTM）网络为瓶颈的时间内

容预测。为了增加上下文信息，Lu et al. [30]和Kim et al. [22]通过将图

像的外部区域切换到其内部区域来重新布置边界区域。这些最新模型

基于卷积神经网络。由于全球信息没有很好地捕获，它们在明确建模

长期依赖性方面都有局限性。

2.2 Transformer

近年来，Transformer在计算机视觉领域引起了广泛的关注。 trans-

former首先被提出来通过取代传统的CNN和递归神经网络（RNN）结

构来解决NLP任务[41]。自注意机制帮助模型从输入中学习全局表

示，这可以提高基本视觉特征提取的性能[41]。Jacob等人[8]引入了一

个非常深的网络，通过联合调节左和右上下文，从未标记的文本中预

训练深度双向表示，所有层。它可以通过一个额外的输出层进行微

调，以获得更好的性能。ViT [9]是一种无卷积的Transformer，可对图

像块序列进行图像与基于CNN的方法相比，许多基于ViT的变体也证

明了计算机视觉任务的成功[47，19，13]，例如对象检测[5]，视频识

别[1]和图像合成[26]。此外，Liu等人。[29]提出了Swin Transformer来

扩展对象检测和语义分割的视觉任务。Gao等人[11]设计了一个基于

transformer的框架，用于使用编码器-解码器架构的图像outpainting。他

们使用Swin Transformer，其中涉及转移窗口注意力以桥接前一层的窗

口，这显著增强了建模能力并实现了更低的延迟。

方法

3.1

问题陈述

给定一幅图像x

H×W

，我们的目标是用额外

的

M-像素外推图像边界以

外的内容。生成器将生成

一

个

视觉

上

一致

的

图像

（

）

（

）

。

与

以前

的工作几乎是基于卷积运算不同，我们将问题重新表述为分

片序列到序列自回归问题。特别地，我们将图像x划分为规则的不重叠

的块，大小为P×P（P通常根据经验设置为16），导致一系列

补丁令牌{x

，

· · ·

，

}，其中

∈

（

）

，序列长度为

。我们的目标是预测额外序列{

，

···

，

}

表示外推区域，其中

∈

（

）

和扩展的se-

序列

长度

为

（

）

（

）

−

。额外的

polated

图像x

可

扫描

剩余22页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

QueryOTR：Transformer架构下的图像外绘与视觉变换

图像解码库

解析视频监控系统图像处理关键技术

H.264编码技术

最新通用视频编码标准H.266VVC.pdf

opencv-contrib 4.5.0

Media-Effects:Andorid 媒体效果

x264 H.264/MPEG-4AVC

MPEG 基础理论和协议分析DVB-C ATSC指南.pdf

GDI+详解：绘图技术与实战指南

【自编码器高级应用】

最新资源