QueryOTR:Transformer架构下的图像外绘与视觉变换
23 浏览量
更新于2024-06-19
收藏 2.55MB PDF 举报
"本文主要探讨了基于查询的图像外绘技术,通过引入Transformer架构来解决传统卷积神经网络(CNN)在图像外绘中的局限性。作者提出了一个名为Query Outpainting TRansformer (QueryOTR)的新框架,该框架将图像外绘转化为逐块序列到序列的自回归问题,旨在利用查询扩展来生成视觉上吸引人且现实的图像扩展。"
文章首先指出,基于CNN的图像外绘方法虽然取得了显著的进步,但其内在的归纳偏差限制了性能。Transformer架构中的自注意力机制则提供了更小的归纳偏差和更强的建模能力。因此,作者重新定义了广义图像外绘问题,将其视为一个需要预测图像周围视觉上下文的序列处理任务。
QueryOTR框架的核心包括两个关键组件:查询扩展模块(Query Extension Module, QEM)和补丁平滑模块(Patch Smoothing Module, PSM)。QEM设计用于增强不同补丁之间的连接,通过编码器获取的信息来指导新的查询生成,从而更好地捕捉图像的整体结构。而PSM则处理重叠区域,通过重新分配和平均值计算来确保预测图像的无缝过渡。
实验结果显示,QueryOTR在图像外绘任务上表现优秀,能够生成既美观又现实的图像扩展,优于现有的先进方法。该方法不仅在视觉效果上表现出色,而且其自回归和序列化的方法也使得模型能更有效地处理远离边界的未知像素,减少了误差积累的可能性。
关键词涵盖了图像外绘、Transformer以及查询扩展,强调了Transformer在解决图像外绘挑战中的作用,如确定未知区域特征的位置、保证内容的合理性以及处理远距离像素的扩展。
这项工作为图像外绘提供了新的视角和解决方案,通过融合Transformer架构,提高了模型的泛化能力和对图像语义结构的捕捉能力。QueryOTR的代码已在GitHub上开源,为研究者和开发者提供了进一步探索和应用的基础。
126 浏览量
2023-05-21 上传
2023-07-14 上传
2023-05-23 上传
2023-07-27 上传
2024-03-07 上传
2023-05-21 上传
2023-05-22 上传
cpongm
- 粉丝: 5
- 资源: 2万+
最新资源
- zlib-1.2.12压缩包解析与技术要点
- 微信小程序滑动选项卡源码模版发布
- Unity虚拟人物唇同步插件Oculus Lipsync介绍
- Nginx 1.18.0版本WinSW自动安装与管理指南
- Java Swing和JDBC实现的ATM系统源码解析
- 掌握Spark Streaming与Maven集成的分布式大数据处理
- 深入学习推荐系统:教程、案例与项目实践
- Web开发者必备的取色工具软件介绍
- C语言实现李春葆数据结构实验程序
- 超市管理系统开发:asp+SQL Server 2005实战
- Redis伪集群搭建教程与实践
- 掌握网络活动细节:Wireshark v3.6.3网络嗅探工具详解
- 全面掌握美赛:建模、分析与编程实现教程
- Java图书馆系统完整项目源码及SQL文件解析
- PCtoLCD2002软件:高效图片和字符取模转换
- Java开发的体育赛事在线购票系统源码分析