QueryOTR:Transformer架构下的图像外绘与视觉变换
82 浏览量
更新于2024-06-19
收藏 2.55MB PDF 举报
"本文主要探讨了基于查询的图像外绘技术,通过引入Transformer架构来解决传统卷积神经网络(CNN)在图像外绘中的局限性。作者提出了一个名为Query Outpainting TRansformer (QueryOTR)的新框架,该框架将图像外绘转化为逐块序列到序列的自回归问题,旨在利用查询扩展来生成视觉上吸引人且现实的图像扩展。"
文章首先指出,基于CNN的图像外绘方法虽然取得了显著的进步,但其内在的归纳偏差限制了性能。Transformer架构中的自注意力机制则提供了更小的归纳偏差和更强的建模能力。因此,作者重新定义了广义图像外绘问题,将其视为一个需要预测图像周围视觉上下文的序列处理任务。
QueryOTR框架的核心包括两个关键组件:查询扩展模块(Query Extension Module, QEM)和补丁平滑模块(Patch Smoothing Module, PSM)。QEM设计用于增强不同补丁之间的连接,通过编码器获取的信息来指导新的查询生成,从而更好地捕捉图像的整体结构。而PSM则处理重叠区域,通过重新分配和平均值计算来确保预测图像的无缝过渡。
实验结果显示,QueryOTR在图像外绘任务上表现优秀,能够生成既美观又现实的图像扩展,优于现有的先进方法。该方法不仅在视觉效果上表现出色,而且其自回归和序列化的方法也使得模型能更有效地处理远离边界的未知像素,减少了误差积累的可能性。
关键词涵盖了图像外绘、Transformer以及查询扩展,强调了Transformer在解决图像外绘挑战中的作用,如确定未知区域特征的位置、保证内容的合理性以及处理远距离像素的扩展。
这项工作为图像外绘提供了新的视角和解决方案,通过融合Transformer架构,提高了模型的泛化能力和对图像语义结构的捕捉能力。QueryOTR的代码已在GitHub上开源,为研究者和开发者提供了进一步探索和应用的基础。
2020-10-21 上传
2008-05-06 上传
130 浏览量
2020-10-16 上传
2021-07-15 上传
2018-09-16 上传
2008-07-13 上传
点击了解资源详情
cpongm
- 粉丝: 5
- 资源: 2万+
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜