QueryOTR:Transformer架构下的图像外绘与视觉变换

1 下载量 82 浏览量 更新于2024-06-19 收藏 2.55MB PDF 举报
"本文主要探讨了基于查询的图像外绘技术,通过引入Transformer架构来解决传统卷积神经网络(CNN)在图像外绘中的局限性。作者提出了一个名为Query Outpainting TRansformer (QueryOTR)的新框架,该框架将图像外绘转化为逐块序列到序列的自回归问题,旨在利用查询扩展来生成视觉上吸引人且现实的图像扩展。" 文章首先指出,基于CNN的图像外绘方法虽然取得了显著的进步,但其内在的归纳偏差限制了性能。Transformer架构中的自注意力机制则提供了更小的归纳偏差和更强的建模能力。因此,作者重新定义了广义图像外绘问题,将其视为一个需要预测图像周围视觉上下文的序列处理任务。 QueryOTR框架的核心包括两个关键组件:查询扩展模块(Query Extension Module, QEM)和补丁平滑模块(Patch Smoothing Module, PSM)。QEM设计用于增强不同补丁之间的连接,通过编码器获取的信息来指导新的查询生成,从而更好地捕捉图像的整体结构。而PSM则处理重叠区域,通过重新分配和平均值计算来确保预测图像的无缝过渡。 实验结果显示,QueryOTR在图像外绘任务上表现优秀,能够生成既美观又现实的图像扩展,优于现有的先进方法。该方法不仅在视觉效果上表现出色,而且其自回归和序列化的方法也使得模型能更有效地处理远离边界的未知像素,减少了误差积累的可能性。 关键词涵盖了图像外绘、Transformer以及查询扩展,强调了Transformer在解决图像外绘挑战中的作用,如确定未知区域特征的位置、保证内容的合理性以及处理远距离像素的扩展。 这项工作为图像外绘提供了新的视角和解决方案,通过融合Transformer架构,提高了模型的泛化能力和对图像语义结构的捕捉能力。QueryOTR的代码已在GitHub上开源,为研究者和开发者提供了进一步探索和应用的基础。