无监督图像拼接中的像素级对齐学习

0 下载量 144 浏览量 更新于2024-08-03 收藏 3.77MB PDF 举报
"Learning pixel-wise alignment for unsupervised image stitching" 这篇论文主要探讨的是无监督图像拼接中的像素级对齐技术。图像拼接是将两个视角相同的图像进行对齐合并,以便形成一个更大的视野。在实际非共面场景中,由于缺乏更广阔的视场作为参考,图像拼接在处理自然结构的精确对准时尤为具有挑战性,特别是存在大视差的情况下。 作者们提出了一种无监督的图像拼接框架,突破了传统 Homography(单应性)估计中的共面约束,能够在有限的重叠区域实现像素级别的准确对齐。这一框架主要包含两个关键步骤: 首先,他们通过迭代密集特征匹配生成全局变换。这个过程结合了误差控制策略,旨在减轻由大视差引起的差异。在图像特征匹配中,通常使用关键点检测器(如SIFT或ORB)来找出图像间的对应点,然后通过这些对应点估计出初始的变换模型。迭代过程可以逐步优化这个模型,确保更准确地对齐图像的相似部分。 其次,论文提出了一种像素级扭曲网络,该网络内嵌在一个大规模特征提取框架内。这个网络能够对每个像素进行个体化的处理,以适应局部的变形。通常,这种网络会基于深度学习,如使用卷积神经网络(CNN),以端到端的方式学习从源图像到目标图像的映射函数。网络的训练无需标注数据,即为无监督学习,这使得模型能在没有配对的地面实况信息下自我优化。 此外,由于在非共面场景中,简单的单应性假设不足以捕捉复杂的几何变换,该方法可能采用了多平面模型或其他高级几何模型来更准确地描述图像间的关系。同时,为了处理有限重叠区域的问题,网络可能会学习到如何在没有直接对应点的情况下估计合理的像素位置,这可能涉及到上下文信息的利用和边缘保持策略,以避免图像拼接时出现明显的失真或不连续。 这篇论文贡献了一种新的无监督图像拼接方法,通过像素级的对齐策略提高了在复杂场景下的拼接效果,特别是在大视差和重叠区域有限的情况下。这种方法对于增强现实、全景图像生成和遥感图像处理等领域有着重要的应用价值。