PARN: 嵌入金字塔的仿射网络,破解密集语义对应难题

0 下载量 182 浏览量 更新于2024-06-20 收藏 2.9MB PDF 举报
PARN(金字塔仿射回归网络)是一项创新的深度学习架构,旨在解决密集语义对应问题,即在具有显著类内外观和形状变化的图像对之间建立精确的像素级对应关系。传统的密集对应任务,如立体匹配和光流估计,主要关注有限的几何变换,如平移。然而,PARN专注于处理更为复杂的几何变化,如仿射变换,这是通过构建一个金字塔模型来实现的。 金字塔模型的核心在于逐层细化地估计仿射变换场。从粗粒度的全局视角开始,然后逐渐过渡到更细致的局部特征,这种方法确保了平滑度约束在深度网络内部得到自然应用,有助于捕捉和融合多尺度的几何和纹理信息。每个层级的PARN负责估计残差仿射变换,并在所有层级估计后汇总,形成最终的仿射变换估计。 针对常见的数据不足问题,PARN提出了一种弱监督训练策略,利用图像对间的对应一致性作为训练信号,即使在缺乏精确标注的情况下也能进行有效的学习。这种端到端的学习方法避免了传统方法对连续仿射变换域进行繁琐的量化过程,使得PARN能够在无额外假设的情况下处理整个变换空间。 PARN的独特之处在于它首次尝试在深度网络中采用从粗到细的策略来估计密集仿射变换场,这在同类工作中是新颖且有竞争力的。实验结果显示,相比于当前最先进的方法,PARN在各种密集语义对应基准上展现出显著的优势,证明了其在复杂场景中的有效性和鲁棒性。 PARN是一个强大的工具,它结合了深度学习的灵活性、金字塔模型的多尺度处理和弱监督训练的高效性,为解决密集语义对应问题开辟了新途径。它在处理类内外观和形状变化的同时,扩展了几何变换的考虑范围,有望推动计算机视觉和计算摄影领域的进一步发展。