使用CNN微调优化摄影测量几何信息的SfM视觉重叠图像对学习

需积分: 5 2 下载量 156 浏览量 更新于2024-08-04 收藏 13.43MB PDF 举报
"通过CNN对摄影测量几何信息进行微调,学习SfM的视觉重叠图像对" 本文探讨了一种利用卷积神经网络(CNN)进行微调以解决大规模运动结构(SfM)中视觉重叠图像对识别的挑战。在SfM过程中,正确识别视觉重叠的图像对对于构建3D模型至关重要,但这个过程往往非常耗时且容易出错。传统的基于特征匹配的方法依赖于手工设计的局部特征或词袋(BoW)与视觉词汇树(VoC)等方法,尽管它们在一定程度上提高了效率,但仍然存在局限性。 近年来,CNN在图像识别和相似性学习方面表现出色,这促使研究者尝试将CNN应用于SfM中的图像对匹配。在本研究中,作者选择了几种流行的CNN架构,如AlexNet、VGG和ResNet,对它们进行了定制化的微调,以适应SfM的需求。微调过程中,研究者创建了一个名为LOIP(Local Overlap Image Pairs)的新训练数据集,该数据集包含常规摄影测量图像和来自互联网的众包图像,以模拟实际场景的复杂性和多样性。 为了充分利用CNN的潜力,研究者在微调过程中引入了局部区域重叠信息。他们采用可学习的多个NetVLAD层来聚合不同通道的特征图,NetVLAD是一种有效的特征聚类技术,能捕获图像区域的全局表示,这对于识别具有复杂背景和光照变化的重叠图像尤其有用。通过这种方式,NetVLAD有助于提升检索性能,增强模型在不同环境条件下识别重叠图像对的能力。 此外,文章还强调了摄影测量的要求和3D网格模型在数据生成和模型训练中的作用。这些几何信息有助于确保CNN能够学习到与SfM任务密切相关的特征。结合新的训练策略和数据集,CNN能够更好地理解图像对之间的空间关系,从而提高匹配精度。 这项工作展示了如何通过CNN的微调以及利用摄影测量几何信息来改进SfM中视觉重叠图像对的识别。这一方法有望提高大规模SfM系统的效率和准确性,为3D重建任务带来更可靠的结果。未来的研究可能会进一步探索更复杂的网络结构、优化算法以及更大规模的数据集,以持续推动SfM技术的发展。