深度学习驱动的半全局匹配算法:SGM-Nets

需积分: 50 22 下载量 5 浏览量 更新于2024-09-09 收藏 26.62MB DOCX 举报
"这篇论文探讨了如何利用半全局匹配(SGM)算法在深度神经网络中预测精确的密集视差图,提出了一种名为SGM-Nets的新方法。SGM-Nets通过卷积神经网络(CNN)来估计SGM的惩罚参数,解决了传统SGM参数调整的困难。此外,论文引入了一种新的损失函数,允许使用稀疏注释的视差图进行训练,并提出了一个改进的SGM参数化策略,区分正负差异变化,更好地表示3D对象结构。在KITTI基准测试中,SGM-Nets的表现超过了现有的技术。" 立体匹配是计算机视觉中的核心任务,用于估算图像对之间的视差,即深度信息。传统的立体匹配流程包括寻找图像间的局部对应、应用正则化方法以纠正错误对应,以及使用过滤器优化结果。半全局匹配(SGM)是一种广泛采用的正则化技术,因为它结合了局部匹配的精度和全局一致性的考虑,同时保持了较快的计算速度。 然而,SGM的一个挑战在于确定合适的惩罚参数,这些参数影响视差图的平滑性和不连续性。论文中,作者提出了SGM-Nets,这是一个基于学习的惩罚估计框架,它利用CNN预测与输入图像块和位置相关的3D对象结构的惩罚。通过这种方式,网络能够自适应地调整参数,以适应不同场景的需求。 训练SGM-Nets时,论文引入了一种新的损失函数,该函数允许使用由LiDAR等传感器捕获的稀疏注释视差图。这种方法降低了对密集标注数据的依赖,扩展了训练数据的来源。 此外,论文还提出了一个改进的SGM参数化策略,针对正向和负向差异变化使用不同的惩罚,这有助于更精确地捕捉物体边缘和结构。实验结果显示,这种方法在处理物体边缘和不连续性时表现得更为精确。 在KITTI基准测试中,SGM-Nets在视差估计的准确性上超越了当前的领先技术,这表明结合深度学习和传统SGM算法可以提升立体匹配的性能。这种方法对于依赖精确深度信息的应用,如自动驾驶和无人机导航,具有重要的实际意义。