立体视觉深度估计:从视差到三维重建

需积分: 45 5 下载量 92 浏览量 更新于2024-07-10 收藏 10MB PPT 举报
"立体成象-立体视觉深度获取" 立体成象是一种计算机视觉技术,用于获取场景中的三维信息。在立体视觉中,我们利用两个不同的摄像机从不同角度捕获同一场景,形成两幅图像。这两幅图像中的同一个特征点在空间中的实际位置被称为共轭对,它们在图像上的投影点则是对应点。共轭对点之间的位置差异,即视差,是计算深度的关键。视差是两个摄像机之间同一特征点在图像上的横向偏移量,通常以像素单位表示。 外极平面是一个理论概念,它穿过两个摄像机的中心并经过场景中的某个特征点。外极线是外极平面与图像平面的交线,在每张图像上都存在。这些线对于匹配图像中的对应点非常有用,因为所有场景点的投影都会落在各自的外极线上,这可以限制匹配搜索的范围,从而减少计算复杂性。 深度恢复是立体视觉的主要目标,通过计算视差可以得到场景中各个点的距离(深度)。视差与深度的关系可通过相似三角形的原理推导得出,其中焦距(F)和基线距离(B)是关键参数。基线是两个摄像机之间的距离,越大的基线可以提供更高的深度分辨率,但也会增加匹配的难度和多义性,因为视差范围会增大。 立体成像的实际应用中,可能会遇到外极线不完全重合的情况,这通常是由于摄像机光轴不平行或者垂直视差不为零导致的。为了解决这个问题,需要进行立体图像校正,通过重新采样和投影,使外极线对应于图像的行,从而得到理想化的极线几何。 立体匹配是解决对应问题的过程,它是立体视觉中最关键也是最具挑战性的部分。匹配方法多种多样,包括基于特征的匹配、基于块的匹配以及更复杂的算法,如半全局匹配(Semi-Global Matching, SGM)。这些方法旨在找到最佳的对应点对,以最小化某种误差函数,如互信息或 Census 变换等。 在平行光轴立体视觉系统中,视差公式简化,使得计算深度变得更加直接。视差(dx)除以基线(B)再乘以焦距(f),即可得到景深(Z)。然而,立体匹配问题的复杂性仍然存在,尤其是在存在光照变化、遮挡、噪声以及纹理稀疏的场景中。 为了克服这些问题,研究人员提出了一系列优化技术,如使用光流辅助、引入深度先验信息、利用深度学习模型等。这些方法旨在提高匹配精度,减少错误匹配,进而提升立体视觉系统的整体性能。立体视觉深度获取是一个涉及几何、光学、图像处理和模式识别等多个领域的综合性问题,它在自动驾驶、机器人导航、虚拟现实和增强现实等多个领域有着广泛的应用。