双目视觉的3阶段策略：基于双向双极线的匹配与去噪

下载需积分: 50 | PDF格式 | 5.33MB | 更新于2024-08-09 | 166 浏览量 | 举报

Marr框架是视觉计算理论中的一个重要概念，由英国科学家David Marr在1980年提出，它将视觉系统的处理过程划分为三个层次，即视觉信息从原始二维图像数据逐步升级到对三维环境的表示。这三个阶段分别为： 1. **要素图（Early Stage）** 或 **基元图（Primary Sketch）**：这是视觉处理的第一阶段，主要关注图像中的基本几何元素，如边缘点、直线段、曲线、定点和纹理等。这些元素构成视觉的基本构成单位，帮助系统识别和理解场景的局部特征。 2. **2.5维描述（Intermediate Stage）**：这个阶段被称为对环境的“部分、不完整”的三维描述。当从观察者的视角看物体，由于只能看到物体的一部分，且受遮挡等因素影响，我们得到的是部分三维信息，即观察者坐标系下的形状和位置。这一阶段涉及多个并行模块，如立体视觉、运动分析和灰度恢复等，它们协同工作以理解物体的空间关系。 3. **完整三维描述（Late Stage）**：这是视觉处理的最后一个阶段，也被称为后期阶段。从2.5维描述中，系统需要进一步处理以获取物体的完整三维信息，并将其转换为物体自身固定坐标系下的描述。这通常涉及到匹配和比较来自不同角度的物体图像，以及解决遮挡和模糊等问题，以形成精确的三维模型。基于双目视觉的图像三维重建是Marr框架的一个实际应用。双目视觉利用两个或多个摄像头拍摄的图像，通过计算视差（两幅图像中对应点的深度差异）来重建场景的三维信息。关键挑战之一是图像间的匹配，特别是如何处理不规则场景中的遮挡和模糊问题。本文作者提出了一种新的匹配方法，即基于双向双极线的匹配技术，通过匹配极线上的跳变点而非像素灰度值，提高了匹配的鲁棒性和效率，能在一定程度上减少遮挡的影响。此外，文章还探讨了现有的计算和优化算法，如迭代方法和动态规划，但指出这些方法耗时较长，无法满足实时重建的需求，而文中提出的匹配和检测方法则有望提供更快、更准确的结果。 Marr框架为我们理解视觉系统如何处理复杂视觉信息提供了理论框架，而双目视觉三维重建则是这一理论在实际应用中的一个关键环节，特别是在实时性和准确性之间寻找平衡。在实际场景中，如何结合不同阶段的处理策略和优化算法，是未来研究的重要方向。

展开