无人机自主飞行的无监督单目深度估计模型

9 下载量 122 浏览量 更新于2024-08-29 3 收藏 9.95MB PDF 举报
"本文提出了一种面向无人机自主飞行的无监督单目视觉深度估计模型,旨在解决双目视觉深度估计的高成本、大体积问题,以及监督学习对大量深度图的依赖。通过图像金字塔化处理、ResNet-50为基础的自编码神经网络和结构相似性引入等技术,提高了深度估计的精度和实时性。该模型在KITTI和Make3D数据集上的实验结果显示其优于其他单目深度估计方法。" 本文主要探讨了无人机自主飞行中的一个重要技术问题——单目视觉深度估计。传统的双目视觉深度估计虽然能提供较为精确的深度信息,但设备成本高、体积大,且需要大量标注的深度图进行监督学习,这在实际应用中存在较大限制。为了解决这些问题,研究者提出了一种无监督的单目深度估计模型,特别适用于无人机的场景理解。 模型首先对输入图像进行金字塔化处理,目的是减少不同尺寸目标对深度估计的影响,使得网络能够更好地处理各种规模的物体。接下来,他们设计了一个基于ResNet-50的自编码神经网络,用于从左视图或右视图中提取特征,并生成对应的金字塔视差图。通过双线性插值,网络可以重构出对应的右视图或左视图,以增强视图之间的对应关系。 为了提升深度估计的准确性,研究者引入了结构相似性概念,将其融合到图像重构损失和视差图一致性损失中。此外,还考虑了视差图的平滑性损失,将这三个损失函数结合在一起作为训练的总损失。这种优化策略有助于减少深度估计中的不连续性和噪声,从而提高整体的深度估计质量。 实验部分,该模型在标准的KITTI数据集上进行了训练,并在KITTI和Make3D数据集上进行了测试。结果表明,与现有的单目深度估计方法相比,该模型表现出更高的准确性和实时性,这表明它基本满足了无人机自主飞行中对深度感知的实时性和精度需求。 关键词涵盖图像处理、无监督学习、自编码神经网络、图像重构和单目深度估计,这些都是深度学习和计算机视觉领域的重要组成部分。该研究对于推动无人机自主导航技术的发展,特别是在无需大量预先标注数据的情况下,提供了新的可能和思路。