CSPN: 卷积空间传播网络提升深度估计精度与速度

0 下载量 94 浏览量 更新于2024-06-20 收藏 2.09MB PDF 举报
深度估计是计算机视觉领域的一个关键任务,特别是在增强现实、自动驾驶和机器人技术中,它涉及从单幅图像推断出每个像素与相机的距离。近年来,随着深度全卷积神经网络(FCN)的发展和大规模室内(如NYUv2[1])及室外(如KITTI[2])数据集的应用,深度估计的精度得到了显著提升。这些方法通常利用高级网络架构(如VGG[9]和ResNet[10])来捕捉全局场景布局和尺度,以及通过反卷积、跳跃连接或上采样等技术优化局部细节。 然而,尽管现有方法在整体性能上有所提高,但在个体像素的精度和结构一致性方面仍存在不足。例如,深度预测结果往往显得模糊,与图像中的结构(如物体边缘)不匹配(如图1所示)。为解决这个问题,Xinjing Cheng、Peng Wang和Ruigang Yang在他们的研究中提出了卷积空间传播网络(CSPN)[14]。 CSPN的核心思想是通过深度卷积神经网络(CNN)学习像素间的亲和关系,这是一种高效的空间传播模型,利用递归卷积操作在图像空间中进行信息传播。这种方法能够精细地调整深度估计,不仅提高了预测的清晰度,还能更好地适应图像结构。CSPN在两个深度估计任务上展现了其优势:一是优化现有深度估计技术(如SOTA)的输出质量,深度误差可减少超过30%,二是处理稀疏深度数据,通过深度样本嵌入传播过程,将其转化为密集深度图,这受到了LiDAR数据提供稀疏但准确深度测量的启发。 实验结果显示,CSPN在速度上也有所提升,相比于先前的SOTA方法,可以实现2至5倍的速度提升。CSPN的代码可在GitHub上的XinJCheng/CSPN项目中获取。这一创新方法展示了在深度估计领域的潜力,有望推动计算机视觉技术在实际应用中的进一步发展。