2D-3D融合深度估计：单目图像的精准室内三维重建

版权申诉

177 浏览量更新于2024-06-27 收藏 689KB DOCX 举报

该研究论文探讨了一种创新的单目室内深度估计方法，利用深度卷积神经网络（DCNN）结合二维图像（2D）和三维几何（3D）约束。核心贡献在于设计了一种编码器到解码器的网络架构，旨在从单张图像中精确地推断出深度信息。在二维图像层面，为了提升网络的特征提取效率和深度理解，论文引入了通道注意力机制。这种机制允许在编码器和解码器特征的相同尺度上动态调整权重，平衡浅层的细节特征和深层的语义信息。这样做有助于减少信息丢失，增强特征表示能力，使得网络能够更好地捕捉图像中的复杂纹理和结构。为了增强深度图的边缘细节，作者采用了尺度不变损失和基于图像金字塔的多尺度边缘损失。前者确保了深度图在不同尺度下的一致性，而后者则通过处理不同尺度的图像来捕捉更多的边缘信息，进一步提高了深度图的质量。在三维几何约束方面，网络设计了全局几何约束损失和局部几何约束损失。这些损失函数利用空间中点云的局部和全局几何关系，确保深度估计在空间上的连续性和准确性。这有助于避免常见的深度图噪声和不一致性问题，从而提升整体的重建精度。实验部分，研究者选择了NYUDepth-v2数据集作为基准，通过定量和定性的对比分析，验证了新方法在深度估计的准确性和细节表现上超越了其他现有方法。结果显示，这种方法能够提供更准确、平滑的单张图像三维重建，对于室内环境的三维感知具有显著优势。总结来说，这篇论文提出了一种有效的深度估计技术，它巧妙地融合了二维图像特征的注意力机制和三维几何约束，实现了单目室内深度估计的显著改进。这项工作对于计算机视觉领域的室内场景理解和三维重建具有重要的理论价值和实践意义。

面法线。在计算单张场景深度图像的表面法线时，采用最小二乘法会耗费极大的计算资源

和较多时间，难以将其作为约束训练卷积神经网络，为此文献［26］将法线的计算简化为

n=(AТA)−1AТ1∥∥(AТA)−1AТ1∥∥2n=AТA-1AТ1AТA-1AТ12，（5）

式中：1∈RK×11∈RK×1 是所有元素都为 1 的常数向量。但从实验中发现利用式（5）计

算表面法线存在两个问题：1）对每个像素点集矩阵的求逆运算量过大，如在 Pytorch

［28］

等没有集成广播矩阵求逆计算的深度学习框架中计算单张分辨率为 480×640 图像的法线图

需要耗时 2000 s 以上；2）该计算过程对非平滑深度图像的噪声鲁棒性差。由于该方法需

要考虑所有近邻点集的位置，在不平滑的 NYU Depth v2 深度数据上计算得到的法线会出

现许多噪声。

针对上述问题，本文设计了基于近邻像素点采样的法线图转换方法。仍然遵从近邻像素共

处同一平面的假设，将像素点 ii 投影至三维空间后建立近邻点集，如图 1 所示，只选取点

集中距离像素 ii 点为 r 的 4 个近邻像素点 A、B、C、D 计算向量 BA BA和 DC DC，

则像素点 ii 处的表面法线为

n=BA ×DC ∥∥BA ×DC ∥∥n=BA×DCBA×DC。（6）

图 1. 近邻点采样法的法线计算原理

Fig. 1. Principle of calculating the normal of nearest neighbor point sampling method

下载图片查看所有图片

基于近邻点采样方法转换的法线图只考虑了近邻范围内关键点采样的位置，对于非平滑深

度数据来说，生成法线图的准确度更高，对噪声的鲁棒性更强。在算法效率上，本文方法

剩余15页未读，继续阅读

罗伯特之技术屋

粉丝: 4558

2D-3D融合深度估计：单目图像的精准室内三维重建

单目图像深度估计综述

基于密集特征融合的无监督单目深度估计.docx

基于多视图循环神经网络的三维物体识别.docx

基于深度学习的三维点云重建.docx

基于深度学习的三维重建算法.docx

关于三维图像目标识别文献综述 .docx

基于深度学习的三维重建算法 (2).docx

基于三维深度信息的人体动作运动轨迹识别V1.0.docx

基于计算机视觉的三维重建技术综述.docx

基于DDPG的三维重建模糊概率点推理.docx

最新资源