采样汇集网络提升单目场景深度估计精度

版权申诉

185 浏览量更新于2024-06-27 收藏 961KB DOCX 举报

身份认证购VIP最低享 7 折!

30元优惠券

本文主要探讨的是基于采样汇集网络的场景深度估计问题，这是计算机视觉领域的一个重要课题，特别是在单目图像处理中获取深度信息。Marr的理论指出，场景深度估计是人类视觉理解的关键环节，对于诸如语义分割、目标检测、姿态估计、3D重建以及即时定位与地图构建等众多任务具有重要意义。尽管RGBD数据集的发展使得深度信息的获取有了更多可能性，但实际场景中的视觉干扰因素复杂，深度估计仍面临挑战。现有的深度估计方法通常将问题视为连续回归，依赖卷积神经网络(CNN)来提取图像特征。然而，这些方法存在几个关键问题：首先，CNN的下采样操作可能导致细节丢失，影响深度估计的精度；其次，深度网络的深度增加会导致梯度消失或爆炸，削弱模型的学习能力；最后，网络架构的多样性使得在模型复杂性和预测准确性之间寻找平衡变得困难。为解决这些问题，本文创新地提出了采样汇集网络(Sampling Aggregation Network, SAN)。该模型通过层次卷积和下采样策略，捕捉不同层次物体的结构信息，然后使用反卷积和上采样策略来恢复场景深度的分辨率，避免了分辨率损失。同时，针对下采样操作可能引起的复杂物体边界模糊，通过引入相同尺度采样约束下的跨层连接，解决了物体边界的精确定位问题，确保了深度估计在边界处的清晰度。主要贡献包括： 1) 针对下采样分辨率损失对复杂边界估计的影响，设计了一种跨层连接机制，结合上采样反卷积，逐步恢复图像的原始分辨率，从而提高了深度估计的精度。 2) 采用了尺度特征汇集策略，能够适应不同大小物体的深度估计，同时借鉴密集神经网络的特征汇聚思想，使得模型既能捕捉全局信息又能保持局部细节，从而达到更佳的性能平衡。通过这些创新，采样汇集网络在解决单目图像场景深度估计的复杂性与精度之间的矛盾上取得了显著的进步，为实际应用中的计算机视觉任务提供了更精准的深度信息支持。

资源详情

资源推荐

基于本文提出采样汇集网络(SAN)模型, 场景深度估计问题可以描述为对场景深度值

的回归估计, 即通过学习 RGB 特征和场景深度值之间的映射关系, 并使用深度模型学习具

有层次化的局部结构特征, 从而实现场景深度值的回归估计. SAN(x,SAN(x,w)w)是测试时,

本文使用的深度网络模型, xx 其中是输入图像, ww 是采样汇集网络中每层中的参数集合.

为了学习本文模型中的参数, 在训练过程中, 本文模型的目标函数 Ω(x,w)Ω(x,w)可以定义

为

Ω(x,w)=∥SAN(x,w)−ygt∥22+λ∥w∥22Ω(x,w)=‖SAN(x,w)−ygt‖22+λ‖w‖22

(1)

其中, ygtygt 是真实测量的场景深度值, 采用逐像素方式比较, 并采用 2 范数的平方描

述预测值和真实值之间的损失. λλ 是回归模型的正则化参数, 以保证采样汇集网络中参数尽

可能小, 避免过拟合现象. 在本文模型的预处理模块, 模型中将图像的 RGB 通道分离, 并

使用 3D 卷积层(图 1 中 CL (Convolutional layer 模块)对其进行特征预处理, 可以记作

z1=z1=f(x,w1)f(x,w1), 其中, w1w1 是第 1 块网络的滤波器参数, 其中使用的 3D 滤波器的

尺寸为 3 × 3 × 3, 使用 64 个 3D 滤波器(m=64m=64), 获得预处理模块的 64 层特征, 每层特

征图与原始图像大小一致.

根据图 1 的说明, 本文的采样汇集网络从输入到输出共包括 13 个模块, 即, 1 个预处理

卷积层模块, 5 个基于局部汇集网络的下采样模块, 1 个局部汇集网络转换模块, 5 个基于局

部汇集网络的上采样模块, 和 1 个线性回归模块. 最后一层的回归模块中, 使用 1 × 1 卷积

模型, 等价实现线性回归单元(图 1 中 LR (Linear regression) 模块), 获得场景深度估计. 通

过优化求解整个网络滤波器的权重, 恢复出场景的深度信息.

2.2 尺度特征汇集的下采样网络

本文模型使用下采样(Down sampling, DS)的主要原因是, 1)使用下采样可以降低图像分

辨率, 在较小的分辨率中, 每个像素对应到原始图像中的感受野较大, 这样可以描述更大尺

度上的场景深度的分布; 2)使用下采样可以降低图像分辨率, 同时降低了图像滤波过程的计

算代价. 但是, 图像下采样过程的负面作用是, 在重建和原始图像相同分辨率的场景深度时,

产生了预测精度上的损失.

图 2 进一步给出了本文采样汇集网络模型的下采样网络结构, 其中每次下采样过程,

包括一次局部汇集网络和一次下采样网络. 每个局部汇集网络中包含了若干的卷积层, 图 2

中给出了 2 个不同深度的局部汇集网络, 其中每一个 CL 矩形是一个 3D 卷积层. 本文通过

特征通道的汇集操作实现特征前向的跨层传递, 以便误差反向传播时, 能够进行跨层形式的

传递. 本文模型中第 2 块到第 6 块为包含局部汇集网络的下采样模块. 每个局部汇集网络

(AB)的参数可以记为 wi=[wi,1,wi,2,wi,li,wi,d]wi=[wi,1,wi,2,wi,li,wi,d], 其中 lili 是当前第 ii 块

局部汇集网络(AB)中具有的 3D 卷积层的数量, wi,dwi,d 是下采样操作过程中使用的 1 × 1 滤

波器参数(图 2 中 DS 模块). 局部汇集网络(AB)和下采样网络(DS)的前向推理过程可以记为

剩余16页未读，继续阅读

罗伯特之技术屋

粉丝: 4375
资源: 1万+

采样汇集网络提升单目场景深度估计精度

虚拟现实和增强现实之场景理解算法：深度估计：深度学习与深度估计.docx

一个做了15年运维的老兵对公有云的深度剖析.docx

两个docx文档，1.docx和2.docx，需要将1.docx文档中的页眉页脚复制到2.docx，用java编写，使用开源jar包，比如poi，poi-tl，docx4j等等，请注意验证你提供的代码中的方法，麻烦给我源码。

.docx文件在vscode打开后。.docx文件发生了错误

使用python将xx文件夹下的.sv文件复制到mode.docx文件并另存为.sv文件名的.docx文件

将每个子文件夹里的.docx文件都合成一个.docx文件

两个docx文档，1.docx和2.docx，需要将1.docx文档中的页眉页脚同步到2.docx，用java编写，使用开源jar包，比如poi，poi-tl，docx4j等等，麻烦给我源码

将xx文件夹下的每个子文件夹里的.docx文件都合成一个.docx文件

"linkUrl ": [ {label: "avue文档.docx", value: "http://59.219.204.221:2015/vingsoft/upload/20230721/d70856f4050948bd2de3d01a7014dd76.docx"}, {label: "avue文档.docx", value: "http://59.219.204.221:2015/vingsoft/upload/20230721/d70856f4050948bd2de3d01a7014dd76.docx"}, ] 遍历这个数组

使用python编写代码将一个文件夹下的所有子文件夹下的.sv文件按照文件名称为model.docx的文件格式转化为与.sv同名的.docx的文件，页眉写上该.SV文件的名称

在vs code里怎么打开.docx文件

医疗器械软件网络安全描述文档.docx

接口文档示例.docx

raise PackageNotFoundError( docx.opc.exceptions.PackageNotFoundError: Package not found at 'example.docx'

接着上面的回答，在使用putdocx myreg.docx, replace时报错unknown subcommand myreg.docx

Java中D:\2\00\00\02测试2.docx转换成D:/2/00/00/02测试2.docx

最新资源