深度感知全景分割统一框架：PanopticDepth

85 浏览量更新于2024-06-20 收藏 1.99MB PDF 举报

"本文介绍了一种深度感知全景分割（DPS）的统一框架，旨在结合单目深度估计和全景分割，以从单幅图像中重建详细的3D场景理解。传统方法将这两个任务分开处理，而提出的PanopticDepth框架通过实例掩码和动态卷积技术将它们融合在一起，提高了深度精度和分割质量。该框架不直接预测所有像素的深度，而是为每个实例生成特定的卷积内核来预测深度和分割掩码。此外，引入实例级深度线索以增强深度学习的监督。实验证明了这种方法的有效性，并在Cityscapes-DPS和SemKITTI-DPS数据集上取得了良好的结果。" 深度感知全景分割（DPS）是计算机视觉领域中的一个重要研究方向，它要求模型不仅对图像进行语义分割，还要估计每个像素的深度信息。传统的解决方案是将深度估计和全景分割视为两个独立的任务，分别用不同的网络分支处理。然而，这种方法忽视了两者之间可能存在的协同作用。本文提出的PanopticDepth框架打破了这种分割，通过引入实例掩码和动态卷积，将深度预测与全景分割任务相结合。实例掩码用于区分图像中的不同对象，而动态卷积则允许网络根据实例特性生成特定的卷积内核，以更准确地预测每个实例的深度和分割信息。这种设计使得网络能更好地利用实例级的语义线索，提高深度预测的准确性，同时优化深度图的质量。在深度学习的监督机制中，作者还引入了实例级深度线索，通过新的深度损失函数来进一步提升深度估计的性能。这种方法的创新之处在于，它不再局限于全局或像素级别的深度预测，而是针对每个实例进行精细化处理，从而提供更为精确的3D场景重建能力。实验结果显示，PanopticDepth在Cityscapes-DPS和SemKITTI-DPS数据集上的表现优于传统方法，证明了该框架的有效性和潜力。这个统一解决方案不仅有助于推动DPS领域的研究，也为实际应用如自动驾驶、机器人导航等提供了强大的技术支持。深度感知全景分割的统一框架PanopticDepth通过实例掩码和动态卷积的结合，成功地解决了深度估计与全景分割的协同问题，提升了3D场景理解的准确性和效率。未来的研究可能会进一步探索如何优化这个框架，以适应更多复杂环境和应用场景。代码已开源，可从https://github.com/NaiyuGao/PanopticDepth获取，以便其他研究者和开发者进行复现和扩展。

1635

∈

“

”

∈

分类 0

n×1

掩模内核2

n×）

深度核2

n×）

特征

金

字塔网

络

输入图像

单级功能

256×$

×W

高分辨率

特征

256× $

$4 ×

深度图生

成器

嵌入深度（

）

× $

$4 × W

实例深度贴图D

n×$/4×W/4

深度估计

&3ll

$×W

3×$×W

掩模嵌入（

）

× $

$4 × W

实例掩码+ n×

$4 × W

全景分割

$×W

图2.我们提出的PanopticDepth的框架。H和W分别是输入图像的高度和宽度。N表示事物和东西实例的数量。c是类别数。e

、

和e

是掩码核的嵌入维度，深度

1 2

内核和深度嵌入图。表示卷积。

用argmax产生非重叠的全景分割结果，使得每个像素

被分配给一个物体或填充物片段，没有像素被标记为

此外，我们建议增加一个培训过程，

3.3.1

深度图生成器

给定特定于实例的深度核

和共享深度嵌入

e×H/

（我们设置

），类似于实例掩码生成过程，

弥合培训和测试之间的性能差距。

1 2

′

具体地说，我们发现学习模型经常融合远距离的实

例，这是由于广泛采用的图像裁剪策略造成的一些以

前的作品[3，37]通过直接用原始分辨率图像训练模型

来解决这个问题，这是有效的，但会显着增加GPU内

存占用。相反，我们提出了一种更有效的训练策略，

即

，在全图像尺度上微调学习的更详细的培训过程见

第4.3小节。

3.3.

逐实例深度估计

我们通过在全景分割中使用的相同实例特定的内核

技术来预测每个实例的深度，该技术统一了深度估计

和全景分割的管道。如图2的中间部分所示，我们首先

在深度嵌入上运行深度核以生成实例深度图，然后根

据全景分割结果合并这些在本节中，我们首先介绍深

度图生成器，然后介绍一个新的深度损失。

我们首先通过卷积和Sigmoid激活生成归一化的实例深

度图D，然后通过等式4或等式5将其非归一化为深度图

′

Sigmoid

（

）

，

（

）

（D|D

，

）

dmax

×（d × D

）

，

（

）

（

′

，

）

max

（

′

−

）

，

（

）

其中 d

max

控制深度比例，并设置为 88 ，与

Cityscapes-DPS和SemKITTI-DPS的深度范围一致。

我们规范化深度图的原因是，不同的实例具有广

泛的深度范围，使得难以学习有效的共享深度嵌

入。为了简化深度估计的学习并受到批量

归一化

[15]

的启发，我们预测归一化深度图

，

这是通过使用两

个预测的实例级深度变量（深度

范围d

和深

度偏移d

）对实例深度图

进行归一化而获得的

。它们分别

描

述了每个实例的深度偏差和方差，并且可以

通过简单

地设置e

2从与深度内核并行的高级特征中

导出。注意

1 2

剩余16页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

深度感知全景分割统一框架：PanopticDepth

基于深度学习的全景分割开源源码

深度学习图像分割入门

语义分割与实例分割和全景分割的区别？

deterctron2框架使用自己的coco格式的全景分割的数据集

深度学习图像分割返回的值

语义分割相对于实力分割和全景分割的优点

深度学习图像分割返回的值分析

帮我搭建一个全景深度估计的网络框架

在maskformer出现后，可不可以帮我想几个关于语义分割或实例分割或全景分割或视频方向的分割的论文题目以及创新点研究方向

全景分割怎么确定label数据的像素值对应类别

最新资源