深度感知全景分割的统一框架

133 浏览量更新于2023-10-25 收藏 1.99MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1632PanopticDepth：一个统一的深度感知全景分割框架高乃宇1，2，何飞1，2，贾健1，2，单彦虎4，张浩洋4，赵新1，2*，黄凯琪1，2，3中国科学2中国科学院大学人工智能学院3中科院脑科学与智能技术卓越中心4地平线机器人公司{gaonaiyu2017，hefei2018，jiajian2018}@ ia.ac.cn，{xzhao，kaiqi.huang}@ nlpr.ia.ac.cn{yanhu.shan，haoyang.zhang}@ horizon.ai摘要提出了一种基于深度感知的全景分割（DPS）的统一框架，旨在从单幅图像中重建先前的工作通过简单地将密集深度回归头添加到全景分割（PS）网络来解决这个问题，从而产生两个独立的任务分支。这忽略了这两个任务之间的互利关系，因此未能利用方便的实例级语义线索来提高深度精度，同时还产生次优深度图。为了克服这些局限性，我们提出了一个统一的框架，通过应用实例掩码全景分割动态卷积技术的PS和深度预测任务。具体来说，我们不是一次预测所有像素的深度，而是生成特定于实例的内核来预测每个实例的深度和分割掩码。此外，利用实例级深度估计方案，我们添加了额外的实例级深度线索，以通过新的深度损失来帮助监督深度学习。在Cityscapes-DPS和SemKITTI-DPS上的大量实验表明了该方法的有效性和应用前景。我们希望我们的DPS统一解决方案能够引领这一领域的新范式。代码可在https://github.com/NaiyuGao/PanopticDepth上获得。1. 介绍深度感知全景分割（DPS）是场景理解领域的一个新的挑战性课题，它试图从一幅图像中构建它的目标是为每个像素分配一个深度值，一个语义类标签和一个实例ID。因此，解决这个问题涉及单目深度估计[1]和全景分割[2]。当然，DPS的一个简单解决方案是添加一个密集深度回归头，*通讯作者图1.说明我们的统一解决方案，深度感知全景分割，这需要分配给每个像素在一个单一的图像的深度值，语义类标签和实例ID。而不是预测逐像素的深度，我们预测逐实例的深度通过实例特定的卷积内核，共享相同的方式实例掩码生成。全景分割（PS）网络[3这种方法是直观的，但次优。由于它用两个独立的分支来处理这两个任务，所以它没有探索它们之间的互利关系，特别是没有利用方便的实例级语义线索来提高深度准确性。我们观察到，广告实例的像素例如，一条线上的两辆车可能具有不同的深度。因此，很难使用相同的逐像素深度回归器来预测两个车辆另一方面，如以前的工作[6-9]所示遵循上述思路，我们在本文中提出了 Panop-ticDepth，这是一个预测实例深度贴图深度估计输入图像1633掩码和深度值以相同的实例方式（图1）。与一次预测所有像素的深度值相比，我们设法估计每个事物/东西实例的深度，这也共享生成实例掩码的方式。为此，我们采用动态卷积技术[10-具体来说，我们首先同时为每个实例生成特定于实例的掩码然后，我们将掩码内核应用于掩码嵌入，并将深度内核应用于深度嵌入，从而分别为每个实例生成掩码和深度图。最后，我们按照[14]中提出的类似过程，将单个实例掩码合并到全景分割图中。根据全景分割结果，我们然后聚合每个实例的深度为一个完整的深度图。结果，我们得到了一个图像的全景分割和深度图。图2显示了管道。我们的方法通过特定于实例的卷积核技术统一了深度估计和全景分割方法，这反过来又提高了两个任务的性能（表3和表5）。由于动态卷积核技术[12]，学习到的实例深度回归器不仅聚合全局上下文，还聚合局部信息，如实例形状，比例和位置，到实例深度预测中。这些信息对于获得准确的深度值至关重要，特别是在实例边界处的深度值（图3）。此外，为了简化深度估计，受批量归一化[15]的启发，我们建议将每个实例深度图表示为三元组，即，归一化深度图、深度范围和深度偏移。一般来说，不同实例的深度值可能变化很大，就像长度为70m的长车辆v.s.一辆长4.5米的小车。这种大的尺度变化可能导致学习共享深度嵌入的困难。为了解决这个问题，我们提出用上述三元组来表示深度图，并将原始实例深度图的值归一化为[0，1]。这提高了学习效率（表3和表5）。同时，在传统的像素级深度监控的基础上，增加了基于新的深度图表示的实例级深度统计，例如：深度转移，加强深度监管. 我们还提出了相应的深度损失，以适应这种新的监督（第3.3.2节），这有助于改进深度预测。通过对Cityscapes-DPS [3]和SemKITTI-DPS [3]的广泛实验，我们证明了我们的统一解决方案对深度感知全景分割的有效性。我们希望我们的统一框架可以在这个具有挑战性的任务中引领一个新的范式。2. 相关工作2.1. 全景分割全景分割[2]（PS）是最近提出的视觉任务，其需要为图像生成相干场景分割。它统一了语义分割和实例分割的任务。PS的早期方法[14，16-最近的作品[28-其中，DeeperLab [30]提出通过预测关键点和多范围偏移热图来解决全景分割，然后进行分组过程[36]。类似地，Panoptic-DeepLab [37-39]系列预测实例中心以及从每个像素到其对应中心的偏移。最近，受[10，11，40，41]中使用的实例特定核方法的启发，一些作品[12，13，42-在这项工作中，我们通过预测每个实例的附加深度来扩展PS任务，以构建3D语义场景。类似于[12，13，42-2.2. 单目深度估计单目深度估计旨在从单个图像预测深度。在深度学习时代之前，已经有很多尝试[45近年来，基于深度网络的各种性能更好的方法被提出.Laina等人[49]提出了一个完全卷积的architecture与上投影块的高维深度回归，而李等人。[50]设计一个双流网络来预测精细尺度的深度。除了监督学习之外，还探索了其他学习技术来改善深度估计泛化，包括自监督学习[51-55]，使用合成图像的大多数前述作品从像素的角度预测深度，相比之下，我们的方法预测每个实例的深度，将实例级线索纳入深度估计。通过语义分割增强深度。那里是试图用语义分割来改进单眼深度估计的作品[6-8，64-66]。Liu等[47]建议使用语义增强深度估计1634KK克什蒂尔克∗11∈∈∈Σ∈M马尔可夫随机场标签Pad-Net [7]利用中间深度和分割预测来优化最终输出。Jiao等[9]通过注意力驱动的损失或任务级交互来细化深度预测。SigNet [8]将语义分割与实例边缘集成，以无监督的方式对深度估计进行建模。这些工作显示了同时进行深度估计和语义分割的共同利益，但我们认为，如果我们使用全景分割执行实例级深度估计，我们可以获得更好的结果，因为我们现在有实例级线索来促进深度估计。通过全景分割增强深度。最近，一些作品[3，5，67，68]已经开始探索单目深度估计和全景内核生产者子网络（图2的上部）。我们的内核生成器构建在最先进的全景分割模型PanopticFCN [12]上，该模型采用PS的动态卷积技术，但与其他最近的方法相比，需要更少的训练时间和GPU内存[13，42]。我们在这里简要描述内核生成的过程。更多详情请参阅[12]。给定多阶段FPN特征X，我们的内核生成器输出N个实例分类、N个掩码内核和N个深度内核。它分为两个阶段，即核生成和核融合.在核生成器阶段，将来自FPN中的第i阶段的单阶段特征Xi作为输入，生成器产生核权重图Gi以及分别用于事物Lth和填充物Lst的两个位置图，其中每个事物我我分割，但他们中的大多数利用全景分割，以提高深度只是通过共享骨干功能[3]或添加约束[5，68]。相比之下，我们统一的全景分割和实例式深度估计在一个框架内，通过实例特定的卷积技术。其中，SDC-Depth [67]也探索了实例深度估计的思想，但它在许多方面与我们的工作首先，我们的目标任务是用一个物体中心来表示，用一个区域来表示。给定来自每个FPN阶段的位置图和核权重图，在核融合阶段，我们合并来自多个FPN阶段的重复核权重这是通过一个建议的自适应核融合（AKF）操作，这是一个改进的融合机制，在PanopticFCN中使用的原始平均聚类。我们的自适应融合机制在不引入额外参数的情况下提高了1.2%的PQ具体地，为了生成掩码核Km，不同于它的。SDC-Depth的目标只是在实例掩码仅用于提供对于第k个实例，我们通过以下方式计算：改善深度图的线索。相比之下，我们的DPS任务需要产生高质量的掩模和深度图，这更具挑战性。此外，我们采用不同的-Km=（G）R）、RK（一）Ferent实例深度规范化方案，它允许我们同时使用像素级和实例级线索来监督学习深度估计。最后，我们的方法建立在基于动态卷积的全景分割模型[12]上，该模型生成更精确的分割边界，而不是SDC-Depth中采用的两阶段方法3. 全景深度我们提出了PanopticDepth，一个用于深度感知的全景分割的统一模型，它以相同的实例方式预测掩模和深度值除了主干和特征金字塔网络[69]之外，它还包括三个主要的子网络，包括用于生成实例分类、实例特定掩模和深度卷积核的核生成器我们的网络架构如图2所示我们将在以下各节中详细介绍每个模块。3.1. 内核生产者在我们的系统中，我们首先通过以下方式生成实例分类、掩码卷积核和深度估计核：哪里表示逐元素乘法，R表示分别为事物发送在Lth中具有峰值分数的位置，以及为材料发送在Lst具有大余弦相似性的核也被融合，如[12]中所做的那样。对于深度核生成，执行类似的过程。通过这种方式，给定FPN特征，我们的核生成器生成实例分类C R N×c、掩码核Km R N×em和深度核K d R N×ed，其中c是类别数，em和e d分别是掩码核和深度核的维数。3.2. 全景分割我们采用特定于实例的内核方法来执行全景分割[12]。如图2的底部所示，事物和填充物实例的掩码M 是通过将共享的高分辨率掩码嵌入映射 EmRe×H/4×W/4与掩码核Km进行卷积来导出的，然后进行Sigmoid激活：M= Sigmoid（K m<$E m）。（二）首先丢弃冗余实例掩码，如[14]中所做的。之后，所有剩余的实例掩码将被合并1635122∈∈ΣΣ“r”srs∈∈DD分类 0n×1掩模内核2m n×）m深度核2dn×）d特征金字塔网络输入图像单级功能256×$$×W$高分辨率特征256× $<$4 ×W< $4KD深度图生成器嵌入深度（d）d× $<$4 × W<$4KM实例深度贴图Dn×$/4×W/4深度估计&3ll$×W3×$×W掩模嵌入（m）m× $<$4 × W<$4实例掩码+ n×$<$4 × W< $4全景分割4$×W图2.我们提出的PanopticDepth的框架。H和W分别是输入图像的高度和宽度。N表示事物和东西实例的数量。c是类别数。em、ed和ed是掩码核的嵌入维度，深度1 2内核和深度嵌入图。表示卷积。用argmax产生非重叠的全景分割结果，使得每个像素被分配给一个物体或填充物片段，没有像素被标记为此外，我们建议增加一个培训过程，3.3.1深度图生成器给定特定于实例的深度核Kd RN×e1和共享深度嵌入Ed Re×H/4×W/4（我们设置ed=ed），类似于实例掩码生成过程，弥合培训和测试之间的性能差距。1 2′具体地说，我们发现学习模型经常融合远距离的实例，这是由于广泛采用的图像裁剪策略造成的一些以前的作品[3，37]通过直接用原始分辨率图像训练模型来解决这个问题，这是有效的，但会显着增加GPU内存占用。相反，我们提出了一种更有效的训练策略，即，在全图像尺度上微调学习的更详细的培训过程见第4.3小节。3.3. 逐实例深度估计我们通过在全景分割中使用的相同实例特定的内核技术来预测每个实例的深度，该技术统一了深度估计和全景分割的管道。如图2的中间部分所示，我们首先在深度嵌入上运行深度核以生成实例深度图，然后根据全景分割结果合并这些在本节中，我们首先介绍深度图生成器，然后介绍一个新的深度损失。我们首先通过卷积和Sigmoid激活生成归一化的实例深度图D，然后通过等式4或等式5将其非归一化为深度图DD′=Sigmoid（Kd <$Ed），（3）T1（D|D，d，d）= dmax×（d × D + d），（4） T2 （D|D′， dr ， ds ）=dmax×dr×（D′−0. 5）+ds，（5）其中 dmax 控制深度比例，并设置为 88 ，与Cityscapes-DPS和SemKITTI-DPS的深度范围一致。我们规范化深度图的原因是，不同的实例具有广泛的深度范围，使得难以学习有效的共享深度嵌入。为了简化深度估计的学习并受到批量归一化[15]的启发，我们预测归一化深度图D'，这是通过使用两个预测的实例级深度变量（深度范围d r R N×1和深度偏移d s R N×1）对实例深度图D进行归一化而获得的。它们分别描述了每个实例的深度偏差和方差，并且可以通过简单地设置e d= e d+2从与深度内核并行的高级特征中导出。注意1 21636≤ ≤ ≤≤×Σ. Σ−JDEPDEPDEPDEPDEPDEP˜DEP11实例级深度损失LI计算深度误差0D s1和0D rSigmoid激活后1例在这种方式中，归一化深度图D'仅对每个实例内的相对深度值进行编码，并且因此可以更容易地学习。此外，我们还提出了两种归一化方案，即：当量4和方程式5，并发现后一种效果更好。在得到所有实例深度图后，根据不重叠的全景分割模板M将它们聚合成一个完整的图像深度图。这将在实例边界处生成精确的深度值。3.3.2深度损失在[3]之后，我们基于尺度不变对数误差[70]和相对平方误差[71]的组合开发了深度损失函数，这两个都具体地说，4. 实验4.1. 数据集我们在 Cityscapes [72] ， Cityscapes-DPS [3] 和SemKITTI-DPS [3]基准上评估了我们的方法Cityscapes是一个具有挑战性的图像分割数据集。在这个数据集中，高分辨率1，024 2，048的5，000张图像在高质量像素级别上进行了注释，并被分为2，975、500和1，425张图像，分别用于训练、验证和测试。Cityscapespanoptic segg- mentation基准评估了8个事物和11个事物类。最近，Qiaoet al. [3]提出了一个深度感知全景分割数据集Cityscapes-DPS，通过补充Cityscapes与深度注释，这是通过立体图像从视差图计算。分别对2，400和300个图像进行注释以用于训练和验证。SemKITTI-DPS [3]是从SemKITTI [73]中带有语义注释的云点转换而来的，包括19，130和4，071张用于训练和验证的图像，勒杰德普（d，d）=1（logdNJ J-logdj）2分别为。1logdn2jJ-logd24.2. 度量PS的度量。使用标准全景质量（PQ）度量来评估全景分割的结果，+1（dj−dj）20。第五条第六款由Kirillov et al. [2]引入。PQ的配方为：njd（p，g）其中，d和d表示预测值和地面实况PQ=p，g∈TP，（10）|+的|FP|+的|FN|FN|深度，分别。2 2由于实例式深度估计手段，我们现在可以在传统的像素级监督和额外的实例级监督下学习深度预测为了实现双重监督，我们的最终深度损失L_dep包括两个其中p和g分别表示预测的和真实的片段。TP、FN和FP表示匹配的片段对（IoU（p，g）>0. 5）、不匹配的地面实况片段和不匹配的预测片段。报告了事物类和材料类的PQ损失条款一是像素级深度损失LP和DPS的度量。深度感知的评估指标其他实例级深度损失LI：全景分割是DPQ [3]，它同时量化了分割和深度估计的性能。Ldep=LP我DEP我DEP、（7）乌什利岛具体地，giv en预测P、地面实况P和深度阈值λ，DPQλ被计算为：其中λI控制相对权重，并设置为1在默认情况下像素级深度损失LP计算DPQλ（P，Pλ）=PQ（P λ，Pλ）.（十一）深度预测和地面实况之间的深度误差，每一个实例：Pλ=P对于具有λ以下的绝对相对深度误差的像素，以滤除具有大的绝对相对深度误差的像素。PλLdep=Lde p（Dall，Dall）.（8）深度误差。DPQ通过平均DPQ（P，P）计算在实例深度偏移ds和相应的地面之间真相：LI=Lde p（ds，ds）.（九）在每个实例掩模内的最小和平均深度值被用作等式中的深度偏移ds的地面实况。4和方程式5所示。+λL在λ ={0. 1，0。25，0。5}。16374.3. 执行我们的模型使用PyTorch [78]和Detectron 2 [79]工具箱实现。除非另有说明，否则ResNet-50 [80]与FPN[69]用作主干。按照Panop- ticFCN [12]，掩码嵌入Em的维度被设置为256。深度嵌入的维数Ed被设置为16。1638××××方法骨干额外数据PQPQThPQStPQ [试验]PQTh [试验]PQSt [试验]UPSNet [18]转轴-50-59.3 54.662.7---无缝转轴-50-59.8 54.663.6---UPSNet [18]转轴-50Coco60.5 57.063.0---[32]第三十二话统一[22]R-101转轴-50--61.1 55.061.4 54.7-66.358.961.048.452.766.567.1[37]第三十七话Xcp-71 [74]-63.0-----Panoptic-DeepLabXCP-71-- --62.352.169.7基线，原始[12]转轴-50-61.454.866.6---基线，我们的目标。转轴-50-62.456.067.1---+ AKF转轴-50-63.657.268.1---+ FSF转轴-50-64.158.868.162.055.067.1表1.Cityscapes验证和测试集上的全景分割结果†：测试时间增强。结果报告为百分比。方法主干额外数据λ=0.5λ=0.25λ=0.1DPQVIP-DeepLab†我们WR-41 [39]转轴-50MV、CSV-68.7/ 61.4 /74.065.6 1999年1月至1999年12月66.5/ 60.4 /71.062.3 1999年1月至1999年12月50.5 1998年至1999年期间，43.2/ 40.7 /45.161.9 1999年12月31日至1999年12月31日57.0 1999年12月31日至1999年12月31日我们Swin-T [75]-66.5/ 61.0 /70.564.1 1999年1月至1999年12月，48.6 1998年12月31日至1999年12月31日，59.7 2005年12月31日至2006年12月31日我们Swin-S [75]-67.4/ 62.5 /71.065.0 1997年12月31日至1999年6月31日，48.8 1999年12月31日至1999年12月31日60.4/ 56.0 /63.6表2. Cityscapes-DPS上的深度感知全景分割结果。[76]第76话. 'CSV'：带有伪标签的城市景观视频[77]。†：测试时间增强。每个单元格包含DPQ / DPQTh/ DPQ St评分。结果报告为百分比。下面介绍PS和DPS模型的训练细节，其中训练的PS模型用于初始化DPS模型。PS模型的训练细节。帕诺普的训练- TIC分割模型由两个步骤组成，其中第一步骤采用小裁剪图像的大的小批量，而第二步骤具有大的全尺度样本的小的小批量。具体来说，我们首先使用Adam [81]训练学习率初始化为10- 4，采用幂为0.9的多项式在骨干的前两个阶段的过滤器是固定在Detectron2默认情况下，但我们发现更新这些参数可以提高约0.5%的PQ。图像在[0.5，2.0]中使用随机因子调整大小，然后裁剪为512 1024。每个小批次包含32个样品。在训练过程中使用了颜色增强[82]和水平翻转。在第二步，我们微调PS模型，图像按[1.0，1.5]缩放，然后裁剪为1024 2048，进行10k次迭代。批量大小为8。BN层和主干的前两个阶段层在此训练步骤和随后的训练步骤中是固定的。DPS模型的训练细节。我们在Cityscapes-DPS上训练整个模型，迭代10 k次。图像按[0.8，1.2]调整大小，深度注释相应缩放。我们将8个样品放入一个小批次中，中间裁剪成1024 2048。还采用了颜色增强和水平翻转在SemKITTI-DPS上，我们使用来自Cityscapes的预训练模型，但在预训练和微调步骤中，其他设置保持不变。总训练损失为：L=λposLpos+λsegLseg+ λdepLdep。（十二）L_dep在Eq. 7. Lpos和Lseg分别是分类和分割的损失，如Panop- ticFCN [12]中所述λpos、λseg和λdep分别被设置为1、4和5。PS和DPS模型任务的训练步骤分别为46小时和5小时，在8个Nvidia 2080Ti GPU上。我们的方法的预测是由一个单一的模型和一个单一的推理。不采用水平翻转或多尺度测试等测试时间增强。4.4. 主要结果全景分割。原始PanopticFCN [12]在Cityscapes验证集上实现了61.4%的PQ，而我们的实现在没有引入额外1639参数的情况下实现了62.4%的PQ。通过自适应核融合机制和全尺度微调步骤，我们的完整模型达到了64.1%的PQ。因为测试集注释被保留了，所以我们将测试集结果提交到在线1640‡变体IDE IDNLIDEPλ=0.5λ=0.25λ=0.1DPQ一BCDEF✓✓T1✓T2100万美元2017年2月64.0 1998年至1999年，63.8 1999年12月31日至1999年12月31日64.9 1999年12月31日至1999年12月31日65.0 1999年12月31日至1999年12月31日60.0 1999年12月31日至1999年12月31日65.6 1999年1月至1999年12月60.0 1998年12月31日至1999年12月31日，60.0 1999年12月31日至1999年12月31日61.0 1999年12月31日至1999年12月31日60.9 1999年12月31日至1999年12月31日49.5 1998年12月31日至1999年12月31日，62.3 1999年1月至1999年12月40.8 1999年至1999年期间，41.0/ 34.1 /46.042.4/ 36.5 /45.542.5 1999年12月31日至1999年12月31日29.1 2013年12月31日至34日，43.2/ 40.7 /45.154.9 48.5 /59.654.9 1999年12月31日至1999年12月31日56.1 48.9 /60.656.1/ 49.1 /60.546.2 1999年12月31日至1999年12月31日57.0/52.3表3. Cityscapes-DPS的消融研究。“IDE”：实例式深度估计。“IDN”：实例深度归一化。每个单元格包含DPQ / DPQTh/ DPQSt评分。结果报告为百分比。[62]第62话8.30-Laina等人[34个]-7.27Pad-Net [81]-7.12Zhang等人[八十四]-7.10[72]第二十二话-6.92我们的‡6.916.69表4. Cityscapes上的单目深度估计结果。方法利用全景分割注释。变体IDEIDN LIDEP DPQDPQThDPQSt阿B组45.8 42.9 47.5中国146.7 45.647.6土耳其246.7 45.547.6东印度群岛1 36.1 35.1 40.6FT246.946.0 47.6表 5. SemKITTI-DPS 的消融研究。 'IDE' ：逐实例深度估计.“IDN”：实例深度归一化。结果以百分比报告。评估服务器。结果示于表1中。我们的方法达到了最高的55.0%PQTh。深度感知全景分割。在表2中，我们将我们的方法与ViP-DeepLab进行了比较，ViP-DeepLab是唯一已发表的深度感知全景分割工作。它实现了更高的性能，但是，请注意，在ViP-DeepLab中采用了额外的工程技巧，包括使用更大的数据集进行预训练[76]，半监督学习[77]，AutoAug [83]和测试时增强，这些技巧也可以用于我们的方法以进一步提高性能。单目深度估计。为了进一步证明我们的方法比SOTA方法的优越性，我们报告了Cityscapes上的单目深度估计结果。如表4所示，即使与提高深度估计的方法相比，所提出的方法也显示出明显的优势。方法RMSE[val]↓ RMSE[test]↓16412图3.逐像素深度估计在两个实例的边界处输出平滑值，而逐实例深度估计可以生成更合理的不连续深度值。具有全景分割注释的信息。可视化结果。全景分割、单目深度估计和相应的3D点云结果可以在图4中可视化。4.5. 消融实验自适应核融合的影响。与Panop- ticFCN通过全局平均池化掩蔽的内核映射来生成填充内核不同，我们的方法自适应地融合填充内核（等式2）。1）避免了填充区域大小变化的干扰。如表1所示，采用自适应核融合（AKF）机制将PQTh和PQSt分别提高1.2%和1.0%全面微调。使用全尺寸图像（FSF）微调学习的PS模型，提高了区分遥远实例的能力。如表1所示，FSF进一步将PQTh提高1.6%至64.1%PQ。逐实例深度估计。在表3中用变体A和变体B量化了逐像素深度估计和逐实例变体A通过将深度嵌入图Ed的维度ed设置为1来执行变体B使用动态内核进行逐实例深度估计，其实现与变体A类似的性能。然而，如图3所示，逐像素深度估计倾向于在对象边界处输出平滑值。通过逐实例逐像素深度估计深度估计1642(a) 输入图像（b）全景分割（c）单目深度估计（d）3D浊点图4.我们模型的预测示例。全景分割和单目深度估计结果预测从输入图像与一个统一的模型。最好的颜色和缩放查看。相比之下，我们的逐实例深度预测方法避免了这一点，并且可以在两个实例的边界处生成更合理的不连续深度值。实例深度归一化。在表3中，变体-C和-D进一步分别用深度偏移和深度范围归一化实例深度图，如等式（1）中所描述的4和方程式5.这两种变体实现了相似的性能，但DPQ比变体A和变体B高约1.2%。这一结果证明了利用实例深度统计进行深度估计的有效性。实例级深度损失。如表3所示，变体-E和-F在变体- C和-D上采用实例级深度损失，其中深度移位ds用每个实例掩码内的最小或平均深度值来监督。虽然变体E降低了性能，但是变体F显著地将DPQTh提高了3.2%。这是因为地面实况深度是有噪声的，并且最小深度值对噪声敏感，而平均深度值对噪声不敏感。SemKITTI-DPS上的结果。表 5示出了我们提出的逐实例深度估计（变量F）在SemKITTI-DPS的数据集上再次实现了更好的性能，特别是对于事物实例（46.0% vs.41.4% DPQTh），这与Cityscapes-DPS的结果一致（表3）。5. 结论在本文中，通过以相同的实例方式预测每个事物/素材的掩模和深度值，提出了用于深度感知的全景分割的统一框架。采用动态核技术将高层目标信息引入深度估计。此外，每个实例深度图用深度移位和深度尺度来归一化，以简化共享深度嵌入的学习。在此基础上，提出了一种新的深度损失方法，用于指导基于实例级深度线索的深度学习 . 在 Cityscapes-DPS 和SemKITTI-DPS基准测试上的实验证明了该方法的有效性。我们希望我们的深度感知全景分割的统一解决方案可以在这一领域引领一个新的范式。确认本课题得到了国家自然科学基金项目（批准号：61721004和61876181）、中国科学院重大专项（批准号：QYZDB-SSW-JSC 006）、中国科学院战略重点研究计划（批准号：XDA 27000000）和中国科学院青年创新促进会的资助。1643引用[1] Huan Fu ， Mingming Gong ， Chaohui Wang ， KayhanBat- manghelich，and Dacheng Tao.用于单目深度估计的深度有序回归在CVPR，2018年。[2] Alexander Kirillov 、 Kaiming He 、 Ross Girshick 、Carsten Rother和Piotr Dollar。全景分割。在CVPR，2019年。[3] Siyuan Qiao ， Yukun Zhu ， Hartwig Adam ， AlanYuille，and Liang-Chieh Chen. Vip-deeplab：使用深度感知视频全景分割学习视觉感知。在CVPR，2021年。[4] Sainan Liu ， Vincent Nguyen ， Yuan Gao ， SubarnaTripathi，and Zhuowen Tu.面向野外单张图像的全景3d解析。arXiv预印本arXiv：2111.03039，2021。[5] MarkusSc h？n，MichaelBuchholz，andKlausDietmaye r.Mgnet：单目几何场景理解自动驾驶。ICCV，2021。[6] Zhenyu Zhang，Zhen Cui，Chunyan Xu，Zequn Jie，Xiang Li，and Jian Yang.语义分割和深度估计的联合任务递归学习在ECCV，2018。[7] Dan Xu ， Wanli Ouyang ， Xiaogang Wang ， and NicuSebe. Pad-net：多任务引导的预测和提取网络，用于同时进行深度估计和场景解析。在CVPR，2018年。[8] Yue Meng，Yongxi Lu，Aman Raj，Samuel Sunarjo，Rui Guo ， Tara Javidi ， Gaurav Bansal ， and DineshBharadia.Signet：语义实例辅助无监督3D几何感知。在CVPR，2019年。[9] Jianbo Jiao，Ying Cao，Yibing Song，and Rynson Lau.看得更深：单目深度估计与语义助推器和注意力驱动的损失。在ECCV，2018。[10] 智天，春华，陈昊。实例分割的条件在ECCV，2020年。[11] 王新龙，张如锋，孔涛，李磊，沈春华.Solov2：动态和快速的实例分割。2020.[12] Yanwei Li ， Hengshuang Zhao ， Xiaojuan Qi ， LiweiWang，Zeming Li，Jian Sun，and Jiaya Jia.用于全景分割的全卷积网络。在CVPR，2021年。[13] Bowen Cheng ， Alexander G Schwing ， and AlexanderKirillov. 每像素分类并不是语义分割所需的全部arXiv预印本arXiv：2107.06278，2021。[14] Alexander Kirillov ， Ross Girshick ， Kaiming He ， andPiotr Dollar.全景功能金字塔网络。在CVPR，2019年。[15] Sergey Ioffe和Christian Szegedy。批量归一化：通过减少内部协变量偏移来加速深度网络训练。ICML ，2015。[16] Huanyu Liu ， Chao Peng ， Changqian Yu ， JingboWang，Xu Liu，Gang Yu，and Wei Jiang.用于全景分割的端到端网络。在CVPR，2019年。[17] Yanwei Li，Xinze Chen，Zheng Zhu，Lingxi Xie，GuanHuang，Dalong Du，and Xingang Wang.用于全景分割的注意力引导统一网络。在CVPR，2019年。[18] Yuwen Xiong ， Renjie Liao ， Hengshuang Zhao ， RuiHu ， MinBai ， ErsinYumer ， andRaquelUrtasun.UPSNet：统一的全景分割网络。在CVPR，2019年。[19] Lorenzo Porzi，Samuel Rota Bulo，Aleksander Colovic，and Peter Kontakeder.无缝场景分割。在CVPR，2019年。[20] Rohit Mohan和Abhinav Valada Efficientps：高效的全景分割。IJCV，2021年。[21] Jie Li ， Allan Raventos ， Arjun Bhargava ， TakaakiTagawa，and Adrien Gaidon.学会融合各种东西。arXiv预印本arXiv：1812.01192，2018。[22] Qizhu Li，Xiaojuan Qi，and Philip H.S.乇统一训练和推理的全景分割。在CVPR，2020年。[23] Hengshuang Zhao ， Jianping Shi ， Xiaojuan Qi ，Xiaogang Wang，and Jiaya Jia.金字塔场景解析网络。在CVPR，2017年。[24] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。再思考无卷积在语义图像分割中的应用。arXiv：1706.05587，2017。[25] LiangchiehChen ， GeorgePapandreou ， IasonasKokkinos ， Kevin P Murphy ， and Alan L Yuille.DeepLab：使用深度卷积网络，atrous卷积和全连接crfs进行语义图像分割。IEEE TPAMI，40（4），2018年。[26] 何凯明、乔治亚·吉克萨里、彼得·多勒和罗斯·吉尔希克。面具R-CNN。InICCV，2017.[27] Justin Lazarow ， Kwonjoon Lee ， Kunyu Shi ， andZhuowen Tu.学习全景分割的实例遮挡。在CVPR，2020年。[28] Rui Hou ， Jie Li ， Arjun Bhargava ， Allan Raventos ，Vitor Guizilini，Chao Fang，Jerome Lynch，and AdrienGaidon.从密集检测中实时全景分割。在CVPR，2020年。[29] Weixiang Hong，Qingpei Guo ，Wei Zhang， JingdongChen，and Wei Chu. Lpsnet：快速全景分割的轻量级解决方案。在CVPR，2021年。[30] 放大图片作者：Michael D. Collins，Yukun Zhu，Jyh-Jing Hwang ，Ting Liu ，Xiao Zhang ，Vivienne Sze ，George Pa- pandreou，and Liang-Jieh Chen. DeeperLab：单次拍摄图像解析器。arXiv：1902.05093，2019。[31] Yiding Liu ， Siyu Yang ， Bin Li ， Wengang Zhou ，Jizheng Xu，Houqiang Li，and Yan Lu.用于实例分割的亲和性推导和图合并。在ECCV，2018。[32] Naiyu Gao ， Yanhu Shan ， Yupei Wang ， Xin Zhao ，Yinan Yu，Ming Yang，and Kaiqi Huang.SSAP：使用亲和金字塔的单次实例分割。在ICCV，2019年。[33] Naiyu Gao，Yanhu Shan，Yupei Wan

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

深度感知全景分割的统一框架

基于深度学习的全景分割开源源码

深度学习图像分割入门

语义分割与实例分割和全景分割的区别？

deterctron2框架使用自己的coco格式的全景分割的数据集

深度学习图像分割返回的值

语义分割相对于实力分割和全景分割的优点

深度学习图像分割返回的值分析

帮我搭建一个全景深度估计的网络框架

在maskformer出现后，可不可以帮我想几个关于语义分割或实例分割或全景分割或视频方向的分割的论文题目以及创新点研究方向

全景分割怎么确定label数据的像素值对应类别

基于全景图的深度估计方法研究与实现

CVPR2023实例分割

给我推荐20个比较流行的图像全景分割模型

paddlepaddle全景框架的功能模块

给我推荐20个比较流行的图像全景分割模型源码

基于深度学习的全景光流算法设计

three.js全景框架

aframe框架 在浏览器显示全景照片

coco_2017_train_panoptic

lstm用于图像分割问题怎么实现

最新资源

aframe框架在浏览器显示全景照片