混合，和语义分割

64 浏览量更新于2023-10-19 收藏 2.04MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

14106跨深度、表面法线和语义分割的模式仿射传播Zhenyu Zhang1†Zhen Cui1†徐春燕严燕1†Nicu Sebe2星级JianYang杨健1南京理工大学PCA实验室张洁西，甄，崔，徐，燕，csjyang@njust.edu.cn2特伦托大学多媒体和人类理解小组niculae. unitn.it摘要在本文中，我们提出了一种新的模式仿射传播（PAP）框架，以联合预测深度，表面分割&正常水深分割&正常和语义分割。其背后的动机来自于统计观察，即模式亲和对在不同任务之间以及在任务内频繁出现因此，我们可以进行两种类型的宣传-深度正常跨任务传播和特定于任务的传播，分割&正常水深分割&以自适应地扩散那些相似的图案。前者在-深度(a)（b）第（1）款正常通过对非局部关系的计算，整合跨任务亲和模式以适应其中的每个任务。接下来，后者在特征空间中执行迭代扩散，使得跨任务亲和模式可以在任务内广泛传播。因此，每个任务的学习可以通过互补的任务级亲和力来规则化和增强。大量的实验表明，我们的方法的有效性和优越性的联合三个任务。同时，我们在三个相关的数据集，NYUD-v2，SUN-RGBD和KITTI上取得了最先进的或有竞争力的结果1. 介绍深度、表面法线和语义分割的预测对于场景的解压缩具有重要的意义和挑战性*通讯作者†张振宇、崔震、徐春燕、严燕和杨健分别就职于中国科学院智能感知与系统重点实验室PCA实验室南京理工大学计算机科学与工程学院，江苏省社会保障图像与视频理解张振宇也是特伦托大学的访问生。Nicu Sebe是该部门的负责人。多媒体与人类理解小组组长特伦托大学University of图1.匹配的亲和力（或不相似）对的统计数据深度、表面法线和分割图。(a)视觉展示。白色的点对是在相同位置处跨三个任务的匹配亲和像素，而的黑点对应于三个地图上的不同像素S.对于相似性度量，REL/RMSE/标签一致性分别为三个地图。(b)统计结果。我们计算了NYUD-v2和SUN-RGBD数据集上不同地图对匹配的成功率，并观察到跨任务对匹配的成功率相当高。理解。此外，它们还具有许多潜在的工业应用，例如自动驾驶系统[4]、同步定位和地图绘制（SLAM）[52]和社会交互式机器人[12]。目前，大多数方法[10，11，13，14，40，43]都专注于这三个任务之一，并且它们也通过深度学习技术实现了最先进的性能。与单任务方法相比，最近，关于这些任务的几种联合任务学习方法[58，62，46，32]显示了一个有希望的方向，即通过利用任务相关信息来提高广义上讲，联合任务学习问题在过去的几十年里得到了广泛的研究[3]。但最近，大多数方法都采用深度学习的技术路线来处理可能的不同任务[41，16，18，25，26]。然而，大多数方法旨在执行特征融合，相似配对匹配率NYUDv2中的比率%百分比（以新加坡元计）百分之六十百分之四十图像深度百分之二十百分之六十分割表面法线百分之五十相似配对匹配的不相似对的比率NYUD中的比率%v2SDG中的比率%14107任务交互的子任务或参数共享。融合或共享的方式可以利用任务间的相关信息，但存在一些缺点。例如，不同特征的集成可能导致信息的模糊性;融合没有明确地对任务级交互进行建模，其中我们不知道传输了什么信息相反，我们能否在不同的任务中找到一些共同的模式来进行联合任务学习呢？我们采取三个相关的任务：深度估计、表面正态预测和语义分割，然后在NYUD-v2 [49]和SUN-RGBD[51]数据集上对这些二阶特征跨不同任务进行统计分析。首先，我们定义了预测图像中任意两个像素的度量。平均相对误差（REL）用于深度图像，均方根误差（RMSE）用于表面法线图像，标签一致性用于分割图像。一对像素- 当它们的误差小于指定阈值时，它们具有相似（或类似）关系，否则它们具有不相似关系。接下来，我们累积在三种类型的对应图像中具有相同空间位置的那些相似对（或不相似对）的匹配数量。如图1（a），在共同位置的亲和对同时，在任务之间存在一些共同的不相似对（有色黑点）。统计结果如图所示。1（b），其中深度的REL阈值设置为20%，表面法线的RMSE阈值设置为26%，根据一些最先进作品的性能[46，1，29]。我们可以观察到，两个任务之间的匹配对的成功率相当高，大约50%-60%的相似对被匹配。此外，我们对匹配的不相似对也有相同的观察，其中深度的REL阈值设置为20%，表面法线的RMSR阈值设置为40%。无论如何，这种二阶亲和力的观测对于连接两个任务是非常重要的基于统计观测，本文提出了一种模式亲和传播（Pattern-Affinitive Propagation，PAP）框架，利用跨任务亲和模式联合估计深度、表面法线和语义分割。为了编码长距离相关性，PAP利用每个任务内的非局部相似性，不同于文献[39，5]仅考虑局部邻居关系。这些成对的相似性被制定为一个亲和矩阵编码的模式关系的任务。为了传播亲和关系，我们采取两个传播阶段，跨任务传播和特定于任务的传播。首先通过计算三个亲和矩阵来聚合和优化任务之间的亲和关系，然后，我们通过利用来自对应的其他两个任务的优化的亲和性信息。在特征空间中执行扩散过程，使得其他任务的亲和度信息可以广泛地扩散到当前任务中。最后，将仿射模式的学习和两阶段传播集成到一个端到端网络中，以提高每个任务的预测过程。概括而言，我们的贡献有三个方面：i）受模式亲和对在不同任务之间频繁出现的观察的启发，我们提出了一种新的模式亲和传播（PAP）方法来利用跨任务的匹配的非局部亲和信息。我-i）两阶段亲和传播被设计为执行跨任务和任务特定的学习。前者设计了自适应iii）我们进行了大量的实验来验证PAP方法及其模块的有效性，并在NYUD-v2[49]，SUN-RGBD [51]和KITTI [53]数据集上实现了深度估计，表面法线预测和语义分割的竞争性或优越性。2. 相关作品深度估计：已经提出了用于单目深度估计的许多工作[10，11，37，32，42，29，63，54、47、60、58、46、62]。最近，Xu等人。 [59]采用多尺度连续CRF作为深度顺序网络进行深度预测。Fu等人。 [15]试图考虑深度图中的顺序信息，并设计了一个顺序回归损失函数。RGBD语义分割：随着大型RGBD数据集的发布，一些方法[17，21，48，8，22，34]试图融合深度信息以实现更好的分割。最近，Qi等。[45]设计了一个3D图形神经网络，RAL网络融合深度信息进行分割。Cheng等人[6]从RG-B图像和深度图中计算重要位置，以进行上采样和合并。表面法线估计：最近设计用于表面法线估计的方法主要基于深度神经网络[13，14，61，55]。Wang等人。 [56]设计了一个网络，将局部，全局和消失点结合在一起-用于地表法线预测的地层。在[1]的工作中，提出了一种跳跃连接结构，用于融合不同层的特征以进行表面法线估计。[46]中还利用3D几何信息来预测深度和法线图。亲和学习：许多亲和学习方法是基于问题的物理性质设计的-s [19，28，30]。Liu等人。 [38]通过将许多先验纳入d-复杂的过程。最近，[2]的工作提出了一种通过监督来学习图像亲和力的卷积随机游走方法。Wang等人 [57]提出了一种非局部神经网络，14108分割子网扩散层扩散层我亲和学习层亲和基质12 3深度12 3312 321表面法线语义分割|--||-初始结果-||- 具体任务-||--最终结果||-Cross-tas kpropagation--||---Task-specific---||------ReconstructionNet------||------Fina lResults---------------------------------------------------------------------------------------- |传播图2.我们的Pattern-Affinitive Propagation网络的概述，用于联合预测深度，表面法线和语义分割。最初的预测是从每个特定任务的网络中产生的。在跨任务传播过程中，网络首先通过亲和度学习层学习一个亲和度矩阵来表示每个任务之间的成对关系，然后自适应地组合这些矩阵来传播跨任务的亲和模式。请注意，每个任务的组合亲和度矩阵是不同的。然后，我们使用组合矩阵通过扩散层进行特定于任务的传播，将亲和模式传播回每个任务的特征最后将扩散特征应用于三个重建网络，以产生具有更高分辨率的最终结果。远程网络来挖掘远程关系。其他一些作品[39，5，23]试图学习语义分割或深度完成的局部像素亲和度该方法与现有方法的不同之处在于：不需要先验知识，是数据驱动的;学习非局部仿射而不是有限的局部成对关系;学习跨任务亲和性信息，而不是学习任务级交互的单任务亲和性。3. 非局部亲和性我们的目标是对任务之间的亲和模式进行建模，并利用这些互补信息来增强和规范每个任务的预测过程根据我们前面的分析，我们希望学习成对的相似性，然后将亲和度信息传播到每个任务中。与文献[39，5]中学习局部亲和不同，我们试图利用非局部亲和，这也经常出现，如图所示。1.形式上，假设xi，xj是第i和第j个位置的特征向量我们可以通过一些函数来定义它们的相似度s（xi，xj），例如L1距离，内积xTxj，等等。我们使用指数函数（es（·，·）或e-s（·，·））来使相似对的相似性不等于零，并且比不相似对的相似性更大。为了减少尺度的影响，我们将相似性矩阵M归一化为其中M是成对相似矩阵，所有像素位置的间距在这些方面，马-它是对称的，具有非负元素和有限的Frobenius范数。相应地，对于这三个任务，我们可以计算它们的相似性矩阵M深度、M分段、M法线。根据上述统计分析，我们可以通过综合这三个相似度来传播亲和力矩阵，这将在下一节介绍。4. 模式仿射传播在本节中，我们将介绍所提出的模式仿射传播（PAP）方法。通过设计一系列的网络模块，将PAP方法有效地详细情况介绍如下。4.1. 网络架构我们将所提出的方法实现到深度网络中，如图所示。2，它描述了网络架构。RGB图像首先被馈送到共享编码器（例如，ResNet [20]）来生成分层特征。然后，我们对最后一个卷积层的特征进行上采样，并将它们馈送到三个特定任务的网络。请注意，我们还将来自编码器不同层的多尺度特征与每个特定于任务的网络集成在一起，如灰点所示。每个任务特定的网络有两个残差块，并在卷积层之后产生初始预测。然后，我们进行跨任务传播，学习任务级的亲和模式。每个任务特定的网络首先通过亲和学习层学习亲和矩阵以捕获每个任务的成对相似性，然后自适应地将该矩阵与其他两个亲和矩阵组合以整合任务相关信息。注意，自适应组合矩阵对于每个任务是不同的。之后，我们通过扩散层进行特定于任务的传播，将学习到的亲和模式传播回特征空间。在每个扩散过程中，我们通过组合的亲和度矩阵从每个任务特定的网络扩散层正规子网深度子网上-采样上-采样上-采样共享上采样共享上采样适应性组合共享上采样上采样14109重塑公司简介HxWxCXHW xHW亲和基质重塑CxHWHxWx2C组合亲和基质(1-β）·重塑Xβ·重塑+迭代公司简介HxWxCHxWxC公司简介HWxHW权函数(a) 亲和学习层(b) 扩散过程图3.详细介绍了仿射学习层和扩散过程，每个模块描述了特征及其形状表示矩阵乘法。 (a)亲和力学习-也可以使用其他逐行函数，例如e−Xi−Xj，注意，沃伦-t来自非局部块[57]，我们的亲和矩阵必须满足对称和非负属性以表示成对相似性。最后，由于矩阵M的每一行表示一个位置与所有其他位置之间的成对关系，因此我们沿着M的每一行进行归一化以减少尺度的影响。通过这种方式，任务级模式可以在每个M. 请注意，我们没有添加任何监督来学习M作为文学[2]，因为这样的监督将花费额外的存储器，并且对于某些任务不容易定义。之后，我们要整合每个任务的跨任务信息。将这三个任务表示为T1、T2、T3，相应的亲和矩阵表示为MT1MT2MT3，然后我们可以学习权重αTi（k= 1，2，3，nαTi= 1），以自适应地组合ing层虚线框对应于计算相似度的函数，我们仅以点积为例进行说明。(b)扩散过程代表加权和K矩阵为：MTk=1=αTi·MTK+αTi·MT+α Ti·MT。（一）参数β。虚线箭头仅在以下情况下执行112233迭代没有完成。最后，每个任务的扩散特征被送入重建网络，以产生具有更高分辨率的最终预测。我们首先使用一个共享的和特定于任务的上采样块来放大特征图。每个上采样块被构建为上投影块[29]，并且共享上采样块中的参数对于每个任务共享以捕获相关的局部细节。在对两个块进行上采样之后，这些特征被连接并馈送到残差块中以产生最终预测。S.每个上采样块的比例因子设置为2，最终预测为输入比例的一半。这意味着上采样块的数量取决于我们想要学习亲和矩阵的规模。在实验中，我们分别在1/16、1/8和1/4的输入尺度上学习亲和矩阵，这意味着在重构网络中分别有3、2和1个上采样阶段。w孔网络可以以端到端的方式进行训练，并且跨任务和特定于任务的传播的细节将在以下部分中介绍。4.2. 跨任务传播在本节中，我们将详细介绍如何进行跨任务传播。首先，我们通过仿射学习层学习一个仿射矩阵来表示每个任务的成对相似性。亲和学习层的详细架构可以在图1中观察到第3（a）段。假设特征由每个任务特定网络的最后一层生成的是F∈RH×W×2C，我们首先使用1×1卷积将其缩小，通过这种方式，可以将跨任务亲和模式推广到MPTi中。在实际应用中，我们分别在1/16、1/8和1/4输入比例下实现了分层因此，它实际上学习非本地补丁级关系。4.3. 任务特定传播在获得组合亲和矩阵后，我们通过任务特定的传播将这些亲和模式传播到每个任务的特征空间中与非局部块[57]和局部空间传播[39，5]不同，我们在每个差分层中执行迭代非局部扩散过程以捕获长距离相似性，如图所示。3（b）款。扩散过程在初始预测以及来自特定任务网络的特征上执行。在不丧失一般性的情况下，假设特征或初始预测P ∈ RH×W×C来自于任务特定网络，我们首先将其整形为h ∈ RH×C，然后用矩阵乘M∞进行一步扩散。在这条路上，每个位置的特征向量是通过使用所学习的相似度加权累加所有位置的特征向量而获得的。注意，这样的一步扩散可能不会深入有效地将亲和度信息传播到特征空间，我们执行多步迭代扩散，如下所示：ht+1=Mht，t≥0，（2）其中ht表示步骤t处的扩散特征（或预测）。这种扩散过程也可以用偏微分方程（PDE）表示：在此基础上，对特征层进行分层，得到特征F∈RH×W×C。然后FX∈RHW×C。利用矩阵乘法计算两两内积的相似度，得到了相似矩阵M=XX<$∈RHW×HW.ht+1=Mht=（I-L）ht，ht+1−ht=−Lht，tht+1=−Lht，（三）行归一化14110∗ΣΣi，j|dij−dij|.|d- -我3我我成对其中L是拉普拉斯矩阵。作为M被归一化，SUN RGBD：SUN RGBD数据集[51]包含具有有限的Frobenius范数，这样的PDE的稳定性可以是保证[39]。假设我们在每个扩散层中总共执行t个步骤，为了防止特征与初始特征偏离太多，我们使用初始特征（或预测）h0的加权累积，如下所示：hout=βht+（1−β）h0，0≤β≤1，（4）其中Hout表示来自扩散层的最终输出。在这种方式中，在每个M中学习到的有限模式是可以有效地传播到每个任务Ti中。4.4. 损失函数在本节中，我们将介绍PAP网络的成对亲和力损失。由于PAP方法被设计用于学习任务相关的成对相似性，我们也希望我们的损失函数可以增强成对约束。首先，我们定义位置i处的预测为zi，并且对应的地面真值为zi。然后，我们将预测中的成对距离和相应的地面真值定义为dij=|zi−zj|dij=|zi−zj|. 我们希望-在预测中，它与地面事实相似，因此，10355个带有语义标签的RGBD图像，其中5285个5050用于培训和测试。我们使用带有深度和语义标签的官方训练集来训练我们的网络，并使用官方测试集进行评估。在这个数据集上没有KITTI：KITTI在线基准[53]是一个广泛使用的深度估计户外数据集。有4k张图像用于训练，1k张图像用于验证，500张图像用于在线基准测试。由于它没有语义标签或表面正常的地面真理，我们主要是转换这些信息使用我们的PAP方法，以证明PAP可以提取知识，以提高性能。5.2. 实施细节和指标我们使用Pytorch [44]在单个Nvidia P40 GPU上实现了所提出的模型我们基于ResNet-18和ResNet-50构建网络，每个模型都在ImageNet分类任务上进行了预训练[7]。在扩散过程中，我们使用与[57]相同的子采样策略来降低-由于在每个任务中计算成对损失会有很高的记忆负担，所以我们从每个任务中随机选择S个配对，然后计算成对损失智能计算1/4我们将权衡参数β设置为0.05。随机选择300对来计算每个任务中的成对损失。我们简单地设置λ T=1，成对锡吉i= 0. 2、平衡损失函数。初始学习率通过选择，这种成对损失可以捕获不同的距离对，而不仅仅是[10]中的相邻像素。同时，我们还使用berHu损失[29]，L1损失和交叉熵损失分别用于深度估计，表面法线预测和语义分割，表示为作为LTi（Ti表示第i个任务）。最后，联合任务学习问题的总损失可以定义为：L=<$λT（LTi+<$TLTi），（5）我不是对于预训练的卷积层，设置为10- 4，0.01对于其他层。对于NYUD-v2，我们训练模型对795个训练图像的模型进行200个epoch的训练并对100个epoch进行微调，并对12 k个训练图像的模型进行30个epoch的联合深度/法线预测并对10个epoch进行微调。对于 SUN-RGBD 数据集，我们训练模型 30 个epoch，并使用学习率微调30个epoch。0.001. 对于KITTI，我们首先在NYUD-v2上训练模型进行表面法线估计，然后冻结表面法线分支以在KITTI上训练深度分支15个epoch，我不是成对是对应最后，我们冻结正常分支并微调模型第i个任务，λTi和λTi是第i个任务的两个权重5. 实验5.1. 数据集NYUD-v2：NYUD v2数据集[49]由464个室内场景的RGB- D图像有1449个图像具有语义标签，其中795个用于训练，其余654个用于测试。我们从官方训练场景的原始数据中随机选择更多图像（12k，与[29，62]相同）这些图像具有相应的深度图，但没有语义标签或表面法线。我们遵循[13]和[46]中的程序来生成表面法线地面实况。通过这种方式，我们可以使用更多的数据来训练我们的模型，以进行深度和表面法线的联合预测。其中L损失可以定义为L对=Eqn中的样本h(2)，这可以减少对-L=|. 因为配对是随机的-14111我Xix~我˜˜在KITTI上运行了20个时期。类似于以前的工作[29，10，59]，我们用均方根误差（rmse），平均相对误差（rel），对数空间中的均方根误差（rmse-log）和阈值（δ）的准确性来评估我们的深度预测结果：xs. t的%。max（xi，xi）=δ，δ=1. 25，1。2521 其中x是像素i处的预测深度值，n是有效像素的数量，并且xi是地面实况。表面法线预测的评估标准[56，1，10]是角度误差的平均值（mean）、角度误差的中位数（median）、法线的均方根误差（rmse-n %）和像素精度（角度误差低于阈值的像素百分比）其中η ∈ [11. 25度22度50美分，30美分]。对于语义分割结果的评价，我们遵循最近的工作[6][24][35]并使用包括像素在内的通用度量14112表1.分析NYU Depth V2上的联合任务学习0.560.550.540.530.52深度均方根误差迭代4812162047464544434248121620302928272648121620180160140120100时间ms迭代48121620表2.在NYU Depth v2数据集上比较不同的网络设置和基线。图4.扩散过程中迭代次数的影响。性能和时间负担的变化可以看作是一种权衡。方法RMSEIOUrmse-n初始预测0.58241.329.6+ PAP w/o cross-t prop.0.57441.829.1+ PAP交叉支撑0.55843.128.5+ PAP交叉支撑+reconnet0.55043.828.2+ PAP交叉t prop + recon-net + pair-loss0.54344.227.8图像地面单任务交叉任务+ 十字绣[41]0.55043.528.2真相PAP中的亲和力图5.在每个任务的白点处可视化单个任务和我们的跨任务亲和图我们可以看到，在白点处的成对相似性可以得到改善和校正内积0.54344.227.8在我们的PAP方法中。L1距离0.54044.027.9并交互跨任务信息。我们发现他们-准确度（像素-acc）、平均准确度（平均值-acc）和平均值Intersection over Union（IoU）5.3. 消融研究在本节中，我们进行了许多实验来分析我们的方法中不同设置的影响。联合任务学习的有效性：我们首先分析了联合预测深度，表面法线和SEMANIC分割使用我们的PAP方法的好处。网络在NYUD v2数据集上进行训练，我们选择ResNet-1/8作为我们的共享网络骨干，并且在每个实验中只学习1/8输入规模的亲和矩阵。如表1所示，我们可以看到联合任务模型比单任务模型获得更好的性能，进一步联合学习三个任务获得最佳结果。可以发现，我们的PAP方法确实提高了联合学习过程中的每个任务。网络设置分析：我们进行了许多实验来分析每个网络模块的有效性。在每个实验中，我们使用ResNet-18作为我们的网络骨干进行平等比较，每个模型都在NYUD v2数据集上训练三个任务。结果见表2。请注意，前五行的结果是从模型中计算的，其中亲和矩阵是在1/16输入规模上学习的。我们可以观察到，PAP，重构网络和成对损失都有助于提高性能。我们还比较了两种方法在相同的设置，即，交叉缝合单元[41]和卷积空间传播层[5保持较弱的性能。这可能归因于：a）交叉层只结合特征，不能表示任务间的相似模式;（2）仅使用有限的本地信息。表2的中间三行显示了学习亲和矩阵的尺度的影响我们可以发现，在更大的规模上学习亲和矩阵注意，1/4输入规模上的学习矩阵的改进相对较小，原因可能是随着规模的增加，学习良好的非局部成对相似性变得更加困难。最后，我们使用不同的函数来计算相似度的结果我们发现，这两个功能确实产生不同的性能，但相差不大。因此，为了方便起见，我们在下面的实验中主要使用点积作为我们的权重函数。迭代的影响：本文通过实验分析了方程中迭代步数的影响。（二）、模型基于ResNet-1/8，在NYUD v2数据集上训练，亲和矩阵在1/8输入规模上学习测试时，输入大小为480×640。如图所示。4，我们可以看到，所有任务的性能都随着更多的迭代而提高，至少在这样的范围内。这些结果表明，成对约束和正则化可以通过在d-ffffl中的更多迭代来增强。但是测试时间也会随着步骤的增加而增加，这可以看作是一种权衡。亲和矩阵的可视化我们展示了几个IOU迭代诺玛湖rmse %迭代度量RMSEIOUrmse-n仅限深度0.570-仅分割-42.8-仅正常--28.7深度分段联合0.55644.3-深度法线联合0.550-28.1分割联合正常-44.528.3三项任务联合0.53346.226.9+ CSPN [5]0.54843.828.01/16输入尺度0.54344.227.81/8输入尺度0.53346.226.91/4输入尺度0.53046.526.714113表3.与NYU Depth V2数据集上最先进的深度估计方法进行比较。方法数据RMSErel日志δ1δ2δ3HCRF [32]7950.8210.232-0.6210.8860.968DCNF [37]7950.8240.230-0.6140.8830.971[54]第五十四话7950.7450.2200.2620.6050.8900.970[47]第四十七话7950.7440.187----徐[60]7950.5930.125-0.8060.9520.986PAD-Net [58]7950.5820.120-0.8170.9540.987本征[11]120k0.8770.2140.2850.6110.8870.971美国有线电视新闻网[10]120k0.6410.1580.2140.7690.9500.988MS-CRF [59]95k0.5860.121-0.8110.9540.987FCRN [29]12k0.5730.1270.1940.8110.9530.988[46]第四十六话16k0.5690.128-0.8340.9600.990AdaD-S [42]100k0.5060.114-0.8560.9660.991[15]第十五话120k0.5090.115-0.8280.9650.992TRL [62]12k0.5010.1440.1810.8150.9620.992我们的d+s+n7950.5300.1420.1900.8180.9570.988我们的d+n12k0.4970.1210.1750.8460.9680.994（一）（b）第（1）款（c）第（1）款（d）其他事项图6.我们预测的深度图的可视化（a）图像;(b) 预测[60];（c）我们的成果;（d）地面实况。我们可以发现，我们的预测显然有更精细的细节，更接近地面真相。图中学习的亲和度图的示例。5.请注意，亲和贴图属于每个图像中的白点。我们可以看到，单任务亲和图往往表现出不正确的成对关系，而我们的PAP方法中的跨任务亲和图与具有相似深度、法线方向和语义标签的点有更密切的关系。由于亲和矩阵是非局部的，实际上是一个稠密的图，它可以很好地表示长距离的相似性。这些观察结果表明，跨任务互补亲和度信息可以学习，以改善PAP方法中的单任务相似性。虽然没有监督[2]，但我们的PAP方法仍然可以在这种任务正则化的无监督方法中学习良好的亲和矩阵5.4. 与最先进方法的深度估计：我们主要在NYUD-v2数据集上进行实验，以评估我们的深度预测。这些模型基于ResNet-50。如表3所示，我们为三个任务（我们的d+s+n）训练的模型获得了竞争性的结果，尽管只有795张图像用于训练。这些结果表明，我们的PAP方法可以很好地提高每个任务，并有利于联合任务学习，表4.与NYU Depth V2数据集上最先进的表面法线估计方法进行比较。方法是说中值rmse-n◦11个国家。25二十二岁50◦ ◦303DP [13]36.319.2-16.436.648.2展开[14]35.217.9-40.554.158.9Discr. [第六十一届]33.523.1-27.749.058.7美国有线电视新闻网[10]23.715.5-39.262.071.1[56]第五十六话26.914.8-42.061.268.2SkipNet [1]19.812.028.247.970.077.8冲浪[55]20.612.2-47.368.976.6[46]第四十六话19.011.826.948.471.579.5我们的-VGG 1618.611.725.548.872.279.8(a) 图像（b）MS-CNN（c）SkipNet（d）GeoNet（e）我们的（f）GT图7.我们预测的表面法线的可视化（a）图像;(b) 预言[10]（一）预测[1] ;（四）预测[46];（e）我们的结果;（f）地面实况。Image GT Ours Image GT Ours图8.我们的方法在NYUD-v2和Sunday GBD数据集上的定性语义分割结果训练数据对于深度正态预测训练的模型（我们的d+n），随着更多的训练数据可以使用，我们的PAP方法在大多数度量中获得了显着的最佳性能，这很好地证明了我们的方法的有效性。定性结果可在图中观察到。6，与最近的工作[60]相比，我们的预测更详细，更接近地面真相。表面法线估计：我们主要在NYUD-v2数据集上评估我们的表面法线预测。由于先前的方法主要基于VGG-16 [50]构建网络，因此我们在实验中也使用了相同的设置如表4所示，我们的PAP方法在所有指标上都获得了这些结果很好地证明了我们的联合任务学习方法可以提高和有益于表面法线估计。定性结果可在图中观察7，我们可以发现我们的方法可以产生更好的或有竞争力的结果。RGBD语义分割：我们在广泛使用的NYUD-v2和SUN-RGBD数据集上评估了我们的分割结果。建立了各实验的模型14114表5.比较NYU Depth v2数据集上最先进的语义分割方法。Deng等人[8]RGBD63.8-31.5He等人[22]RGBD70.153.840.1LSTM [34] RGBD-49.4-Cheng等人[6]RGBD71.960.745.93D-GNN [45] RGBD-55.7 43.1RDF-50 [48] RGBD 74.8 60.4 47.7Ours-ResNet50 RGB76.2 62.5 50.4表6.在SUN-RGBD数据集上与最先进的语义分割方法进行比较方法数据像素访问平均访问IOU背景[36]RGB78.453.442.3B-SegNet [24]RGB71.245.930.7RefineNet-101 [35]RGB80.457.845.7TRL-ResNet50 [62]RGB83.658.950.3LSTM [34]RGBD-48.1-Cheng等人[6]美国RGBD-58.0-CFN [9]RGBD--48.13D-GNN [45]RGBD-57.045.9[48]第四十八话RGBD81.560.147.7我们的-ResNet 50RGB83.858.450.5表7.与KITTI在线基准测试中最先进的方法进行比较（越低越好）。方法SILog sqErrRel absErrRel iRMSE时间图9.我们的方法在KITTI数据集上的定性结果。我们可以发现，我们的模型获得了良好的深度预测和正常的估计。5.5. 蒸馏效果有时，地面实况数据不能总是可用于每个任务，例如，一些广泛使用的户外深度数据集，例如KITTI[53]，没有或非常有限的表面正常和分割地面实况。然而，我们可以使用PAP方法从其他数据集中提取知识，以提高目标任务。我们在NYUD-v2上训练模型进行深度和法线估计，然后冻结法线分支以在KITTI上训练模型。我们在KITTI在线评估服务器上评估了我们的预测，结果如表7所示（匿名方法）。我们的PAP方法优于我们的单任务和基于交叉缝合的模型。与最先进的方法相比，尽管比DORN [15]稍弱，但我们的方法比所有其他已发表或未发表的方法获得了更好的性能。请注意，我们的方法比DORN运行得更快，这可以看作是一种权衡。这些结果表明，[15]第十五话∗VGG16-Unet11.77 2.23 8.78 12.98 0.5s13.41 2.86 10.60 15.06 0.16秒任务提取和转移的PAP方法。定性∗FUSION-ROB 13.90 3.14 11.04 15.69 2s∗基于ResNet-50并在NYUD-v2上针对三个任务进行训练，并在SUN-RGBD上联合进行深度预测和语义分割。NYUD-v2数据集上的性能如表5所示。我们可以观察到，我们的PAP方法的性能是优越的或有竞争力的，虽然只使用RGB图像作为输入。这样的结果可以证明，虽然深度地面真相是不直接使用，我们的方法可以受益于联合学习深度信息的分割。在SUN-RGBD数据集上的性能如表6所示，我们可以看到，尽管在mean-acc度量上略弱于RDF-152 [48]，但我们的方法可以在其他度量上获得最佳结果。S.这样的结果表明，我们的预测优于或至少与最先进的方法竞争。可视化结果可在图中观察到。8，我们可以看到，我们的预测是高质量的，接近地面真理。结果可以在图中看到9、我们对深度的预测和正常都是高质量的。6. 结论在本文中，我们提出了一种新的模式仿射Prop-agation方法联合预测深度，表面法线和语义分割。统计结果表明，任务间的相似模式在一定程度上可以用成对相似度来表示。PAP可以有效地学习来自每个任务的成对关系，并且进一步利用这种跨任务互补亲和力来通过跨任务和任务特定的传播来增强和规范联合任务学习过程。大量的实验表明，我们的PAP方法在这三个任务上获得了最先进的或有竞争力的结果，在未来，我们可以推广和提高更多的视觉任务的方法的效率7. 确认本工作得到了国家自然科学基金项目的资助。U1713208、61806094、61772276、61602244、111项目AH92005。方法数据像素访问平均访问IOU[40]第四十话RGB60.049.229.2背景[36]RGB70.053.640.6Eigen等人[10个国家]RGB65.645.134.1B-SegNet [24]RGB68.045.832.4RefineNet-101 [35]RGB72.857.844.9PAD-Net [58]TRL-ResNet50 [62]RGBRGB75.276.262.356.350.246.4图像我们的深度我们正常BMMNet14.375.1010.9215.510.1sDABC [33]14.494.0812.7215.530.7sAPMoE [27]14.743.8811.7415.630.2sCSWS [31]14.853.4811.8416.380.2s我们的单曲14.583.9611.5015.240.1s[41]第四十一话14.333.8511.2315.140.1s我们13.082.7210.2713.950.2s14115引用[1] Aayush Bansal、Bryan Russell和Abhinav Gupta。Marr再访：经由表面法线预测的2D-3D对准。在CVPR中，第5965-5974页[2] Gedas Bertasius，Lorenzo Torresani，X Yu Stella，andJian-bo Shi.卷积随机游走网络用于语义图像分割。在CVPR中，第6137-6145页[3] 瑞奇·卡鲁阿纳多任务学习。 Machine Learning，28（1）：41[4] 陈晨毅，阿里·谢夫，阿兰·科恩豪泽，肖健雄.深度驾驶：自动驾驶中的直接感知学习启示。在ICCV，第2722-2730页，2015年。[5] Xinjing Cheng，Peng Wang，and Ruigang Yang.通过卷积空间传播网络学习的亲和力进行深度估计。在ECCV，第108-125页[6] Yanhua Cheng，Rui Cai ，Zhiwei Li ，Xin Zhao，andKaiqi Huang.用于rgb-d室内语义分割的局部敏感解卷积网络与在CVPR第3卷第1475-1483页[7] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。CVPR，第248-255页[8] Zhuo Deng，Sinisa Todorovic，and Longin Jan Latecki.互斥约束下的rgbd图像语义分割在ICCV，第1733-1741页[9] L Di，Chen Guangyong，Cohen-Or Daniel，Heng Pheng-Ann，and Huang Hui.基于级联特征网络的rgb-d图像语义分割。在ICCV，第1320-1328页，2017年。[10]

下载后可阅读完整内容，剩余1页未读，立即下载