多任务学习中的模式结构扩散

15 浏览量更新于2023-10-23 收藏 1.27MB PDF 举报

多任务学习

深度估计

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1多任务学习中的模式结构扩散南京理工大学计算机科学与工程学院高维信息智能感知与系统教育部重点实验室PCA实验室摘要受模式结构在任务内和任务间频繁重复的观察启发，我们提出了一个模式结构扩散（PSD）框架，用于在任务级空间中挖掘和传播特定于任务和跨任务的模式结构，以进行联合深度估计、分割和表面法线预测。代表-测试局部模式结构，我们将它们建模为小规模的小图1，并以两种不同的方式传播它们，即，任务内和任务间PSD。对于前者，为了克服模式结构局部性的限制，我们采用了高阶递归的邻域聚集，成倍地增加了传播范围，使得长距离模式在任务内空间传播在任务间PSD中，我们相互传递对应结构表面法线深度基于其中成对模式结构的匹配度将对应于相同空间位置的多个模式结构中的每一个映射到任务本身中。最后，任务内和任务间模式结构在任务级模式之间联合扩散，并封装到端到端PSD网络中，以提高多任务学习的性能。在两个广泛使用的基准上的大量实验表明，我们提出的PSD是更有效的，也达到了最先进的或有竞争力的结果。1. 介绍密集像素预测任务，例如，由于在智能机器人[42]、自动驾驶[6]等方面的重要应用，深度估计、分割和表面法线预测是计算机视觉中的基础但具有挑战性。目前，许多基于深度学习的方法在三个任务中的每一个中都取得了巨大成功。然而，单任务模型更多地关注鲁棒回归的学习，而很少考虑任务之间的相互作用作为场景理解中的像素级任务，实际上，这三个任务具有一些共同的特点，通讯作者：zhen. njust.edu.cn1小图是一个大图图1：我们的主要想法。对于多任务学习，我们专门设计了任务内和任务间的模式结构扩散（PSD），以挖掘和传播有用的模式结构内/跨任务。任务间PSD通过导出的相关性将两个任务连接起来，相互传递模式结构彼此分享。最近，联合任务学习方法[29，55，8，38，53]如雨后春笋般涌现，并显示出通过跨任务交互来提高性能的有希望的方向。他们中的大多数致力于特征融合（例如，级联）或模型共享（例如，公共网络参数）。由于无意的集成，这些“黑盒”方法不能关心/知道多任务之间传输/交互的具体信息。最终，什么样的信息可以用于桥接不同的任务尚未被很好地揭示和利用在多任务像素预测的研究。一个观察结果[58]是，局部补丁模式在同一图像中频繁重现，以及不同的-4514分割任务内PSDRGB图像任务间PSD4515缩放图像。它隐含地表明了自然图像的大量局部模式结构的高度相似性。局部模式的结构为像素级预测提供了一些强有力的线索，其中匹配的模式结构可以以高概率产生类似的预测值。更重要的是，这种观察可以扩展到不同任务的场景中，如图所示。1，其中大量的补丁在相同的空间位置具有非常相似的模式结构。例如，来自不同任务的相同位置处的补丁（红色方块）在深度、分割和表面法线上具有相似的图案结构。它们描述了相同的对象，并赋予了关于对象形状/边界的相似信息。因此，那些隐藏在图像中的局部模式结构也应该被挖掘出来，并用于像素级的多任务学习。受任务内模式结构在任务间的重复性观察的启发，我们提出了一个模式结构扩散（PSD）框架，用于在任务级空间中挖掘和传播特定于任务和跨任务的模式结构，以实现跨深度估计、分割和表面法线预测的联合多任务学习。为了刻画局部模式结构，我们将其构造为小规模的小图，其拓扑结构代表像素级结构布局，而每个顶点锚定在一个像素位置。这意味着关于局部区域的图为了在任务域中传递模式结构，我们构造了两种模式结构扩散过程，即任务内和任务间PSD。对于前者，为了克服模式结构局部性的限制，我们提出了高阶递归扩散，通过对邻接矩阵的计算，成倍地增加传播范围。与直接的大范围或全局模式相关相比，这种递归模式-结构扩散可以减少计算负担以及在任务间PSD过程中，我们提取对应于相同空间位置的成对模式结构的相似性，然后根据学习到的相似性将对应结构相互转换到任务本身。由于长距离扩散是在任务内进行的，因此任务间PSD除了可以借用任务本身的模式结构外，还可以隐含地借用对应任务的大范围模式结构最后，任务内和任务间的模式结构被共同扩散到任务级模式中，并封装到端到端PSD网络中，以提高多任务学习的性能我们在两个公共数据集NYUD-v2 [35]，SNORGB-D [40]上进行了联合深度，分割和表面法线估计的广泛实验。实验结果表明，我们提出的PSD方法比那些基线更有效，也达到了最先进的或有竞争力的结果。概括而言，我们的贡献有三个方面：i）我们提出了一种新的模式-结构扩散框架来尝试在不同的任务域中/跨不同的任务域挖掘和传播局部模式结构。ii）我们提出了两种类型的模式-结构扩散，即，任务内和任务间，其中前者引入递归机制来学习长距离传播，而后者导出任务间相关性来传递跨任务结构。iii）我们验证了我们提出的PSD方法的有效性，并在两个公共多任务学习数据集上实现了深度，分割和表面法线估计的最新或竞争性能。2. 相关工作语义分割：随着深度学习在高级视觉任务中的巨大成功，许多语义分割方法[31，33，4，9，37]都受益于CNN。Long等人。 [24]提出了一种用于语义分割的全卷积神经网络（FCN），它以端到端的方式进行像素分类。后来，许多方法[7，20，31]都是基于FCN的。由于发布了大规模的RGB-D数据集，一些RGB-D方法[36，47，13，14]已经涌现。此外，一些方法[44，15]使用基于图的表示来解决将图像分割成区域的问题。与这些方法不同的是，我们只使用RGB图像作为输入源，并基于深度预测而不是深度地面实况进行语义分割预测此外，我们从其他任务中获得支持，以提高分割预测。深度估计单目深度估计的研究已经有很长的历史，以前的工作一般利用马尔可夫随机场（MRF）[3，2]。最近，几个作品[45，19，34，50，38，27，18，52，57，56]与CNN架构已经取得了最先进的结果。Eigen等人。 [11]首先使用CNN并提出了一个多级网络来解决单目深度估计。Roy等人。 [39]利用回归森林并在每个树节点处构建浅层架构来预测深度。与这些仅深度预测方法不同，我们建议利用其他任务的线索来提高深度估计。曲面法线估计。由于深度神经网络的强大特征表示能力，大多数表面法线估计方法[30，16，17，26，48]都是基于深度神经网络的。Eigen和Fergus [14]采用统一的粗到细分层网络进行深度/法线预测。Wang等人。 [46]是第一个仅通过单个RGB图像使用平面表面信息正则化密集几何估计最近，Qi等人 [38]提出使用3D几何信息来预测表面法线和深度。在我们的工作中，通过深度和分割来提高表面法线的4516图2：用于深度、语义分割和表面法线联合预测的PSD网络架构整个网络分为一个共享的编码器和三个特定任务的解码器分支。在每个分支中，我们首先执行任务内PSD（第3.3节）以在每个任务内传输长距离模式结构信息。然后，跨任务模式结构被关联以相互传递，称为任务间PSD（第3.4节）。最后，任务内和任务间PSD被封装成模式结构扩散层（称为PSD层），其可以以深度模式堆叠以用于像素级多任务学习。信息.多任务学习。许多多任务学习方法[1，23，43，22，53，41，54]已经取得了巨大的成功。一些研究人员[22，53]提出了用于特征传输的多任务学习机制。最近，Zhang等人。 [55]提出学习非局部任务特定模式亲和度，并获得具有固定交互参数的跨任务亲和度。我们的方法在以下方面与这些方法不同：i）跨任务传输模式结构而不是简单的加权特征，i i）挖掘局部补丁模式结构（即，graphlets）并将它们从局部区域乘法扩散到全局区域，与全局仿射相比，这具有高效计算的附带优势[55]，iii）具有通用于不同任务的图拓扑的模型。3. 图形结构扩散在这一部分中，我们首先概述了整个网络的体系结构，然后分别介绍了局部模式结构、任务内和任务间模式结构差异的定义，最后提出了由三种不同像素级预测任务组成的目标函数3.1. 网络架构图案结构扩散被封装成端到端的深网络，如图所示。二、整个网络可以分为一个共享的编码器和三个任务特定的解码器，其中模式结构在任务内也跨任务相互传播。给定一个RGB图像x，编码器产生多尺度层次。通过卷积神经网络的化学特征映射ResNet [21].我们将来自编码器最后一个卷积层的响应映射馈送到每个任务分支中，以解码像素级任务相关信息。为了产生精细的高分辨率预测，我们将该卷积特征解码为更高分辨率的特征图，然后在编码器处与相同尺度的特征连接以馈送到残差块中以产生特定于任务的特征。接下来，我们在三个特定于任务的特征映射上执行模式结构扩散。具体地，首先对解码的特征执行任务内PSD（第3.3节）以在每个任务内传输长距离上下文信息，然后将任务间PSD（第3.4节）用于两个不同的任务以相互吸收对应结构。为了实现高效的PSD，我们在像素级的局部图案区域而不是在3.2节中介绍的大规模或全局区域上构建小的graphlet。此外，我们推导出一个递归的过程graphlet传播到长距离的位置。对于任务间PSD，我们在公共位置关联那些成对的小图，并加权地将结构信息传递到目标任务。由于任务内和任务间的联合PSD，模式结构可以在三个任务内/跨三个任务的远程上下文中广泛传播。重复地，我们可以继续放大特征图，并执行上述解码过程，以产生我们对最终像素级预测的要求的更高的特征尺度。这种从粗到精的过程在多损失函数下进行监督，然后在每个尺度上进行卷积预测层，其中细节在第二节中给出。n我正常模式结构曲面法线解码器D分割模式结构深度解码器分段解码器表面法线我SPSD图层深度3XSD我我21©PSD图层213语义分割XsXSN我我n图案结构扩散层卷积层图案结构我任务内PSDD任务间PSD我SDXSN残余块联系我们逐元素乘积特征图上采样总和我我©XsSSD数据流的方向XSD我我我我PSD图层预测层任务间任务内4517Pii ik我我我第3.5节。3.2. 局部模式结构定义让我们分别有XTd， XTs，XTn∈RH×W×C . 这里H、W、C代表--分别发送高度、宽度和通道号我们用每个局部模式中的像素级特征来表征每个局部模式，称为模式结构。为了方便地说明图案结构的构造，我们在以下描述中省略了上标T在多通道特征X的每个空间位置我们可以裁剪出一个l×l的正方形区域，模式为XPi∈Rl×l×C，其中Pi表示裁剪图3：任务内扩散过程。一个graphletGPi是位置i处的图案。为了简化，我们滥用l×l×Cl2×C记法vec（X）：R→R，其中vec-根据当地的情况建造。图案结构APi用于扩散那些相邻图案X Pi，在逐行堆栈中调整2D空间维度ing方式。对于每个局部补丁模式，我们构造一个图集GPi ={VPi，APi，XPi}，其中一个vert e xvi∈VPi对应于一个pix el位置，相邻矩阵通过矩阵乘法产生新的图案，然后加权汇总成原始模式作为增强响应。对于长距离扩散，递归地执行该过程。APi ∈Rl2×l2×C定义了边连接相关性，而XPi=vec（ XPi）∈Rl2×C是特征矩阵。为了-在实践中可以利用矩阵来加速这个...一般地，局部斑块模式的邻接矩阵APi是罚款为[vec（ XP）]j−[ vec（ XP）][AP]jk= exp{−}，（1）这种结构不仅有利于高效的计算机系统，站和低存储器要求，而且还可以在高阶计算之后扩展到全局区域，如以下部分所介绍的。iσ2S.T. ，i = 1，2，. - 是的- 是的，H× W，j，k = 1，2，. - 是的- 是的、12、（2）3.3. 任务内PSD其中[j]取输入矩阵的第j行，[ AP[i]jk任务内扩散的目的是通过扩散局部模式来获取长距离的语义信息。记录位置j和j之间的模式相关性k，并且σ（σ2= 2作为默认值）是指数因子。节点j和k的模式越相似，[APi]jk中对应的值就越大。因此，APi表示局部结构，其高频率地重现并且可用于任务内/任务间模式基于我们的上述观察，我们可以通过传播来提高性能。作为全局表示，我们可以将所有局部结构收集到特征图X上定义的整个图中表示为G={V，A，X}，其中|V|=H×W是关于空间位置的所有顶点的集合，X= vec（X）是垂直化特征图。整体的邻接矩阵图被写为单一任务，以增强特定任务的模式。为了减少尺度对不同局部结构的影响，我们将每个APi中的相邻相关性归一化为和1，即，一个P ← AP/（1AP 1），（4）其中1是所有值都等于1的列向量。为了传播信息，我们采取求和聚合来加权那些相邻顶点的模式，形式上，vi←f（vi，vj）f（vj）（5）j∈N（vi）A= diag[vec（AP1）vec（AP2）;·;vec（A22）]，（3）其中相邻集合N（Vi）和权重w（Vi，vj）由上面计算的相邻关系APi确定，X公司简介派派Pi{、Pi}整合Softmax函数元素乘积我LL我J22CPi迭代L我J加权模式苏离子信息集合体LXt1 H W CXt1l CPi4518H Wl2×l2 ×C l4 ×C其中vec（APj）：R→R与上述定义类似，diag（·）是分块矩阵的对角化。显然，全局矩阵A是稀疏的，因为大多数值为零，并且只有那些位置局部片是非零值。具体地，非零值的数量为l2HW<$H2W2，其中l<$H，W是补丁核的大小因此，稀疏的计算f表示特征提取函数。内部任务扩散过程如图所示。3.第三章。为了传播长距离模式信息，我们可以递归地对方程n中的聚合过程进行迭代.（5）将局部模式传播到更远的区域。具体地，我们用以下矩阵公式来表示递归过程，[vec（ X（t+1））]i=4519P˜IJPiPiPi我[vec（ X（吨））]i+β·Σj∈N（vi）Aij×[vec（ X（吨））]j，（6）其中t=1，···，T是步长，β（此处β= 0.05，如[55]所示）是平衡因子。在上面的等式中，我们取剩余连接，通过权参数β将聚合特征与参考顶点特征进行融合。每迭代一次，扩散接收场放大一倍.在多步迭代之后，局部模式可以被传播到那些遥远的区域中。由于边连接的局部性和稀疏性，迭代步骤的计算复杂度取决于边数字，即，O（l2| V|C），其中l2| V|. 因此，内-带测试集任务扩散|V|迭代的复杂性图4：任务间扩散过程。跨任务相关性（ATsd）定义在任务内模式结构我（ATs，ATd）. 根据ATsd，局部结构可以是派派O（l2T |V|C），这明显低于具有稠密边的全局连通性O（|V|3C）。此外，算法复杂度为O（12| V|C）相对较低自适应地从一个任务转移到另一个任务。T T T2等于1，{As，An，Ad}是这是一个复杂度为O（|V|C）的范围内。最后，收集多个步骤的中间特征以增强局部模式，其可以用公式表示为派派用于分割、表面法线和深度的块Pi特征图。在上面的Eqns。（9）和（10），跨任务相邻结构{ATsd，ATsn}是派派[vec（X）]i=g（r（[v ec（X（1））]i，·，[v ec（X（T））]i），Θ），（7）其中一个1×1卷积层，然后是ReLU激活单元。因此，新产生的特征X集合了不同尺度感受野内的那些局部图案结构3.4. 任务间PSD对于相同的输入，不同任务的像素级预测在相应的位置上具有相似的局部模式结构，这意味着潜在的线索可以将不同的任务联系起来。为此，我们尝试将局部模式结构从一个任务转移到另一个任务，以实现跨任务模式传播。在图4中，我们展示了任务间模式-结构扩散的主要过程。下面我们将分割任务作为目标任务，并将其他两个任务的信息传播到分割任务中。从形式上讲，我们在第i个位置推导出模式如下从深度和表面法线任务它们分别通过其中的加权结构自适应地正则化边的强权重可以被增强，而弱权重可以被进一步衰减。在等式中（8）任务间扩散向分割方向扩散与任务内PSD的联合学习一样，任务间扩散实际上也整合了对应任务的长距离模式信息。类似于上面的Eqn。（7），我们将扩散特征和原始特征连接起来（即，任务内特征）以馈送到一个1×1卷积层减少通道数量，其次是ReLU等非线性激活单元因此，转移到其他任务遵循相同的过程。3.5. 损失函数对于不同的任务，我们采用任务特定的损失函数-S.遵循最先进的深度估计算法- m [27]，我们使用berHu损失进行深度监督。至于[vec（X）s）]i←[vec（X（Ts）]i语义分割，曲面法线，交叉熵损失和L1损失分别采用+βT标准差+βT· Σj∈N（vi）· ΣATsd×[vec（X<$ Ts）]jATsn×[vec（X<$ Ts）]，（8）4. 实验4.1. 数据集国际新闻社j∈N（vi）T T TTj纽约联合国大学v2。NYUD-v2数据集[35]是一个流行的室内场景RGB图像数据集，使用MicrosoftS.T. ，Asd=AsAd/FPsd，（9）Kinect只有1449帧从40个类-ATsn=ATs <$ATn/FTsn，（10）标记为分段。遵循标准设置-派派派派X公司简我XM公司简我收集我JAm k我J我一个陌生人 k我公司简我X公司简n我阿文 k我我J收集我JSoftmax函数逐元素乘积任务内任务内不4520PP[14]，我们使用795张图像来训练我们的模型，其中，fx是元素级乘积运算，图像用于测试最终性能。此外，我们遵循-{βTsd，βTsn}是平衡因子，{F Tsd，F Tsn}我我在[16，38]中，随机抽样是约束所有元素12k图像的总和并生成表面法线地面实况的法线因子4521因此，更多的数据可以用于训练关节深度和表面法线模型。SJGB-D。SRGB-D数据集[40]是一个非常大且具有挑战性的数据集，包含10355个室内场景的RGB-D图像。这些图像分为37类，包括墙壁，桌子，地板等。所有这些图像具有分割和深度标签，但没有表面正常标签。因此，我们用5285幅图像训练我们的联合预测分割和深度模型，并根据官方文件对5050幅图像进行测试。4.2. 实现细节训练我们实现了我们提出的模型Py火炬双NVIDIAGeForce RTX2080Ti（12GB的GPU内存为每个）。我们基于ResNet-50 [21]构建我们的框架，ResNet-50是在ImageNet分类任务[12]上预先训练的。对于预训练层和其他层的参数，我们的初始学习率分别为1 e-4/0.01，并在微调过程中衰减到1 e-5/0.01我们使用0.9的动量和1 e-4的重量衰减。该网络以端到端的方式在RGB图像上进行深度，分割和为了进一步提高计算速度，减少计算量和内存开销，我们只考虑中心节点与局部图中其他节点的连接，使相邻矩阵更稀疏，并将相邻矩阵的所有通道聚合在一个局部图中。Mantic分割和表面法线。在每个实验中，我们设置节点编号=9（即，区域大小=3×3），迭代步长为9。所有以下实验-目前，ResNet-50已被广泛采用。语义分割在广泛使用的 NYUD-v2 数据集和SNORGB-D数据集上进行了语义分割的比较。NYUD-v2数据集的优效或竞争性比较结果见表1。注意，这里大多数方法是直接将深度图作为输入源的RGB-D方法相反，我们为三个任务训练的模型只需要795个RGB图像作为输入，它实现了最好的PixAcc（优于TRL [53]0.8%）和mIoU（优于D-CNN [47] 2.6%），但在mAcc方面比D-CNN [47]略差。这可能是由于不完美的深度预测。虽然我们的PSD可以获得令人印象深刻的深度估计结果，但预测仍然不如地面实况精确，这对分割预测产生了负面影响。对于SBG-D数据集，我们训练我们的模型进行深度和分割。如表2所示，我们可以观察到，我们的方法在mAcc上略弱于RDF-ResNet 152[36]，但在PixAcc和mIoU上更胜一筹。这也可能是由于上述原因.与此同时，RDF-ResNet 152使用比我们的ResNet-50更强大的网络骨干。定量结果见图1。五、所有这些结果代替进行信道方式的计算，即，，APi∈Rl×l.证明我们的PSD可以通过信息促进分割640×480像素的原始帧被居中裁剪416×416 为了增加数据的多样性，我们采取了与[32]相同的数据增强策略：扩展，翻转、裁剪和旋转。对于SUN-RGBD数据集，我们对模型进行了50个epoch的训练，并对30个epoch进行了微调。对于NYUD-v2数据集，联合深度分割模型被训练了50个epoch，并在另外25个epoch中使用12 k图像进行了微调对于三任务联合模型，首先取200个历元，100个历元用于微调。指标. 对于深度估计的评估，我们遵循以前的工作[14 ， 27] 并使用度量 -包括：均方根误差（RMSE），平均相对误差（REL），对数空间中的均方根误差（RMSE-Log）和具有阈值δ的准确度，其中δ∈ {1.25，1。2521 253}。对于语义分割，我们采用与[10，31]相同的度量：像素准确度（PixAcc），平均准确度（mAcc）和平均交集（mIoU）。对于曲面法线，我们使用以下方法-rics：角度误差的平均值（Mean）、角度误差的中值（Median）、法线的均方根误差（Nor-RMSE）以及作为角度误差低于阈值η的像素的百分比的像素准确度，其中η∈{11. 25◦，2 2. 50英尺，30英尺}。4.3. 与最新技术在本节中，我们将我们提出的方法与各种最先进的深度估计方法进行比较，其他任务的信息。深度估计。我们主要比较了所提出的PSD与NYUD-v2数据集上的深度估计的最新技术。如表3所示，我们的模型训练了联合用于三个任务（PSD-Td+Ts+Tn）能够提供与先前的最先进的方法相当的结果，尽管仅使用795个图像用于训练。对于深度和法线联合训练的模型（ PSD-Td+Tn），数据越多（12k图像），性能越好除REL和δ1外，在大多数指标上都达到最佳。实际上，AdaD-S [34]和DORN [18]使用大规模数据（120 k/100k图像）进行训练，这对模型非常有益。定量结果如图所示。6，预测更精确，这表明我们提出的PSD的性能优越。曲面法线。我们主要在NYUD-v2数据集上评估我们的表面法线预测结果列于表4中。我们的PSD在大多数指标上都优于以前的方法，除了η3=30μ m。结果表明，PSD可以利用任务特异性和任务间的相关性来提高当前任务的绩效。定量结果见图1。7，从中可以发现，我们的PSD模型的预测效果更好，包含更多的细节。452216表1：与NYUD-v2数据集方法数据PixAccMACCMiou[24]第二十四话RGB60.049.229.2Lin等人 [32个]RGB70.053.640.6Mousavian等人[33个]RGB68.652.339.2TRL [53]RGB76.256.346.4RefineNet [31]RGB72.857.844.93DGNN [37]RGBD-55.743.1[36]第三十六话RGBD74.860.447.7Cheng等人 [10个国家]RGBD71.960.745.9Deng等人 [13个国家]RGBD63.8-31.5[14]第十四话RGBD65.645.134.1D-CNN [47]RGBD-61.148.4PSD-ResNet50RGB77.058.651.0表2：与SHBGB-D数据集方法数据PixAccMACCMiouSegNet [4]RGB72.644.831.8Lin等人 [32个]RGB78.453.442.3[25]第二十五话RGB71.245.930.7RefineNet [31]RGB80.457.845.7TRL [53]RGB83.658.950.3帕普[55]RGB83.858.450.5Cheng等人 [10个国家]RGBD-58.0-3DGNN [37]RGBD-57.045.9D-CNN [47]RGBD-53.542.0RDF-ResNet152 [36]RGBD81.560.147.7PSD-ResNet50RGB84.057.350.6（一）（b）第（1）款（c）第（1）款（（（（图6：NYUD-v2数据集上深度的视觉结果。(a)原始RGB图像;（b）[ 51 ]的预测;（c）我们的预测;（d）地面实况。表4：与NYUD-V2数据集方法低越更好越高越好是说中值Nor-RMSE η 1 = 11。25◦η2 =22。5◦η3 =30磅3DP [16]35.331.2-16.436.648.23DP（MV）[16]36.319.2-39.252.957.8[14]第十四话23.715.5-39.262.071.1展开[17]35.119.2-37.653.358.9[48]第四十八话26.914.8-42.061.268.2SkipNet [5]19.812.028.247.970.077.8Discr. [26日]33.523.1-27.749.058.7冲浪[46]20.612.2-47.368.976.6Liao等人 [30个]19.712.5-45.872.180.6[38]第三十八话19.011.826.948.471.579.5PSD-ResNet5018.211.524.948.972.779.9图5：语义分割在SBG-D数据集上的可视化结果。(a)原始RGB图像;（b）地面实况;（三）我们的预测表3：与NYUD-v2数据集上最先进的深度估计方法的比较4.4. 消融研究在本节中，我们进行了大量的实验来验证我们的方法的有效性所有以下实验-（a）（b）（c）（d）（e）（f）图7：NYUD-v2数据集表面法线的视觉结果。(a)原始RGB图像;（1）预测[14];(c) [ 5 ]的预测;（d）[ 38 ]的预测;（e）我们的预测;（f）地面实况。iments采用ResNet-18作为主干，并在NYUD-v2数据集上进行了三项任务的训练。单任务与多任务学习。为了验证联合预测分割，深度和表面法线与我们的PSD方法的有效性，我们首先预测每个然后用我们的任务内和任务间PSD联合预测三个任务。为了反映基本的比较，我们在单一尺度（1尺度的输入）上进行实验。如表5所示，联合任务模型的性能总体上比单任务模型高出网络设置分析。我们进行了一系列的实验，以评估每个模块的影响，在我们的方法数据Lo韦尔群岛更好越高越好RMSERELRMSE-日志δ 1 = 1。25δ2 =1时。252δ3 =1时。253PAD-Net [49]7950.5820.120-0.8170.9540.987Wang等人 [45个]7950.7450.2200.2620.6050.8900.970Li等人[29日]7950.8210.232-0.6210.8860.968Xu等人[五十一]7950.5930.125-0.8060.9520.986Lee等人[28日]7950.5380.1480.1800.8370.9710.994帕普[55]7950.5300.1420.1900.8180.9570.988Eigen等人[第十一届]120k0.8770.2140.2850.6110.8870.971[14]第十四话120k0.6410.1580.2140.7690.9500.988[18]第十八话120k0.5090.115-0.8280.9650.992AdaD-S [34]100k0.5060.114-0.8560.9660.991多尺度通用报告格式[50]95k0.5860.121-0.8110.9540.987[38]第三十八话16k0.5690.128-0.8340.9600.990Laina等人[27日]12k0.5730.1270.1940.8110.9530.988TRL [53]12k0.5010.1440.1810.8150.9620.9924523MiouRMSENor-RMSE1616表5：单任务与多任务学习0.590.580.570.560.550.3000.2950.2900.2850.2800.2750.490.480.470.460.450.440.430.590.580.570.560.550.2900.2850.2800.2750.2700.2650.460.450.440.430.420.5492549810.270(a) 节点号0.42925 4981(b)节点号0.54036912150.260(c)迭代次数0.4103691215(d)迭代次数表6：NYUD-v2数据集的网络设置分析模型MiouRMSENor-RMSE基线40.90.58529.2朴素融合42.10.57628.7十字绣[22]43.40.55428.4+ 任务内PSD42.20.57828.3+ 任务间PSD43.10.56527.8+ 小尺度任务内44.90.54826.9+ 任务内任务间PSD（中尺度）46.30.53426.6+ 大规模任务内47.20.52626.1+ 所有尺度50.00.49825.8图9：（a）RMSE（左轴，越低越好）和Nor- RMSE（右轴，越低越好）和（b）PSD相对于graphlet尺寸的mIoU（越高越好）;（c）RMSE和Nor- RMSE以及（d）PSD相对于迭代次数的mIoU。mance随着graphlet尺寸的增加而变好，然后在尺寸为25时达到最佳。原因应该是两个方面：i）随着小图尺寸的增加，更多的模式结构将被扩散，这使得相关性变得更加复杂并且对特征响应更加敏感（2）在一定程度上，随着扩散感受野的增大，某些细节可能模糊化。此外，25的大小比9的大小带来有限的改进，同时花费更重的内存和计算，这可以被视为一种权衡。扩散迭代次数的分析。在图9中，我们显示了不同迭代次数的结果。这里我们只在1上设置任务内和任务间PSD规模（图8：响应图的可视化。(a)原始RGB图像;（b）基线;（c）朴素融合;（d）任务内PSD;（e）任务间PSD;（f）&中等等级的任务内任务间PSD建议网络如表6所示，输入的大小为9。我们可以观察到，性能首先增加，当迭代次数为9时趋于饱和。结果表明，随着迭代次数的增加，该模型可以捕捉到更长距离的相关性.然而，传输距离过远也会对当前区域格局带来一定的负面影响。这可能是因为，在像素级预测任务中，每个像素高度依赖于它的邻居，而不是太远的像素，除非相似的模式结构。显示在1规模5. 结论输入. 基线表示联合训练的模型三个任务没有任何互动。我们也比较在相同设置下的两种特征融合方法，即，简单融合和十字绣[22]。前者直接连接跨任务功能。后者增加了交叉缝合单位基线.我们可以观察到，这两种性能都比我们的差。其背后的原因应该是，这两种方法只是结合了特征，而不是挖掘/利用模式结构。接下来，我们将任务内或任务间PSD添加到基线。性能的提高表明了每个模块的优点。此外，我们还研究了不同尺度的影响。结果报告在表6的最后四行中。更大的尺度导致更好的性能，因为在更大的尺度下更精细的图案可以被解码以更好地估计像素级的细微信息。此外，我们在图8中显示了一些定性的视觉结果。我们可以发现，任务内和任务间PSD都可以很好地提高像素级语义理解。石墨尺寸分析。在这里，我们进行实验以研究小图形大小的影响（即，节点编号）。从图9、我们可以观察到，在本文中，我们提出了多任务学习的模式结构扩散（PSD）框架设计了两种类型的模式-结构扩散阶段，以有效地挖掘和传播任务内/跨任务的关系借助这两种PSD策略，跨任务的交互可以与模式结构以及相关性联系起来此外，利用小图来建模模式结构，这可以带来低计算和内存负担的额外好处。最后，所有这些扩散模型被封装到PSD层中，该PSD层可以灵活地并入那些一般的深度网络。大量的实验证明，我们可以受益于模式-结构扩散的深度，分割和表面法线的联合预测。在未来，我们可以将我们的方法推广到计算机视觉的其他任务。确认这项工作得到了国家自然科学基金的支持。国家自然科学基金项目（资助号：61772276、61906094、61972204、U1713208）和江苏省自然科学基金项目（资助号：BK 20190019）。RMSENor-RMSEMiou设置mIoU RMSENor-RMSE仅语义42.4--仅限深度-0.572-仅曲面法线- -29.0三项任务联合44.9 0.54826.94524引用[1] Jalali Ali，Sanghavi Sujay，Ruan Chao，and RavikumarPradeep K.多任务学习的脏模型在NeurIP-S，第964-972页[2] Saxena Ashutosh，Sun Min和Ng Andrew Y. Make3d：从单个静态图像学习3D场景结构。TPA-MI，31（5）：824[3] Saxena Ashutosh，Chung Sung H，and Ng Andrew Y.从单个单目图像学习深度。NeurIPS，第1161-1168页，2006年[4] Vijay Badrinarayanan Alex Kendall 和 Roberto CipollaSegnet：用于图像分割的深度卷积编码器-解码器架构。IEEE Transactions on Pattern Anal-ysis and MachineIntelligence，39（12）：2481[5] Aayush Bansal、Bryan Russell和Abhinav Gupta。Marr再访：经由表面法线预测的2D-3D对准。在CVPR中，第5965-5974页[6] 陈晨毅，阿里·谢夫，阿兰·科恩豪泽，肖健雄.深度驾驶：自动驾驶中的直接感知学习启示。在CVPR中，第2722-2730页[7] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义TPAMI，40（4）：834[8] 放大图片作者：Alexander H.刘燕成，王玉强。对于场景理解：具有语义感知表示的无监督单目深度估计。在CVPR，2019年6月。[9] 陈玉华、李文、陈晓然和吕克·凡古。从合成数据中学习语义分割：几何学引导的输入-输出自适应方法。在CVPR中，第1841-1850页[10] Yanhua Cheng，Rui Cai ，Zhiwei Li ，Xin Zhao，andKaiqi Huang.用于rgb-d室内语义分割的局部敏感解卷积网络与在CVPR中，第3029-3037页[11] Eigen David，Puhrsch Christian和Fergus Rob。使用多尺度深度网络从单个图像进行深度在NeurIPS，第2366-2374页[12] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。在CVPR，第248-255页中。Ieee，2009年。[13] Zhuo Deng，Sinisa Todorovic，and Longin Jan Latecki.互斥约束下的rgbd图像语义分割在CVPR，第1733-1741页[14] David Eigen和Rob Fergus。使用通用多尺度卷积架构预测深度、表面法线和语义标签在CVPR，第2650-2658页[15] Pedro F Felzenszwalb和Daniel P Huttenlocher。高效的基于图的图像分割。国际计算机视觉杂志，59（2）：167[16] David F Fouhey，Abhinav Gupta，and Martial Hebert.用于单个图像理解的数据驱动的3d基元。在CVPR，第3392-3399页[17] David Ford Fouhey，Abhinav Gupta，and Martial Heb

下载后可阅读完整内容，剩余1页未读，立即下载