联合任务：递归学习的语义分割和深度估计

163 浏览量更新于2023-10-13 收藏 1.34MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

联合任务-递归学习的语义分割和深度估计Zhenyu Zhang1，Zhen Cui1，Chunyan Xu1，Zequn Jie2，Xiang Li1，JianYang11PCA实验室、面向高维信息的智能感知与系统教育部重点实验室、南京理工大学计算机科学与工程学院面向社会保障的图像与视频理解江苏省重点实验室2腾讯AI实验室{zhangjesse，zhen.cui，cyx，xiang.li.implus，jyang}@ njust.edu.cn{zequn.nus}@ gmail.com抽象。在本文中，我们提出了一种新的联合任务递归学习（TRL）的闭环语义分割和单目深度估计任务的框架。TRL可以通过序列化的任务级交互递归地细化两个任务的为了相互促进，我们将交互封装到一个特定的任务 - 注意力模块（TAM）中，以自适应地增强两个任务的一些交互模式此外，为了使推理更可信，我们通过显式地连接先前的响应，将先前在两个任务上的学习经验传播到下一个网络演化中。任务级交互的序列最终沿着从粗到细的尺度空间演变在NYU-Depth v2和SUN RGB-D数据集上的大量实验表明，我们的方法在单目深度估计和语义分割方面取得了最先进的关键词：深度估计，语义分割，递归学习，递归神经网络，深度学习1介绍单目图像的语义分割和深度估计是计算机视觉中的两个具有挑战性的任务，这是由于缺乏可靠的场景线索最近，在深度学习技术的推动下，对它们的研究取得了很大进展，并开始受益于一些潜在的应用，如场景理解[1]，机器人[2]，自动驾驶[3]和同步定位和映射（SLAM）系统[4]。尽管深度学习（特别是CNN）在单目深度估计方面取得了成功[5][6][7][8][9]和语义分割[10] [11] [12] [13]，这些方法大多强调学习鲁棒回归，但很少考虑它们之间的相互作用通讯作者：甄翠和杨健。2Z. Zhang，Z.Cui，C.Xu，Z.Jie，X.Li，J.杨谭谭谭谭CNNCNNCNNCNN谭CNN…Dt-1St-1DtStDt+1图1.一、说明我们的主要想法。这两个任务（即，深度估计和语义分割）被逐步细化以形成任务交替状态序列。在时间片t处，我们将任务状态分别表示为Dt和St。先前的任务相关的经验和信息的其他任务自适应地传播到下一个新的状态（DT）通过设计的任务交互模块称为任务注意模块（TAM）。双任务的进化-交替过程最终被框架化为所提出的任务递归学习。实际上，这两个任务有一些共同的特点，可以相互利用。例如，场景的语义分割和深度都可以揭示布局和对象形状/边界。文献[14]中的最近工作还表明，利用来自RGB-D数据的深度信息可以促进语义分割。因此，应考虑两项任务的联合学习，以相互促进。现有的两个任务的联合学习属于多任务学习的范畴，这在过去的几十年中得到了广泛的研究[15]。它涉及许多交叉任务，例如检测和分类[16][17]，深度估计和图像分解[18]，图像分割和分类[19]，以及深度估计和语义分割[20] [21] [22]等。但现有的联合学习方法主要属于浅层任务级交互。例如，共享的深度网络用于提取两个任务的共同特征，并从高级层分叉以单独执行两个任务[16][17][22][19][21][18]。因此，在这些方法中，由于任务之间的相对独立性，采取较少的交互。然而，众所周知，人类学习系统受益于不同任务之间的迭代/循环交互过程[23]。举一个最简单的常识性例子，交替阅读和写作可以迅速提高人在这两方面的能力。因此，我们争论任务交替学习（如交叉分割和深度估计）是否可以随着深度学习的突破而更深入。为了解决这个问题，在本文中，我们提出了一种新的联合任务递归学习（TRL）框架，闭环语义分割和深度估计室内场景。两个任务之间的交互被序列化为新创建的时间轴，如图所示1.一、沿着时间维度，两个任务{D，S}相互协作以提高彼此的性能。在每次交互中，先前状态的历史经验（即，两个任务的先前时间步的特征）将被选择性地传播，并帮助估计新的状态，如弧形和水平黑色箭头所示。为了正确传播信息流，我们设计了一个任务-用于语义分割深度估计的TRL算法3注意模块（TAM）来关联两个任务，其中与当前任务相关的有用公共信息将被增强，同时抑制与任务无关的信息。因此，这两个任务的学习过程可以很容易地模块化成一个序列网络称为任务递归学习网络在本文中。此外，考虑到高分辨率像素级预测的困难，我们推导出一系列由粗到细的尺度上的递归任务学习，这将逐步细化估计结果的细节大量的实验表明，我们提出的任务递归学习可以使这两个任务相互受益。总之，本文的贡献有三个方面：– 提出了一种新的联合任务递归学习（TRL）框架的语义分割和深度估计。TRL将问题序列化为任务交替的时间序列，通过适当地传播信息流，可以逐步细化和相互促进两个任务。– 设计一个任务-注意力模块（TAM）来封装两个任务的交互，从而可以作为一个通用的层或模块应用于传统的网络– 验证了深度任务交替机制的有效性，并在NYU Depth V2和SUNRGBD数据集上实现了深度估计和语义分割双重任务的一些新的最先进的结果。2相关工作深度估计：已经提出了许多工作用于单目深度估计。 Eigen等人[5，24]提出了一种多级CNN来解决单眼深度预测。 Liu等人[25]和李等。[26]利用CRF模型来捕获局部图像纹理并指导网络学习过程。最近，Laina等人 [7]提出了一种具有上投影的全卷积网络，以实现高效的上采样过程。 Xu等人[6]采用多尺度连续CRF作为深度顺序网络。与这些方法相比，我们的方法侧重于双任务学习，并试图利用分割线索来促进深度预测。语义分割：大多数方法[10，11，27-随着大型RGBD数据集的发布，一些方法[30，31]试图融合深度信息以进行更好的分割。最近，Cheng et al. [32]从RGB图像和HHA深度图像计算亲和矩阵，以更好地对重要位置进行上采样。与这些基于RGBD的方法不同，我们的方法不直接使用深度的真实值，而是使用估计的深度进行语义分割，因此本质上属于RGB图像分割的范畴多任务学习：通用多任务学习问题[15]已经被研究了很长一段时间，并且在不同的研究领域开发了许多方法，例如表征学习[33 - 35]，迁移学习[36，37]，计算机视觉[38，16，19，39，17，40]。在这里，最相关的工作是计算机视觉的多任务学习方法例如，4Z. Zhang，Z.Cui，C.Xu，Z.Jie，X.Li，J.杨DS文献[21，22]利用具有分层CRF和多解码器的CNN来获得深度估计和语义分割。在文献[19]中，提出了一种十字绣单元，以更好地交互两个任务。最近提出的Ubernet [40]试图在内存有限的情况下为不同数据集上的各种任务提供解决方案。与以前的工作不同，我们提出的TR-L将多任务学习作为任务交互的一种深层方式。具体地，深度估计和语义分割在一般递归架构中相互提升和细化。3方法3.1动机在这里，我们专注于两个任务，包括深度估计和语义分割从单目RGB图像的交互式学习问题。我们的动力主要来自两个方面：i）人类学习受益于任务之间的迭代/循环交互过程[23]; ii）这样的一对任务除了共享一些共同的信息之外在某种程度上是互补的。因此，我们的目标是使任务层次的交互更深入，使两个任务相互促进。主要思想如图所示。1.我们将任务交替学习过程定义为一系列沿时间轴的状态转换。形式上，我们将深度估计和语义分割任务的状态分别表示为时间步长p处的Dp和Sp，并且将时间步长p处的相关性表示为D p和S p响应为fp和fp。假设先前获得的经验如Fp− 1：p−k ={f p− 1，f p− 2，. . . ，f p−k}和Fp− 1：p−k ={f p− 1，f p−2，. . . ，f p−k}，D D D D S S S然后我们将时间剪辑p处的双任务学习公式化为. D p = Φp（T（Fp−1：p−k，Fp−1：p−k），Θp）D DSD，（1）S p = Φp（T（Fp：p−k +1，Fp−1：p−k），Θp）S D S其中T是交互函数（被设计为下面的任务注意力模块Φp和Φp是用pa预测下一个状态的变换函数D Sp p参数ΘD和ΘS 学习。作为时间片p，深度估计Dp是在先前k阶经验Fp−1：p−k和Fp−1：p−k的条件下，D S分割S t依赖于Fp：p−k +1和Fp−1：p−k。这样一来D S这两项任务的历史经验将随着时间而传播使用TAM的序列。这意味着，双任务交互将沿着状态序列深入。作为一个总体思路，该框架可以适应其他双任务应用程序，甚至多任务学习。我们在补充材料中给出了多任务学习的公式。在本文中，我们简单地设置k= 1在Eqn。1，即，短期依赖。3.2网络架构概述整个网络架构如图所示。2.我们使用复杂的ResNet [41]对输入图像进行编码。Res-2的灰色立方体用于语义分割深度估计的TRL算法5Res-d2Res-d7Res-d6Res-d5Res-d4Res-d3480x640423T TT T TCA AA A A A A A AM MM M4 43 32比例尺-1 30 x 40不级联上采样块一M比例尺-2 60 x80任务注意模块比例尺-3 120 x160残余块比例尺-4 240 x 320卷积层图二.我们的任务递归学习（TRL）网络的概述。TRL网络是一种编码器-解码器架构，其由一系列残差块、上采样块和任务注意模块组成。输入的RGB图像首先被馈送到ResNet中以编码多级特征，然后这些特征被馈送到任务递归解码过程中以估计深度和语义分割。在解码器中，通过自适应地演进两个任务的先前经验（即，深度和分割的先前特征），以便在学习过程中相互促进和受益为了估计当前任务状态，将两个任务的先前特征馈送到TAM中以增强共同信息。为了更好地细化预测的细节，我们在由粗到细的尺度空间中逐步到Res-5是从ResNet提取的多尺度响应图。接下来的解码过程是基于任务递归的思想设计的，以解决双重任务。解码器由上采样模块、任务注意模块和剩余模块组成。上采样块将卷积特征放大到像素级预测所需的尺度。详细的架构将在下面的小节中介绍。对于像素级预测，我们引入残差块（蓝色立方体）来解码先前的特征，这些特征是编码器中对应特征的镜像类型，但在每个残差块中只有两个瓶颈。Res-d1，Res-d3，Res-d5和Res-d 7专注于深度估计，而其余的专注于语义分割。TAM被设计为执行两个任务的交互。在交互过程中，先前的信息将被选择性地增强以适应当前任务。例如，Res-d5之前的TAM从两个源接收输入：一个是利用分割信息从Res-d4上采样的特征，另一个是利用深度信息从Res-d3上采样的特征。在交互过程中，两个输入的信息将被选择性地增强以传播到下一个任务。随着交互时间的增加，两个任务的结果在相互提升的方案中逐渐细化另一种导入策略是采取由粗到细的过程来逐步重建细节并产生高分辨率的细粒度预测。具体地，我们将编码器的不同尺度特征连接到相应的残差块，如绿色箭头所示。上采样块和任务注意力模块将在以下小节中描述。CRes-d8Res-5Res-4Res-3Res-2Conv-Res-d126Z. Zhang，Z.Cui，C.Xu，Z.Jie，X.Li，J.杨门单元下来下上上样品样品样品样品Concatenate门单元分割特征平衡单元深度特征DST任务注意一M模块上采样块特征H xW x CConv-4高x宽x高/2Conv-3高x宽x C/2Conv-2高x宽x C/2Conv-1高x宽x C/2(a)（b）第（1）款图3.第三章。我们的上采样模块和任务注意力模块的概述任务注意力模块如第1节中所讨论的，场景的语义分割和深度估计结果具有许多共同模式，例如，它们都可以显示对象边缘、边界或布局。为了更好地挖掘和利用共同信息，我们设计了一个任务注意模块来增强两个任务的相关信息。如示于图在图2中，TAM在每个残差块之前使用，并且将来自先前残差块的深度/分段特征作为输入。设计的TAM如图3（a）所示输入的深度/分割特征首先被馈送到平衡单元中以平衡两个源的特征的贡献。如果我们使用fd和fs∈RH×W×C分别表示接收到的深度和分割特征，则平衡单元可以被公式化为：B=Sigm〇ld（Ψ1（concat（fd，fs），Θ1）），fb=Ψ2 （ concat （ B·fd ，（ 1-B ） ·fs ）， θ2 ），（ 2）其中Ψ1和Ψ2分别是具有参数Θ1和Θ2的所有层的互补逻辑。B∈R H×W×C是学习的平衡张量，fb∈R H×W×C是平衡单元的平衡输出。以这种方式，fb组合来自两个源的平衡信息接下来，平衡输出将被馈送到一系列conv-deconvolutional层中，如图3（a）中的黄色立方体所示。这种机制被设计为通过使用感受野变化来获得不同的空间注意力，如剩余注意力中所示[42]。经过Sigmoid变换后，我们得到了一个注意力映射M ∈ RH ×W×C，期望它对常见模式有更高的反应。最后，注意力张量M用于生成门控深度/分割特征，形式上，fg=（1 + M）·fd，fg=（1 + M）·fs。（三）因此，可以通过所学习的注意力图M来增强特征fd和fs门控特征fg和fg通过级联被进一步融合，随后Ds子像素层2 H x2 W x C/2级联高x宽x 2C乙状用于语义分割深度估计的TRL算法72c5一个卷积层。TAM的输出表示为fTAM∈RH×W×C。任务注意模块可以使我们的任务递归学习方法受益，如第4.2节中的实验分析。上采样块上采样块被设计为在任务递归学习期间匹配尺度变化。上采样块的架构如图1所示。3（b）款。首先将大小为H×W×C的特征馈送到具有不同感受野的四个并行卷积层（即，图中的conv-1至conv-4。（3）第三章。这四个卷积层被设计为捕获不同的局部结构。然后，将四个卷积层产生的响应连接到大小为H×W×2C的张量特征。最后，应用[43]中的子像素操作来在空间上放大特征。形式上，给定张量特征T和坐标[h，w，c]，子像素算子可以被定义为：P（Th，w，c）=Th/r，w/r，c·r·mod（w，r）+c·mod（h，r），（4）其中r是比例因子。在这样的子像素操作之后，当我们设置r= 2时，一个上采样块的输出是大小为2H× 2W×C/ 2的特征上采样块比一般去卷积更有效，如在第4.2节中的实验中所验证的。3.3训练损失我们对每个尺度施加监督损失约束，以获得多尺度预测。对于深度估计，我们使用[7]中定义的逆Huber损失作为损失函数，其可以公式化为：.LD（d）=|、|D i|≤ c，|≤c,（五）我2 2di+c，|Di|>c，其中di是每个像素处的预测与地面实况之间的差i，并且c是阈值，其中c= lmax（di）作为默认值。这样的损失函数可以在深度差低的位置处提供更明显的梯度用于语义分割的损失函数是交叉熵损失，表示为L_S。为了更好地优化我们提出的双任务网络，我们使用[22]中提出的策略来平衡两个任务。假设网络预测N对（w.r.t. N个尺度），总损失函数可以被定义为：L（Θ，σ1，σ2）=1ΣNLD+1ΣNLS+ log（σ2）+log（σ2），（6）2N1n=12 n 1 22n=1其中Θ是网络的参数，σ1和σ2是两个任务的平衡权重。请注意，平衡配重也被优化为σσ8Z. Zhang，Z.Cui，C.Xu，Z.Jie，X.Li，J.杨nn训练中的参数在实践中，为了避免可能被零除，我们重新定义δ=logσ2。因此，总损失可以重写为：L（W，δ1，δ2）=exp（−δ1）ΣNn=1LD+exp（−δ2）ΣNn=1LS+ δ1+ δ2。（七）4实验4.1实验设置数据集：我们评估了我们提出的方法在NYU Depth V2 [1]和SUN RGBD[44]数据集上的有效性。NYU Depth v2数据集[1]由464个室内场景的RGB-D图像组成有1449个图像的语义标签，其中795个用于训练，其余654个图像用于测试。我们从官方训练场景中随机选择原始数据的4k图像。这些4k图像具有对应的深度图，但没有语义标签。在训练我们的网络之前，我们首先使用给定的795张图像训练基于ResNet-50的DeconvNet [11]进行40类语义分割然后，我们使用训练后的DeconvNet对4k图像的最后，我们对795张标准训练分割图像的网络进行微调。SUN RGBD数据集[44]包含10355个带有语义标签的RGB-D图像，其中5285个用于训练，5050个用于测试。我们使用5285张带有深度和语义标签的图像来训练我们的网络，并使用5050张图像进行评估。语义标签分为37类。根据[7，24，6，32]中的设置，我们使用相同的数据增强策略，包括裁剪，缩放，翻转和旋转，以增加数据的多样性。由于最大的输出是输入图像的一半大小，我们将预测的分割结果和深度图上采样到原始大小进行比较。实施详情：我们实现了所提出的模型，使用Py-火炬在一个单一的Nvidia P40 GPU。我们基于ResNet-18，ResNet-50和ResNet-101构建网络，每个模型都在ImageNet分类任务上进行了预训练[45]。ReLU激活函数和批量归一化应用于每个卷积层之后，除了预测之前的最终卷积层。在上采样块中，我们将conv-1、conv-2、conv-3和conv-4分别设置为1×1、3×3、5×5和7×7的内核大小。请注意，我们使用3×3卷积，膨胀=2，以有效地获得7×7的感受野。对于测试日志的部分，我们仅使用δ1=δ2=0的独立值。5，Eqn。 7，并发现不同的初始值对性能没有大的影响。对于预训练的卷积层，初始学习速率设置为10- 5，对于其他层，初始学习速率设置为0.01。对于NYU Depth v2数据集，我们在40K批迭代中使用粗略的语义标签和深度真实值在4k个独特的图像上训练我们的模型，然后在10K批迭代中使用深度和分割真实值在795个图像上以0.001的学习率微调模型对于SUN-RGBD数据集，我们在初始学习率使用50 K批处理迭代来训练我们的模型用于语义分割深度估计的TRL算法93万次批量迭代，学习率为0.001。动量和权重衰减分别设置为0.9和0.0005，网络使用批大小为16的由于深度地面实况图中存在许多缺失值，因此遵循文献[7，24]，我们在训练和测试阶段都屏蔽掉具有缺失深度的像素。度量：与先前的工作[7，24，6]类似，我们使用以下度量来评估我们的深度– 平均相对误差（rel）：1Σ|;|;n– 均方根误差（rms）：我Xi1Σ（x~−x）2;尼伊岛– 对数空间均方根误差（rms（log））：1Σ（logx~− logx）2;nii i– 具有h_re_s_h（δ）的ac_c_y：x~s的%。t. max（x~i，xi）=δδ=1。25，1。2521 253;ixix~i其中，xi是像素i处的预测深度值，n是有效像素的数量，并且xi是地面真值。对于语义分割结果的评估，我们遵循最近的工作[32，27，46]，并使用常见的度量，包括像素准确度（像素- acc），平均准确度（平均-acc）和平均交集超过并集（平均-IoU）。4.2消融研究在本节中，我们进行了几个实验来评估有效性我们提出的方法。下面介绍具体的烧蚀研究。任务分析：我们首先分析联合预测深度和分割一个图像的好处。实验使用与我们基于ResNet-18的网络相同的网络架构，并在NYUDepth v2和SUN-RGBD数据集上进行训练，分别用于深度估计和分割。如表1所示，我们提出的TRL网络在深度估计和语义分割的联合学习下显然彼此受益。对于NYU Depth v2数据集，与深度估计的增益相比，语义分割在双任务学习后具有更大的增益，即，平均分类准确率提高了4.1%，IoU提高了3.0%一个可能的原因应该是4k深度图像的数据比795个图像的语义标签更多。相反，对于SUN-RGBD数据集，所有训练样本都具有深度和语义基础事实，即，两个任务的训练样本是平衡的。我们可以观察到，在提出的任务递归学习的框架下，两个任务的性能可以相互促进。架构和基线：我们进行实验，以分析不同的网络架构的效果。我们使用相同的编码器但两个并行解码器来设置基线网络每个解码器对应于一个任务，该任务包含使用与原始TRL网络解码器相同类型的四个残差块为了柔和地共享参数并交互两个任务，类似于[19]中的方法，我们使用十字绣单元来融合每个尺度的特征为了评估任务-注意模块的有效性，进一步，我们执行了.10Z. Zhang，Z.Cui，C.Xu，Z.Jie，X.Li，J.杨表1.联合任务学习与在NYU Depth V2和SUN-RGBD数据集上进行单任务学习。NYU-D SUN-RGBD表2.在NYU Depth v2数据集上比较不同的网络架构和基线方法rms rel平均访问IoU(a)（b）（c）（d）（a）（b）（c）（d）图4.第一章学习的注意力地图的视觉展示（a）输入图像;（c）深度地面实况;（d）学习注意地图。我们可以发现，注意力地图对对象、边缘和边界给予高度关注，这些在两个地面实况地图中都非常突出，即，更多关注有用的公共信息。没有TAM的实验为了验证先前阶段的历史经验的重要性不考虑TAM和来自先前残余块的特征此外，我们还评估了其他三个尺度（从尺度-1到尺度-3）的预测能力所有这些实验模型都以ResNet-18作为基础设施。在外部，我们还训练了基于ResNet-50和ResNet-101的TRL网络，以分析更深层编码网络的影响。如表2所示，我们提出的TRL网络在这两项任务上的表现明显优于基线。与不带TAM的TRL网络相比，TRL网络在两个任务上都能获得更好的性能它表明度量均方根相对平均访问IOU RMSrel平均访问IOU仅限深度0.547 0.172--0.517 0.163--仅分割- -51.242.0--54.143.5TRL联合0.510 0.15655.345.0 0.468 0.14056.346.3基线-I0.545 0.17153.543.2TRL（不含TAM）0.526 0.15354.043.6TRL，不含exp-TAM0.540 0.16752.542.2TRL w/o门单元0.515 0.16055.044.7TRL量表-10.597 0.20250.140.3TRL量表-20.572 0.19851.941.0TRL量表-30.541 0.16653.243.8TRL-ResNet180.510 0.15655.345.0TRL-ResNet500.501 0.14456.346.4用于语义分割深度估计的TRL算法11(a)（b）（c）（d）（e）（a）（b）（c）（d）（e）图五. TRL与NYU Depth V2和SUN RGBD上的基线之间的目视比较。(a)输入图像;（b）地面实况;（c）基线结果;（d）不含TAM的TRL结果;（e）TRL网络的结果。可以观察到，我们提出的TRL的预测结果包含更少的错误，遭受更少的类歧义。TAM可以潜在地采用两个任务的一些共同模式来促进性能。为此，我们还直观地展示了从TAM学习的注意力图 M如图所示4、注意力地图对物体、边缘和边界具有这些特征共同存在于两个任务中，因此可以使TAM捕获这样的共同信息以促进两个任务。对于没有历史经验机制的情况，即，在不含exp-TAMs的TRL中，原TRL在两个任务上的累积增益为21.4%，这表明经验机制对任务递归学习过程也是至关重要的。在TAM没有门单元的情况下，即，TRL w/o门单元，结果精度略有下降。当规模增加时，即，通过从粗到细的方式，在两个任务上性能都逐渐提高。一个明显的原因是，细节可以更好地重建在这些细尺度空间。此外，当采用更复杂和更深入的编码器ResNet-50和ResNet-101时，所提出的TRL网络可以提高性能，这可以很容易地理解为其他文献中的相同观察结果。对于可视化分析，我们在图5中示出了基线和TRL的一些预测结果从该图中，我们可以观察到两个基线遭受明显的分类误差，尤其是如白色边界框中所示。相比之下，TRL的预测结果遭受更少的类别歧义，并且在视觉上更合理。更多的消融研究和视觉结果可以在我们的补充材料中找到。4.3与最先进方法的在本节中，我们将我们的方法与两个任务上的几种最先进的方法进行比较。实验在NYU Depth V2和SUN-RGBD数据集上进行，这将在下面讨论。深度估计：我们比较了我们在NYU深度V2数据集上的深度估计性能，并在表3中总结了结果从该表中可以看出，我们使用ResNet-50的 TRL网络在网络上实现了最佳性能12Z. Zhang，Z.Cui，C.Xu，Z.Jie，X.Li，J.杨表3.与NYU Depth V2数据集上最先进的深度估计方法进行比较方法RMSrel均方根（对数）δ1δ2δ3李[26]0.821 0.232-0.621 0.886 0.968刘[25]0.824 0.230-0.614 0.883 0.971王[21]0.745 0.2200.2620.605 0.890 0.970本征[5]0.877 0.2140.2850.611 0.887 0.971罗伊[47]0.744 0.187----[24]第二十四话0.641 0.1580.2140.769 0.950 0.988曹[48]0.615 0.148-0.800 0.956 0.988[6]第六话0.613 0.143-0.789 0.946 0.984Xu-95k [6]0.586 0.121-0.811 0.954 0.987莱娜[7]0.573 0.1270.1940.811 0.953 0.988TRL-ResNet18 0.510 0.1560.1870.804 0.951 0.990TRL-ResNet50 0.501 0.144 0.181 0.815 0.962rms、rms（log）和δ精度指标，而使用ResNet-18的该版本也获得了令人满意的结果。与最近的方法[7]相比，我们的TRL在rel度量方面略差，但在其他度量方面明显优于，其中实现了7.67%的相对增益值得注意的是，文献[7]中的与[6]中的方法相比，我们有相同的观察，即我们的TRL在rel度量方面稍差，但在所有其他度量方面都有明显的改善。请注意，[6]中的方法试图使用更多的训练图像（95k）来提高深度估计的性能。然而，如果训练数据减少到4.7k，则[6]中的方法的精度明显下降。相比之下，在训练数据几乎相等的情况下，我们的TRL在大多数指标上仍然可以达到最佳性能。此外，为了提供视觉观察，我们在图1中示出了一些视觉比较示例。6. [24，6]中的方法的预测结果通常有很多噪声，特别是在物体边界，窗帘，沙发和床。相反，我们的预测具有更少的噪声，并且更好地匹配场景的几何形状。因此，这些实验结果可以证明，我们提出的方法是更有效的比国家的最先进的方法，通过借用语义分割信息。RGBD语义分割：我们比较了我们的TRL方法与纽约大学深度V2和SUN RGBD数据集上的最先进方法。对于NYU Depth V2数据集，如表4所示，我们使用ResNet-50的TRL网络实现了最佳像素精度，但平均类别精度度量略差于[32]中的方法，平均IoU度量略差于[53]中的这可能归因于不完美的深度预测。实际上，[32，53]中的方法使用深度地面实况作为输入，并精心设计了一些深度RGB特征融合策略，以使分割预测更好地受益于深度地面实况。相比之下，我们的TRL用于语义分割深度估计的TRL算法13(a)（b）（c）（d）（e）（a）（b）（c）（d）（e）见图6。在NYU深度v2数据集上与一些最先进的方法进行定性比较。（a）输入RGB图像;（b）地面实况;（c）[24]的结果;（d）[6]的结果(e)我们使用ResNet-50的TRL结果。可以很容易地观察到，我们的预测包含更多的细节和更少的噪音比这些比较的方法。表4.比较NYU Depth v2数据集上最先进的语义分割方法方法数据像素访问平均访问IoU简体中文[CN]RGB60.049.229.2背景[49]RGB70.053.640.6Eigen等人[24日]RGB65.645.134.1B-SegNet [27]RGB68.045.832.4RefineNet-101 [46] RGB72.857.844.9Deng等人[50个]RGBD63.8-31.5He等人[三十一]RGBD70.153.840.1LSTM [51]RGBD-49.4-Cheng等人[32个]RGBD71.960.745.93D-GNN [52]RGBD-55.743.1RDF-50 [53]RGBD74.860.447.7TRL-ResNet18RGB74.355.545.0TRL-ResNet50RGB76.256.346.4该方法仅使用RGB图像作为输入，并基于估计的图像深度而不是深度地面实况进行语义分割。虽然我们的TRL本身可以获得令人印象深刻的深度估计结果，但深度估计仍然不如地面实况精确，这通常会导致分割预测过程中或多或少的错误。同时，由于在NYU Depth V2数据集（795张图像）的训练中具有语义标签的样本数量有限，因此我们的方法的性能可能会受到影响。对于SUN-RGBD数据集，如表5所示，我们使用ResNet-101的TRL网络可以在像素精度和平均IoU指标方面达到最佳性能。值得注意的是，在SUN-RGBD中，具有语义标签的训练样本的数量为5285，这比NYU Depth V2更多。因此，对于大多数方法，包括我们的TRL网络，这两个任务的性能完全优于NYU Depth V2。与中的方法相比14Z. Zhang，Z.Cui，C.Xu，Z.Jie，X.Li，J.杨表5.在SUN-RGBD数据集上与最先进的语义分割方法进行比较。方法数据像素访问平均访问IoU[53]，我们使用ResNet-50的TRL对所有指标的总增益为2.1%，而使用ResNet-101的版本获得了4.3%的总增益。请注意，[53]使用更强的ResNet-152和更精确的深度（即，地面实况）作为输入，而我们的TRL网络仅使用RGB图像作为输入。总的来说，我们的TRL优于目前国家的最先进的方法，在大多数评价指标，除了平均精度度量，我们的是稍微差，但可比的。5结论本文提出了一种新的端到端任务递归学习框架，用于从一幅RGB图像中联合预测深度图和语义分割。任务递归学习网络交替地将两个任务细化为时间状态的递归序列为了更好地利用深度和语义分割的相关和常见模式，我们还设计了一个任务-注意力模块。该模块能够自适应地挖掘两个任务的共同信息，鼓励双方交互学习，最终使双方受益全面的基准评估表明，我们的任务递归网络的优势，共同处理深度估计和语义分割。同时，我们还报告了NYU-Depth v2和SUN RGB-D数据集上的一些最新结果。在未来，我们将把这个框架推广到更多任务的联合学习中。6确认作者要感谢匿名评论者的批评性和建设性的意见和建议。本工作得到国家自然科学基金项目的资助。U1713208、61472187、61602244、61772276、973计划编号。2014CB349303，中央高校基础研究基金编号30918011321，长江学者项目。背景[49]RGB78.453.442.3B-SegNet [27]RGB71.245.930.7RefineNet-101 [46] RGB80.457.845.7RefineNet-152 [46] RGB80.658.545.9LSTM [51]RGBD-48.1-Cheng等人[32个]RGBD-58.0-[54]RGBD--48.13D-GNN [52]RGBD-57.045.9RDF-152 [53]RGBD81.560.147.7TRL-ResNet18RGB81.156.346.3TRL-ResNet50RGB83.658.249.6TRL-ResNet101RGB84.358.950.3用于语义分割深度估计的TRL算法15引用1. Silberman，N.Hoiem，D.，Kohli，P.，Fergus，R.：室内分割和支持从RGBD图像中提取信息。 In：ECCV. （2012年）7462. Michels，J.，Saxena，A.，Ng，A.Y.：使用单目视觉的高速避障和目地识别。 In：ICML. （2005）5933. 哈德塞尔河Sermanet，P.，Ben，J.Erkan，A.，Scoffier，M.，Kavukcuoglu，K. ，穆勒大学 LeCun ， Y. ：学习自动越野驾驶的远程视觉JournalofFieldRobotics26（2）（2009）1204. Tateno，K.，Tombari，F.，莱娜岛Navab，N.：Cnn-slam：实时密集单芯片，其具有高度可扩展性。 In：CVPR. 第2卷。（20 17）65655. Eigen，D. Puhrsch，C. Fergus，R.：使用多个可计算的网络从单个图像进行深度图预测。 In：NIPS. （2014）23666. 徐，D.，Ricci，E.，欧阳，W.王，X.，Sebe，N.：多尺度连续CRF作为用于单目深度估计的顺序深度网络。在：CVPR中。第1卷（2017）16 17. 莱娜岛鲁普雷希特角Belagiannis，V.，Tombari，F.，Navab，N.：更深的深度预埋，在两个工作期间完全可以覆盖所有区域。 In：3DV. （2016）2398. 张志，徐，C.，杨杰，高，J.，崔，Z.：用于单目深度估计的渐进式硬采矿网络。IEEE Transactions on Image Processing 27（8）（2018）36 919. 张志，徐，C.，杨杰，Tai，Y.，Chen，L.：用于端到端深度估计的深度分层指导和正则化学习。模式识别（2018）43010. 朗J Shelhamer，E.，达雷尔，T.：用于语义分段的全卷积网络。IEEETransactions on Pattern Analysis and Machine Intelligence39（4）（2017）64011. 诺H Hong，S.，汉，B.：用于语义段的学习反卷积网络。 In：ICCV.（2015）152012. Li，X.，杰，Z.王伟，刘，C.，杨杰，沈，X.，林芝，陈昆，Yan，S.，Feng，J. ：Foveanet：Per spective-awar b anscene p a rs n e parsng。ICCV（2017）78413. 魏，Y.，梁湘，陈玉，杰，Z.肖，Y.，赵玉，Yan，S.：学习如何使用此信息级别的神经网络进行分段。第59卷（2016年）234- 244页14. 王杰，王志，Tao，D.，S.王G：使用解卷积网络学习rgb-d语义分割的共同和特定In：ECCV. （2016）66415. 卡鲁纳河：Multitasklearningg. MachineLearning28（1）（199 7）4116. Girshi ck，R. ：FastR-CNN。 In：ICCV. （201 5）144017. 他，K.，Gkioxari，G.，Doll，P.，Girshick，R.：面罩R-CNN。IEEE国际计算机视觉18. Kim，S.，Park，K.，Sohn，K.，Lin，S.：通过联合卷积神经场从单个图像进行统一的深度预测和固有图像分解。In：ECCV. （2016）14319. 米斯拉岛Shrivastava，A.，Gupta，A.，Hebert，M.：十字绣网络的多吨一个月。 In：CVPR. （2016）399420. Shi，J.， Polleefeys，M. ：将hings输出到p e rspective。 In：CVPR. （2014）8921. 王，P.，沈，X.，林芝，Cohen，S.：从语义到深度和语义的统一。

下载后可阅读完整内容，剩余1页未读，立即下载