基于多任务几何和语义场景理解的时间一致深度预测

107 浏览量更新于2023-10-17 收藏 2.25MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

3373Veritatem Dies Quarit- 通过多任务几何和语义场景理解方法实现的时间一致的深度预测Amir Atapour-Abarghouei1Toby P. Breckon1，21计算机科学系英国杜伦大学{amir.atapour-abarghouei，toby.breckon}@ durham.ac.uk摘要鲁棒的几何和语义场景理解在自动驾驶和机器人导航等许多现实应用中变得越来越重要。在本文中，我们提出了一种基于多任务学习的方法，能够联合执行几何和语义场景理解，即深度预测（单目深度估计和深度完成）和语义场景分割。在单个时间约束递归网络中，我们的方法独特地利用了一系列复杂的跳过连接，对抗训练和顺序帧递归的时间约束，以同时产生一致的深度和语义类标签。广泛的实验评估表明，我们的方法相比，其他当代国家的最先进的技术的有效性。1. 介绍随着场景理解由于其在工业和学术界感兴趣的许多领域的适用性而变得越来越受欢迎，场景深度作为这项任务的一个组成部分变得越来越重要。虽然在许多当前的自动驾驶解决方案中，使用不完美的立体摄像机设置或昂贵的LiDAR传感器来捕获深度，但最近的研究集中在改进后处理中损坏或缺失区域此外，单目深度估计作为其他更昂贵和性能有限的技术的廉价和创新替代方案，在研究界受到了极大的关注[8，24，29，87]。像素级图像理解，即语义分割，在许多基于视觉的系统中也起着重要作用。近年来，卷积神经网络（CNN）在该领域[10，17，53，66，70]以及许多其他领域（如图像分类[54]，对象检测[88]等）中真理之死：时间发现真理。图1：所提出的方法的示例结果。RGB：输入彩色图像;MDE ：单目深度估计 ; GSS ： Generated SemanticSegmentation生成的语义分割。在这项工作中，我们提出了一个能够通过联合预测深度和像素语义类来语义理解场景的模型该网络执行语义分割（第3. 3节）以及单目深度估计（即，基于单个RGB图像预测场景深度）或深度完成（即，完成通过其他不完善的手段感测到的现有深度的缺失区域我们的方法在单个模型（图2（A））中执行这些任务，该模型能够实现两个单独的场景理解目标，需要低级特征提取和高级推理，这导致模型内的改进和更深入的表示学习当以这种方式同时执行时，通过对每个单独任务获得的显著改进的结果来经验性地证明这一点。在当前的文献中，许多技术集中于单个帧以在空间上实现其目标，而忽略了视频序列中的时间一致性，这是现实世界应用中广泛可用的最有价值的信息源之一。在这项工作中，我们提出了一个反馈网络，在每一个时间步，在前一个时间步产生的输出作为一个经常性的输入。此外，使用预先训练的光流估计模型，我们确保在训练期间整个模型明确考虑时间信息（图2（A））。近年来，跳过连接已被证明3374图2：模型的整体训练过程（A）和生成器架构的详细概述（B）。当CNN的输入和输出共享类似的高级空间特征时，这是非常有效的[60，66，73，79]。我们利用一个复杂的网络跳过连接整个体系结构，以保证没有高层次的空间特征在训练过程中丢失的功能是下采样。简而言之，我们的主要贡献如下：• 深度预测-通过使用可以预测深度的复杂跳过连接进行对抗训练的监督多任务模型（单目深度估计和深度完成）已经在高质量的合成训练数据上训练[67]（第3.2节）。• 语义分割-通过相同的多任务模型，它能够执行的任务，视觉场景分割以及上述深度估计/完成（3.3节）。• 时间连续性-时间信息在训练过程中被明确考虑，从预先训练的冻结光流网络中租用网络反馈和梯度这导致了一种新的场景理解方法，能够在时间上一致的几何深度预测和语义场景分割，同时在单目深度估计[8，25，29，49，83，87]，完成[9，36，50，82]和se-center [8，25，29，49，83，87]的领域中优于先前的工作。Mantic segmentation [10，17，40，52，53，59，74，75，86].2. 相关工作我们考虑了三个不同领域的相关先前工作，语义分割（第2.1节），单眼深度估计（第2.2节）和深度完成（第2.3节）。2.1. 语义分割在文献中，使用全卷积网络[53]，保存的池化索引[10]，跳过连接[66]，多路径细化[48]，空间金字塔池化[85]，关注尺度或通道的注意力模块[18，81]等已经取得了有希望的结果。视频中的时间信息也被用来提高分割精度或效率。[26]提出了一种基于帧特征的时空LSTM，以获得更高的精度。标签在[58]中使用门控回流单元进行传播。在[27]中，来自先前帧的特征是通过流动矢量扭曲以加强当前帧特征。另一方面，[69]重用以前的帧特征以减少计算。在[89]中，光流网络[23]用于将特征从关键帧传播到当前帧。类似地，[77]使用自适应关键帧调度策略来提高准确性和效率。此外，[47]提出了一种自适应特征传播模块，该模块采用空间变化卷积来融合帧特征，从而进一步提高效率。尽管这项工作的主要目标不是语义分割，但可以证明，当主要目标（深度预测）与语义分割一起执行时，结果优于单独执行任务时的结果（表1）。2.2. 单目深度估计从单色图像估计深度是非常理想的，因为与立体对应[68]、运动结构[16]等[1，71]不同，它导致系统具有减小的尺寸、重量、功率和计算要求。例如，[11]采用稀疏编码来估计深度，而[24，25]从RGB和深度训练的双尺度网络生成深度。其他监督模型，如[45，46]，尽管缺乏监督的地面真实深度，但也取得了令人印象深刻的结果最近的工作已经导致了新技术的出现，该新技术通过在没有地面真实深度的立体对应框架内重建对应视图来计算视差。[76]的工作学习从用作输入的左图像生成同样，[29]使用双线性采样[39]和左/右一致性纳入训练以获得更好的结果。在[87]中，通过训练深度和姿态预测网络来估计深度和相机运动，通过视图合成间接监督[44]中的模型由稀疏地面真实深度监督，然后通过图像对齐损失在立体框架内强制执行模型以输出密集深度。此外，诸如[8]的当代监督方法已经采用合成深度数据来产生锐利和清晰的深度输出。在这项工作中，我们还在直接监督的训练框架中利用合成数据[67]来执行单目深度估计的任务。3375方法深度误差（更低，更好）深度精度（更高，更好）分割（更高，更好）ABS. Rel.平方Rel.RMSERMSE日志σ<1。25σ<1。252σ<1。253精度IOU两个模型0.2451.5136.3230.2740.8030.8560.8820.6040.672一个模型0.2081.4026.0260.2690.8360.9010.9260.7480.764表1：在一个单一网络和两个独立网络中执行的深度预测和分割任务的比较图3：当模型在具有和不具有时间一致性的情况下进行训练时，比较该方法在合成测试集上的结果。RGB：输入彩色图像; GTD：地面实况深度;地面实况分割; TS：时间分割; TD：时间深度; NS：非时间分割; ND：非时间深度。2.3. 深度完井虽然彩色图像修复一直是一个长期存在且完善的研究领域[3，13，21，62，72，80]，但其在深度模态中的使用效果要差得多[6]。在文献中已经存在各种深度完成技术，包括利用平滑先验的技术[33]、基于样本的深度修复[7]、低秩矩阵完成[78]、对象感知插值[5]、十变量投票[43]、基于傅立叶的深度填充[9]、背景表面外推[55，57]、基于学习的方法使用深度网络[4，84]等[12，19，51]。然而，先前的工作并不包括任何专注于在基于学习的方法中强制时间连续性的工作3. 该方法我们的方法旨在使用单个关节模型执行两项任务：深度估计/完成（第3.2节）和语义分割（第3.3节）。这已经使用合成数据集[67]成为可能，其中地面真实深度和像素分割标签都可用于城市驾驶场景的视频序列。3.1. 整体架构我们的单个网络采用三个不同的输入，为两个任务-深度预测和语义分割-产生两个独立的输出。此外，时间信息在我们的公式中是明确的，因为每个时间步的输入之一是通过递归从前一个时间步的输出该网络包括三个不同的组件：其中输入被编码的输入流（图2（B）-左），其中融合特征并开始解码过程的中间流（图2（B）-中），以及最后的其中产生结果的输出流（图2（B）-右）。如图2（A）所示，两个输入是来自当前和先前时间步长的RGB或RGB-D图像（取决于创建深度的单目深度估计或填充现有深度图像内的孔的深度完成是否两个输入流，代码共享它们的权重。第三个输入是在前一个时间步生成的深度。网络的中间部分融合并解码输入特征，最后输出流产生结果（场景深度和分割）。网络的每一层都包含两个卷积，批量归一化[37]和PReLU [31]。在最近使用跳过连接的方法取得成功之后[60，66，73，79]，我们在我们的架构中使用了一系列跳过我们的输入和输出，尽管包含不同类型的信息（RGB，深度和像素类标签），涉及来自同一场景的连续帧，因此，共享高频信息，如某些对象边界，结构，几何形状等，确保跳过连接可以在改善结果中具有重要价值。通过在我们的网络中组合两个单独的目标（预测深度和像素类标签），其中输入流和中间流在两个任务上都经过了充分的训练，结果比单独训练两个单独的网络来执行相同的任务时要好（表1）。即使整个网络被训练成一个实体，在我们的讨论中，负责预测深度的网络部分将被称为G1，而涉及语义分割的部分将被称为G2。这两个模块除了它们的输出流之外基本上是相同的。3.2. 深度估计/完成我们认为深度预测是一个有监督的图像到图像转换问题，其中输入RGB图像（用于深度估计）或RGB-D图像（深度通道包含用于深度完成的孔）被转换为完整的深度图像。更正式地说，生成模型（G1）近似于一个映射函数，该映射函数将图像x（具有孔的RGB或RGB-D）作为其输入，并输出放置图像y（完整深度图像）G1：x→y。初始解决方案将是最小化输出的像素值（G1（x））与地面实况深度（y）之间的欧几里得距离。这种简单的反射机制迫使模型生成图像，3376图4：比较该方法的性能与损失函数的不同组件删除。方法深度误差（更低，更好）深度精度（更高，更好）分割（更高，更好）表2：不同损失分量的数值结果T：时间训练;T：非时间训练;R：重构损失;A：对抗损失;SC：跳过连接;S：平滑损失;OF：光流。在结构上和语境上都接近事实真相。对于单目深度估计，该重建损失为：Lrec=||G1（x）− y||1、（1）其中x是输入图像，G1（x）是输出，y是地面真值。然而，对于深度完成，输入x是四通道RGB-D图像，其深度包含将在深度感测期间出现的孔。由于我们使用合成数据[67]，因此我们只能访问无孔像素-完美的地面实况深度。虽然人们可以像其他方法一样天真地剪切深度图像的随机部分来模拟孔[62，80]，但我们选择创建具有真实世界图像特征的逼真且语义有意义的孔[6]。因此，创建了一个单独的模型，其任务是预测然而，由于单目深度估计和深度完成是多模态问题，即，几个似乎合理的深度输出可以正确地对应于RGB图像的区域。这种多模态导致生成模型（G1）平均所有可能的模式，而不是选择一个，从而导致输出中的模糊效果。为了防止这种情况，对抗训练[30]在文献[8，22，38，62，80]中变得普遍，因为它迫使模型从导致更好质量输出的分布中选择一个模式。在这种情况下，我们的深度生成模型（G1）将x作为其输入，并产生假样本G1（x）=y，同时对样本（D）进行额外训练，以将假样本y与真实样本y区分开。因此，对抗性损失如下：孔将借助于逐像素分割。一30，000张立体图像[28]用于训练Ladv=最小最大G1DE[logD（x，y）]+x，y<$Pd（x，y）通过使用半全局匹配[34]计算视差并生成孔掩模来实现孔预测Ed（x）（三）[log（1−D（x，G1（x）]，（M），其指示哪些图像区域包含孔。左边的RGB图像用作输入，生成的掩码用作地面真值标签，交叉熵用作损失函数。当我们的主模型被训练来执行深度完成时，由孔预测网络生成的孔掩码被用来创建输入RGB-D图像的深度通道因此，重建损失为：Lrec=||（1 − M）<$G1（x）−（1 − M）<$y||第一条、第二条其中，x是逐元素乘积运算，x是输入RGB-D图像，其中深度通道是yM。L2损失的实验返回类似的结果。其中Pd是由y=G1（x）定义的数据分布，其中x是生成器输入，y是地面真值。此外，平滑项[29，32]用于鼓励模型生成更局部平滑的深度输出。使用L1正则化来惩罚输出深度梯度（RIG1（x）），并且使用基于输入图像梯度（RIG1（x））的边缘感知加权项，因为在最可能发现深度不连续的地方图像梯度更强。因此，平滑损失如下：Ls= |G1（x）|e||x||、（四）其中x是输入，G1（x）是深度输出。在垂直轴和水平轴上对gra进行求和。ABS.Rel.平方Rel.RMSERMSE日志σ<1。25σ<1。252σ<1。253精度IOUT/R0.9911.9647.3930.4020.5980.6840.6980.1560.335T/R/A0.8511.7986.8260.3680.6920.7500.7780.3410.435T/R/A/SC0.6551.6166.4730.2780.7530.8120.8380.6690.738T/R/A/SC/S0.4121.5736.2560.2580.7930.8750.8870.6930.741N/R/A/SC/S0.5341.6026.4690.2750.7580.8200.8560.6140.681T/R/A/SC/S/OF0.2081.4026.0260.2690.8360.9010.9260.7480.7643377方法IoU方法IoU[10]第十话46.4[59]第五十九话SegNet [10]50.2贝叶斯SegNet-Basic [40] 55.8[75]第七十五话58.8我们的方法59.1图5：CamVid [14]（左）和Cityscapes [20]（右）的结果RGB：输入彩色图像;地面实况分割; GS：生成的分割; GD：生成深度。方法IoU方法IoUCRF-RNN [86] 62.5DeepLab [17]63.1像素级编码[74] 64.3[53]第五十三话65.3DPN [52] 66.8我们的方法67.0表3：Cityscapes [20]测试集上的分割。另一个重要的考虑是确保深度表4：CamVid [14]测试集上的分割深度保真度与语义分割损失一起使用，在第3.3节中解释。3.3. 语义分割由于语义分割不是我们方法的主要重点，而只是用于在我们的模型中执行更深入和更好的表示学习，因此我们选择了一个简单有效的全监督训练过程来进行分割（G2）。RGB或RGB-D图像用作输入，网络输出类别标签。带有交叉熵的像素级softmax被用作损失函数，损失在一个批次内的所有像素上求和：eak（x）输出在时间上一致。虽然模型是-当每个时间步的输出被递归地用作Pk（x）=Kk′=1 eak′（x）、（7）在下一个时间步骤中，我们将一个轻量级的预先训练的光流网络[65]纳入我们的流水线中，该网络利用从粗到细的空间金字塔来学习每个尺度上的残余流，以明确地加强相机/场景运动的一致性在每个时间步长n处，使用我们预先训练的光流网络[65]估计地面真实深度帧n和n-1，在相同帧的生成输出之间。来自光流网络（F）的梯度用于训练生成器（G1），以通过最小化所产生的流之间的端点误差（EPE）来捕获运动信息和时间连续性。因此，损失函数的最后一个组成部分是：LVn=||F （ G1 （ xn ）， G1 （ xn−1 ）） −F （ yn ，yn−1）||第二条，第（五）项其中，x和y是输入，并且地面实况深度图像是重建的，并且n是时间步长。虽然我们利用地面实况深度作为光流网络的输入，但彩色图像也可以是同样可行的输入。然而，由于我们的训练数据包含噪声环境元素（例如，照明变化、雨等），使用清晰和干净的深度图像导致更期望的结果。在专门用于深度预测的最终解码器内，输出以四个尺度产生，如下[29]。每个尺度输出的空间分辨率是其先前尺度的两倍。因此，总深度损失是在每个尺度c下计算的损失的总和：Σ4L深度=（λrecLrec+ λadvLadv+ λsLs+ λVLVn）。（六）c=1加权系数（λ）是根据经验选择的（第3.4节）。这些损耗分量，用于优化Lseg=−log（Pl（G2（x），（8）其中，G2（x）表示分割任务的网络输出，ak（x）是通道k的特征激活，K是类的数量，Pk（x）是近似的最大值函数，l是图像像素的地面真值标签对图像内的所有像素求和损失。最后，由于整个网络作为一个单元进行训练，因此联合损失函数如下：L=Ldepth+λrecLseg.（9）根据经验选择系数（3.4节）。3.4. 实现细节由RGB，深度和类别标签组成的合成数据[67]用于训练。该算法遵循[64]的架构，光流网络[65]在KITTI数据集[56]上进行预训练。使用Sintel数据集的实验卷积-BatchNorm- leaky ReLU（斜率=0。2）模块化。数据集[67]包含许多序列，其中一些跨越数千个跳转然而，一个反馈网络接受高分辨率图像（512×128），在数千个时间步长上反向传播从经验上讲，我们发现在10帧序列上进行训练在准确性和训练效率之间提供了合理的权衡。小批量作为张量加载，包含两个序列，每个序列10帧，总共大约有10000所有实现都是在PyTorch[61]中完成的，Adam [42]提供了最佳优化（β1=3378图6：我们的方法应用于KITTI的结果[2，56]。RGB：输入彩色图像;GTD：地面实况深度;MDE：单目深度估计;地面实况分割; GS：Generated Segmentation。方法PSNR SSIM方法PSNR SSIM孔33.730.372GTS [36]31.470.672国际合作署[82]31.010.488GIF [50]44.570.972FDF [9]46.130.986我们47.450.991图7：我们对本地捕获数据的结果。SD：通过立体声对应的深度; DC：深度完井; MDE：单目深度估计;S：语义分割。0的情况。5，β2=0。999，α=0。0002）。损失函数中的加权系数根据经验选择为 λrec=1000 ，λadv=100，λs=10，λV=1，λseg=10。4. 实验结果我们使用消融研究以及与应用于公开可用数据集的最新方法的定性和定量比较来评估我们的方法[2，14，20，28，56]。我们还利用我们自己的合成测试集和本地捕获的数据来进一步评估该方法。4.1. 消融研究我们工作的一个关键部分是证明该方法的每个组成部分都是整体性能的组成部分。我们训练我们的模型来执行两个任务，这是基于这样一个假设：如果要实现不同的目标，网络将被迫学习更多关于场景的信息。我们通过训练一个执行两个任务的模型和两个单独的模型来证明这一点，并对随机选择的合成序列进行测试[67]。如表1所示，当模型在这两个任务上训练时，这两个任务（单目深度估计和语义分割）都表现得更好此外，由于分段流水线不接收任何显式时间表5：深度完成后的结构完整性分析由于（来自光流网络的）监督和其时间连续性仅由深度流水线训练的输入流和中间流强制执行，当两个流水线被解开时，分割结果变得比深度结果差得多（表1）。图3描述了当模型是一个在时间上训练的反馈网络时，与我们的模型相比，当来自前一个时间步的输出深度在训练期间不用作输入时，输出的质量。我们可以清楚地看到，当在训练期间使用时间信息时，深度和分割结果都具有更高的保真度。此外，我们的深度预测管道使用几个损失函数。我们使用相同的测试序列来评估我们的模型，因为不同的组件被删除。表2展示了使用所有损耗分量（T/R/A/SC/S/OF）进行时间训练的网络优于没有特定损耗分量训练的模型。定性地，我们可以在图4中看到，当网络使用所有组件进行充分训练时，结果要好得多。具体来说，网络中使用的跳过连接集对输出质量有很大影响。4.2. 语义分割分割不是这项工作的重点，主要用于提高深度预测的性能。然而，我们广泛地评估了我们的分割流水线，它优于几个著名的比较器。我们利用Cityscapes[20]和CamVid [14]测试集进行性能评估，尽管我们的模型仅在合成数据上进行训练，并且在没有任何域适应的情况下，不应期望在自然感知的真实世界数据上表现良好。我们分割的有效性能表明了我们模型的泛化当在CamVid [14]上进行测试时，尽管质量较低，但与[10，40，59，75]等成熟技术相比，我们的方法产生了更好的3379图8：应用于合成测试集的各种补全方法的比较。RGB：输入彩色图像; GTD：地面实况深度; DH：深孔; FDF：基于傅立叶的深度填充[9]; GLC：全球和本地完成[36]; ICA：使用上下文注意力的修复[82]; GIF：引导修复和过滤[50]。方法误差（较低，较好）准确度（较高，较好）表6：在[25]中分割的KITTI [28]数据上的单眼深度估计的数值比较。所有比较器都是在相同的数据集（KITTI[28]）上训练和测试的，而我们的方法是在[67]上训练和使用[28]测试的。如表4所示的输入图像。至于Cityscapes [20]，测试集不包含视频序列，但我们的时间模型仍然优于[17，52，53，74，86]等方法，如表3所示。两个数据集的分割结果示例见图5。此外，我们还在测试中使用了KITTI语义分割数据[2]，如图6所示，尽管不包括域自适应，我们的方法仍然生成了高保真度的语义类标签。4.3. 深度完井深度完成的评估理想地需要密集的地面实况场景深度。然而，对于城市驾驶场景不存在这样的数据集，这就是为什么我们利用随机选择的先前看不见的合成数据与可用的密集深度图像来评估结果。我们的模型生成完整的场景深度，然后使用[63]将深度图像缺失区域图8显示了我们的结果与其他当代方法的比较[9，36，50，82]。从放大的部分可以看出，我们的方法产生了最小的伪影（模糊，条纹等）。与其他技术相比为了评估完成后结果的结构完整性，我们还对我们的方法和比较器。如表5所示，我们的方法在定量上也优于比较方法。虽然混合[63]可能适用于具有连接缺失区域的彩色图像，但深度图像中大量的小孔和大洞可能导致不希望的伪影，例如混合后的缝合痕迹或燃烧效果。伪影的示例可以在图7中看到，图7展示了应用于本地捕获数据的方法的结果。这将在第5节中进一步讨论4.4. 单目深度估计作为我们模型的主要焦点，我们的单眼深度估计模型是针对当代最先进的方法进行评估的[8，25，29，49，83，87]。遵循文献的惯例，我们使用[25]中建议的数据分割这些图像是从随机序列中选择的，并且不遵循时间顺序模式，而我们的完整方法需要视频序列作为其输入。因此，我们将我们的方法应用于所有序列，从这些序列中选择图像，但评估本身仅在697个测试图像上执行。对于数值评估，根据训练[67]和测试数据[28]之间的焦距差异校正生成的深度。如表6所示，我们的方法在所有指标和停留时间上都优于[25，49，87]ABS.Rel.平方Rel.RMSERMSE日志σ<1。25σ<1。252σ<1。253列车组平均值[28日]0.4030.5308.7090.4030.5930.7760.878Eigen等人[25日]0.2031.5486.3070.2820.7020.8900.958Liu等[49个]0.2021.6146.5230.2750.6780.8950.965Zhou等[八十七]0.2081.7686.8560.2830.6780.8850.957Godard等人[29日]0.1481.3445.9270.2470.8030.9220.964Zhan等[八十三]0.1441.3915.8690.2410.8030.9280.9693380图9：将该方法的结果与[87，29，44，8]进行比较。图像已经过调整，以便更好地可视化。RGB：输入彩色图像;GTD：地面实况深度; DEV：视频的深度和自我运动[87]; LRC：左右一致性[29]; SSE：半监督估计[44]; EST：Estimation via Style Transfer [8]; GS：生成的分段。竞争力[29]。重要的是要注意，所有这些比较器都是在与用于测试的数据集相同的数据集上训练的[28]，而我们的方法是在没有域适应的情况下在合成数据[67]上训练的，并且没有看到来自[28]的单个图像。此外，没有其他比较器能够产生时间上一致的输出，因为它们都在帧级上操作由于这不能通过图8和图9中的静止图像容易地说明，我们恳请读者观看随附的视频材料我们还使用KITTI的数据分割来评估我们的模型[56]并定性评估结果，因为[56]中的地面实况图像比激光数据质量更高，并提供CAD模型作为场景中汽车的替代品如图6所示，我们的方法产生了清晰的深度输出，分割结果中对象边界和薄结构得到了很好的保留。5. 局限性和未来工作即使我们的方法可以通过利用反馈网络生成时间上一致的深度和分割，这也会导致错误传播，即，当在一个时间步产生错误输出时，无效值将继续传播到未来帧。这可以通过探索旨在惩罚传播的无效输出的3D卷积或正则化项此外，如第4.3节所述，将深度输出混合到深度的已知区域中[63]会在结果中产生不期望的伪影。这可以通过将混合操作合并到训练过程中来纠正。换句话说，混合本身将在监督信号在训练期间通过网络反向传播之前发生，这将迫使网络学习这些伪影，从而消除对后处理的任何需求。至于我们的细分组件，没有执行明确的时间一致性强制或类平衡，这导致帧到帧闪烁和不平衡类的较低准确性（例如，行人、骑自行车的人）。通过改进分割，整个模型可以从性能提升中受益。最重要的是，使用域自适应[8，35]可以显着改善所有结果，因为尽管具有泛化能力，但该模型仅在合成数据上进行训练，并且不应该期望在自然感知的真实世界图像上表现良好。6. 结论我们提出了一个多任务模型，能够执行深度预测和语义分割的节奏一致的方式使用反馈网络，作为其经常性的输入，在前一个时间步产生的输出。使用一系列密集的跳跃连接，我们确保在训练过程中的特征下采样期间不会丢失高频空间信息。我们在深度完成和单目深度估计领域内考虑深度预测的任务，因此在深度预测组件内基于这两个目标训练模型。通过大量的实验，我们证明了我们的模型在同时执行深度预测和分割时，与执行相同任务的两个单独的网络相比，可以获得更好的结果。跳跃连接的使用也被证明是显着有效的，在改善深度预测和分割任务的结果。尽管仍存在某些孤立的问题，但实验评估表明，与解决相同问题领域的当代最先进方法相比，我们的方法具有有效性[17，29，36，40，53，82，83，87]。我们恳请读者参考视频：https://vimeo.com/325161805获取更多信息和更大的改进质量的结果图像。3381引用[1] 奥斯汀·艾布拉姆斯，克里斯托弗·霍利，罗伯特·普利斯。全息立体：从太阳位置的形状欧元 . Conf.ComputerVision，第357-370页，2012年。[2] Hassan Alhaija ， Siva Mustikovela ， Lars Mescheder ，Andreas Geiger，and Carsten Rother.增强现实与计算机视觉的结合：城市驾驶场景的高效数据生成。Int. J.Computer Vision，126（9）：961[3] 巴勃罗·阿里亚斯，加布里埃尔·法乔洛，文森特·卡塞勒和吉列尔莫·萨皮罗。基于样本的图像修复变分框架。计算机视觉，93（3）：319-347，2011年。[4] Amir Atapour-Abarghouei ， Samet Akcay ， GregoirePayen de La Garanderie ， and Toby Brecke. 基于wasserstein度量、余弦变换和域转移的深度填充生成对抗框架。模式识别，91：232[5] 阿米尔 · 阿塔普尔 - 阿巴古埃和托比 · 布雷克。Depthcomp：基于先验语义场景分割的实时深度图像完成。在英国机器视觉会议上，第1-13页[6] 阿米尔·阿塔普尔-阿巴古埃和托比·布雷克。在场景深度图像完成的背景下，对合理的孔洞填充策略进行了比较性审查。计算机和图形，72：39[7] 阿米尔·阿塔普尔-阿巴古埃和托比·布雷克。在基于样本的受限RGB-D图像完成中用于深度填充的扩展补丁优先级。在Int. Conf. 图像分析和识别，第306-314页，2018年。[8] 阿米尔·阿塔普尔-阿巴古埃和托比·布雷克。使用合成数据的实时单目深度估计，通过图像风格转换进行局部自适应。在IEEE会议计算机视觉和模式识别，第1-12页，2018年。[9] Amir Atapour-Abarghouei，Gregoire Payen de La Garan-derie，and Toby Brecket.回到Butterworth -RGB-D图像中3D 表面浮雕孔填充的傅立叶基础。在 Int. Conf.PatternRecognition，第2813-2818页，2016中。[10] Vijay Badrinarayanan Alex Kendall 和 Roberto CipollaSegNet：用于图像分割的深度卷积编码器-解码器架构。IEEE Trans.模式分析和机器智能，39（12）：2481[11] Mohammad Haris Baig ， Vignesh Jagadeesh ， RobinsonPi- ramuthu ， Anurag Bhardwaj ， Wei Di ， and NeelSundaresan. Im2Depth：可扩展的基于样本的深度传输。在Win-ter Conf.计算机视觉应用，第145-152页，2014年。[12] 马塞洛·贝尔塔米奥，安德烈·贝尔托齐，吉列尔莫·萨皮罗。纳维尔斯托克斯，流体动力学，图像和视频修补。在IEEE Conf. Computer Vision and Pattern Appraisition，第1卷，第I-I页[13] 托比·布雷克和罗伯特·费舍尔。对三维非参数曲面释放完成的分层扩展模式识别，45：172[14] Gabriel Brostow，Julien Faugur，and Roberto Cipolla.视频中的语义对象类：高清晰度地面真相数据库Pattern Recognition Letters，30（2）：88-97，2009.[15] 丹尼尔·巴特勒，乔纳斯·武尔夫，加勒特·斯坦利和迈克尔·布莱克。一个用于光流评估的自然主义开源电影。欧元。Conf. 计算机视觉，第611-625页，2012年。[16] P. Cavestany，A.L.Rodriguez，H.Martinez-Barbera和T.P.Breck.改进的3D稀疏地图，用于低成本全向机器人的高性能运动结构。InInt. Conf. Image Processing，第4927-4931页[17] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille. Deeplab：使用深度卷积网络、无纹理卷积和全连接CRF进行语义图像分割。 IEEE Trans. 模式分析和机器智能， 40（4）：834[18] Liang-Jieh Chen，Yi Yang，Jiang Wang，Wei Xu，andAlan L Yuille.注意秤：尺度感知的语义图像分割。在计算机视觉和图案识别中，第3640-3649页[19] Weihai Chen ， Haosong Yue ， Jianhua Wang ， andXingming Wu. 一种改进的深度图嵌入边缘检测算法光学和激光工程，55：69[20] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。在IEEE Conf. ComputerVision and Pattern Recognition，第3213-3223页[21] 丁丁，桑达雷什·拉姆，杰弗里·罗德里格斯。感知图像修复。模式识别，83：174[22] Alexey Dosovitskiy和Thomas Brox基于深度网络生成具有感知相似性度量的图像。神经信息处理系统进展，第658-666页，2016年[23] Alexey Dosovitskiy、Philipp Fischer、Eddy Ilg、PhilipHausser、Caner Hazirbas、Vladimir Golkov、Patrick VanDer Smagt、Daniel Cremers和Thomas Brox。Flownet：使用卷积网络学习光流。在Int. Conf. Computer Vision，第2758-2766页[24] David Eigen和Rob Fergus。使用通用多尺度卷积架构预测深度、表面法线和语义标签在Int. Conf. ComputerVision，第2650-2658页[25] David Eigen、Christian Puhrsch和Rob Fergus。使用多尺度深度网络从单个图像进行深度神经信息处理系统进展，第2366-2374页，2014年[26] Mohsen Fayyaz、Mohammad Hajizadeh Saffar、Moham-mad Sabokrou、Mahmood Fathy、Reinhard Klette和FayHuang。STFCN：用于语义视频分割的时空FCN。在亚洲会议计算机视觉研讨会，第493-509页[27] Raghudeep Gadde，Varun Jampani，and Peter V Gehler.通过表示变形的语义视频CNN。InInt. Conf. ComputerVision，pages 44633382[28] Andreas Geiger ， Philip Lenz ， Christoph Stiller ， andRaquel Urtasun. Vision meets robotics：The KITTI dataset.机器人研究，第1231-1237页[29] C le'mentGodard ， OisinMacAodha ， andGabrielJ. 兄弟 -拖。具有左右一致性的无监督单目深度估计。在IEEE会议计算机视觉和专利识别，第6602 - 6611页[30] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。神经信息处理系统进展，第2672-2680页，2014年。[31] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun. 深入研究整流器：在ImageNet分类上超越人类水平InInt. Conf. Computer Vision，第1026-1034页[32] Philipp Heise，Sebastian Klose，Brian Jensen，and AloisKnoll. Pm-huber：使用huber正则化进行立体匹配的补丁匹配。在Int. Co

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

基于多任务几何和语义场景理解的时间一致深度预测

基于激光SLAM和深度学习的语义地图构建.pdf

基于SLAM算法和深度神经网络的语义地图构建研究.pdf

基于深度学习的视觉运动估计与理解

三维场景补全和三维语义场景补全的区别是什么？

语义场景补全 transformer

三维语义场景补全 transformer

dynaslam如何将多视图几何得到的动态信息与深度学习的掩码信息结合的

点云深度学习语义分割

python语义slam

基于语义分割的slam算法

秦通 语义地图slam

基于单目视觉的深度估计方法

RGBD图像语义分割基础

基于orb-slam3的改进算法

多张深度图能使用几何约束来去除动态点吗

单目深度估计 有什么高精度的方法

融合PointNet 和3D-LMNet 的单幅图像 三维重建及语义分割

推荐10个以上比较好的SLAM深度学习模型？

单目深度估计kitti

Dynaslam中的多视图几何

最新资源

秦通语义地图slam

单目深度估计有什么高精度的方法

融合PointNet 和3D-LMNet 的单幅图像三维重建及语义分割