基于语义分治方法的单目深度估计网络

172 浏览量更新于2023-10-23 收藏 1.28MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

541SDC-Depth：用于单目深度估计的语义分治网络Lijun Wang1，Jianming Zhang2，Oliver Wang2，Zhe Lin2，and HuchuanLu1，31大连理工大学、2奥多比研究院、3鹏程实验室{ljwang，lhchuan}@ dlut.edu.cn，{jianmzha，owang，zlin}@ adobe.com摘要单目深度估计是一个不适定问题，因此严重依赖于场景先验和语义。由于其复杂性，我们提出了一种基于语义分治方法的深度神经网络模型。我们的模型将场景分解成语义片段，如对象实例和背景材料类，然后预测一个尺度和平移不变的深度图为每个语义片段在一个规范的空间。相同类别的语义段共享相同的深度解码器，因此全局深度预测任务被分解为一系列类别特定的任务，这些任务更容易学习并且更容易推广到新的场景类型。最后，我们的模型通过基于图像的全局上下文预测其规模和偏移来缝合每个局部深度段该模型使用用于全景分割和深度预测的多任务损失进行端到端训练，因此能够利用大规模全景分割数据集来提高其语义理解。我们验证了我们的方法的有效性，并在三个基准数据集上显示出最先进的1. 介绍深度估计是三维感知的重要组成部分。与基于主动传感器或多视图几何结构的重建技术相比，单目深度估计明显更不适定，因此严重依赖于学习强场景先验和语义。最近研究这个问题的工作[4，14，39]使用深度数据监督的深度卷积神经网络（CNN）取得了重大进展，表明它们能够捕获复杂的高级场景语义。此外，一些作品[39，28]进一步将语义分割标签提供给他们的模型，以提高某些特定领域的深度估计准确性。然而，在野外的单目深度估计仍然是困难的-*通讯作者。(a)(b)（c）第（1）款图1：我们的深度预测方法将输入图像联合分解为实例（a）和类别段（b）。然后，它独立地预测每个片段在规范空间中的深度，并将它们重新组合成最终的全局相干深度图（c）。请注意，深度图是由我们的SDC-Depth Net生成的，该网络使用稀疏点级深度顺序监督[2]进行训练。由于现实世界场景的多样性。我们提出了一个语义分治网络（SDC-Depth Net）用于单目深度估计。我们将自然图像分解为许多语义片段，然后为每个片段预测范围[0，1]中的归一化深度图。我们将这个归一化的深度图称为给定片段的规范深度这种分解简化了深度预测问题，因为语义类别在孤立查看时具有非常一致的深度结构，并且训练特定于类别的深度解码器使得更容易学习这些先验知识。例如，天空区域总是无限远，并且地面区域中的深度通常沿着垂直方向平滑地变化对于像人这样的对象类别，实例级深度图也与每个对象类别具有高度相似性542其他. 一旦我们预测了每个语义片段的规范深度具体来说，我们的模型使用全局上下文预测每个片段深度的规模和偏移。该模型使用多任务损失进行分割和深度估计，完全端到端训练，我们可以使用单独的数据集来增加我们监督的多样性。图1展示了我们方法的抽样结果。我们的方法受到经典分治算法[17]的启发，但依赖于语义和实例分割来划分问题。幸运的是，与深度监督相比，不同的全景分割注释相对容易收集，我们可以利用现有的大规模全景分割数据集，如 COCOPanoptic Segmentation数据集[23]来补充有限的深度监督。作为辅助任务，语义和实例分割不仅有助于分割对象和类别以进行局部深度预测，而且还需要模型对形状和轮廓区域的理解。因此，它可以提高模型点对的深度顺序[2，37]或Kinect数据[32]）。我们在三个基准数据集上进行了实验，证明我们的方法可以显着提高深度估计的性能。特别是，在具有挑战性的“野外深度”（DIW）数据集[ 2 ]上总之，我们提出了一个新的框架，单目深度估计的基础上语义分而治之的战略。我们通过SDC-Depth Net（一个精心设计的端到端可训练架构）实现了这个高级框架。我们的方法的实验验证表明，在三个基准数据集上的最先进的一致的改进。2. 相关工作单图像深度预测尝试从单个图像预测深度的方法有很长的历史[11，31，24，26]。最近，由于CNN能够从对应于几何布局的图像中学习强先验知识，单目深度估计已经变得流行。其中，Lainaet al. [14]提出了一种具有上投影块的完全卷积架构来处理高维深度回归。在[19]中，提出了一种双流卷积网络，它同时预测深度和深度梯度以保留更多的深度细节。除了单独使用深度网络之外，最近的工作表明，深度网络和浅层模型的组合[18，25，36，40，30]也可以提供更好的深度估计性能。与此同时，不同的在最近的工作中，还探索了监督和学习技术的形式，以提高深度估计模型的泛化能力，包括具有来自立体图像[6，8]或多个视图[43，34，7]的光度损失的自监督学习、使用合成图像[42，42，1]的迁移学习以及使用稀疏[2，37]或稠密[21，35，33，20]相对深度作为监督。一些最近的作品[41，39，28]提出了用语义分割注释来改进单目深度估计。例如，Liuet al. [24]建议使用马尔可夫随机场用语义标签指导单个图像深度估计。Xu等[39]开发一个多模态的模拟模块，它可以利用中间深度和分割预测来优化最终输出。在[12]中，提出了一种协同网络以及注意力驱动损失，以更好地将语义信息传播到深度预测。相比之下，[41]提出了一种任务递归学习策略，它可以通过任务级交互来改进深度和分段预测。另一个与我们相关的工作是[28]，其中通过将语义分割和实例边缘作为输入来以无监督的方式学习深度估计。虽然已经取得了改进，但是这些方法具有它们自己的缺点。首先，现有的工作估计深度为不同类别的单一模型。我们认为，不同类别的深度值可能会表现出不同的属性，并受到各种数据分布。用一个模型涵盖所有这些变化可能是次优的。此外，除了语义类别之外，对象实例信息也可以在深度估计中起关键作用。然而，与语义分割相比，实例检测/分割在单目深度估计中探索较少。与这些现有的工作相比，我们提出的方法进行深度估计，为每个部分独立调查他们的语义和实例信息。我们解开典型的深度估计和深度尺度推断导致更准确的深度预测结果。3. 用于单目深度估计的我们提出了SDC-Depth Net，这是一种基于上述SEMANIC Divide-and-Conquer策略的端到端可训练深度预测网络。我们的SDC-Depth Net由四个部分组成：骨干网、分割模块、深度预测模块和深度聚合模块。图2概述了所提出的方法。由分割模块和深度预测模块共享的骨干网络提取输入图像的特征。分割模块执行语义和实例分割，将图像分成语义543图2：用于深度预测的拟议SDC-Depth Net概述。我们的方法将输入图像分解为类别和实例片段，具体预测每个片段的深度图，并将片段级深度缝合到最终输出中。片段。对于每个语义段，深度估计模块推断规范空间中的类别特定深度图，以及基于全局上下文的缩放和移位参数。然后，聚合模块缝合并聚合每段深度图以生成全局一致的深度图。在我们的实验中，我们采用了一个特征金字塔网络（FPN）[22]，ResNet-50 [10]作为骨干网络。我们使用全卷积网络（FCN）[22，38]和Mask R-CNN模型[9]分别进行语义和实例FCN网络对C个类别执行语义分割，其中前K个类别是对象类（例如，人，车），其余的属于物类（例如，道路、草地）。Mask R-CNN网络检测K个对象类的对象实例掩码。我们现在详细讨论每个部分。3.1. 每段深度估计给定诸如类别掩码或实例掩码的语义段，深度预测模块预测以段为中心的规范深度图，以及将规范深度转换为全局深度空间的变换。通过这种方式，我们将深度预测分解为局部段深度预测和全局变换估计，这与直接预测基线相比是有益的。我们使用两个深度预测流来分别处理语义类别段和实例段类别段流通过联合预测每个整个类别的深度在类别级别中操作，而对于可数对象类，物体的绝对深度可以根据其在场景中的位置而变化很大。因此，进一步设计逐实例深度流以在每个实例的基础上改进深度图。分类深度估计。给定一个语义范畴，我们使用一个两分支结构来预测它的正则深度和全局变换。如图3所示，局部分支由卷积层堆栈组成，它将骨干图像特征金字塔作为输入，并预测每个语义类别的规范深度我们使用sigmoid函数将输出深度归一化到规范空间中。全局深度解码分支包含全局平均池化（GAP）层和全连接层的堆栈它映射输入要素金字塔该向量用于推断第c个语义类别的全局变换Tc（·）然后，第c个猫类的全局深度被计算为Dc=Tc（Dc）。在我们在实验中，我们采用了一个αf精细变换Tc（D_c）=对于单纯y，wc·Dc+bc。逐实例深度估计。为对象类，例如人类、汽车等，我们可以从Mask R-CNN [9]借用ROIAlign技术来提取每个对象实例的特征，并将这些特征映射到深度图。然而，默认 ROIAlign 特征的分辨率太低（28×28），无法进行准确的深度预测，尤其是对于较大的对象。为了解决这个问题，我们提出了一个新的网络架构的高分辨率的实例深度估计（c.f。见图3）。实例流由两个分支组成，1.骨干网2.分割模块3.深度估计4.聚集类别水平例如水平输入图像深度输出细分结果类别和实例特定深度实例编号N实例分割实例#1类别和实例深度估计类别#C特征金字塔网络深度聚合语义分割类别#1……544RoIAlign瀉瀉本地分行正则深度输出间隙解码分支变换类别方面深度估计FPN本地分行正则深度输出CNN层FC层RoIAlign实例化Bbox深度估计解码分支变换←D←M我CTT瀖TCHH瀖 HN图3：我们的双流深度预测模块，用于类别和实例深度估计。每个流包含局部深度表示分支以推断规范深度（归一化为[0，1]）和全局解码分支以基于全局上下文（GAP输出或RoIA标记的实例特征和框位置的组合全卷积局部分支和实例深度解码分支。当地分支机构在一个全面的控制下运作分支通过长度为n×K的输出向量预测K组参数。我们为第i个实例选择第c个参数集3.2. 分段引导的深度聚合现在我们已经产生了类别深度图{Dc∈RH× W|c =l，. - 是的- 是的，C}和一组对象实例深度图{Fi∈RHi× Wi |i = 1，2，. - 是的- 是的.，N}，用于输入图像内的总共N个对象实例。使最终的深度预测、深度聚集模块基于语义分割和实例分割结果来组合每个分割的深度图。我们的深度聚合模块分两步进行。给定实例深度图Fi和它们的类别标签，第一步对其对应的类别深度图{Dc}中的每个实例的区域执行局部更新|C=1、2、. . .，K}。为此，我们将每个对象类别-血淋淋的深度图Dc，具有相同空间大小H×W的归一化掩码Mc，其元素都初始化为常数值1。使用归一化掩码以记录来自每个实例深度图的更新，并相应地归一化最终深度图给定类别ci和第i个实例的边界框位置，我们在相应的深度图上标注实例区域。Dc和归一化掩码Mc，作为Di∈RHi×Wi以骨干图像为特征，金字塔作为输入，并预测一个类别不可知的深度代表，我且Mi∈RHi×Wicii分别。深度图和整个输入的大小为H×W×Z的表示图F然后可以如下本地更新归一化掩码：图像（在我们的实验中，Z设置为32）。从边界来看-第i个对象实例的ing框位置，其实例级别深度图表示Fi∈RHi×Wi×Z可以被表示为：我我cici我我cici+v×pi<$Si <$Fi，+v×pi<$Si，（1）通过从F裁剪而得到，其中Hi×Wi是其边界框的空间大小。为了预测第i个实例的深度，深度解码分支使用骨干特征上的ROIAlign1从实例区域提取固定长度的特征向量给定范畴ci∈ {1，2，. . . .，K}的深度距离。然后，编码分支将ROIAlign特征向量以及实例的归一化边界框坐标作为输入，并预测对应于第c个对象类别的线性深度解码函数Hi（·）=GiCi（·）血淋淋的函数Ci是1×1卷积层，线性地将实例深度表示图F的Z通道组合成以实例为中心的规范深度图。函数Gi是一个仿射变换，通过调整其尺度和位移，进一步将正则深度变换为全局深度Fi∈RHi×Wi不同对象类别的两个函数的参数由深度解码分支以类别特定的方式产生。假设每个类别的变换参数的总数为n。深度解码其中v是用于平衡实例深度图的权重的超参数（在我们的实验中v被设置为10）;表示逐元素乘法;P1表示第i个实例属于类别C1的概率，空间大小为Hi×Wi的Si表示第i个实例的上采样分割掩码pi和Si都是由我们的seg的实例分割模型生成的分段模块，并用于测量第i个实例预测的可靠性。在所有实例区域已经被更新之后，计算每个类别深度图Dc：Dc←Dc/Mc（2）其中该划分是逐元素地执行的。第一步的更多细节总结在算法1中。第二步骤根据语义分割结果聚合所有更新的类别深度图Dc。这可以通过以下加权组合来执行：ΣC1我们在[9]中使用相同的ROIAlign实现。D=Pc<$Dc，（3）c=1DM545我Ci我ici算法1用实例深度图更新类别深度图。输入：特定于猫的深度图{Dc|c=l、2、. -是的-是的，K}，实例特定深度图Fi，实例分割掩码Si，实例类别ci，实例分类概率pi，i = 1，2，. - 是的- 是的、N.输出：更新的猫特定深度图{Dc|C=1、2、. - 是的- 是的，K}1：针对每个类别c初始化归一化掩码Mc2：对于i = 1，2，. - 是的- 是的，N do使用Adam optimizer [13]训练，使用小批量的4个输入图像。我们的整个网络具有50.4 M参数，在一个NVIDIA GTX 1080 TI GPU上以10.23 FPS的速度运行19个语义类别。源代码可在https://bit.ly/39oty26上获得。我们在三个深度数据集上评估了我们的方法，包括Cityscapes [3]，DIW [2]和NYU-Depth V2 [32]，这些数据集涉及密集或稀疏的深度注释，并包含不同的场景。COM的性能通过以下方式测量方法：两种线性模型我我3：在深度图上定位实例区域Dci和Mci，标准化面具4：通过Dc←Di+v×pi<$Si <$Fi和对数空间、绝对和平方相对误差（Abs Rel和SqRel）、深度精度（阈值为1. 25岁1 .一、252和1。253），以及加权的人类分歧率5：通过Mci局部更新能量掩模6：结束←Mi+v×piSi（WHDR）[4，2]。我们采用[5]的评价代码来计算-计算上述指标。7：归一化每个类别的深度图Dc←Dc/Mc其中D表示最终深度图。Pc是由语义分割模块预测的每类、每像素分割结果，其中对于类c，位于（x，y）处的元素表示对应像素属于该类的概率。3.3. 网络训练整个系统可以使用以下损失函数以端到端的方式进行训练：L=αILI+αSLS+αDLD，（4）其中我们使用实例分割损失LI[9]和语义分割损失LS[27]的标准实现深度预测损失L_D根据深度监控而变化。在具有密集深度注释的训练数据集上（例如，，NYU-Depth V2 [32]和Cityscapes [3]），我们使用标准的L1损失，并且在具有随机点对之间的相对深度注释的数据集上（例如，，DIW数据集[2]），我们使用[2]中提出的排名损失。有关损失函数及其损失权重αI、αS、αD的更多详细信息，请参见补充材料。然后，我们的方法的所有四个模块可以通过最小化（4）中的整体损失函数来联合训练。4. 实验4.1. 执行我们采用在ImageNet分类任务上预训练的ResNet50来初始化我们的骨干网络。我们的深度预测模块的详细架构设计可以在补充材料中找到。我们调整每个输入图像的大小，使其最小边长为256像素，同时保持其纵横比。还采用了包括随机翻转、缩放和颜色抖动的数据增强技术来避免过度拟合。我们的网络是4.2. Cityscapes结果Cityscapes [3]是一个用于城市场景理解的大型数据集，包含20个语义类别的深度和全景分割注释。我们在2975张图像的训练集上训练了25个epoch，初始学习率为5e-3。我们在验证集（500张图像）和测试集（1525张图像）上评估训练模型，并与包括Laina等人在内的3种最先进的方法进行比较。[14]，Xuet al. [39]和Zhanget al. [41]。其中，Xuet al. [39]和Zhanget al.[41]以多任务方式在深度估计和语义分割方面训练他们的模型。表1报告了结果。我们的方法实现了更高的性能比比较的方法，特别是在RMSE和深度精度方面这应该主要归因于这样一个事实，即我们的方法预测每个类别和实例深度独立与特定的深度解码器。由于Xuet al.和Zhanget al. 也利用语义分割注释，他们的性能优于Laina等人。定性结果如图4所示。4.3. DIW结果DIW [2]是一个大规模的数据集，包含野外不同场景的图像，其中每个图像都用一个随机采样点对之间的相对深度顺序（更接近或更远离相机）整个数据集分为421K张训练图像和74K张测试图像。由于DIW数据集不包含分割注释，并且COCO全景分割数据集[23]还包含未控制场景的图像，因此我们同时在DIW和COCO上训练我们的模型，为了降低计算复杂度，我们采用COCO数据集的超类标注来训练我们的分割模块，包含15个stuff和12个object类。在训练过程中，我们顺序地将两个数据集的训练图像馈送到每个迭代中的网络，546方法RMSE误差RMSE（log）绝对相对值平方相对δ<1。25精度δ<1。252δ<1。253Laina等人[14个]7.2730.4480.2574.2380.7650.8930.940Xu等[39]第三十九届7.1170.4280.2464.0600.7860.9050.945Zhang等人[41个]7.1040.4160.2343.7760.7760.9030.949我们6.9170.4140.2273.8000.8010.9130.950表1：与Cityscapes测试集上最先进方法的比较[3]。最好的结果用粗体表示，第二好的结果用下划线表示。我们的更糟我们的更好图4：Cityscapes数据集的定性结果。前三行分别是输入图像、地面实况和我们预测的深度图。最后两行是我们的方法与Xu等人的误差图比较。[39] Zhanget al. [41]，其中暗红色表示我们的方法实现了较低的误差，深蓝色则相反。方法Chen等人[二]《中国日报》Xian等人[37]第三十七届Xu等[39]第三十九届我们WHDR22.14%百分之十四点九八13.02%11.21%表2：与DIW数据集上最先进方法的比较[2]。最好的结果是粗体。并且使用所累积的梯度来更新网络参数网络训练以1 e-3的初始学习率开始，并在大约45 K次迭代时收敛。我们比较我们的方法对三个国家的最先进的approaches，包括陈等人。[2]，Xianet al.[37]徐等人[39]，其中Xuet al. [39]使用与我们相同的训练策略在DIW和COCO数据集上进行训练。表2显示了WHDR方面的比较结果Xian等人WHDR比Chen等人低。同时，Xuet al.优于Xianet al.通过探索额外的细分数据。相比之下，我们提出的方法采用分治策略来独立地估计每个段的深度，从而达到最佳性能。图5比较了Xu等人的预测深度图。[39]这是我们提出的方法。547方法RMSE误差RMSE（log）绝对相对值δ<1。25精度δ<1。252δ<1。253Laina等人[14个]0.5840.1980.1360.8220.9560.989Xu等[第四十届]0.593-0.1250.8060.9520.986Qi等人[29日]0.569-0.1280.8340.9600.990Lee等[第十五条]0.5720.1930.1390.8150.9630.991Fu等人[五]《中国日报》0.5090.1880.1160.8280.9650.992Zhang等人[41个]0.5010.1810.1440.8150.9620.992Xu等[39]第三十九届0.582-0.1200.8170.9540.987我们0.4970.1740.1280.8450.9660.990表3：与NYU-Depth V2数据集上最先进方法的比较[32]。SDC-ASDC-BSDC-CSDC-D设计选择目录Ins.DEnt.✗✗✗✓✗✗✓✓✗✓✓✓呃。RMSE绝对相对值7.2030.2766.9620.2366.9580.2346.9170.227Acc.δ<1。25δ<1。252δ<1。2530.7670.8950.9410.7940.9110.9490.7970.9110.9510.8010.9130.950表4：Cityscapes数据集的消融研究[3]。检测的组分为类别（Cat.）和实例（Ins.）深度估计，以及解纠缠的典型深度和尺度干扰（DEnt）。最好的结果是粗体字。Image Xuet al. [39]我们的图5：DIW测试集的定性结果[2]。所有方法都是在稀疏点级监督上训练的。4.4. NYU Depth V2结果NYU-Depth V2数据集包含464个室内场景，其中249个用于训练，其余用于测试。我们通过从249个训练场景中随机抽样40K图像来训练我们的网络，并遵循第4.3节中介绍的多任务训练策略。我们采用1 e-3的初始学习率，训练网络15个epoch。我们将我们的方法与七种最先进的方法进行比较。其中，Leeet al. [16]和Fuetal. [5]使用所有120K训练图像，Xuet al. [39] Zhanget al.[39]也使用可用的分段监督。如表3中所示，所提出的方法相对于现有技术的方法执行得更好，特别是在通过使用有限量的分割注释的深度准确性方面。我们相信我们的表现548通过使用来自室内场景的更多分割数据来进一步改进4.5. 消融研究为了更全面地理解我们的方法，我们通过调整我们方法的不同模块对Cityscapes [3]和DIW [2]数据集进行了消融研究。除非另有说明，否则我们遵循与第4.1节所述相同的实验设置。语义分而治之的效果。所提出的SDC-Depth Net学习类别和实例感知的深度估计，具有解纠缠的规范深度和尺度推理机制。为了研究上述设计选择的影响，我们比较了包含Cityscapes数据集上这些选择的不同子集的基线（SDC-A到SDC-D）的性能，如表4所示。可以观察到，类别感知的深度估计在提高深度精度方面起着非常重要的作用。即时感知深度估计和解纠缠深度预测也产生了相当大的性能增益。为了进一步验证其有效性，图6比较了Cityscapes验证集上不同类别的基线方法的深度精度。的性能增益54915.014.514.013.513.012.512.011.50 25 50 75 100用于培训的COCO数据百分比（%）图6：我们的变体在Cityscapes验证集上跨语义类别的深度准确性[3]。路天大厦人员车辆图7：SDC-Depth Net预测的东西（顶部）和对象（底部）类别的平均规范深度图。对于每个对象类别（底部），我们呈现其平均深度图（左侧，红色边框）以及该类别的一个随机实例深度图（右侧，蓝色边框）。类别感知的深度估计在所有类别中是一致的，而实例感知的深度估计对于对象类别更有效。我们还可视化了许多不同片段的平均规范深度图（图7）。我们可以看到，通过在段级别拆分深度预测，网络可以学习更简单的特定于类别的深度先验。分割注释的好处。为了评估我们的方法从额外的分割注释中受益除此之外，我们还训练了两个基线网络，它们是编码器-解码器架构，可以直接预测深度图，其参数计数与SDC-Depth Net相似。其中一个基线只在DIW上训练，称为BNet-DIW。另一个是两种都训练过的图8：SDC-Depth Net的DIW测试集[2]上的WHDR和在COCO训练数据的不同部分上训练的基线方法随着我们的方法可以访问越来越多的分割标签，我们看到质量的提高超过了基线方法（BNet是一个标准的U-Net[2]，具有类似的参数计数）。DIW和COCO数据集以多任务学习的方式，命名为BNet-DIW-COCO，如[35]。DIW测试集深度精度方面的比较结果如图8所示。可以观察到，通过使用更多的分割训练数据，可以一致地提高性能，并且当使用所有COCO训练数据时，所提出的方法以显著的裕度优于BNet-DIW-COCO。5. 结论我们提出了一种语义分治策略，将单目深度估计减少到单个语义段。基于这一思想，设计了SDC-DepthNet，它将输入图像分解为不同类别和实例的片段，并使用专门训练的参数推断每个片段的标准深度以及尺度和移位变换。还开发了一种聚集方法来将每段深度缝合到最终的深度图中。整个网络可以通过利用额外的分段注释进行完全端到端的三个流行的基准测试的实验证明了我们的方法的有效性。致谢。本工作得到了国家重点研发计划（ 2018AAA0102001 ）、国家自然科学基金（ 61725202 ， U1903215 ， 61829102 ， 91538201 ，61751212，61906031）、中央高校基础研究基金（DUT19GJ201）、中国博士后科学基金（2019M661095）、国家创新人才博士后计划（BX 20190055）、Adobe Research。SDC-Depth NetBNet-DIWBNet-DI-COCOWHDR（%）550引用[1] Amir Atapour-Abarghouei和Toby P Brecket。使用合成数据的实时单目深度估计，通过图像风格转换进行局部自适应。在IEEE计算机视觉和模式识别会议论文集，第2800-2810页，2018年。2[2] 陈伟峰，赵甫，杨大伟，邓佳。在野外的单一图像深度感知。神经信息处理系统的进展，第730-738页，2016年。一、二、五、六、七、八[3] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集在Proceedings of the IEEEconference on computer vision and pattern recognition，pages 3213五六七八[4] David Eigen、Christian Puhrsch和Rob Fergus。使用多尺度深度网络从单个图像进行深度神经信息处理系统的进展，第2366-2374页，2014年一、五[5] Huan Fu ， Mingming Gong ， Chaohui Wang ， KayhanBat- manghelich，and Dacheng Tao.用于单目深度估计的深度有序回归在IEEE计算机视觉和模式识别会议集，第2002-2011页，2018。五、七[6] Ravi Garg ，Vijay Kumar BG ，Gustavo Carneiro ，andIan Reid.用于单视图深度估计的无监督CNN：几何学拯救了我们。在欧洲计算机视觉会议上，第740-756页。施普林格，2016年。2[7] Cle' mentGodard ， OisinMacAodha ， MichaelFirman ，andGabriel J Brostow.深入研究自我监督的单目深度估计。在IEEE计算机视觉国际会议论文集，第3828-3838页，2019年。2[8] Cle' mentGodard，OisinMacAodha，andGabri elJBros-tow.具有左右一致性的无监督单目深度估计。在IEEE计算机视觉和模式识别会议论文集，第270-279页2[9] 何开明、吉欧吉亚·吉欧萨里、彼得·多尔和罗斯·吉尔希克.面具R-CNN。在IEEE计算机视觉国际会议论文集，第2961-2969页三、四、五[10] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页，2016中。3[11] Derek Hoiem、Alexei A Efros和Martial Hebert。从一个单一的图像几何背景在第十届IEEE计算机视觉国际会议（ICCVIEEE，2005年。2[12] Jianbo Jiao，Ying Cao，Yibing Song，and Rynson Lau.看得更深更深：具有语义增强器和注意力驱动损失的单目深度估计。在欧洲计算机视觉会议（ECCV）的会议记录中，第53-69页，2018年。2[13] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。5[14] Iro Laina、Christian Rupprecht、Vasileios Belagiannis、Federico Tombari和Nassir Navab。使用全卷积残差网络进行更深的深度预测。2016年第四届3D视觉国际会议（3DV），第239- 248页。IEEE，2016. 一、二、五、六、七[15] Jae-Han Lee ， Minhyeok Heo ， Kyung-Rae Kim ， andChang- Su Kim.基于傅立叶域分析的单幅图像深度估计。在IEEE计算机视觉和模式识别会议论文集，第330-339页，2018年。7[16] 李载汉和金昌洙使用相对深度图的单目深度估计。在IEEE计算机视觉和模式识别会议论文集，第9729-9738页，2019年。7[17] 查尔斯·埃里克·莱瑟森，罗纳德·L·里维斯特，托马斯·H·科曼和克利福德·斯坦。算法导论第六卷。麻省理工学院出版社，马萨诸塞州剑桥，2001年。2[18] Bo Li ， Chunhua Shen ， Yuchao Dai ， Anton Van DenHengel，and Mingyi He.基于深度特征和层次crfs回归的单目图像深度和表面法线估计。在IEEE计算机视觉和模式识别会议论文集，第1119-1127页，2015年。2[19] 李俊，莱因哈德·克莱恩，姚安琪。一种用于从单个rgb图像估计精细缩放深度图的双流网络。在IEEE计算机视觉国际会议论文集，第3372-3380页，2017年。2[20] Zhengqi Li ， Tali Dekel ， Forrester Cole ， RichardTucker，Noah Snavely，Ce Liu，and William T Freeman.通过观察冷冻人来学习感动人的深度在IEEE计算机视觉和模式识别会议的论文集，第4521-4530页2[21] 李正奇和诺亚·斯内弗利。Megadepth：从互联网照片中学习单视图深度预测。在IEEE计算机视觉和模式识别会议论文集，第2041-2050页，2018年。2[22] 林宗义、彼得·多尔、罗斯·格希克、何启明、巴拉特·哈里哈兰和塞尔日·贝隆吉. 用于目标检测的特征金字塔网络。在IEEE计算机视觉和模式识别会议论文集，第2117-2125页，2017年。3[23] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco：上下文中的公用对象。欧洲计算机视觉会议，第740Springer，2014. 二、五[24] Beyang Liu，Stephen Gould，and Daphne Koller.从预测的语义标签中估计单个图像的深度2010年IEEE计算机协会计算机视觉和模式识别会议，第 1253-1260页IEEE，2010。2[25] Fayao Liu，Chunhua Shen，and Guosheng Lin.用于从单个图像进行深度估计的深度卷积神经场。在IEEE计算机视觉和模式识别会议论文集，第5162-5170页2551[26] Miaomiao Liu，Mathieu Salzmann，and Xuming He.从单个图像进行离散-连续深度估计。IEEE计算机视觉和模式识别会议论文集，第716-723页，2014年2[27] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分段的全卷积网络。在IEEE计算机视觉和模式识别会议的论文集，第3431-3440页，2015年。5[28] Yue Meng，Yongxi Lu，Aman Raj，Samuel Sunarjo，Rui Guo ， Tara Javidi ， Gaurav Bansal ， and DineshBharadia.Signet：语义实例辅助无监督3D几何感知。在IEEE计算机视觉和模式识别会议论文集，第9810-9820页，2019年。一、二[29] Xiaojuan Qi ， Renjie Liao ， Zhengzhe Liu ， RaquelUrtasun，and Jiaya Jia. Geonet：用于联合深度和表面法线估计的几何神经网络。在IEEE计算机视觉和模式识别会议集，第283-291页，2018年。7[30] Anirban Roy和Sinisa Todorovic使用神经回归森林进行单目深度估计。在IEEE计算机视觉和模式识别会议集，第5506-5514页，2016年。2[31] Ashutosh Saxena，Min Sun和Andrew Y Ng。Make3d：从单个静态图像学习3D场景结构。IEEE Transactionson Pattern Analysis and Machine Intelligence，31（5）：824-840，2008. 2[32] Nathan Silberman、Derek Hoiem、Pushmeet Kohli和RobFergus。室内分割和支持从rgbd图像推断。欧洲计算机视觉会议，第746-760页。Springer，2012. 二、五、七[33] Chaoyang Wang，Simon Lucey，Federico Perazzi，andOliver Wang.Web立体视频监控，用于动态场景的深度预测，2019年。2[34] Chaoyang Wang，Jose 'Miguel Buenaposada，Rui Zhu，and Simon Lucey.使用直接方法从单眼视频学习深度。在IEEE计算机视觉和模式识别会议论文集，第2022-2030页，2018年。2[35] 王丽君，沈晓辉，张建明，王立军，李哲。Lin，Chih-Yao Hsieh，Sarah Kong，and Huchuan Lu. Deeplens：单个图像的浅景深。ACM事务处理图表，37（6）：245：1-245：11，2018. 二、八[36] Peng Wang ， Xiaohui Shen ， Zhe Lin ， Scott Cohen ，Brian Price，and Alan L Yuille.从单个图像实现统一的深度和在Proceedings of the IEEE Conference on ComputerVision and Pattern Appraisition，第2800-2809页，2015年。2[37] Ke Xian，Chunhua Shen，Zhiguo Cao，Hao Lu，YangXiao，Ruibo Li，and Zhenbo Luo.单目相对深度知觉与网络立体

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

基于语义分治方法的单目深度估计网络

设计并验证一种基于语义分割的无监督深度估计算法

基于全景图的深度估计方法研究与实现

基于深度学习的语义分割方法

基于语义分割的深度学习

基于深度学习的语义分割

帮我写一段介绍基于单目/立体图像的3D目标检测方法的发展（用文献的形式呈现出其一步步发展点）要求具备全面详细概括性、关键重要性

基于知识图谱的问答系统中基于语义解析的分类方法由谁提出，核心思想是什么，重要有哪几种？

问答系统中基于语义解析的分类方法由谁提出，核心思想是什么，重要有哪几种？

基于语义网络的推理是节点间的自然性对吗

基于深度学习的 RGBD 图像语义分割算法研究国内外研究现状时间线

基于transformer的语义分割方法

基于语义网络的推理是节点间的

基于语义相似度的地名消歧算法有哪些

高精度语义分割方法发展史

与基于语法信息的经典信息论相比，基于语义信息的语义通信基本特征、系统架构、应用前景

基于语义相似度的算法有哪些

简述基于短语结构树的语义角色标注方法与基于依存关系树的语义角色标注方法之间的核心差异

基于语义分割的slam算法

基于模板分类和基于语义分类

基于深度学习的遥感图像语义分割

最新资源