没有合适的资源?快使用搜索试试~ 我知道了~
1神经网络如何在单个图像中看到深度汤姆·范·迪克代尔夫特荷兰代尔夫特J.C.vanDijk-tudelft.nlGuido de CroonTechnische UniversiteitDelft荷兰代尔夫特G.C.H.E. tudelft.nl摘要深度神经网络已经导致从单个图像进行深度估计的突破。最近的工作表明,这些估计的质量正在迅速提高。很明显,神经网络可以在单个图像中看到深度然而,据我们所知,目前还没有研究分析这些网络学到了什么。在这项工作中,我们采取了四个以前发表的网络,并调查他们利用什么深度线索。我们发现,所有的网络都忽略了已知障碍物的明显大小,而倾向于它们在图像中的垂直位置。使用的垂直位置需要的相机姿势是已知的,但是,我们发现,这些网络只有部分recg-nize相机俯仰角和滚转角的变化摄像机俯仰的微小变化会干扰对障碍物的估计垂直图像位置的使用允许网络估计任意障碍物的深度-即使是那些没有出现在训练集中的障碍物1. 介绍立体视觉允许使用多个相机来估计绝对深度。当仅可以使用单个相机时,光流可以提供深度的测量;或者如果图像可以在更长的时间跨度上组合,则可以使用SLAM这些方法倾向于将深度估计视为纯粹的几何问题,而忽略了图像的内容当只有单个图像可用时,不可能使用对极几何。相反,算法必须依赖于图像线索:指示单个图像中的深度的线索,例如纹理梯度或已知对象的表观大小。从X轴塑形方法(例如[18,1],[14],[7])使用这些线索中的一些来推断形状,但往往做出强烈的假设,使它们难以在非结构化环境中使用,例如在自动驾驶中看到的那些。其他线索,如物体的外观尺寸,需要有关环境的知识,这是很难用手编程。因此,直到最近,图像线索在这些场景中的使用相对较少。随着更强大的硬件和更好的机器学习技术的到来--使用机器学习的单目深度估计的最早示例之一由Saxena等人在2006年发表。[19 ]第10段。2014年,Eigenet al. [4]是第一个使用CNN进行单目深度估计的人。[4]仍然需要一个真正的深度图进行训练,在2016年Garg等人。提出了一种新的方案,允许网络直接从立 体 声 对 中 学 习 [9]; 这 项 工 作 得 到 了 进 一 步 改 进Godardet al. [11]。并行地,已经开发了使用单目图像序列以无监督方式学习单帧深度估计的方法,其中Zhou等人的作品。[25] Wanget al.[23]这是一个例子。最近的工作主要集中在单目深度估计的准确性上,其中对公开可用的数据集(如KITTI [15]和NYUv2)进行了[20]表明神经网络确实可以从单个图像生成准确的深度图。然而,据我们所知,没有任何工作存在,调查他们如何做到这一点。为什么了解这些神经网络学到了什么很重要?首先,如果不知道网络的作用,就很难保证正确的路由。对测试集的评估表明,它在这些情况下工作正常,但它不能保证在其他情况下的正确行为。其次,了解网络学到了什么可以为培训提供洞察力。用于训练集和数据增强的附加指南可以从所学习的行为导出。第三,它提供了转移到其他设置的洞察力。通过对网络的理解,可以更容易地预测相机高度变化的影响,以及这是否会开箱即用,需要数据增强甚至新的训练集。在这项工作中,我们采取了四个以前发表的神经网络(MonoDepth by Godardet al.[11],SfMLEarner21832184Zhouet al. [25],Kuznietsov等人的Semodepth。[13]以及Wang等人的LKVOLearner。[23])并研究它们的高级行为,其中我们专注于自动驾驶场景中对汽车和其他障碍物的距离估计第二部分是相关文献综述。在第3节中,我们证明了所有的网络依赖于障碍物的垂直图像位置,而不是它们的表观大小。使用垂直位置需要知道相机姿态;在第4中,我们研究相机姿态是假设恒定还是从图像中观察到的。对于MonoDepth,我们在第5节中研究了它如何识别障碍物并找到它们的地面接触点。我们将在第6讨论我们的结果的影响。2. 相关工作关于单目深度估计的现有工作已经广泛地表明,神经网络可以从单个图像估计深度,但是仍然缺少对这种估计如何工作的分析。特征可视化和归因可以用来分析这种行为。深度网络中特征可视化的早期例子之一可以在[6]中找到。 这些方法已在e.g. [22,24]和可视化技术的广泛处理可以在[16]中找到。本质上,神经网络使用的特征可以通过基于单个神经元、特征图或网络的整个层的激励相对于损失函数优化输入图像来可视化。Huet al. [12]其中作者进行了归因分析,以找到对最终深度图贡献最大的像素,这与我们的工作最密切相关。然而,这些方法只提供了对CNN底层工作的深入了解。神经网络敏感的特征集合并不能完全解释其行为。从更人性化的角度来看,深度线索和行为之间的联系仍然缺失,这使得我们很难对这些网络进行推理在这项工作中,我们采取了一种不同的方法,这可能与人类(单眼)深度知觉的研究更密切相关。我们将神经网络视为一个黑盒,只测量对某些输入的响应(在这种情况下是深度图)。我们不是用损失函数优化输入,而是修改或干扰图像并在得到的深度图中寻找相关性。关于人类深度知觉的文献提供了对可用于估计距离的图像线索的深入了解。以下提示来自[10]和最近的评论[3,2],通常可以在单个图像中找到:• 在图像中的位置。距离较远的物体往往更接近地平线。当你停在在地面上,物体在图像中也出现得更高。• 闭塞。距离较近的物体会遮挡后面的物体。遮挡提供有关深度顺序的信息,但不提供距离。• 纹理密度。距离较远的纹理曲面在图像中看起来更细粒度。• 线性透视。物理世界中的直线、平行线似乎在图像中会聚。• 物体的外观尺寸距离越远的物体看起来越小。• 阴影和照明。当曲面的法线指向光源时,曲面看起来更亮。人们常常认为光是从上面来的着色类型-cally提供关于表面内的深度变化的信息,而不是相对于图像的其他部分的信息• 聚焦模糊。位于焦平面前面或后面的对象看起来模糊。• 空中透视。非常远的物体(千米)对比度较低,并呈现蓝色。在这些线索中,我们期望只有图像中的位置和物体的表观大小适用于KITTI数据集;其他线索不太可能出现,因为图像分辨率低(纹理密度、聚焦模糊)、深度范围有限(空中透视),或者它们与对障碍物的距离估计不太相关(遮挡、线性透视以及阴影和照明)。这两种线索都在人类身上进行了实验观察特别是视野中的垂直位置有一些重要的细微差别。例如,爱泼斯坦表明,感知距离不仅取决于视野中的垂直位置,还取决于背景[5]。另一个重要的上下文特征是地平线,当几乎没有地面(或天花板)纹理时,它会变得更加重要[8]。Ooi等人使用棱镜来操纵人类受试者表明,人类在现实世界的实验中使用相对于“眼睛水平”的角度偏差[17]而不是视觉地平线,其中眼位是视野中地平线的预期高度。物体的表观大小也影响它们的估计距离。Sousa等人进行了一项实验,其中子系统需要判断到不同大小立方体的距离[21]。立方体的表观大小影响估计距离,即使立方体的真实大小是未知的,并且在视野中的高度和其他线索存在。没有发现研究这些观察结果是否也适用于深度估计的神经网络。3. 降落的位置和表观尺寸如第2所述,对象的垂直图像位置和表观大小是最有可能被网络使用的线索。图1显示了如何使用这些线索来估计到障碍物的距离。假设相机此外,我们认为,相机2185′ZHHY(f,y)f(Z,Y)图1.真实物体尺寸H和相机帧中的位置Y、Z以及图像坐标中的垂直图像位置y和表观尺寸h。图像坐标从图像的中心测量。因此,俯仰角可以通过垂直图像坐标y的偏移来近似,其中水平高度yh被用作相机俯仰的度量所有坐标都是相对于图像中心测量的。从.其次,测试集中的每个图像都标记有障碍物可以插入的位置(例如,摄像机左侧的通道仍然是空的)。将此信息与对象标签相结合可确保测试图像保持合理性。到插入对象的真实距离是未知的;相反,将评估网络 距离是相对于对象的原始大小和位置来表示的,该对象被分配相对距离Z′/Z=1。0的情况。相对距离为以0.1到3.0的步长增加,并控制缩放和物体的位置x′,y′如下:Zs=,(3)Z考虑到障碍物h,可以使用以下公式估计距离:和Zx=xZ, y′=yh+(y−yh)ZZ′(四)FZ=H(1)H这需要知道障碍物在KITTI数据集中最常遇到的对象来自有限数量的类(例如,汽车、卡车、行人),其中类内的所有对象具有大致相同的因此,网络可能已经学会识别这些物体,并使用它们的表观大小来估计它们的距离。或者,网络可以使用物体的地面接触点的垂直图像位置y来估计深度。给定相机在地面上方的高度Y,可以通过以下公式估计距离:FZ=y−yhY(2)该方法不需要关于对象的真实尺寸H的任何知识,而是假设存在平坦地面和已知的相机姿态(Y,yh)。这些假设在KITTI数据集中也大致成立。3.1. 评价方法为了找到网络使用的这些线索中的哪一个,生成了三组测试图像:一种是物体的表观尺寸变化但图像中地面接触点的垂直位置保持恒定,一种是垂直位置变化但尺寸保持恒定,一种是表观尺寸和位置都随距离变化的控制组,正如在真实世界图像中所预期的那样。测试图像生成如下:对象(主要是汽车)是从KITTI的场景流数据集的图像中裁剪出来的。 每个对象都标记有其相对于相机的位置(例如,左侧的一条车道,面向摄像机),并根据图像中的位置对其进行裁剪其中x′,y′是对象的地面接触点的坐标,并且其中y h是图像中的水平线的高度,其在整个数据集中被假定为恒定的。通过在汽车前部或后部的平坦区域上平均深度图来评估朝向汽车的估计深度(图2)。使用平坦区域而不是整个对象来防止车辆的估计长度影响深度估计;长度很可能取决于对象的表观尺寸,而距离可能不取决于。3.2. 结果该实验的结果示于图3中。当位置和尺度都变化时,除Wang等外,所有深度估计值都是变化的。s的行为符合预期:估计的深度保持接近于对象的真实深度,这表明网络在这些人工图像上仍然正确地工作。当仅垂直位置变化时,网络仍然可以粗略地估计到物体的距离,尽管该距离被稍微高估(Godard等人,Zhou等,Wang等人)或被低估(Kuznietsov等人)。此外,与对照组相比,距离估计值的标准差有所增加。最令人惊讶的结果是,当物体的表观尺寸发生变化,而地面接触点保持不变时:在这些情况下,没有网络观察到距离的任何变化。这些结果表明,神经网络主要依赖于对象的垂直位置,而不是它们的表观尺寸,尽管当尺寸信息被移除时,观察到一些行为变化。所有四个网络都表现出类似行为的事实也表明,这是一个一般性质,并不强烈依赖于网络架构或训练机制(半监督,立体声无监督,视频无监督)。′2186相对距离1.0 1.5 3.0位置和大小位置仅仅尺寸图2.示例测试图像和从MonoDepth得到的视差图。左侧的白色汽车以1.0(左列)、1.5(中列)和3.0(右列)的相对距离插入图像中,其中1.0的距离对应于汽车从其原始图像中裁剪的大小和位置。在最上面的一行中,汽车的位置和外观尺寸都随距离而变化,在中间的一行中,只有位置变化,尺寸保持不变,在最下面的一行中,尺寸变化,而位置不变。测量估计距离的区域由视差图中的白色轮廓指示。4. 摄像机姿势:恒定或估计?使用垂直位置作为深度提示意味着网络对相机的姿势有一定的了解。这个姿势可以从图像中推断出来(例如,通过找到地平线或消失点),或者假设是恒定的。后一种假设在KITTI数据集上应该可以很好地工作,其中相机被刚性地固定在汽车上,并且唯一的偏差来自汽车的俯仰然而,这也意味着经过训练的网络不能直接转移到不同的相机设置。因此,重要的是调查网络是否假设固定的相机姿势或在运行中估计该姿势。如果网络可以测量相机俯仰,那么俯仰的变化也应该在估计的深度图中观察到。未修改的KITTI测试图像已经在地平线水平上有一些变化;在初始实验中,我们寻找图像中的真实水平高度(根据Velodyne数据确定)与根据MonoDepth的深度估计中的估计水平高度之间的相关性。通过裁剪视差图的中心区域(道路表面)并使用RANSAC将线拟合到视差-y对来测量地平线水平。将这条线外推到零视差(即,无限远)给出了地平线的高度。对于每个图像,该过程重复五次以平均来自RANSAC过程的图4显示了真实水平高度和估计水平高度之间的关系。虽然预计MonoDepth将完全跟踪地平线水平或根本不跟踪,但发现回归系数为0.60,这表明它在这些极端之间做了一些事情。进行了第二次实验,以排除Velodyne数据和第一次实验中小范围(±10 px)真实水平线的在第二个实验中,一个较小的区域被裁剪,图像中的不同高度(图5)。对于每个图像,以距图像中心-30到30像素之间的偏移进行七次裁剪,这近似于±2-3度的相机俯仰变化。代替使用Velo- dyne数据来估计真实水平高度,来自中心裁剪图像的深度估计的水平被用作参考值。换句话说,这个实验评估了地平线水平的偏移在深度估计中的反映程度,而不是其绝对位置。所有四个网络的结果如图6所示。结果与前面的实验相似:所有的网络都能够检测摄像机俯仰的变化,但是所有的网络都低估了地平线水平的变化。由于网络使用障碍物的垂直位置来估计深度,我们预计这种低估会影响到21874.543.532.52190185180175170165160160 165 170 175 180 185 190真地平线[px]图4.未修改KITTI1.511 1.5 2 2.53真实相对距离[-]图像. MonoDepth的结果(Godard等人)。一个中等到大的相关性被发现(皮尔逊r = 0。50,N=1892),但斜率仅为0.60,表明地平线的真实偏移没有完全反映在估计的深度图中。图3.垂直影像位置与视尺寸线索对深度估测的影响。阴影区域表示Godard等人的网络的±1 SD(N=1862)。当两个深度线索都存在时,所有网络都成功地估计出了距离。除了王等人之外它高估了距离。当只有垂直位置可用时,距离 被 高 估 或 低 估 , 测 量 的 标 准 差 增 加 ( 仅 显 示MonoDepth)。当只有表观尺寸可用时,没有一个网络能够估计距离。影响估计的距离。为了验证这一假设,我们使用相同的间距裁剪数据集,并评估相机间距的变化是否会导致障碍物差异的变化结果如图7所示。估计的差异确实受到相机间距的影响。这一结果也表明,网络关注的是物体的垂直图像位置,而不是它们到地平线的距离,因为当图像被裁剪时,后者不会改变。4.1. 相机胶卷类似于俯仰角,相机的滚动角影响朝向障碍物的深度估计如果摄像机具有非零滚转角,则朝向障碍物的距离不仅取决于它们在图像中的垂直位置,而且还取决于它们在图像中的水平位置对于俯仰角进行了类似的实验:以不同的角度裁剪图像的较小区域(图8)。为了测量滚动角,将Hough线检测器应用于深度图的薄片以找到路面的角度。与之前的实验一样,我们寻找一个核心-图5.通过在不同高度裁剪图像来模拟较大的相机俯仰角40200-20电话:+86-20 - 8888888传真:+86-20 - 88888888真水平位移[px]图6.在不同高度裁剪图像后,地平线水平的真实和估计变化。阴影区域表示Godard等人的网络的± 1 SD。(N=194,去除6个离群值>3SD)。摄像机角度与路面的估计角度的变化之间的关系。结果如图9所示,与桨距角的结果类似:所有网络993像素-30像素+30像估计相对距离[-]深度图中的地平线偏移[px]估计地平线[px]300 px21886420-2-4-6电话:+86-20 - 8888888传真:+86-20 - 88888888地平线偏移[px]图7.摄像机俯仰的变化会干扰对障碍物的估计距离。阴影区域表示Godard等人的网络的±1SD。图8.相机滚动角度是通过从原始KITTI图像中裁剪较小的倾斜区域来模拟的。86420-2-4-10 - 5 0 5 10真实滚转位移[deg]图9.裁剪图像中的真实和估计滚动偏移。对于所有网络,路面角度的变化小于图像被裁剪的真实角度。阴影区域表示Godard等人的网络的±1SD。(N=189,11去除离群值>3SD能够检测摄像机的滚动角,但该角度被低估。图10.在训练集中找不到的对象(冰箱、狗)在粘贴到图像中时无法可靠地检测到。5. 障碍物识别第3节已经表明,所有四个网络都使用图像中对象的垂直位置来估计它们的距离。这种估计所需的唯一知识是物体的地面接触点的位置由于不需要关于障碍物的其他知识(例如,它的真实世界的大小),这表明网络可以估计到任意障碍物的距离。然而,图10显示情况并非总是如此。汽车被识别为障碍物,但其他物体未被识别,并在深度图中显示为平坦的路面。为了正确估计障碍物的深度,神经网络应该能够:1)找到障碍物的地面接触点,因为这用于估计其距离,以及2)找到障碍物的轮廓以便填充深度图中的对应 区域 。在 本节 中, 我 们试 图识 别Godard 等 人的MonoDepth网络的功能。用于执行这些任务。图10的结果表明,网络依赖于适用于汽车的特征,而不适用于插入测试图像的其他对象。5.1. 颜色和纹理图10中插入的对象在颜色、纹理和形状方面与汽车不同。在第一个实验中,我们调查颜色和纹理如何影响MonoDepth的为了研究颜色的影响,创建了两个新的测试集:一种是将图像转换为灰度以去除所有颜色信息,另一种是将色调和饱和度通道替换为KITTI的语义RGB数据集以进一步干扰颜色。另外两个数据集被用来测试纹理的影响:一个集合,其中所有对象都被替换为该对象类的平均值的平面颜色-图11中示出了经修改的图像和所得到的深度图的示例,表1中列出了性能度量。只要图像中的价值信息仍然存在-10°..+10°视差位移[px]估计滚转位移[deg]2189未修饰灰度类平均颜色伪色语义RGB图11.未修改的、灰度、假色、类平均颜色和语义rgb图像的示例图像和深度图测试集绝对相对值平方相对RMSERMSE日志D1-所有δ<1。25δ<1。252δ<1。253未修改的图像0.1241.3886.1250.21730.2720.8410.9360.975灰度0.1301.4576.3500.22731.9750.8310.9300.972伪色0.1281.2576.3550.23734.8650.8160.9200.966语义RGB0.1922.7848.5310.34946.3170.7140.8500.918类平均颜色0.2444.1599.3920.36750.0030.6910.8350.910表1. MonoDepth在具有干扰颜色或纹理的图像上的性能。未修改的图像结果复制自[11];该表列出了未进行后处理的结果。保持值通道不变(灰度和假色)的图像的错误值接近未修改的值。如果图像中的值信息被移除,对象被替换为单色(语义rgb,类平均颜色),那么图像的表现会明显变差。图12.物体不需要具有熟悉的形状或纹理来检测。这些不存在的障碍物的距离似乎是由其较低范围的位置决定的。图13.汽车零件和边缘对深度图的影响。重新移动汽车的中心(右上)对检测没有显著汽车未改变(未改变的、灰度和假色图像),仅观察到性能的轻微下降这表明障碍物的确切颜色并不对深度估计有很大影响。然而,当纹理被删除(类平均颜色和语义rgb)的性能下降相当大。该网络在具有虚假颜色的语义rgb数据集上的表现也比在真实彩色图像上的表现更好。这进一步表明,对象的确切颜色并不重要,并且诸如相邻区域之间的对比度或对象内的亮区域和暗区域之类的特征更重要。5.2. 形状和对比度由于颜色不能解释为什么图10中的对象没有被检测到,我们接下来看看形状和对比度。第一个定性实验表明,物体不需要熟悉的形状或纹理来识别(图12)。此外,与这些不熟悉的物体的距离似乎是从它们的较低范围开始的,这进一步支持了我们的说法,即网络使用地面接触点作为主要的深度线索。在第二个实验中,我们通过系统地移除汽车的部件,直到它不再被检测到,来找到网络最敏感的特征当形状的内部被移除时,汽车仍然被检测到,这表明网络主要对对象的轮廓敏感,并当侧边或底边被移除时,汽车不再被检测到。然而,当只去除底部边缘时,汽车的两侧仍然被检测为两个薄的物体。我们怀疑形状底部的黑暗区域是网络检测障碍物的主要特征。2190图16.在图10的对象的底部添加阴影使得它们被检测到。然而,冰箱只检测到门之间的下一个水平边缘。图14.为了测量底部边缘的影响,我们改变其亮度和厚度。该实验在60个背景图像上重复。10010.9此外,与使用真实纹理时相比,完全黑色的边缘导致更小的距离误差。这表明该网络主要寻找深色,而不是对比度或可识别的纹理。最后,结果表明,完全填充的形状会导致更好的-0.80.70.60.50.40.30.20.10Tex806040200电话:+86-10 - 8888888传真:+86-10 -88888888底边厚度[px]称为距离估计。我们怀疑完全填满形状从环境中去除否则可能被误认为障碍物轮廓的边缘。作为最后的测试,我们给图10中未检测到的对象添加一个黑色阴影。对象现在被成功地检测到(图16)。6. 结论和今后的工作在这项工作中,我们分析了四个用于单目深度估计的神经网络,发现它们都使用图像中物体的垂直位置来估计它们的深度,而不是它们的表观尺寸。这一估计,图15.作为底边函数的平均距离误差颜色和厚度。为了比较,我们包括了真实纹理形状(Tex)和完全填充形状(F)的结果。距离误差相对于实际(F,Tex)形状的估计距离进行测量。由汽车下方的阴影形成的底部边缘与场景的其余部分形成高度对比,并且KITTI图像的检查表明,该阴影几乎普遍存在,并且可以形成用于检测汽车的可靠我们在一个定量实验中研究了底边的影响,其中底边的亮度和厚度都是变化的(图14,15)。此外,将结果与完全填充的形状(F)和具有真实纹理的形状(Tex)进行比较。我们测量的误差,在障碍物结果是在60个背景图像上平均的,其中形状不与其他汽车重叠。图15显示,底部边缘需要既厚又暗才能成功检测,其中厚度≥13 px的完全黑色边缘导致相对于真实图像的平均距离误差小于10% 白边不会导致成功检测,尽管与路面有类似的对比度取决于摄像机的姿态,但是对该姿态的改变没有完全考虑,导致当摄像机姿态改变时对到障碍物的距离的估计不足或估计这种限制对这些系统的部署有很大的影响,但迄今为止在文献中几乎没有得到任何关注我们进一步表明,MonoDepth可以检测到没有出现在训练集中的对象,但这种检测并不总是可靠的,并取决于因素,如存在的阴影下的对象。虽然我们的工作显示了这些神经网络如何感知深度,但它并没有显示这种行为来自哪里。可能的原因是训练集中缺乏变化,这可以通过数据增强或卷积神经网络固有的属性(例如,它们对平移不变性,但对尺度不变性)。未来的工作应该调查哪些是正确的,以及当垂直图像位置不再可靠时,网络是否可以学习使用不同的深度提示致谢我们要感谢的作者[11,25,13,23]使他们的代码和模型公开可用。这项工作是作为Percevite项目的一部分进行的,该项目由欧盟地平线2020研究和创新计划下的SESAR联合承诺根据第763702号赠款协议资助距离误差(平均值)[%]值[0..第1页]2191引用[1] 乔纳森·T.巴伦和吉坦德拉·马利克形状、照明和着色的反 射 。 IEEE Transactions on Pattern Analysis andMachine Intelligence,37(8):1670-1687,2015年8月。1[2] Eli Brenner和Jeroen B.J. Smeets 深度感知。 在J.T. Wixted,编辑,StevensJohn Wiley Sons,纽约,第4版,2018年。2[3] James E. Cutting和Peter M.维什顿感知布局并了解距离:关于深度的不同信息的整合、相对效力和上下文使用。《空间与运动的知觉》,第69-117页。Elsevier,1995年。2[4] David Eigen、Christian Puhrsch和Rob Fergus。使用多尺度深度网络从单个图像进行深度图预测。神经信息处理系统进展27,第2366-2374页。Curran Associates,Inc.2014. 1[5] 威廉·爱泼斯坦三种背景条件下的深度知觉与相对高度的 关 系 。 Journal of Ex-perimental Psychology , 72(3):335-338,1966. 2[6] Dumitru Erhan 、 Yoshua Bengio 、 Aaron Courville 和Pascal Vincent。2009年,深度网络的高层特征可视化2[7] 保罗·法瓦罗和斯特凡诺·索阿托。从散焦恢复形状的几何 方 法 。 IEEE Transactions on Pattern Analysis andMachine Intelligence,27(3):406-417,2005年3月。1[8] Jonathan S.加德纳,约瑟夫·L. Austerweil和Stephen E.帕尔默垂直位置作为图片深度的提示:图平面中的高度与到地平线的距离。请注意Perception,Psychophysics,72(2):445-453,2010. 2[9] Ravi Garg,Vijay B.G. Kumar,Gustavo Quartiiro,andIan Reid.用于单视图深度估计的无监督CNN:拯救几何在Bastian Leibe,Jiri Matas,Nicu Sebe和Max Welling,编辑,欧洲计算机视觉会议,第740-756页施普林格国际出版社. 1[10] 詹姆斯·吉布森对视觉世界。霍顿米夫林,牛津,英国,1950年。2[11] C le'mentGodard,O i sinMacAodha,andGabrielJ. 布罗斯特。具有左右一致性的无监督单目深度估计。IEEE计算机视觉与模式识别会议,2017年。一、七、八[12] Junjie Hu,Yan Zhang,Takayuki Okatani. 用于单目深度估计的卷积神经网络的可视化2019年4月。2[13] Yevhen Kuznietsov,Jorg Stuckler和Bastian Leibe。用于单目深度图预测的半监督深度学习。2017年IEEE计算机视觉与模式识别会议(CVPR),第2215-2223页。IEEE,2017年7月。二、八[14] Anthony Lobay 和 D.A. 福 赛 斯 无 边 界 的 纹 理 形 状International Journal of Computer Vision,67(1):71-91,Apr 2006. 1[15] Moritz Menze和Andreas Geiger。自动驾驶车辆的对象场景 流 。 Proceedings of the IEEE Computer SocietyConference on Computer Vision and Pattern Recognition,07-12-June:3061-3070,2015. 1[16] Chris Olah,Alexander Mordvintsev,and Ludwig Schubert.特征可视化。蒸馏,2017。2[17] Teng Leng Ooi,Bing Wu和Zijiang J.他外距离由地平线下的角度差决定Nature,414:197-200,2001. 2[18] 张若,蔡炳星,J.E.克里尔和穆巴拉克·沙阿从阴影恢复形状:调查。IEEE Transactions on Pattern Analysis andMachine Intelligence,21(8):690-706,1999。1[19] Ashutosh Saxena、Sung H Chung和Andrew Y Ng。从单个单目图像学习深度神经信息处理系统进展,18:1161-1168,2006。1[20] Nathan Silberman、Derek Hoiem、Pushmeet Kohli和RobFergus。RGBD图像的室内分割和支持推理。在AndrewFitzgiant 、 Svetlana Lazebnik 、 Pietro Perona 、 YoichiSato和Cordelia Schmid编辑的《计算机视觉-施普林格柏林海德堡。1[21] Rita Sousa,Jeroen B.J. Smeets和Eli Brenner大小重要吗?Perception,41(12):1532-1534,2012. 2[22] Christian Szegedy、Wojciech Zaremba、Ilya Sutskever、Joan Bruna 、 Dumitru Erhan 、 Ian Goodfellow 和 RobFergus。神经网络的有趣特性。arXiv预印本arXiv:1312.6199,2013。2[23] Chaoyang Wang,Jose 'Miguel Buenaposada,Rui Zhu,and Simon Lucey.学习深度从单眼视频使用- ing直接的方法。在IEEE计算机视觉和模式识别会议(CVPR),2018。一、二、八[24] Matthew D. Zeiler和Rob Fergus。可视化和理解卷积网络 。 在 David Fleet 、 Tomas Pa-jdla 、 Bernt Schiele 和Tinne Tuytelaars编辑的Computer Vision-ECCV施普林格国际出版社. 2[25] Tinghui Zhou , Matthew Brown , Noah Snavely , andDavid G Lowe.视频深度和自我运动的无监督学习。在CVPR,第7页,2017年。一、二、八
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 平尾装配工作平台运输支撑系统设计与应用
- MAX-MIN Ant System:用MATLAB解决旅行商问题
- Flutter状态管理新秀:sealed_flutter_bloc包整合seal_unions
- Pong²开源游戏:双人对战图形化的经典竞技体验
- jQuery spriteAnimator插件:创建精灵动画的利器
- 广播媒体对象传输方法与设备的技术分析
- MATLAB HDF5数据提取工具:深层结构化数据处理
- 适用于arm64的Valgrind交叉编译包发布
- 基于canvas和Java后端的小程序“飞翔的小鸟”完整示例
- 全面升级STM32F7 Discovery LCD BSP驱动程序
- React Router v4 入门教程与示例代码解析
- 下载OpenCV各版本安装包,全面覆盖2.4至4.5
- 手写笔画分割技术的新突破:智能分割方法与装置
- 基于Koplowitz & Bruckstein算法的MATLAB周长估计方法
- Modbus4j-3.0.3版本免费下载指南
- PoqetPresenter:Sharp Zaurus上的开源OpenOffice演示查看器
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功