没有合适的资源?快使用搜索试试~ 我知道了~
7624连接点:主动式单目深度估计Gernot Riegler1,廖 依依2,SimonDonne2,Vladlen Koltun1, Andreas Geiger2,英特尔智能系统实验室2,图宾根大学自主视觉组,MPI-IS{firstname.lastname}@ intel.com{firstname.lastname}@ tue.mpg.de摘要我们提出了一种利用单目结构光相机进行深度估计的技术,即,一台摄像机和一台激光投影仪的校准而不是通过对应搜索问题制定的深度估计,我们表明,一个简单的卷积架构是足够的高质量的视差估计在这种情况下。由于很难获得准确的地面实况,我们以一种自我监督的方式训练我们的模型,并结合了光度和几何损失。此外,我们证明了结构光传感器的投影图案可以可靠地与环境信息分离。然后,这可以用于通过对图像和深度边缘的联合统计进行建模来以弱监督的方式改进深度边界。以这种方式训练的模型在具有挑战性的合成和真实世界数据集上与最先进的模型相比毫不逊色。此外,我们还提供了一个新的模拟器,它允许在受控条件下对主动深度预测算法1. 介绍随着微软Kinect的推出,主动消费级深度相机极大地影响了计算机视觉领域,导致了算法创新[13,28]和新颖的3D数据集[6,7,35,37],特别是在室内环境的同样,越来越多的负担得起的和可靠的深度传感技术的可用性加速了机器人技术的研究。虽然这一进展是显著的,但基于消费者深度相机的当前研究例如,最初的Kinect v1使用简单的基于相关性的块匹配技术[33],而Intel RealSense摄像头利用半全局匹配[16]。然而,这两种方法在当前的立体声基准测试中都不是最先进的[25,32,34],其中大多数都是基于学习的方法。*共同第一作者,同等贡献。在本文中,我们利用深度学习的潜力来完成这项任务。特别地,我们考虑主动单目深度估计的设置。我们的装置包括一个摄像机和一个激光投影仪,它用一个已知的随机点图案照亮场景。根据场景的深度,该图案从相机的视点变化。这种情况是有吸引力的,因为它只需要一个相机相比,主动立体声系统。此外,神经网络的任务不是找到图像之间的对应关系。相反,我们的网络直接从像素的局部邻域中的点模式估计视差训练用于主动深度估计的深度神经网络是困难的,因为获得足够大量的精确对准的地面实况是非常具有挑战性的。因此,我们建议以完全自监督或弱监督的方式训练主动深度估计网络,而为了实现这一目标,我们结合了光度损失与视差损失,其中考虑了环境图像中可用的边缘信息我们进一步提出了一个几何损失,强制执行多视图的预测几何结构的一致性。据我们所知,这是第一个用于主动单目深度估计的深度学习方法。总之,我们做出以下贡献:我们发现,卷积网络在估计视差方面非常有效,尽管有关绝对位置的信息没有明确编码在输入特征中。基于这些发现,我们提出了一个用于主动单目深度预测的深度网络。我们的方法不需要像[10]中那样来自经典立体声算法的伪地面实况。相反,它通过光度量和几何损失获得鲁棒性。我们表明,环境的边缘信息可以从一个单一的输入图像可靠地解开由于缺乏具有精确地面实况深度的大型数据集,有效深度预测的研究受到阻碍。因此,我们贡献了一个模拟器和数据集,允许在现实的,但受控的条件下基准主动深度预测算法76252. 相关工作主动深度感应:结构光估计技术使用投影仪以已知的光图案照射场景,这允许以高精度重建无纹理场景。属于这一类别的技术可以分为时间或空间。时间技术用可以在每个相机像素处唯一解码的时间变化图案来照亮场景这需要同一场景的多个图像,因此不能在动态场景中使用。因此,我们将注意力集中在空间结构光设置上,其中深度信息以局部唯一的2D图案编码。大多数相关方法通过搜索相机图像和参考图案之间的局部对应来从输入图像获得深度。一个主要的例子是Kinect V1传感器[21]中的算法,该算法首先从输入图像中提取点,然后将每个点周围的局部窗口与参考图像中相应的补丁相关联。这类似于立体文学中的经典块匹配算法[33]。 尽管与被动立体设置相比面临更容易的任务,但基于相关性的算法由于其关于反射率(光一致性)和几何形状(整个斑块内的恒定视差)的简化假设而在准确性方面有所不足。Fanello等人[10]显示了不同的公式:深度估计作为一个监督学习问题。更具体地说,利用对极几何,他们训练每行一个随机森林,为每个像素预测参考图像中的绝对x坐标。这种观点允许他们获得一个非常快速的并行实现,运行在375赫兹,在百万像素分辨率宁。为了训练他们的随机森林,他们利用PatchMatch Stereo[1]作为伪地面实况。相比之下,我们利用深度学习的优势,提出了一个可以以自我监督的方式进行训练的深度网络。除了投影点模式,我们的损失函数利用多视图的一致性,以及周围的信息。像英特尔实感D435这样的主动立体设置利用结构光,通过使用可以应用传统方法的图案来增强无纹理区域来改善双目立体重建[16,33]。Fanello等人[11]提出了一种算法来学习有效匹配的判别特征。Zhang等人[41]利用自监督学习的思想来训练主动立体声网络,而不需要地面实况深度。该设置类似于具有立体图像对作为输入的被动立体设置,并且任务是学习相关函数。相比之下,我们考虑主动单眼设置,并使用自监督学习来训练一个网络,该网络从单个注释图像预测立体匹配:双目立体匹配是一种计算机视觉中最古老的问题和当前的方法[19,22,36]在KITTI [25]或Middlebury [32]等既定基准上取得了令人印象深刻的性能然而,被动技术在无纹理区域中仍然受到影响,其中数据项是模糊的,并且模型需要插入大的间隙。这对于无纹理区域占主导地位的室内环境尤其成问题。在本文中,我们减轻了这个问题,利用模式投影仪偏移的基线相对于相机。然而,我们利用来自立体社区的想法我们训练我们的模型,使得被估计的视差扭曲的参考图案与观察到的图案一致。单个图像深度预测:从单个图像重建几何图形一直是计算机视觉中的长期目标[30,31],但直到最近才展示了第一个有希望的结果[9,14,40]。其原因是任务的不适定性质,对于单个观察有许多可能的解释。与单个图像深度预测技术一样,我们也只使用单个相机。然而,与纯粹基于外观的方法相比,我们还利用了来自外部校准投影仪的点图案的结构,以及图像中的环境信息。3. 主动单目深度估计在这一节中,我们首先回顾了空间结构光成像原理,并提出了一个在这种情况下生成图像的前向模型。然后,我们描述了我们的方法的网络结构和损失函数。3.1. 空间结构光单目空间结构光传感器[21,26,39]的工作原理如图所示1.一、激光二极管发出的光通过透镜聚焦,并通过衍射光学元件(DOE)分散成多条随机光线,从而产生简单的随机点图案投影仪。投射到物体上的图案被相机感知。投影仪可以被视为第二相机,其虚拟图像平面示出由DOE确定的参考图案由于随机图案是局部唯一的,因此可以使用经典的基于窗口的匹配技术在感知图像和投影仪的虚拟图像之间建立对应关系。给定匹配并且假设校正图像,视差d可以被计算为感知图像中的对应像素的x坐标与参考图案之间的差。在本文中,我们遵循另一种方法,并提出视差估计作为一个回归问题的输入图像的条件。 给定视差d,场景深度z可以获得为z=bf/d,其中b表示基线,f是相机的焦距。762612正向模型:我们现在介绍我们的数学成像模型的空间结构光系统。设I∈RW×H表示摄像机所感知的图像,W×H是图像尺寸。我们假设噪声图像I是从无噪声图像J∈RW×H通过添加具有仿射、信号相关方差的高斯噪声而获得的[12]。无噪声图像J本身包括两个分量:反射的激光图案R∈RW×H和环境图像A∈RW×H,环境图像A捕获来自其他源的反射光。组合-在朗伯反射中,反射图案R的强度取决于投影图案P∈RW×H、到物体的距离Z∈RW×H、材料的反射率M∈RW×H以及表面相对于光源的取向Θ[29]。总的来说,我们得到:I(x)<$N(J(x,y),σ2J(x,y)+σ2)摄像机像平面虚拟投影仪像平面DOE摄像机镜头激光器图1:空间结构光。相干光由激光二极管发射。衍射光学元件(DOE)分裂光线(红色实线)并将随机点图案投射点图案在基线b处由相机(红色虚线)感知。给定局部区域中随机点图案的唯一性,可以建立对应关系,并通过三角测量推断深度。J( x,y)= A( x,y)+ R( x,y)(1)P( x,y) M( x,y)cos(Θ( x,y))从两个不同的角度构建 请注意,在con-R(x,y)=Z(x,y)2。与自我监督的单图像深度估计技术[14,38,43]相比,在这里,我们假设相对于物体到光源的距离的二次衰减。严格地说,二次衰减仅适用于点光源。然而,由于激光束的发散,对于激光投影仪可以假设类似的衰减我们在第4.1节中利用该模型来模拟基于3D CAD模型合成场景时的图像生成过程。我们还利用它来通知我们的决定,将I分解为环境和点模式组件。将这两个组件分开具有以下优点:环境图像包括关于深度连续性的密集信息,其通常与环境图像的边界对齐。另一方面,点模式携带关于投影点处的绝对深度的稀疏信息。因此,我们的模型是能够改善深度边界相比,传统的ap-proach只考虑稀疏点模式。3.2. 网络架构我们将视差估计作为一个回归问题,我们使用完全卷积网络架构进行建模。对于主动深度预测模型来说,监督训练是不切实际的,因为获得精度显著高于模型本身精度的地面实况深度是具有挑战性的因此,我们使用光度,视差和几何约束来训练我们的模型。我们的光度损失通过估计的视差图来加强输入图像和扭曲的参考图案之间的一致性。我们的视差损失模型一阶(例如,梯度)统计。我们的几何损失加强了3D几何结构的一致性对于视点,当场景随着投影仪的位置而改变时,相反,我们利用光度限制相关的观察与参考模式。我们的实验(第4节)表明,所有三种损失是互补的,当组合应用时会产生最佳结果。我们的整体模型如图所示。二、由于地理度量损失(绿框)需要从两个不同的有利点访问深度估计,我们示出了相同网络的两个实例(红框和蓝框),分别处理输入图像Ii和输入图像Ij。模型的参数以黄色表示。视差解码器和边缘解码器参数跨所有训练实例共享。任何两个视图(i,j)之间的相对相机运动对于特定图像对是唯一的,因此不跨训练实例共享。我们现在详细描述模型的所有组件。图像预处理:如等式1所示。在图1中,相机图像I取决于各种因素,诸如环境照度A以及反射图案R,反射图案R又取决于场景中的对象的材料M深度图像Z和投影的点图案P。为了从材料M和场景深度Z中提取反射图案R的依赖性,我们利用局部对比度归一化[18,41]:P=LCN(I,x,y)=I(x,y)−µI(x,y)。(二)σI( x,y)+σ此处,µI(x,y)和σI(x,y)表示(x,y)周围小范围内(所有实验中为11×11)的平均值和标准偏差,而σ I是用于消除低水平传感器噪声的常数7627视差图参考图案视差图经纱经纱视差解码器视差解码器差异因子3D差异因子输入输入3D边缘解码器边缘解码器图2:模型概述。处理从两个不同视点拍摄的输入图像Ii和Ij,以分别产生视差图Di和Dj。对于每个训练图像(这里是i和j)单独地应用光度损失LP和视差损失LD 几何损失LG被应用于图像对(i,j),并且在给定两个视图之间的相对运动(Rij,tij)的情况下,测量在将3D点从视图j投影到视图i之后的几何一致性。黄色的盒子描绘了我们模型的可训练参数视差解码器和边缘解码器参数在所有训练图像之间共享相反,每个训练图像对(i,j)实例化一组刚性运动参数(Rij,tij)。运算符缩写如下。避免数值不稳定。 虽然环境照明A的一部分保持存在于P中 ,但环境照明的强度通常弱于激光图案的强度,因此当从P估计深度时 可 以 安 全 地 忽略。视差解码器:我们将原始图像与对比度归一化图像连接起来,并将其传递给视差解码器,该解码器从输入预测视差图。我们使用视差而不是深度作为输出表示,因为视差直接与基于图像的测量相关,与深度相反。令人惊讶的是,我们发现在自我监督设置中,预测视差比预测绝对位置更容易[10]我们提供了一个实证分析,并在我们的实验评估这一主题的进一步见解。我们的解码器的架构类似于U-net体系结构中提出的,交错卷积与跨越卷积的收缩部分,和上卷积与卷积的扩展部分。我们在卷积层和跳过连接之间使用ReLU [27]来保留细节。最后一层之后是缩放的S形非线性,其将输出视差图约束在0和dmax之间的范围内。有关我们架构的更多详细信息,请参阅补充资料。边缘解码器:由于监督视差解码器的点模式相对稀疏(参见图1B),(4)照片--仅仅度量损失不足以学习预测准确和清晰的对象边界。然而,关于对象边界的信息存在于输入图像的环境分量中。特别地,假设视差梯度与环境图像中的梯度一致是合理的(但反之亦然),因为材料、几何和照明通常在对象之间变化。我们利用这个假设,使用一个边缘解码器预测环境图像边缘Ei直接从输入图像I i。 出于这样一个事实,即环境边缘可以很好地分离的点模式和其他滋扰因素,使用本地信息,我们利用了一个浅U-网架构的任务,使泛化从几个训练的例子。这个U-Net的最后一层是一个S形非线性,它预测每个像素处环境边缘的概率有关网络架构的详细信息,请参见补充资料。3.3. 损失函数我们现在描述我们的损失函数,它由四个单独的损失组成(图中的表示)2):光度损失LP、视差损失LD、边缘损失LE和几何一致性损失LG。虽然LP、LD和LE在单个视图i上操作,但是几何损失LG需要图像对(i,j),因为它鼓励预处理的一致性从多个不同视图中指定3D几何图形。令D表示记录7628半边Laplacian经验分布半边Laplacian经验分布i=0时GEEKK32100 1 2 3 4 5d′(a) 边:p(d′|e= 1)201510500 1 2 3 4 5d′(b) 无边:p(d′|e= 0)设d′=| X,Y(x,y)|表示像素(x,y)处的视差梯度的幅度。设e∈ {0,1}是表示存在性的二进制随机变量(e= 1)或者在环境图像中不存在(e= 0)边缘我们把e上的Bernoulli分布p(e)=λe(1−λ)1−e,用边解码器λ=E (x,y)∈[0,1]参数化.此外,我们假设p(d′|e)由位置参数μ = 0的单侧拉普拉斯分布建模:图3:视差梯度幅度。经验差异(绿色)与参数分布(红色)p(d ′| e)=[d ′≥0]exp(−|d′|/be)Be.(五)具有空间结构光传感器,并且令T ∈ D,d′和e上的联合分布分解如下:T={Ii}M是D的一个元素。我们称T为p(d′,e)=exp(−|d′|/b0)pe=0+ exp(−|d′|/b1)p e=1。(六)长度M和I是轨道T的第i 此外,设E表示对(I,A)的集合,其中A表示环境图像。关于D和E的总损失由下式给出:b0b1考虑到这种分布,我们制定了我们的分布-将奇偶校验损失作为负对数概率密度:Σ1Σ。Li+Li+1Σ ΣΣLij+Lk,i′ ′T ∈DMPi∈TDM2Gi,j∈TEk∈ELD(Di,Ei)=x为oh-log(p(Di(x,y),Ei(x,y)。(七)(三)为了清楚起见,忽略不同损失函数之间的相对加权因子。请注意,来自同一轨道的帧显示来自不同视图的相同静态场景-点,而几何体在轨迹之间发生变化。我们要求这种区别,因为我们的几何损失(Li,j)要求2、同一场景的图像我们现在描述每一个损失函数涉及方程。3详细说明光度损失:令P_ i表示对比度归一化的输入图像Ii,Di表示预测的视差图,并且P表示对比度归一化的参考图案,因为它将出现在图案投影仪的虚像平面(见图11)。①的人。光度损失定义为从经验上讲,我们观察到位置参数μ= 0的重尾单侧拉普拉斯分布对条件视差梯度分布建模得足够好。然而,将我们的模型扩展到其他分布是简单的。在实践中,我们从一小组图像中估计b0和b1 图3示出了针对边缘和非边缘情况的对该分布的经验视差梯度幅度(绿色)和单侧拉普拉斯拟合(红色正如预期的那样,边缘情况下较大dispar梯度的概率高于非边缘情况的情况下,证明了d′和e之间的依赖关系,我们利用我们的视差损失LD。边缘损失:仅基于LDΣLi(P<$,P,D)= <$p<$(x,y)−p(x−D(x,y),y)<$、(四)将导致对于所有像素的平凡解E(x,y)= 1Pii我x为oh因此,我们引入交叉熵边缘损失Lk这是regu-其中p(x,y)表示以(x,y)为中心的小块P i而·C表示平滑的Census变换[15]。将解码的边Ek相对于对应于输入图像Ik的周围图像Ak:Σ我们的光度损失与前-在自我监督光流[17,23]或深度[14,41]预测方面进行了大量工作,除了我们扭曲参考Lk(Ek,Ak)=− A′(x,y)logEk(x,y)+(8)x为ohw(1− A′( x,y))log(1− E( x,y)).图案,而不是由第二相机捕获的图像KK视差损失:稀疏随机点图案P不在这里,2019 - 04 -22 00:00:00|Ak|)表示局部对比度,也不表示-充分约束视差估计问题。这尤其是在训练信号不足以获得清晰和准确的对象边界的视差边界处可以观察到,如我们的实验所证明的。虽p(d ′| e= 1)p(d ′| e= 0)7629E然点图案不提供关于边缘边界的线索,但环境图像确实提供了这样的复杂信息,因为视差边界通常重合- 环境图像的归一化梯度幅度Ak,以及w是考虑分布均衡的权重因子边缘(边缘出现的频率低于非边缘)。环境图像中的视差通常比视差图像中的梯度弱。因此,我们使用对比度归一化梯度幅度LCN(|Ak|)而不是|Ak|以强调环境图像中的弱边缘。在环境图像中具有边缘。 因此,我们对当Lk需要在环境预测边缘图E和梯度幅度D′之间的相关性= |D|在我们的差距损失。图像A,重要是要注意环境图像A比监督7630DJJCC我..那对于视差图D。而对于后者,非常精确的深度传感器(例如,激光扫描仪)和精确的姿态估计,前者可以通过使用三脚架收集静态场景的图像,在投影仪打开和关闭的情况下捕获图像对来获得此外,与视差估计相比,从输入图像预测环境边缘是相对简单的任务。因此,我们使用一个浅网络与少量的参数的边缘解码器,这是不太容易过拟合,即使只有一个中等数量的训练图像。详情见补充资料。几何损失:通过考虑多个视图中预测几何形状的一致性,可以纳入额外的监督。 为此,我们将第二视图D j的视差图转换为3D点云Xj=(Xj,1,. . .,xj,HW),使用可微逆tion4.1,其用于生成具有准确的地面实况视差图的合成但合理的图像。在第4.2节中,在消融研究中使用该合成数据集来量化我们的设计选择的影响。我们进一步比较了我们在这个数据集上的方法与简单的基线和最先进的方法。最后,为了证明我们的方法对真实结构光数据的有效性,我们在第4.3节中对[5]提供的数据集进行了评估。4.1.结构光渲染器为了准确评估各种设计选择并将不同方法相互比较,我们需要具有精确地面实况的数据。虽然可以使用激光扫描仪[5]获得此类数据,但这些扫描仪通常昂贵、缓慢且无法扩展到更大的数据集。此外,它们需要大量的努力来调整预测,投影方程x=bfK−1不(x,y,1)其中(x,y)de-扫描的3D模型。替代的方法是使用注意像素位置、d视差、b基线、f焦距和K相机固有特性。接下来,我们使用刚性运动参数(Rij,tij)将点云Xj变换到第一视图的相机坐标系中。 让我们表示体积融合[8,28],以生成地面实况数据,至少比单独的深度扫描更完整。然而,这存在精度和工作范围有限的问题[24]。 因此,对于我们的第一部分转换后的点云作为X′=RijXj+tij。 我们实验评估,我们求助于综合生成的几何损失将X′中每个点的深度与第一视图中其对应的深度值进行使用自定义结构光渲染器的场景。为了达到这个目标,我们遵循Σ伊杰-1。Σ第3.1节。 为了简单起见,让我们假设虚拟LG(Di,Xj)=min . xz−bfDi(Kx)。,τ.(九)相机以原点为中心,并朝向x∈X′J正z方向。 我们首先投射一条射线r = K−1(x,y,1)T这里,xz表示3D点并且τ是截断阈值,其考虑了由于遮挡引起的点集中的差异。此外,D-1(K x)表示像素K x处的逆视差,即,3D点x到第i个摄像机视图中的投影。注意对于图像的每个像素(x,y)。沿着这个射线方向,我们探测是否有任何三角形被击中。如果不是,我们返回一个值,指示无效的地面实况深度,并将图像强度设置为黑色。否则,我们返回地面实况深度作为从相机到光线三角形的距离,该损失在两个方向上应用。3 .第三章。三分之一接下来,我们计算射线rPx−cP||2||23.4. 训练和推理我们首先通过将激光投影仪指向白墙来提取参考图案P,将所得图像扭曲到虚拟投影仪图像平面中并应用局部对比度归一化。然后,我们分两个阶段训练模型首先,我们在没有几何损失的情况下预训练视差和边缘解码器。 在第二阶段,我们使用等式中指定的所有损失来训练整个模型。3 .第三章。我们使用ADAM [20]和10−4的学习率。 在推断时,我们仅保留视差解码器以从先前未看到的测试图像Ii获得视差图Di。 我们通过最小化训练集上的光度误差来选择所有训练时期的网络参数,因为我们发现这与我们的测试指标很好地相关。 详见补充资料。4. 实验评价在本节中,我们系统地评估我们的方法。我们首先介绍我们的结构光渲染器在第二节-从投影仪中心cP发射到3D点x,测试(a)它是否被x前面的任何三角形遮挡,以及(b)光线是否仍然在投影仪的虚拟图像平面如果这两个条件都满足,我们就可以得到模式inten。使用双线性插值法从参考图案中提取颜色我们进一步应用简单的Blinn-Phong模型[2]来对环境图像A进行着色。为了将环境图像A与内插图案组合,我们实现了Eq.1,简化为我们假设所有场景的恒定材料反射R和光源取向Θ使用这个结构光渲染器,我们生成了8448个短序列,8192个用于训练,256个用于测试。每个短序列由四个渲染组成,相机中心在20×20×20cm的盒子内随机平移,相机朝向场景中心我们使用Kinect V1传感器的摄像头矩阵和原始参考模式。摄像机和投影仪之间的基线设置为7。5cm,图像尺寸为640×480像素。为了用对象填充场景,我们从ShapeNet Core数据集[4]中获取椅子网格的7631(a)环境(b)图案(c)IR输入(d)视差图4:结构光渲染示例。(a)具有Blinn-Phong阴影的环境图像。(b)具有依赖于场景深度的强度的扭曲图案。(c)环境图像与图案的混合产生最终图像I。(d)该场景的地面实况视差图。随机缩放和旋转,放置在2-3米之间的距离。此外,我们在场景中添加一个随机倾斜的背景平面,距离在2-7m之间。图4显示了我们的渲染流水线的示例输出。4.2. 渲染数据在我们的第一组实验中使用了上一节中介绍的合成数据集,在那里我们展示了我们的设计选择的影响。Q:为了定量地比较我们的结果,我们使用离群值o(t)的百分比作为度量。我们计算估计的视差图和地面实况视差图之间的差异,并评估视差差异大于某个阈值t的像素的百分比。消融术研究:在我们的第一次评估中,我们展示了我们的全卷积架构对视差估计的有效性。为了将表示的效果与(自监督)损失函数的选择隔离开来,我们在我们的合成数据集上的全监督设置中进行了这个实验。表1显示了我们的结果,直接估计视差(I→ D),沿着x轴对参考图案中的局部块的绝对位置进行分类,例如[10](I→ P),以及每行使用独立的回归层(I→ D行和I→ P行)。此外,我们还评估了我们的合成数据集上的被动单目深度估计模型。我们通过直接从周围图像(A→ D)预测视差来实现这一点我们发现,直接估计的差异的基础上输入I的效果最好,其次是估计的位置。请注意,位置是由我们估计的-使用回归,作为分类公式将导致不切实际的大输出空间,即,每像素640类我们进一步观察到,网络不能单独从环境图像中学习准确的视差,这验证了主动深度估计设置的实用性。为了证明在3.3节中介绍的各个损失项的贡献,我们开始只使用光度损失LP训练我们的网络,并且逐渐增加将视差损失LD和几何损失LG相加。注意边缘解码器是在数据集(详见补充资料)。我们的结果总结在表2中。我们观察到,A→ D90.71 81.41 63.53 32.00表1:架构选择。o(0.第五章)0(1)O(2)O(5)监督6.223.001.630.85LP10.926.004.102.72LP+ LD8.674.232.561.52LP+ LD+LG6.773.882.571.63表2:损失函数的影响。o(0.第五章)0(1)O(2)O(5)中文(简体)中文(简体)块匹配7.847.207.066.834.444.23FastMRF [5]12.078.366.715.145.253.57超深度[10]15.0112.6311.8311.497.396.73我们6.773.882.571.631.750.70表3:合成数据的定量结果。毫无疑问,单独的损失比监督训练的网络表现得更差。然而,如果我们添加视差损失,我们会显着改善结果。如果我们还添加几何损失(截断值设置为τ=0。01m),我们观察到性能的进一步提高,特别是对于在度量O(0. 5)和O(1)。图5显示了增量增加损失项时的定性比较。网络能够学习整体形状仅从光度损失LP进行监督,但是预测是有噪声的并且导致边缘处的渗色利用编码在视差损失L_D中的边缘信息,网络能够将视差正确地外推到被包含的区域中。几何损失LG进一步减少误差,特别是在大的均匀区域中。基线比较:在验证我们的设计选择后,我们将完整模型与几个基线进行比较:OpenCV块匹配[3],FastMRF[5]和HyperDepth [10]。对于FastMRF,我们使用作者提供的实现。对于HyperDepth,我们使用我们自己的重新实现,使用与[10]中提出的相同的超参数然而,我们使用了更深的树,因为我们发现这会产生更好的性 能 . 请 注 意 , 我 们 使 用 地 面 实 况 视 差 图 来 训 练HyperDepth。我们的合成数据集的结果总结在表3中,定性结果提供在图3中。五、我们观察到,我们的方法总体上产生最好的结果。Hyper- Depth在平滑区域中产生质量良好的结果,但在不连续处失败,导致整体结果更差。在表3的最后两列中,我们进一步评估了ShapeNet Core中在训练期间看不到的新对象类别(汽车、飞机和船只)上的方法,证明了我们的方法在看不到对象上的推广o(0.第五章)0(1)O(2)O(5)I →D6.223.001.630.85I →D行8.194.352.401.07I →P11.835.082.461.117632(a) 输入,GT(b)块M。(c)FastMRF [5](d)HyperD。[10](e)OursLP(f)Ours+LD(g)Ours+LG图5:合成数据的定性结果。详情见正文(a) 输入,GT(b)块M。(c)FastMRF [5](d)HyperD。[10](e)我们的图6:真实数据的定性结果。详情见正文acc comp h.平均块匹配551.082 3.883 7.712快速MRF [5] 12.690 6.971 8.999超深度[10]8.7595.263 6.575我们的11.0423.147 4.898表4:真实数据的定量结果。H. mean表示准确性和完整性的调和平均值4.3. 真实数据评价为了对真实数据进行定量评价,我们使用Chen等人的数据集。[5]包括5个精确扫描的模型(更复杂的真实世界场景中的定性评估见补充资料),以及使用PrimeSense Carmine距离传感器记录的序列,将物体放置在约1 m的距离处,并以30 mm的步长围绕上轴旋转。为了将3D模型与估计的深度图对齐,我们遵循[5]中描述的协议。首先,我们通过手动将模型网格与来自估计深度的然后使用Open 3D [42]中实现的点-平面-ICP进行细化。对于定量评估,我们从模型中移除在给定视图中不可见的点,并将估计的深度图投影给定估计值和地面实况点云,我们将精度计算为从估计的3D点到最近的地面实况点的平均距离,反之亦然。除了准确性和...在此基础上,我们给出了这两种方法的调和平均值。我们与之前在合成数据上进行的实验中使用的方法进行了比较,其中HyperDepth在块匹配结果上进行了训练,作为伪地面实况。由于数据集总共只包含60张图像,因此HyperDepth在所有图像上进行训练。表4总结了我们的定量结果(以mm为单位的数字)。定性结果提供于图1中。六、HyperDepth产生稍微更好的准确性,因为它在后处理中积极地掩盖坏像素,但具有更差的完整性结果,而我们的方法在准确性和完整性之间产生良好的权衡,并实现整体最低的谐波平均值。5. 结论我们提出了一种新的方法,用于估计深度使用主动单目相机。通过结合照片测量和几何信息,我们能够在这个问题上以自我监督的方式训练神经网络。此外,我们证明了显着的改善时,调节视差梯度的边缘信息提取的环境成分的输入图像使用弱监督。我们的研究结果表明,弱监督训练产生的结果类似于在地面真实数据上训练的相同网络。此外,我们的方法与最先进的方法相比毫不逊色。鸣谢:这项工作得到了英特尔智能系统网络的支持。7633引用[1] M.布莱耶角Rhemann和C.罗瑟 拼配立体声- 立体匹配与倾斜的支持窗口。在英国机器视觉会议上。(BMVC),2011。[2] J. F.布林计算机合成图像的光反射模型。ACMTrans. onGraphics(SIGGRAPH),1977年。[3] G. Bradski 和 A. 凯 勒 学 习 OpenCV : 计 算 机 视 觉 与OpenCV库。[4]A. X. 张氏T.A. 芬克豪泽湖J. 吉巴斯山口汉拉汉Q. Huang,Z. Li,S. Savarese,M. Savva,S.宋,H. 苏肖湖,加-地Yi和F. Yu. Shapenet:一个信息丰富的3D模型存储库。arXiv.org,1512.03012,2015.[5] Q. Chen和V. Koltun.快速MRF优化及其在深度重建中的应用 。正 在进行 IEEE会议 计算 机视觉 和模 式识别(CVPR),2014年。[6] S. Choi,Q. Zhou,S. Miller和V.科尔顿。对象扫描的大型数据集。arXiv.org,1602.02481,2016.[7] A. Dai , A. X. 张 , M 。 Savva , M. Halber , T.Funkhouser和M.尼斯纳扫描:室内场景的丰富注释的3D重建。正在进行IEEE会议计算机视觉和模式识别(CVPR),2017年。[8] A. 戴,M. Nießne r,M. Zo l l o?fe r,S. Izadi和C. 希奥博尔特Bundlefusion:实时全球一致的三维recruitment使用上的飞行表面重新整合。2017年。[9] D. Eigen和R.费格斯。预测深度,表面法线和语义标签与一个共同的多尺度卷积架构。在IEEE国际会议上。计算机视觉(ICCV),2015年。[10] S. R. 法内洛角 Rhemann,V. Tankovich,A. 考德尔S. Orts-Escherano,D. Kim和S.伊扎迪Hyperdepth:无需匹配即可从结构光中学习深度。正在进行IEEE会议计算机视觉和模式识别(CVPR),2016年。[11] S. R. Fanello,J. P. C.瓦伦丁角Rhemann、A. 考德尔Tankovich,P. L. Davidson和S.伊扎迪超立体:有效的基于学习的主动立体声系统匹配。在proc IEEE会议 计算机视觉和模式识别(CVPR),2017年。[12] A. Foi,M.特里梅什河谷Katkovnik和K. O.埃吉亚扎利安人单幅图像原始数据的实用泊松-高斯噪声建模与拟合 。 IEEE Trans. on Image Processing ( TIP ) , 17(10):1737[13] R.格希克,J。Shotton,P. Kohli、A. Criminisi和A. W.菲茨吉本从深度图像有效回归一般活动人类姿势 在proc IEEE International Conf.计算机视觉(ICCV),2011年。[14] C. 戈达尔湖,澳-地Mac Aodha和G.J. 布罗斯托具有左右一致性的无监督单目深度估计。在proc IEEE会议 计算机视觉和模式识别(CVPR),2017年。[15] D. Hafner,O. Demetz和J. Weickert为什么普查变换对稳健的光流计算有好处?在国际会议上。计算机视觉中的尺度空间和变分方法(SSVM),2013年。[16] H. 希尔施姆乌勒河利用半全局匹配和互信息进行立体处理 IEEETrans.onPatternAnalysisandMachineIntelligence(PAMI),30(2):328[17] J. Janai,F. Guéney,A. Ranjan,M. Black和A. 盖格河具有遮挡的多帧光流的无监督学习。在欧洲会议上。计算机视觉(ECCV),2018年。[18] K. Jarrett,K. Kavukcuoglu,M. Ranzato和Y.乐存。对象识别的最佳多级体系结构是什么?在IEEE国际会议上。计算机视觉(ICCV),2009年。[19] A. Kendall,H.Martirosyan、S.Dasgupta和P.Henry. 端到端学习几何和背景,实现深度立体回归。在IEEE国际会议上。关于计算机视觉(ICCV),2017年。[20] D. P. Kingma和J. BA. Adam:随机最佳化的方法。 在proc 国际会议。 关于学习表征(ICLR),2015年。[21] M. Martinez和R. Stiefelhagen Kinect Unleased:控制高分辨率深度图。在机器视觉和应用(MVA),2013年。[22] N. 迈耶,E. Ilg,P. Haeusser,P.费希尔,D. 克雷默斯A. Dosovitskiy和T.布洛克斯一个大型数据集,用于训练用于视差、光流和场景流估计的卷积网络。正在进行IEEE会议计算机视觉和模式识别(CVPR),2016年。[23] S. Meister,J.Hur和S.罗斯Unflow:具有双向普查损失的 光 流 的 无 监 督 在 会 议 的 过 程 中 。 人 工 智 能(AAAI),2018年。[24] S. Meister r,S. 伊扎迪山口 Kohli,M. H?mmerle,C.Rothe r和D.康德曼我们什么时候可以使用KinectFusion进行地面实况采集。在Proc。机器人中的颜色深度相机融合研讨会,2012年。[25] M.门策角Heipke和A.盖革目标场景流。ISPRS Journal ofPhotogrammetry and Remote Sensing(JPRS),140:60[26] J. L. Moigne和A. M.韦克斯曼机器人移动性的结构光图案IEEE Journal of Robotics and Automation(JRA),4(5):541[27] V. Nair和G. E.辛顿校正线性单元改进了受限玻尔兹曼机。在国际会议上。机器学习(ICML),2010年。[28]R. A. 纽科姆,S。 伊扎迪河 希利格斯,D。莫利诺D. Kim,A. J.戴维森,P. Kohli,J. Shotton,S.霍奇斯,A.菲茨吉本运动融合:实时密集表面映射和跟踪。混合与增强现实国际研讨会(International Symposium onMixed and Augmented Reality,ISMAR)[29] M. Pharr,W. Jakob和G.汉弗莱斯基于物理的渲染:从理论到实施。摩根·考夫曼,2016年.[
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Fisher Iris Setosa数据的主成分分析及可视化- Matlab实现
- 深入理解JavaScript类与面向对象编程
- Argspect-0.0.1版本Python包发布与使用说明
- OpenNetAdmin v09.07.15 PHP项目源码下载
- 掌握Node.js: 构建高性能Web服务器与应用程序
- Matlab矢量绘图工具:polarG函数使用详解
- 实现Vue.js中PDF文件的签名显示功能
- 开源项目PSPSolver:资源约束调度问题求解器库
- 探索vwru系统:大众的虚拟现实招聘平台
- 深入理解cJSON:案例与源文件解析
- 多边形扩展算法在MATLAB中的应用与实现
- 用React类组件创建迷你待办事项列表指南
- Python库setuptools-58.5.3助力高效开发
- fmfiles工具:在MATLAB中查找丢失文件并列出错误
- 老枪二级域名系统PHP源码简易版发布
- 探索DOSGUI开源库:C/C++图形界面开发新篇章
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功