没有合适的资源?快使用搜索试试~ 我知道了~
监督新与旧:从SFM中学习SFM
监督新与旧:从SFM中学习SFMMaria Klodt[0000−0003−3015−9584]和Andrea Vedaldi[0000−0003−1374−2858]牛津大学视觉几何组{klodt,vedaldi}@ robots.ox.ac.uk抽象。最近的工作表明,可以从未标记的视频序列学习用于单目深度和自我运动估计的深度神经网络,这是一个有趣的理论发展,在应用中具有许多优势在本文中,我们提出了一些改进这些方法。首先,由于这种自我监督的方法是基于亮度恒定性假设,这是有效的像素的一个子集,我们提出了一个概率学习公式,其中网络预测分布在变量,而不是特定的值。由于这些分布以观察到的图像为条件,因此网络可以学习哪些场景和对象类型可能违反模型假设,从而导致更鲁棒的学习。 我们还建议建立在几十年的经验,开发手工制作的结构从运动(SFM)算法。 我们通过使用现成的SFM系统来为深度神经网络生成监督信号来做到这一点。虽然这个信号也有噪声,但我们证明了我们的概率公式可以学习和解释SFM的缺陷,有助于整合不同的信息源并提高网络的整体性能。1介绍视觉几何是计算机视觉中少数几个传统方法部分抵制深度学习的领域之一。然而,社区现在已经开发了几个深度网络,这些网络在诸如自我运动估计、深度回归、3D重建和映射等问题虽然传统方法在某些情况下可能仍然具有更好的绝对准确性,但这些网络在速度和鲁棒性方面具有非常有趣的特性。此外,它们适用于诸如传统方法不能使用的单细胞重建的情况。运动恢复结构问题的一个特别有趣的方面是,它可以用于引导深度神经网络,而无需使用人工监督。最近的几篇论文已经表明,实际上可以仅通过观看来自移动相机(SfMLEarner [1])或立体相机对(MonoDepth [2])的视频来学习用于自我运动和单目深度估计的这些方法主要依赖于低级别的线索,如亮度恒定性,只有温和的假设上的相机运动。这是特别2M. Klodt和A. VedaldiItIt-1ItIt+1(a)RGB输入图像和预测:(b)所提出的网络架构:深度、光度不确定性以及深度和姿态不确定性网络深度不确定性由传统的SfM监管。Fig. 1. (a)KITTI数据集的深度和不确定性预测:除了单目深度预测,我们建议预测光度和深度的不确定性地图,以促进训练从单目图像序列。(b)训练数据流概述:在传统SfM方法的监督下训练两个卷积神经网络,并通过包括光一致性项的联合损失来组合。吸引人的是,它允许非常便宜地学习模型,而不需要特殊的硬件或设置。这可以用于部署更便宜和/或更鲁棒的传感器,以及开发可以自动学习在新的应用领域中操作的传感器。在本文中,我们建立在SfMLEarner的方法,并考虑从头开始学习的问题,从一个神经网络的自我运动和单眼深度回归只使用未标记的视频数据从一个单一的,移动的摄像机。与SfMLEarner和类似的方法相比,我们对学习公式做出了三个显著的改进,使该方法能够学习更好的模型。我们的第一个也是最简单的改进是加强亮度恒定性损失,在SfM-Learner设置中导入MonoDepth中使用的结构相似性损失。尽管它很简单,但这种变化确实改善了结果。我们的第二个改进是在神经网络中引入一个显式的置信度模型。SfMLear算法是一种“快速并行能力映射”,其目标是识别图像中可能很好地满足亮度恒定性约束的然而,最初的公式是启发式的。例如,可解释性图必须被特别正则化以避免退化。我们表明,可以得到更好的结果,通过把解释成一个适当的概率模型,产生一个自洽的制定措施的可能性观察到的数据。为了做到这一点,我们预测每个像素的分布在可能的亮度,这使得模型来表达的信心程度如何准确的亮度恒定性将在一定的图像位置得到满足。例如,这个模型可以学习期望SFM不确定性U-Net相机构成深度U-Net损失以旧督新:从可持续森林管理中学习可持续森林管理3物体上的轻微错位,如树枝和汽车,可以独立于相机移动。我们的第三个改进是整合另一种形式的廉价监督在这个过程中。我们注意到,在过去的20年里,计算机视觉社区已经开发出了一个高质量的手工结构运动方法(SFM)的宝库。因此,人们很自然地会问,这些算法是否可以用来教授更好的深度神经网络。为了做到这一点,在训练期间,我们建议与网络的前向传递并行运行标准SFM方法。然后,我们要求网络像以前一样优化亮度恒定性方程,并在多任务设置中匹配来自SFM算法的运动和深度估计。理想情况下,我们希望网络最终表现得比传统的SFM方法更好。那么,问题是这样的方法如何训练出一个比老师表现更好的模型。这样做显然是有机会的,因为虽然可持续森林管理在发挥作用时可以提供非常高质量的监督,但它也可能严重失败。例如,特征三角测量可能对应于反射而关闭,导致某些像素的深度值不一致因此,我们也采用了SFM监控信号的概率公式。这具有允许模型学习何时以及在何种程度上可以信任SFM监督的重要效果。 以这种方式,深度网络可以学习传统SFM的故障模式,并在学习时适当地对它们进行折扣。虽然我们在3D重建的特定背景下提出了这样的改进,但我们注意到,使用概率预测来整合来自不完美监督信号集合的信息的想法可能是广泛适用的。我们测试我们的方法对SfMLEarner,在这种情况下的最先进的,并显示令人信服的改进,由于我们的三个修改。最终的结果是一个系统,可以学习一个优秀的单目深度和自我运动预测,所有这些都没有任何人工监督。2相关工作从运动恢复结构是计算机视觉中一个研究得很好的问题。诸如ORB-SLAM 2 [3,4]的传统方法基于匹配特征点的流水线,选择一组内点,并相对于3D点和这些点上的相机位置进行优化。通常,这些方法的关键部分是仔细选择特征点[5最近,已经开发了用于从图像序列学习3D结构和/或相机运动的深度学习方法。在[9]中,已经提出了用于从单个图像估计深度的监督学习方法。对于监督,需要以手动输入或如[9]中的激光扫描仪测量的形式提供附加信息。用于学习相机姿势的监督方法包括[104M. Klodt和A. Vedaldi无监督学习通过仅从RGB图像序列学习来避免额外输入的必要性。训练由同一场景的多个图像之间的几何和摄影一致性约束来引导。已经表明,可以通过无监督学习[2,13]从单个图像鲁棒地估计密集深度图,并且此外,深度和相机姿势[14]。虽然这些方法执行单个图像深度估计,但它们使用立体图像对进行训练。由于两个立体相机之间的固定相对几何形状和产生静态场景的同时图像采集,这便于训练。更困难的问题是从单目图像序列的运动中学习结构。这里,必须同时估计深度和相机位置,并且场景中的移动对象可能破坏相对于世界坐标系的整体一致性。提出了一种从单目图像序列中从运动中估计和学习结构的方法在SfMLEarner [1]中。在训练数据中部分可用的情况下,可以通过监督来增强无监督学习,如[15]所示。来自传统SfM方法的结果可以用于指导其他方法,如3D定位[16]和遮挡模型的预测[17]。深度和相机姿态估计的不确定性学习已经在[18,19]中进行了研究,其中已经针对深度图估计研究了不同类型的不确定性,并且在[20]中已经学习了部分可靠的地面实况的不确定性。3方法设xt∈RH×W×3,t∈Z是由运动摄像机拍摄的RGB图像组成的视频序列。我们的目标是训练两个神经网络。第一帧d=Φd∈pth(xt)是一种单次计算方法,该方法包括将来自单个输入帧的深度图d∈RH×D作为输出。第二(Rt,Tt:t∈ T)= Φego(xt:t∈ T)是一个自运动不确定性估计网络.它将短时间序列T=(-T,...,0,. . .,T),并且针对序列中的每个图像x t估计3D相机旋转和平移(Rt,Tt),t∈ T。此外,它预测姿势不确定性以及光度和深度不确定性图,这有助于整个网络了解由遮挡、镜面反射和其他难以处理的模态引起的离群值和噪声。在没有任何其他形式的监督的情况下,从虚拟设备中了解新的任务是一项具有挑战性的任务。然而,诸如SfMLEarner [1]的方法已经表明,可以使用亮度恒定性约束作为学习线索来成功地解决该任务。我们以三种方式改进现有技术:通过改进捕获亮度恒定性的光度损失(第3节)。1),通过引入一个更强大的概率公式的意见(第3节。2),并通过使用后者整合线索从现成的可持续森林管理方法的监督(第3节。(3)第三章。以旧督新:从可持续森林管理中学习可持续森林管理5σ=3.1光度损失从未标记的视频序列学习几何的最基本的监督信号是亮度恒定性约束。该约束简单地指出,对应于相同场景点的不同视频帧中的像素必须具有相同的颜色。虽然这仅在某些条件下是正确的(朗伯表面、恒定照明、无遮挡等),SfMLEarner和其他方法已经表明,学习自我运动和通过网络学习自我和发展是足够的。实际上,这些网络的输出可以用于将像素对应地放置在不同视频帧中并且测试它们的颜色是否匹配。这种直觉可以很容易地在损失中捕捉到,如下所述。基本光度损失。 设d 0是对应于图像x 0的深度图。设(u,v)∈R2为图像x0中像素的标定坐标(因此(0,0)为光学中心,焦距为单位)。然后,通过d(u,v)·(u,v,1)给出在点到(u,v)的3D点的坐标。 如果非透视投影算子ion(Rt,Tt)是摄像机从时刻0到时刻t的运动,π(q1,q2,q3)=(q1/q3,q2/q3)是透视投影算子,则图像xt中对应的像素由(u′,v′)= g(u,v| d,Rt,Tt)= π(Rt d(u,v)(u,v,1)π+ Tt).由于亮度恒定性,颜色x0(u,v)= x1(g(u,v| d,Rt,Tt))应该匹配。然后我们得到光度损失:Σ ΣL=| x t(g(u,v| d,Rt,Tt))− x 0(u,v)|(一)t∈T −{0}(u,v)∈Ω其中,Ω是图像位置的离散集合(对应于校准的像素中心)。绝对值用于对离群值的稳健性。所有数量均为eq.(1)是已知的,除了深度和相机运动,其由两个神经网络估计这意味着我们可以将损失写成一个函数:L(xt:t∈T|Φdepth,Φeg o)这是一个快速的过程,可以最大限度地减少数据量。R. t. Φdepth和Φegotle re n e raner结构相似性损失。直接比较像素值可能太脆弱。因此,对于立体相机对的情况,我们用[2]中使用的更高级的图像匹配项来补充简单的光度损失(1)。给定一对图像块a和b,它们的结构相似性[21]SSIM(a, b)∈[0, 1]由下式给出:SSIM(a, b)=(2µaµb)(σab+)(µ2+µ2)(σ2+σ2+)aBaB当Σereisasmall constant toavoiddivisionΣyz erof constantpatch es时,µa=1nai是斑块a的均值,σ2=1n(ai−µa)2是其方差,且ni=1Σan−1i=1ab1n−1ni=1(ai−µa)(bi−µb)是两个面片的相关性6M. Klodt和A. Vedaldi电话+1(a) It(b)It+1(c)Iw(d)1(e)SSIM(目标图像)(源图像)(扭曲)匹配匹配图二. 图像匹配:光度损失项惩罚目标图像(a)和变形源图像(c)的Δ1差(d)和SSIM图像匹配(e)中的高值。这意味着,可以对复杂的分布式结构进行简单的属性和相位扫描写成L=(u,v| x,x ′)= α(u,v)∈Ω(u,v| x,x ′),其中1 − SSIM(x |Θ(u,v),x ′|Θ(u,v))2+(1− α)|x(u,v)− x ′(u,v)|.( 二)加权参数α被设置为0.85。多尺度损失和正则化。 图2显示了1和SSIM图像匹配的示例,根据虚拟KITTI数据集[ 22]的两个示例图像的地面真实深度和姿态计算。即使使用地面实况深度和相机姿态,也不能保证完美的图像匹配。因此,为了增加鲁棒性,eq.(2)在多个尺度上计算。进一步的鲁棒性通过用于正则化深度图的合适的平滑项来实现,该平滑项被添加到损失函数,如[2]中。3.2概率输出亮度恒定性约束失败时,它的几个假设之一被违反。在实践中,常见的失败情况包括遮挡、视场的变化、场景中的移动对象和反射材料。处理此类问题的关键思想是允许神经网络学习预测此类故障模式。如果做得适当,这具有从不完美的监控信号中提取尽可能多的信息同时避免被异常值和噪声干扰的重要益处一般方法。首先考虑一个简单的情况,其中预测器估计一个qu_int_y=Φ(x),其中x在一个点处被估计,并且y_int_c或r_e在一个点上被估计。 在一个用于模拟的示例中,预处理Φ将优化为最小化操作,如Φ=|y−y|. 然而,如果我们知道对于这个特定的示例,地面事实是不可靠的,我们可以降低权重通过将其除以适当的系数σ,将损失表示为σ/σ。以这种方式,模型将更少地受到这种噪声的影响。这个想法的问题是如何设置系数σ。例如,优化它以最小化损失没有意义,因为这具有退化解σ =+∞。以旧督新:从可持续森林管理中学习可持续森林管理7一种方法是使σ成为模型预测的量之一,并在概率输出公式中使用它。为此,让神经网络输出p(y)上的p个或p个可访问数据的p个参数s(y,σ)=Φ(x)。|y(,σ)的值。对于示例,使用重叠区的分布p(y|y(,σ)=1 exp2σ−|y−y| .σ然后,学习目标是由该发现产生的负对数似然:-l 〇 gp(y|y(,σ)=|y−yˆ|σ+ logσ+常数预处理的最小值是,这些问题将非常容易解决(尽可能接近)。同时,它将尝试将σ设置为它期望的拟合误差。事实上,正如你所看到的,对于一个固定的y,这个损失是最小的,其中σ=|y−y|,得到的对数似然值为-l 〇 gp(y|y,|y−y|1)=10g|y−y|+const.注意,模型被激励学习σ以尽可能准确地反映还应注意,σ可类似于如Huberr的鲁棒性阈值中的阈值。然而,这是一个非常重要的差异:这是预测器本身,在观察到数据点x之后,在飞 行器 上最优 地估 计“时间轴”σ。所有这些都是为了内省而进行的现代化操作,因此潜在地忽略了太难拟合的情况。它还允许模型学习和补偿监控信号y本身可能不可靠的情况此外,该概率公式不具有任何可调参数。光度损失的实现 对于光度损失(2),通过考虑到网络Φ ego的附加输出(σt)t∈T-{0}来应用上述模型,以与深度图d和姿态(Rt,Tt)-起预测每个像素处的光度匹配的不确定性图σt。则损失由ΣΣ(u,v|x0,xt◦gt)+logσ(u,v),σ(u,v)tt∈T −{0}(u,v)∈Ωt其中由等式给出 (2)且gt(u,v)= g(u,v| d,Rt,Tt)是由估计的深度和相机姿态引起的翘曲。3.3从可持续森林管理中在本节中,我们描述我们的第三个贡献:学习一个深度神经网络,从经典的(手工制作的)SFM方法中提取尽可能多的信息。为此,对于每个训练子序列(x t:t ∈ T),使用标准高质量SFM流水线(诸如ORB-SLAM 2)来估计训练子序列(xt:t∈ T)。8M. Klodt和A. Vedaldi不不d ept hmapd¨and dcameramotions(R¨t,T¨t).该人工神经网络可以通过添加适当的损失来监督深度神经网络LSFM=d¯−d1+lnR¯tRF+T¯t−Tt2(3)这里ln表示主矩阵对数,其将残余旋转映射到其李群坐标,这为小旋转提供了自然度量。虽然标准的SFM算法通常是可靠的,但它们远非有效。 这是一个特殊的过程,用于绘制图表。 首先,由于S顶M是基于在您的图像上的图像,因此将不会对所有图像像素进行格式化。虽然丢失的信息可以容易地处理,但更具有挑战性的问题是三角测量有时会导致不正确的深度估计,例如由于高光、场景中移动的对象、遮挡和其他具有挑战性的视觉效果。为了解决这些问题,以及自动平衡多任务设置中的损失[19],我们再次建议采用3.2节的概率公式。因此,损失(3)被替换为ΣLp=χSFMΣnR+logσRtλTT¯t−Tt+Σ+logσTtSFMt∈T −{t}ΣRtSFMSFMTtSFMSFMΣΣ|(λd<$(u,v))−1−(d(u,v))−1|d+(u,v)∈SDSFM(u,v)+ logσSFM(u,v)(四)其中姿态不确定性σR,σT和逐像素深度不确定性图SFMσdSFMSFM也被估计为来自视频序列的神经网络Φego的S∈Ω是其中深度监督可用的像素的稀疏子集。ΣThetrΣanslationanddepthvaluefromSFMaremultiliedbysscalarλT=tTt/tT¯tanddλd=medi an(d)/medi an(d¯),具体而言,由单目SFM中固有的尺度模糊此外,Binary变量XSFM表示来自SFM的对应重构是否可用。这允许包括传统SFM无法重建姿势和深度的训练示例注意,我们使用逆深度来测量深度误差,以便获得误差值的合适域因此,对应于靠近相机的点的小深度正如通过亮度恒定性进行监督一样,这允许神经网络学习SFM算法的系统故障模式然后,监督可以避免对该监督信号过于自信,从而导致能够更好地提取有用信息同时丢弃噪声的系统σσσ以旧督新:从可持续森林管理中学习可持续森林管理9光度不确定度深度不确定性(a) 深度网络层(b)姿势和不确定性网络层图三. 网络架构:(a)深度网络:该网络将单个RGB图像作为输入,并通过29层卷积和反卷积来估计像素深度。编码器和解码器之间的跳过连接允许恢复精细尺度细节。(b)姿势和不确定性网络:网络的输入是可变长度的短图像序列。四重输出共享一个共同的编码器,并分裂为姿态估计,姿态不确定性和两个不确定性地图之后。虽然光度不确定性估计光度图像匹配中的置信度,但是深度不确定性估计来自SfM的深度监督中的置信度。4体系结构学习和细节选择3D包括两个神经网络,一个用于估计时间(Φ_),一个用于自运动和预测置信度估计(Φ_)。本节提供这些网络的详细信息。在图1中示出了具有组合的姿态和不确定性网络的网络架构和训练数据流的概述。第1段(b)分段。首先,我们注意到,虽然学习了两个不同的网络,但在实践中,姿势和不确定性网络共享它们的大部分参数。作为主干,我们考虑类似于Monodepth [2]和SfMLEarner [1]中使用的U-net [23]架构。图3(a)示出了深度网络的层的细节。该网络由一个编码器和一个解码器组成。输入是单个RGB图像,输出是每个像素的深度值的映射编码器是由ReLUactiv ions所遵循的所有卷积层的级联,其中Re LU act i on s的卷积层逐渐解码器由级联的反卷积和卷积层组成,具有增加的分辨率。跳过连接将编码器层链接到对应大小的解码器层,以便能够表示高分辨率细节。最后四个卷积层还具有到网络的输出层的连接,具有sigmoid激活。图图3(b)示出了姿态和不确定性网络层的细节网络的输入是由目标图像It(其也是深度网络的输入)和序列{It-n,. . . ,It-1}和{It+1,. . . ,It+ n}。网络的输出是每个相邻视图相对于目标视图的相对相机姿态、分别用于旋转和平移的两个不确定性值、以及用于照片一致性和深度的逐像素不确定性。卷积反卷积相机姿态RGB图像序列姿势不确信度10M. Klodt和A. Vedaldi误差计量精度ABS.rel.平方rel.RMSE δ<1。25 δ<1。252 δ<1。253SfMLEarner(纸张)0.2081.7686.8560.6780.8850.957SfMLEarner(网站)0.1831.5956.7090.7340.9020.959SfMLEarner(复制)0.1982.4236.9500.7320.9030.957+ 图像匹配0.1812.0546.7710.7630.9130.963+ 光度不确定度0.1801.9706.8550.7650.9130.962+ 来自SFM的0.1711.8916.5880.7760.9190.963+ 来自SFM的0.166 1.490 5.9980.7780.9190.966我们的,用VK0.2702.3437.9210.5460.8100.926我们的,接受过CS0.2542.5797.6520.6110.8570.942我们的,接受过CS+K0.1651.3405.7640.7840.9270.970表1. 与SfMLEarner相比的深度评价:我们评估了三个贡献图像匹配,光度不确定性,深度和姿势从SfM。这些中的每一个都显示出对现有技术的改进。训练数据集是KITTI(K)、VirtuaIKITTI(VK)和Cityscapes(CS)。在KITT I上滚动1- 7次。不同的输出共享一个共同的编码器,该编码器由卷积层组成,每个卷积层后面都有一个ReLU激活。姿态输出的大小为2n× 6,表示每个源视图的6 DoF相对姿态,每个姿态由3D平移向量和3个表示相机旋转矩阵的欧拉角组成,如[1]所示。不确定性输出是三重的,包括姿势、光度和深度不确定性。姿态不确定性与姿态估计共享权重,并产生表示每个源视图的平移和旋转不确定性的2n×2输出。逐像素的光度和深度不确定性各自由宽度增加的去卷积层的级联组成。所有的不确定性都由S形激活函数激活。补充材料中提供了网络体系结构的完整描述。5实验我们将所提出的方法的结果与SfMLEarner [1]进行比较,SfMLEarner[ 1]是我们所知的唯一方法,其仅从单目训练数据估计单目深度和相对相机姿态实验结果表明,该方法比SfMLEarner方法取得了更好的效果。5.1单目深度估计为了训练和测试单眼深度,我们使用KITTI原始数据集的本征分裂[24],如[9]所提出的。这产生了39835个训练图像、4387个用于验证的图像和697个测试图像的分割我们只使用单眼序列进行训练。对三个图像的序列执行训练,其中针对中心图像估计深度。以旧督新:从可持续森林管理中学习可持续森林管理111(a)测试图像(b)SfMLEarner(c)提出的方法(d)地面实况见图4。与来自KITTI的测试图像上的SfMLEarner和地面实况的比较。使用仅用于训练的单目序列从单个图像学习深度图的现有技术是SfMLEarner [1]。因此,我们在实验中对这种方法进行了比较激光扫描仪测量值仅用作测试的基本事实。预测的深度图乘以标量s=中位数(d*)/评价前中位数(d)。这以与[1]中相同的方式完成,以便解决单目SfM固有的尺度模糊性表1示出了SfMLEarner与所提出的方法的不同贡献的定量比较。我们计算所使用的误差度量在[9]中,将预测深度d与地面真实深度d* 进行比较:– 绝对相对差(abs.相关):1ΣN| d − d *|/dNΣi=1iii– 平方相对差(sq.相关): 1N|di−d*|2/d*– 均方根误差(RMSE):.NΣ i=1|diΣ-d|2我二分之一Ni=1ii准确度测量给出了di s.t.max(di/ d*, d*/ di)=我我δ小于阈值,其中我们使用与[9]中相同的阈值。我们比较了[1]中给出的误差测量,以及网站上提供的SfMLEarner的新版本1。我们还比较了运行从这个网站下载的代码,因为我们得到了略有不同的结果。我们用这个1https://github.com/tinghuiz/SfMLearnerN12M. Klodt和A. VedaldiCityscapes Virtual KITTI Oxford RobotCar Make3D图五、在KITTI上进行训练并在不同的数据集上进行测试,可以产生视觉上合理的结果。作为我们方法的基准。这些评价结果示于表1的第1-3行中。第4结果表明,基于结构相似性的图像匹配给出了一个改进的亮度恒定性的损失,在SfMLEarner中使用。光度不确定性能够提高准确度,同时在RMSE上给出稍差的结果,因为该方法能够允许图像域的部分中的较高误差。通过添加来自SFM的姿势和深度监督来获得更实质性的改进在这些实验中,我们特别使用了来自ORB-SLAM 2 [4]的预测。粗体数字表示在KITTI上训练的最佳性能。最后三行显示了相同测试集(KITTI特征分割)的结果,对于最终模型,其姿势和深度来自SfM,在Virtual KITTI(VK)[22],Cityscapes(CS)[25]上训练,以及在Cityscapes上进行预训练,并在KITTI(CS+K)上进行微调图4示出了由SfMlearner预测的深度与来自激光扫描仪的地面实况测量的定性比较。由于激光扫描仪的测量是稀疏的,我们将其加密以获得更好的可视化效果。虽然SfMLEarner鲁棒地估计深度,但我们提出的方法能够从图像中恢复更多的小尺度细节最后一行示出了典型的故障情况,其中估计的深度在像车窗的区域上不太准确图5显示了不同数据集的深度预测的定性评估在KITTI上训练的模型分别在Cityscapes[25],Virtual KITTI [22],Oxford RobotCar [26]和Make3D [27]的图像上进行了测试测试图像被裁剪以匹配KITTI训练数据的宽度和高度的比率。这些结果表明,该方法能够推广到未知的场景和相机设置。5.2不确定度估计图6示出了来自KITTI数据集的一些图像的光度和深度不确定性图的示例可视化颜色条在顶部指示高不确定性,在底部指示低不确定性。我们观察到,高光度不确定性通常发生在植被地区,其中匹配是困难的,由于重复的结构,并在地区与镜面破坏的亮度恒定性的假设,例如车窗以旧督新:从可持续森林管理中学习可持续森林管理13(a) 输入图像(b)预测光度(c)预测深度不确定图图六、不确定性图的预测:逐像素估计的不确定性图允许在具有高不确定性的区域处的图像匹配中的更高误差,从而导致改进的整体网络性能。我们观察到,光度不确定性图(b)倾向于预测反射表面、透镜耀斑、植被和图像边界处的高不确定性深度不确定性图(c)倾向于预测潜在移动对象和天空的高不确定性,其中深度值不太可靠。该网络似乎能够区分移动和静止的汽车。或透镜光斑。高深度不确定性通常发生在移动对象上,例如汽车。我们进一步观察到,该网络通常似乎能够区分移动和静止的汽车。图7示出了旋转、平移、深度和光度不确定性与它们各自的误差的关系。图显示,在匹配良好的区域中,不确定性往往较低,而在匹配不太好的区域中,不确定性更差5.3相机姿态估计我们在KITTI里程数据集[28]上训练和测试了所提出的方法,使用与[1]中相同的训练和测试序列分割:序列00-08用于训练的序列09- 10和用于测试的序列09-10,使用仅所有序列。这给出了20409个训练图像和2792个测试图像的分割。KITTI数据集中提供的地面实况里程计仅用于评估目的。再次,从ORB-SLAM 2 [4]获得来自SFM的深度和姿态。表2示出了与SfMLEarner的比较,其中对于两个测试序列09和10,数字如论文和网站上给出的。对于里程计评估,已使用5个图像的序列长度进行训练和测试。误差测量是5帧片段上的绝对轨迹误差(ATE)[29],其在整个序列上平均。在[1]中使用了相同的错误测量。我们比较了SfMLEarner的结果,如论文中所述和14M. Klodt和A. VedaldiSeq. 09Seq. 10ORB-SLAM(full)0.014 ±0.0080.012 ±0.011ORB-SLAM(短)0.064 ±0.1410.064 ±0.130DSO(满)0.065 ±0.0590.047 ±0.043SfMLEarner(纸张)0.021 ±0.0170.020 ±0.015SfMLEarner(网站)0.016 ±0.0090.013 ±0.009该方法0.014 ±0.0070.013 ±0.0090.080.070.060.050.040.030.020.120.100.080.060.040.021.050.840.630.420.210.010.020.040.060.08零点一旋 转不 确定 度(a) 旋转不确定度0.000.00零点零二零点零四分零点零六零点零八零点一零点一二翻 译不 确定 性(b) 翻译不确定性0.00.2 0.4 0.6 0.81.0深 度不 确定 性(c) 深度不确定性00.40.50.60.70.80.9光 度不 确定 度(d) 光度不确定度见图7。旋转、平移、深度和照片一致性的不确定性与相应误差项。图显示了不确定性和误差之间的对应关系表2. 左:两个测试序列09和10的与SfMLEarner相比的测距评估。所提出的三重贡献产生了对Seq.09中的结果和Seq.10个。右:Seq的具有颜色编码的姿势不确定性(绿色=确定,红色=不确定)的级联姿势。09.在网站上,建议的方法与不确定性和深度和构成监督SfM。此外,我们将传统方法ORB-SLAM(如[1]中所述)和DS0[30]进行比较。“全”存储器。对于DSO,我们无法获得短序列的结果,因为初始化基于5-10个关键帧。6结论在本文中,我们提出了一种新的方法,同时估计深度图和相机的位置从单目图像序列。该方法基于SfMLearning,仅使用单目RGB图像序列进行训练。我们已经通过三种方式改进了这个基线:通过改进图像匹配损失,通过结合观察置信度的概率模型,并扩展后者,通过利用标准SFM方法来帮助监督深度网络。实验表明,我们的贡献导致了实质性的改进,无论是从单目图像序列的深度图和里程计的估计,目前的最先进的。鸣谢。 我们非常感谢大陆公司赞助这项研究。旋 转误 差翻 译错 误深 度误 差光 度误 差以旧督新:从可持续森林管理中学习可持续森林管理15引用1. 周,T.,布朗,M. Snavely,N. Lowe,D.G.:视频深度和自我运动的无监督学习。在:CVPR中。(2017年)2. 戈达尔角Mac Aodha,O.,Brostow,G.J.:具有左右一致性的无监督单眼深度估计。在:CVPR中。(2017年)3. Mur-Artal河蒙蒂尔,J.M.M.,Tardos,J.D.:Orb-slam:一种多功能、精确的运动控制系统。IEEETransacti onsonRobotics31(5)(2015)11474. Mur-Artal,R., 你好J D. 相机2:用于单目、立体和RGB相机的非opepen-s〇urceslams系统。 IEEE Transactions on Robotics 33(5)(2017年10月)1255-12625. Buczko,M.,Willert,V.:用于视觉里程计的单目离群值检测。在:IEEE智能车辆研讨会(IV)。(2017年)6. Geiger,A.,齐格勒,J.,斯蒂勒,C.:Stereoscan:实时密集3D重建。In:IntelligentVehicleSyposium(IV),2011IEEE,IEEE(2011)9637. 克莱因,G.,Murray,D.:小型ar工作空间的并行跟踪和映射。在:混合和增强现实,2007年。ISMAR 2007。第六届IEEE和ACM国际系统研讨会,IEEE(2007)2258. Moulon,P. Monasse,P. Marlet,R.: 相对运动的全局融合,实现运动结构 的 鲁 棒 性 、 精 确 性 和 可 扩 展 性 . In : Proceedings of the IEEEInternatalConferenceonComuterVison. (2013)32489. Eigen,D. Puhrsch,C. Fergus,R.:使用多尺度深度网络从单个图像进行深度图预测。神经信息处理系统进展。(201 4)236610. Kendall,A.,Cipolla,R.:使用深度学习进行相机姿态回归的几何损失函数。arXiv预印本arXiv:1704.00390(2017)11. Kendall,A.,Grimes,M.,Cipolla,R.:Posenet:用于实时6-dof相机重新定 位 的 卷 积 网 络 。 In : Proceedings of the IEEE internationalcon-fe-re-nceoncomputervision. (2015)293812. Ummenhofer,B.,周,H.,Uhrig,J.,Mayer,N. Ilg,E.,Dosovitskiy,A.,Brox,T.:Demon:用于学习单眼立体声的深度和运动网络。arXiv预印本arXiv:1612.02401(2016)13. 加格河Carneiro,G. Reid,I.:用于单视图深度估计的无监督CNN:几何学拯救了我们。在:欧洲计算机视觉会议,Springer(2016)74014. 王,S.,克拉克河温,H.,Trigoni,N.:Deepvo:使用深度递归卷积神经网络实现端到端视觉里程计。机器人与自动化国际会议(2017)15. Vijayanarasimhan,S.,Ricco,S.,施密德角Sukthankar河Fragkiadaki,K.:Sfm- net:从视频中学习结构和运动arXiv预印本arXiv:1704.07804(2017)16. Song,S.,Chandraker,M.:道路场景中单目3d定位的联合sfm和检测线索 。 In : ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition. (2015)373417. Dhiman,V.,Tran,Q.H.,科尔索,杰杰Chandraker,M.:一种用于道路场景理解的连续遮挡模型。In:Proceedings of the IEEE ConferenceonC〇m puterVisi s i n andPater n Rec 〇 g nit i ti n.(2016)433118. Kendall,A.,Gal,Y.:贝叶斯深度学习在计算机视觉中需要哪些不确定性神经信息处理系统进展(Advances in Neural Information ProcessingSystems,NIPS)。(2017年)16M. Klodt和A. Vedaldi19. Kendall,A.,Gal,Y.,Cipolla,R.:多任务学习使用不确定性来权衡场景几何和语义的损失。IEEE计算机视觉和模式识别会议(CVPR)。(2018年)20. Novotny,D. Larlus,D.,Vedaldi,A.:通过观察周围的物体来学习3d物体的类别。IEEE International Conference on Computer Vision(2017年)21. 王志,Bovik,A.C.,Sheikh,H. R.,Simoncelli,E.P.:图像质量评估:从错 误 可 见 性 到 结 构 相 似 性 。 IEEE Trans. on Image Processing 13 ( 4 )(2004)22. Gaidon,A.王建奎,Cabon,Y.Vig,E.:虚拟世界作为多目标跟踪分析的代理在:CVPR中。(2016年)23. Ronneberger,O.,P.Fischer,Brox,T.:U-net:用于生物医学图像分割的卷积网络在:医学图像计算和计算机辅助检查(MICCAI)中。LNCS.的第9351卷Springger(2015)23424. Geiger,A.,Lenz,P.斯蒂勒角乌尔塔松河:视觉与机器人技术的结合 : Kitti 数 据 集 。 International Journal of Robotics Research ( IJRR )(2013)25. Cordts,M.,Omran,M.,Ramos,S.,Rehfeld,T.,Enzweiler,M.,Benenson河弗兰克,美国,Roth,S.,Schiele,B.:用于语义城市场景理解的 cityscapes数据集 In :Proc.IEEE 计算机 视觉与模式识 别会议(2016年)26. Maddern,W. Pascoe,G.,Linegar,C.,Newman,P.:1年,1000公里:牛津RobotCar数据集
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功