没有合适的资源?快使用搜索试试~ 我知道了~
6856VidLoc:一种用于6自由度视频片段重定位Ronald Clark1,Sen Wang1,Andrew Markham1,Niki Trigoni1,HongkaiWen21牛津大学2University of Warwick华威大学firstname. cs.ox.ac.uk摘要机器学习技术,即卷积神经网络(CNN)和回归森林,最近在执行单眼图像的6-DoF定位方面显示出很大的前景。然而,在大多数情况下,图像序列,而不是只有单个图像,是容易获得的。在这个程度上,没有一个提出的基于学习的方法利用时间平滑度的有价值的约束,通常导致每帧误差大于相机运动的情况。在本文中,我们提出了一个经常性的模型进行6自由度本地化的视频剪辑。我们发现,即使只考虑短序列(20帧),姿态估计是平滑的,定位误差可以大大减少。最后,我们考虑从我们的模型中获得概率姿态估计的方法。我们在开放的真实世界自动驾驶和室内定位数据集上评估了我们的方法。1. 介绍单目图像的定位是计算机视觉和机器人技术中的一个基本问题。摄像头定位是计算机视觉中许多功能的基础,是同步定位和地图绘制(SLAM)过程的重要组成部分,并具有直接应用,例如,在第一响应场景中自主机器人和无人机的导航或辅助生活应用中可穿戴设备的定位。使用视觉数据执行6-DOF姿态估计的最常见的手段是利用专门构建的模型,该模型是从映射期间捕获的图像中提取的大量局部特征构建的。然后使用运动恢复结构(SfM)过程找到这些特征的3D位置,从而创建从特征描述符到3D点的多对一映射。传统上,针对这些模型定位新的查询图像涉及到找到一个大的假定对应集。然后使用RANSAC找到姿势,以重新将异常值对应关系注入,并优化内点上的摄像机姿态。虽然这种传统方法在许多情况下都被证明是非常准确的,但它面临着许多重大挑战。这些方法依赖于局部和非直观的手工制作的特征,例如SIFT关键点。由于它们的局部性质,在图像像素和地图之间建立足够数量的可靠对应关系是非常具有挑战性的。由于传感器噪声和量化效应等“表现良好”的现象以及由于局部对应假设不满足而产生的纯离群值,会出现伪对应[ 6 ]。这些包括不可避免的环境外观变化,例如,由于变化的光水平或动态元素,如杂乱或框架中的人或门的打开和关闭。这些方面共同产生了大量令人惊讶的对应关系,使其难以用于任何目的,但清晰和高分辨率图像的本地化。其次,地图通常由数百万个需要搜索的元素组成,这使得实时建立对应关系的计算非常密集且困难。图1:Microsoft 7-Scenes数据集的Stairs场景中感知锯齿的极端示例。其中一帧是在楼梯底部拍摄的,另一帧靠近顶部。仅使用单个帧,如在竞争方法中,不可能正确地定位这些图像。6857然而,最近已经表明,诸如随机森林[20]和卷积神经网络(CNN)[10]等机器这些方法认为输入图像是完全不相关的,并产生独立的姿态估计,这是令人难以置信的噪声时,适用于图像序列。在大多数平台上,包括智能手机、移动机器人和无人机,图像序列很容易获得,并且有可能大大提高这些方法的准确性,并且已经获得了基于序列的相对姿态估计学习的有希望的结果[4]。因此,在本文中,我们考虑的方法,我们可以利用图像序列中的时间依赖性,以提高6自由度相机重新定位的准确性。此外,我们还展示了如何在本质上将地图匹配、基于模型的局部化和时间滤波统一在一个极其紧凑的模型中。1.1. 相关工作地图匹配地图匹配方法利用道路和可通行路径形式的空间地图或可导航和不可导航区域的走廊计划来定位机器人,因为它穿过环境。地图匹配技术的特点是不依赖于严格的数据关联,可以使用两种外感受性(例如,激光扫描)或内感受(里程计、平台的轨迹或运动)传感器来获得全局姿态估计。全局姿态估计通过概率方法获得,例如顺序蒙特卡罗(sMC)填充[7]或隐马尔可夫模型(HMRM)[15]。这些方法本质上结合了连续观测,但准确性不如针对专门地图(例如稀疏特征的3D地图)进行定位。基于稀疏特征的定位当可区分特征点的3D模型可用时(例如,使用SfM获得),则可以使用相机重新分割来找到查询图像的姿态。 与大型3D模型匹配通常在计算上是非常昂贵的,并且需要大量的存储器空间来存储映射。已经提出了许多方法来提高图像和3D模型之间的标准3D到2D特征匹配的效率[24]。例如,[16]提出了一种量化的特征词汇,用于直接2D到3D匹配,其中使用RANSAC结合Pestrian算法找到相机姿势,并且在[17]中提出了一种主动搜索方法,以有效地找到更可靠的对应关系。[13]提出了一种客户端-服务器架构,其中客户端利用顺序图像执行高速率本地6-DoF跟踪,然后将其与来自服务器的较低速率全局本地化更新相结合,完全消除了需要闭环。作者提出了各种方法来整合平滑的局部姿态与全局更新。在[11]中,作者考虑了通过将时间约束引入图像配准过程来提高全局精度的方法,该方法通过平滑来正则化姿态。Shotton等人的场景坐标回归森林。[20]使用回归森林来学习RGB-D输入图像的像素与先前建立的模型的场景坐标之间的映射。本质上,回归森林学习函数f:(r,g,b,d,u,v)→(U,V,W)。为了执行定位,需要从多个RGB-D像素中提取多个像素。查询图像被馈送通过森林,并且使用基于RANSAC的姿态计算来确定一致且准确的最终相机姿态。为了说明图像序列的时间规律性,作者考虑了他们的方法的帧到帧的扩展。为了实现这一点,他们初始化的姿态假设之一,从先前的帧,这导致在定位精度的显着改善。虽然非常准确,但这种方法的主要缺点是它需要深度图像来起作用,并且不能消除昂贵的RANSAC过程。CNN特色深度学习正迅速成为计算机视觉领域的主导方法。预先训练的CNN的许多层形成了一个分层模型,随着层的上升,输入数据的表示级别越来越高。已经表明,许多计算机视觉相关的任务受益于使用这些上层的输出作为输入图像的特征表示。这些特征的优点是足够低,可以为大量概念提供表示,但足够抽象,可以使用简单的线性分类器识别这些概念[19]。他们已经在广泛的任务中取得了巨大的成功,包括标志分类[1],以及与我们的目标,场景识别[25]和地点识别[22]更密切相关的任务。Posenet[10]证明了通过使用深度CNN模型来估计单个RGB图像的姿态的可行性直接在姿势上倒退。对于实际的相机重新定位,Posenet远非理想。例如,在Microsoft 7-Scenes数据集上,它实现了0。48m误差,其中模型空间只有2. 5m×1m×1m。我们的方法通过在模型中加入时间方面来提高定位精度,准确的估计。1.2. 贡献在本文中,我们提出了一个递归模型,用于减少姿态估计误差,通过使用多帧的姿态预测。我们的具体贡献如下:1. 我们提出了一个深度时空模型,用于从单目图像序列进行有效的全局定位6858Bi-LSTM级联Bi-LSTMNNS全局姿态级联C时间图2:用于视频剪辑定位的CNN-RNN网络。2. 我们集成到我们的网络的方法,获得瞬时协方差的姿态估计。3. 我们评估了我们对两个大型开放数据集的方法,并表明所提出的时空模型的性能明显优于平滑基线。2. 该模型在本节中,我们概述了我们提出的视频剪辑定位模型VidLoc,其高级概述如图2所示。我们的模型使用CNN处理视频图像帧,并整合时间信息这些模型,但是,推广到其他任务,包括姿态估计。与Posenet [10]论文中一样,VG-GNet [21]能够产生更准确的姿态估计,但由于其非常深入的架构而导致高计算成本。由于我们对处理时间序列中的多个图像感兴趣,因此我 们采用GoogleNet Inception [23] 架构 用于VidLocCNN。我们只使用GoogleNet的卷积层和池化层,并删除所有完全连接的层。在我们的实验中,我们探索了计算效率的影响,使用多个帧获得的精度的增加。2.2. 时间建模:双向RNN在Posenet和许多其他传统的基于图像的局部化方法中,姿态估计完全独立地针对每个帧产生。然而,当使用具有时间连续性的图像流时,可以通过利用时间依赖性来获得大量的姿态信息。例如,相邻图像通常包含同一对象的视图,这可以提高特定位置的置信度,并且对帧之间可能经历的运动也有严格的约束-估计在特定位置的一组帧不太可能包含一个或两个位于远处的帧。为了捕捉这些动态依赖关系,我们在网络中使用了LSTM模型。LSTM [8]扩展了标准RNN,使它们能够学习长期的时间依赖性。这通过包括遗忘门、输入和输出复位门以及存储器单元来实现。进入和出的存储单元的信息流是regu- lated由遗忘和输入门。这使得网络能够在训练过程中克服消失梯度问题,从而使其能够学习长期依赖关系。LSTM的输入是CNN的输出,由一系列特征向量xt组成。LSTM将输入序列映射到输出序列,输出序列由参数化为7维向量的全局姿态组成,yt由平移向量和方向四元数组成。通过在每个时间步ft=σg(Wfxt+Ufht−1+bf)it=σg(Wixt +Ui ht−1+bi)通过双向LSTM2.1.图片特写:CNN我们模型的CNN部分的目标是从输入图像中提取相关特征,这些特征可用于ot=σg(Woxt+Uoht−1+bo)ct=ft<$ct−1+it<$σc(Wcxt +Ucht−1+bc)ht =ot<$σh(ct)yt =σo(Wyht+by)(一)预测图像的全局姿态。CNN由对输入图像执行卷积和池化操作的堆叠层组成。已经提出了大量的CNN架构,大多数用于对图像中的对象进行分类,并在Imagenet数据库上进行训练。其中W、U和b是LSTM的参数,ft、it、ot是门向量,σg是非线性激活函数,ht是LSTM的隐藏激活。对于内部激活,我们使用双曲正切函数,对于输出σo,我们使用线性激活。的限制6859标准的LSTM模型是,它只能使在预测当前输出时使用先前的上下文。对于我们的单目图像序列姿态预测应用程序,我们有一个滑动窗口的帧在任何一个时刻可用,因此我们可以利用未来和过去的上下文信息预测序列中的每个帧的姿态。出于这个原因,我们为LSTM模型采用了双向架构[18]。双向模型假设与1中相同的状态方程,但是通过使用←−→−2.4. 概率姿态估计姿态估计方法,无论多么准确,总是会受到一定程度的不确定性。因此,能够正确地建模和预测不确定性是任何有用的视觉定位方法的关键组成部分。我们在第二节中定义的euclidean平方和误差。2.3的结果是一个网络,它只近似训练数据定义的姿势的单峰条件平均值。在本质上,网络的输出可以被视为预处理。指定µx,条件姿态分布两个隐藏状态,ht和ht,一个用于处理数据一个用于向前处理,另一个用于向后处理,p([x,q]|I)= N.Σµ[x,q],σ在那里,高斯人-图3所示 然后将隐藏状态合并 为了通过级联形成单个隐藏状态Ht通过使用平方误差损失来引起该效应为不太可能的情况下,实际后验姿势分布操作ht=Σ←−→−Σht,ht(二)为高斯分布,此均值表示最优分布在最大似然意义上。然而,对于本文所关注的全局相机重定位输出姿态是从这个隐藏层计算的,如1中所示。图3:双向RNN的结构[18]。2.3.网损为了训练网络,我们使用平移和定向的欧氏误差幅度之和。为了计算损失,我们将LSTM的输出分为平移xt和方向qt这种假设是不可能的。在许多情况下,空间的外观在多个位置处是相似的,例如,建筑物中的两个走廊可能看起来非常相似(被称为在[9]中,考虑了在全局姿态估计中表示多模态不确定性的一种可能方法。在这项工作中,作者通过使用dropout作为采样手段来创建贝叶斯卷积神经网络模型权重。模型权重p(W)的后验分布|X,Y)是难以处理的,他们使用变分推理来近似它,如[5]中所提出的。以产生概率姿态估计,蒙特卡洛姿态样本被绘制,并从这些中确定均值和方差。尽管这正确地模拟了模型权重中的不确定性(即,根据训练数据的模型权重的分布),它不能完全捕获姿态估计的不确定性。为了对姿态不确定性建模,我们采用了混合密度网络方法[2]。该方法用混合模型代替高斯模型,允许对多模态后验输出分布进行建模。使用这种方法,姿态估计现在采取以下形式:yt= [xt,qt](3)并使用两个分量向量的误差幅度的加权和ΣTΣMp([x,q] |I)=i=1αi(I)Ni.Σµ[x,q](I),σ(I)(五)L=α1||t−t||+α2||qt−qt||(四).其中,Niµ[x,q]Σ,σ|我是混合组分,αi是t=1混合分布的系数满足我们通过时间框架传播损失,约束i αi= 1。混合组件是一个功能-每个训练序列通过展开网络和每个-通过时间形成反向传播。为了更新层的权重,我们使用Adam优化器。输入图像由网络建模与单高斯情况一样,训练网络以最大化训练数据的可能性。68603. 实验在本节中,通过与最先进的方法进行比较,在室外和室内数据集上对所提出的方法进行评估。3.1. 数据集实验中使用了两个著名的公共数据集。它们分别演示了室内人体运动和室外自动驾驶汽车驾驶场景。第一个是Microsoft 7-Scenes Dataset,其中包含7种不同室内环境的RGB-D图像序列[20],使用Kinect传感器创建。 它已被广泛应用于摄像机跟踪和重新定位[10 ]第10段。图像以640×480分辨率捕获,具有来自KinectFusion系统的地面真实值由于是一个场景的几个图像序列,每个序列由大约500-1000个 图 像帧 组 成 , 对于 我 们 的 实 验是 理 想 的 。使 用KinectFusion算法[14]获得数据集的地面实况相机姿态,以产生平滑的相机轨迹和每个场景的密集3D模型。在我们的实验中,所有的7个场景被用来评估所提出的方法。我们使用与原始论文中使用的序列相同的训练和测试分割该数据集由RGB和深度图像组成。虽然我们主要关注仅RGB本地化,但我们的方法自然地扩展到RGB-D情况。为了进一步测试在大规模户外环境中的性能,使用了最近发布的牛津机器人-汽车数据集[12]。它是通过使用一辆日产聆风汽车在牛津市中心行驶一年来记录的。该数据集包含来自Bumblebee立体相机、LiDAR扫描和GPS/INS的高分辨率图像。由于不同的天气条件,如晴天和雪天,在数据集中展示,这是非常具有挑战性的一些任务,基于视觉,例如,全局局部化和循环闭合检测跨越长期和季节。由于全局重定位不需要高频图像,在我们的机器人实验中,帧速率约为1Hz。3.2. 竞争算法在本节中,我们将描述我们在Microsoft 7-Scenes数据集上执行的实验。我们将我们的方法与当前最先进的单目摄像机定位方法进行比较。平滑基线整合时间信息的传统方法是对每个帧的独立姿态预测执行滤波或平滑操作。因此,我们将我们的方法与平滑操作进行比较,以研究使用RNN的优势,比独立的姿势预测。对于我们的平滑基线,我们按照[ 11 ]使用样条拟合方法。PosenetPosenet使用CNN来预测输入RGB图像的姿态。Posenet网络是GoogleNet架构,其最顶部的完全连接层被移除并替换为具有7维输出的层,并经过训练以预测图像的姿态。Score-Forest[20]方法训练随机回归森林来预测图像中像素的场景坐标。然后使用一组预测的场景坐标来使用RANSAC循环确定相机姿态。我们使用开放源代码实现我们的experiments1.与[16]的比较。对于机器人-汽车(图??我们提取SURF特征并使用LiDAR数据分配3D位置我们还根据[3]中给出的结果,将7个场景与[3]进行了比较3.3. 微软7场景数据集实验我们的实验测试我们的方法的准确性的结果显示在表1中。所提出的方法显着优于Posenet方法在所有的测试场景,导致23。精度提高4%-55%。SCoRe森林优于仅RGB的VidLoc。然而,这是严格不公平的比较,原因有二:首先,SCoRe-forest需要深度图像作为输入;其次,SCoRe森林有时产生具有粗差的姿态估计,尽管这些被RANSAC循环拒绝,这意味着姿态估计不是对所有帧都可用。相比之下,我们的方法对整个序列产生可靠的估计。我们使用深度和RGB输入来测试我们的方法,尽管我们的方法在可用时无缝地利用深度图像,但缺点是它不能在SCoRe-Forest能够的程度上利用深度信息。 这在表1中报告的准确度结果中得到了证明,其中可以看出,尽管我们的方法始终达到厘米准确度,但它没有超过SCoRe森林。这是令人惊讶的,但也许表明了网络的运作。这表明网络学习以类似于基于外观的定位方法的方式执行姿势预测。以这种方式,它以相同的方式使用RGB和深度信息。这与SCoRe-森林方法形成对比,在SCoRe-森林方法中,深度信息被明确地用在通过Pestro算法的几何姿态计算中。然而,我们注意到,我们的方法仍然具有能够在没有深度信息可用时对RGB数据进行操作的优点,并且能够为所有帧产生全局姿态估计,而SCoRe森林不能。捕获时间信息以及全局姿态每个帧获得的准确度确实更https://github.com/ISUE/relocforests6861表1:与最先进的单目摄像机定位场景帧空间评分Posenet贝叶斯平滑VidLocVidLoc30002000非常长的序列长度,我们经历递减的返回-然而,这不一定是模型不能使用该数据的产物,而是预测当前姿态中非常长的依赖性的实际效用。10000.70.60.500 20 40 60误差(m)0.40.30.20.1图4:VidLoc与RobotCar数据集上基于稀疏特征的方法[16]相比的误差直方图。02 5 1050100200300 400窗口大小(帧)图5:Microsoft 7-Scenes数据集中序列的窗口长度对姿态准确性的影响。表2:RobotCar和7 Scenes的其他比较。(1)稀疏RGB,(2)PoseNet,(3)Proposed,(4)Brachmann等人,(5)Sattler等人[15]第10段。本文的关键结果如图5所示,其将定位误差描述为:使用的序列长度的函数。我们使用200帧的序列长度训练模型,以测试模型推广到更长序列的能力。在所有情况下,我们确保误差在相同的数字上平均,并且在测试序列中均匀分布。正如预期的那样,增加帧的数量提高了定位精度。我们还看到,该模型能够推广到更长的序列(即,对于大于200的序列长度,我们仍然可以提高精度)。在我们的方法提高了Posenet的准确性,但对计算时间的影响很小。这是因为处理每个帧仅依赖于根据先前的时间实例和当前帧的图像数据来确定RNN的隐藏状态。因此,预测姿势只需要将图像向前传递通过CNN并传播隐藏状态。在我们的测试机器上,使用Titan X PascalGPU,使用GoogleNet仅需18毫秒,使用VGG16 CNN仅需43毫秒。从我们的实验中可以看出,使用微调方法和Imagenet初始化来创建可用的定位网络的训练时间实际上相当短。通常,测试数据最终精度的收敛时间(约90%)约为50秒。不确定性输出7-Scenes室内数据集非常具有挑战性,主要是由于图1所示的视觉混叠问题。一张照片是从楼梯底部拍摄的,另一张是在靠近顶部的地方拍摄的。为了将不确定性与[9]进行比较,我们使用作者提供的贝叶斯PoseNet实现建议[11]5cm,平均5cm第140章.7% -2-46.9cm,5.4◦3-25.7cm,3.8◦4556.1cm 占2%,2. 7◦5N/A6cm,2. 89◦频率南瓜红厨房楼梯办公室火棋头火车测试程度森林Posenet基线RGB-D深度象棋400020003x2x1米0.03m0.32m0.37m0.32m0.18m0.16m0.19m办公室600040002.5x2x1.5m0.04m0.48m0.48m0.38m0.26m0.24m0.32m火200020002.5x1x1m0.05m0.47m0.43m0.45m0.21m0.19m0.22m南瓜400020002.5x2x1m0.04m0.47m0.61m0.42m0.36m0.33m0.15m红色厨房700050004x3x1.5m0.04m0.59m0.58m0.57m0.31m0.28m0.38m楼梯200010002.5x2x1.5m0.32m0.47m0.48m0.44m0.26m0.24m0.27m头100010002x0.5x1m0.06m0.29m0.31m0.19m0.14m0.13m0.27m平均误差(m)6862预测值X(m)实际值X(m)(9)。图6以[9]的格式显示了预测不确定性和实际误差的可视化对于所提出的不确定性方法,位姿误差落在3σ界内的百分比为97。2%,[9]为98。1%(理想值为99。7%)。这两种方法都产生了高质量的不确定性估计,尽管所提出的方法不太保守.建议不需要近似或采样。从图中可以明显看出,预测的分布是适当的。然而,在许多情况下,我们发现预测的方差相当高,我们将其作为未来的工作来改进方差预测。大部分是道路和树木,没有明显和一致的外观特征。具体而言,图7a中呈现了在不同时间捕获的同一位置的三张图像。虽然它们是在同一个位置拍摄的,但路边停放的汽车引起了显著的外观变化。在不查看周围建筑物的情况下,唯一可用于全局重新定位的一致对象是树木和道路。然而,它们在图像背景方面是微妙的。例如,图7b示出了共享非常相似的外观的三个不同位置的样本图像。同样,这种感知混淆使得全局重新定位更具挑战性,0.350.300.250.200.150.00.20.40.60.81.0误差(m)1.0 7场景楼梯上的不确定性0.50.00.51.01.52.02.50100200300400 500图像编号使用一张图片。长度为10、20、50和100的测试图像序列的全局重新定位结果在图8中示出,与地面实况进行比较。它们也被叠加在Google地图上。可以看出,所提出的方法的结果随着序列长度的增加而改善,并且长度50和100的重定位结果与道路一致地匹配。很有趣的是图6:(a)不确定性与[7]的比较和(b)拟议不确定性预测(1σ)和轨迹的可视化。3.4. RobotCar数据集本节给出了在Oxford RobotCar数据集上的实验。由于GPS/INS姿态相对有噪声(锯齿形轨迹),因此通过使用姿态图SLAM将它们与立体视觉里程计融合以产生用于训练的平滑地面实况。在我们的实验中,使用三个图像序列进行训练,而训练后的模型在另一个新的测试序列上进行测试。(a) 同一地点不同时间的图像(b) 不同地点的图像,但时间很近图7:RobotCar数据集的图像显示了有限的外观区别,在同一位置上动态变化,以及不同位置之间的感知混淆。选择的图像序列是非常具有挑战性的全球重新定位。如图7所示,这些图像它的轨迹还能够通过端到端学习来跟踪运动的形状。相比之下,Posenet使用单个图像受到周围的噪声姿态估计的影响,地面真相实验验证了利用序列图像进行全局重定位的有效性和必要性,减轻了感知混叠问题,提高了定位精度。图9给出了长度为100的序列的定位轨迹和6-DoF姿态估计。实验结果表明,该算法定位结果平滑、准确。在图9 b中描述了关于x、y、z、滚动、俯仰和偏航的6-DoF姿态的对应估计。可以看出,所提出的方法可以在6-DoF位姿估计方面准确地跟踪地面实况。这在将定位结果用于重新定位和环路闭合检测时是重要的。图10示出了长度为100的所有序列的重定位误差(均方误差)的分布和直方图。统计上,通过所提出的方法估计的超过一半的姿势在20米以内,而对于Posenet,这小于15%。此外,还有一些大的错误,例如,超过200米的Posenet,这表明它在姿态估计期间可能具有感知混叠问题。它在这个具有挑战性的数据集中很常见,如图7所示。因此,验证了封装连续图像帧之间的关系的递归模型对于使用视频剪辑的全局重新定位是有效的。4. 结论我们已经提出了一种用于6-DoF视频片段重新定位的方法,该方法利用视频流中的时间依赖性来提高视频片段的定位精度。误差与不确定性1σ[7]提出3σ不确定度(SD)X(m)6863GTVidLocPoseNetGTVidLocPoseNet纬度纬度51.766551.76651.766551.76651.7655 51.765551.76551.7645 51.764551.764 51.76451.7635 51.763551.763 51.76351.7625 51.762551.766551.766电话:+86-10 - 8888888传真:+86-10- 88888888经度(a) 序列长度:10。51.766551.766电话:+86-10 - 8888888传真:+86-10 - 88888888经度(b) 序列长度:20。51.7655 51.765551.76551.7645 51.764551.764 51.76451.7635 51.763551.763 51.76351.7625 51.7625电话:+86-10 - 8888888传真:+86-10- 88888888经度(c) 序列长度:50。电话:+86-10 - 8888888传真:+86-10 - 88888888经度(d) 序列长度:100。图 图8:叠加在Google地图上的不同长度序列的全局定位结果。500-50-100-150-200-250-50050100150200X(m)25030035040020000 20 40 60 80 1005000-500400 20 40 60 80 10035300 20 40 60 80 1000.50-0.50 20 40 60 80 1000.50-0.50 20 40 60 80 10050-50 20 40 60 80 100图像(n)10.90.80.70.60.50.40.30.20.10VidLocPoseNet0 50 100 150 200250定位误差(m)0.30.250.20.150.10.050050 100 150 200 250定位误差(m)(a) 本地化结果。(b) 估计6自由度姿势。(a) 错误的分布(b) 错误的直方图图9:具有100长度的序列的定位结果和6-DoF姿态的估计。全局姿态估计。我们已经研究了窗口大小的影响,并表明我们的方法优于单目RGB定位的最佳相关方法,相当大的差距对于未来的工作,我们打算研究更好地利用深度信息的方法,也许是通过强迫网络学习利用几何信息。这样做的一种方法是尝试在中间层中使用CNN预测输入RGB-D图像的场景坐标,然后从中导出姿态。图10:长度为100的所有序列的定位误差分布和直方图。和输入图像。本质上,这就像在一个模型中统一基于外观的定位和基于几何的定位。引用[1] S.比安科,M。Buzzelli,D. Mazzini和R. Schettini 使用cnn特征的标志识别图像分析与处理国际会议,第438施普林格,2015年。[2] C. M. 主教混合密度网络一九九四年GTVidLocPoseNetGTVidLocPoseNet轨迹GTVidLocPoseNetGTVidLocVidLocPoseNet纬度Y(m纬度Y(mX(mP(rad)R(rad)Z(mQ(rad累积概率百分比6864[3] E. BrachmannF. 米歇尔 A. 克鲁尔 M. 应阳:S. Gumhold等人不确定性驱动的单一rgb图像中物体和场 景 的 6d 姿 态 估 计 。 在 Proceedings of the IEEEConference on Computer Vision and Pattern Recognition中,第3364-3372页[4] R.克拉克,S。Wang,H. Wen、黑腹滨藜A. Markham和N.三角Vinet:Visual-inertial odometry as a sequence-to-sequence learning problem.在2017年第三十一届AAAI人工智能会议的会议记录中[5] Y. Gal和Z. Ghahramani贝努里近似变分推理的贝叶斯卷 积 神 经 网 络 。 arXiv 预 印 本 arXiv : 1506.02158 ,2015。[6] T. 戈尔茨坦山口汉德角C.Lee,V.Voroninski和S.索阿托Shape fit和shapekick可从运动中获得稳健、可扩展的结构。欧洲计算机视觉会议,第289-304页施普林格,2016年。[7] F. Gustafsson ,F. Gunnarsson ,N. Bergman ,U. 福塞尔,J. Jansson,R. Karlsson和P. - J·诺德伦德用于定位、导航和跟踪的粒子滤波器。IEEE Transactions on SignalProcessing,50(2):425[8] S. Hochreiter和J.施密特胡博长短期记忆。神经计算,9(8):1735[9] A. Kendall和R.西波拉在深度学习中对相机重新定位的不确定性建模。国际机器人与自动化会议(ICRA),2016年。[10] A. Kendall,M.Grimes和R.西波拉Posenet:用于实时6-dof 相机重新定 位的IEEE International Conference onComputer Vision,第2938-2946页,2015年[11] T. Kroeger和L.范古尔视频注册到sfm模块。在欧洲计算机视觉会议上,第116. Springer,2014.[12] W. 马登恩湾帕斯科角Linegar和P.纽曼 1年,1000公里:牛津RobotCar数据集。《国际机器人研究杂志》(International Journal of Robotics Research,IJRR)[13] S. Middelberg,T. Sattler,O. Untzelmann和L.科比特移动设备上可扩展的6自由度定位欧洲计算机视觉会议,第268-283页Springer,2014.[14]R. A. 纽科姆,S。 伊扎迪河 希利格斯,D。莫利诺D. Kim,A. J.戴维森,P.作者简介:王建民霍奇斯,A.菲茨吉本运动融合:实时密集表面映射和跟踪。在混合和增强现实(ISMAR),2011年第10届IEEE国际研讨会上,第127136. IEEE,2011年。[15] P. Newson和J.克鲁姆通过噪声和稀疏性进行隐马尔可夫映射匹配。在17日的会议记录中ACM SIGSPATIAL地理信息系统进展国际会议,第336-343页。ACM,2009年。[16] T.萨特勒湾Leibe和L.科比特使用直接2d到3d匹配的基于图像的快速定位。2011年国际计算机视觉会议,第667-674页。IEEE,2011年。[17] T. 萨特勒湾Leibe和L.科比特通过主动对应搜索改进欧洲计算机视觉会议,第752-765页。斯普林格,2012.[18] M. Schuster和K. K.帕利瓦双向递归神经网络。IEEETransactions on Signal Processing,45(11):2673[19] A. Sharif Razavian,H.阿兹普尔J. Sullivan和S.卡尔-儿子。Cnn的特色现成的:一个令人震惊的认可基线在IEEE计算机视觉和模式识别研讨会会议论文集,第806[20] J. Shotton,B.格洛克角Zach,S. Izadi,A. Criminisi,以及A. 菲茨吉本rgb-d图像中相机重新定位的场景坐标回归森林在Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition,第2930-2937页[21] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络。arXiv预印本arXiv:1409.1556,2014。[22] N. Sunderhauf,S.Shirazi,A.Jacobson,F.Dayoub,E.佩普-佩雷尔湾。Upcroft和M.米尔福德使用convnet地标进行地点识别:观点稳健、条件稳健、无需培训。Proceedings of Robotics:Science and Systems XII,2015.[23] C. 塞格迪W. 刘先生,Y. 贾,P. Sermanet,S.里德D. 安格洛夫,D。Erhan,V.Vanhoucke和A.拉比诺维奇。更深的回旋。在IEEE计算机视觉和模式识别会议论文集,第1-9页[24] W. Zhang和J.科塞卡城市环境中基于图像的定位在3D数据处理、可视化和传输中,第三届国际研讨会,第33IEEE,2006年。[25] B. Zhou , 中 国 古 柏 A. Lapedriza , J. Xiao 、 肖 氏 A.Torralba和A.奥利瓦使用地点数据库学习用于场景识别的深度特征。神经信息处理系统的进展,第487-495页,2014年
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- C语言快速排序算法的实现与应用
- KityFormula 编辑器压缩包功能解析
- 离线搭建Kubernetes 1.17.0集群教程与资源包分享
- Java毕业设计教学平台完整教程与源码
- 综合数据集汇总:浏览记录与市场研究分析
- STM32智能家居控制系统:创新设计与无线通讯
- 深入浅出C++20标准:四大新特性解析
- Real-ESRGAN: 开源项目提升图像超分辨率技术
- 植物大战僵尸杂交版v2.0.88:新元素新挑战
- 掌握数据分析核心模型,预测未来不是梦
- Android平台蓝牙HC-06/08模块数据交互技巧
- Python源码分享:计算100至200之间的所有素数
- 免费视频修复利器:Digital Video Repair
- Chrome浏览器新版本Adblock Plus插件发布
- GifSplitter:Linux下GIF转BMP的核心工具
- Vue.js开发教程:全面学习资源指南
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功