没有合适的资源?快使用搜索试试~ 我知道了~
EMPNet:嵌入式记忆点的视觉定位与建模
8120EMPNet:使用嵌入式记忆点的吉尔·亚伯拉罕·延佐·塔努贾·达摩西里·汤姆·德拉蒙德澳大利亚莫纳什大学ARC机器人视觉卓越中心{gil.avraham,yan.zuo,thanuja.dharmasiri,tom.drummond}@ monash.edu现实世界嵌入式存储点网络轨迹先前相机移动当前观测嵌入式内存点点嵌入CNN投影对准嵌入海绵体密集科雷图1:EMP-Net维护了一个与真实世界环境相对应的内部表示这种内部空间记忆通过密集匹配算法不断更新,允许自主代理通过观察序列对世界进行定位和建模。摘要不断估计代理成功实现这一壮举的系统之间的一个共同点是将预先遇到的观测值集成到当前状态中。这需要使用存储器模块来合并先前访问的状态,同时提供所观察的环境的内部表示。在这项工作中,我们开发了一个内存模块,其中包含严格对齐的点嵌入,表示从RGB-D序列的观测获得的相干场景结构。使用现代卷积神经网络架构提取点嵌入,并且通过计算新观察与驻留在存储器模块中的当前嵌入之间的密集对应矩阵来执行对齐。整个框架是端到端可训练的,导致包含在存储器中的点嵌入的循环联合优化。该过程放大了跨状态的共享信息,提供了更高的鲁棒性和准确性。我们在合成VIZ-Doom环境和真实世界的主动视觉数据集上进行的一组实验1. 介绍最近,人们对开发完全自主的代理人的兴趣激增。完全自主的一个核心方面在于智能体对其周围环境的空间感知[9];这种理解将使其扩展到其他有用的应用,包括导航[10]以及人机交互[7]。尽管图像性能存在诸如分割等挑战[4,16,26],深度估计[12,37,40],视频预测[27,43],ob-对象分类[18,25,36]和检测[13,34]在深度学习的帮助下已经取得了巨大的进步,这种成功水平尚未转化为空间感知和场景理解之间的交叉点目前,这是一个活跃的研究领域[14,19,33],视觉社区实现了将智能代理无缝安全地融合到现实世界环境中的潜力。从根本上说,需要一个自主代理来维护所观察到的场景结构的内部表示,该内部表示可以被访问以执行诸如这项工作得到了澳大利亚研究委员会机器人视觉卓越中心(项目编号CE1401000016)的支持。8121如导航、规划、对象交互和操纵[14]。传统的SLAM方法[9,29]通过关键帧保持内部表示,存储在类似图形的结构中,这为大规模导航任务提供了有效的方法。虽然,为了描述场景的局部结构信息,密集表示[31]通常更适合给定的任务。顺便说一句,这种密集表示也更适用于现代深度学习方法。鉴于此,我们确定了一个重要的关系之间的场景结构的表示和几何制定的问题。如今,具有安装在机器人平台上的深度传感器的相机的日益普及意味着场景的RGB-D信息是容易获得的。对于在环境中导航同时收集颜色和深度信息的代理,自然表示是可以捕获其周围环境的空间邻域信息的3D点实体。文献[38]中已经对这种表示的对齐进行了大量探索。在这项工作中,我们重新制定的任务,找到3D点对应的交叉熵优化问题。通过在数据收集阶段访问深度传感器和智能体使用卷积神经网络(CNN),我们从获取的观察中提取总的来说,我们将这些嵌入坐标对称为点嵌入。这允许对最接近的点嵌入之间的对应进行端到端优化(图1)。①的人。通过迭代地重复该过程,从先前看到的观察中存储的提取的点嵌入在经处理的帧序列内被联合优化,从而形成循环记忆机制。点嵌入以及它们的3D位置被存储在我们称为短期空间记忆模块(SSMM)的记忆组件中。通过不断推导SSMM中的点嵌入与新提取的点嵌入之间的对应矩阵,我们得到了SSMM的输入框架与局部坐标系之间的相对姿态其结果是一个SSMM,其中包含点嵌入,这些点嵌入在结构上与现实世界中的原始结构对齐。我们在两个数据集上评估我们的方法:来自Doom视频游戏的合成在这两个数据集中,我们表明我们的方法在本地化任务上的表现明显优于基线。本文的其余部分组织如下:在第二节-第二部分,对相关工作进行了简要回顾.在第3节中,我们提供了我们提出的方法的细节。在第4节中,我们展示了实验结果,并讨论了第5节中我们方法的可能扩展。2. 相关工作与我们的工作相关的文献可以分为三类。在引入用于定位和映射任务的基于记忆的模型之前,逐帧方法[8,23]和最近的[11,28]探索了几何约束的开发,以在优化卷积神经网络(CNN)时减少搜索空间。[23]的开创性工作应用直接姿态回归来推断两个视图之间的相对姿态。[8]的工作通过包括两个连续帧之间的光流来增强提供给回归网络的信息。[11]探索了一种自然的扩展,它同时估计了深度图以及潜在的光流约束,用于回归连续帧之间的姿态。CodeSLAM[3]优化了编码器-解码器设置,以有效地将深度帧表示为潜在代码。这些潜在代码被优化,使得姿态信息可以用于将一个潜在代码转换为另一个潜在代码。最近,[28]将光度损失与深度估计相结合,并且另外使用推断的深度来最小化3D迭代最近点[15]损失的残差在我们的工作中,我们同样最小化最近点损失,尽管我们最小化内部建模环境和传入观测之间的直接最近点误差。在DeepVO [39]和VINet [6]中初步探索了维护先前观察到的内部表示的重要性。这两项工作都通过使用CNN提取特征来处理序列信息,这些特征被输入到LSTM[20]中,用于融合过去的观察结果,同时回归两个连续帧之间的相对姿态。DeepTAM [42]将[31]的密集跟踪和映射(DTAM)方法重新定义为学习问题。类似于DeepVO,Deep-TAM直接回归姿态,并且另外估计用于映射环境的昂贵成本量[5]对上述方法的优雅扩展利用双向LSTM来获得时间上平滑的姿态估计(然而,这种双向属性引入了推理滞后)。类似地,我们保持对环境的一致的时空表示,尽管我们的短期记忆回忆更冗长并且被设计成具有针对先前看到的观察的更明确的定位意义。8122RGB输入Max点嵌入存储器模块CNN123456789101112131415161718置信矩阵加权最佳拟合+PC对齐投影图2:EMP-Net的拟议架构。传入的意见进行处理,以提取点嵌入和本地化对短期记忆模块。在使用所推断的姿态将点嵌入的新集合与存储器的坐标系对准之后,利用点嵌入的新集合来更新存储器模块通过基于强化学习的方法[14,33,41]探索了基于地图的Neural SLAM [41]和Neural Map [33]都具有固定的潜在映射大小,并具有2D自上而下的映射表示。然而,这两个作品都只评估他们的模型在合成迷宫和玩具任务。[14]在此基础上,引入了认知映射器和规划器(CMP)。CMP将导航集成到管道中,并将全局地图表示更改为以自我为中心的潜在地图表示。[19]专注于通过引入MapNet扩展[14]的映射方面,MapNet学习探索环境的地面投影allocentric潜在地图。MapNet在每一个时间步执行一个强力定位过程;通过这样做,时间信息丢失,并且地图中的不相关区域被认为是可行的定位选项。相比之下,我们的工作使用此时间信息作为本地化和更新内部地图的先验。3. 嵌入式存储点网络在图2中,示出了我们的系统的说明性概述,并且在下一小节中提供了我们的方法的简要描述性概述。在此之后,我们将更详细地描述我们框架的每个核心步骤 对于本文的其余部分,我们使用非粗体下标来表示矩阵或标量(取决于上下文,即 R),粗体下标表示向量(即q),并且使用括号(即, A[i,j]或q[i])。另外,我们将我们的系统的中央存储器单元,短时记忆模块(SSMM)称为两个组件,表示为表示为Mf和Mc,其指示SSMM中的相应存储嵌入及其对应的3D点。3.1. 系统概述在时间t,输入RGB-D观测值x t∈R h×w×4,高度h和宽度w,由CNN处理(第3.2节)以产生嵌入h t,f∈R Nr×n。通过利用摄像机固有质量投影深度信息,得到每个嵌入在摄像机自我中心坐标系h t,c∈ R N r×3中的对应位置。好吧ht,f和ht,c表示共同生成的点嵌入。Nr是生成的点嵌入的数量,n表示嵌入通道的数量计算嵌入ht , f和Mt−1 , f∈RNrb×n之间的成对距离,产生距离映射Dt,f∈RNrb×Nr(第3.3节);其中b表示缓冲区大小,M. 通过应用逐列softmax运算将距离图Dt,f转换为置信图Lt,f∈RNrb×Nr,并获得权重向量ωt∈RNr。这允许系统在加权最小二乘公式中优化下采样点云ht,c与它们在Mt,c∈RNrb×3中的对应匹配之间的相对姿态Tt∈SE(3)(第3.4节)。最后,通过用ht,f填充Mt−1,f并通过在h t,c上应用估计的姿态T t并填充Mt− 1,c ∈ R N r b ×3将自我中心坐标系中的下采样点云ht,c变换到M对于本文的其余部分,为了减少clut- ter,时间下标t将被省略,除非另有说明。是的3.2. 提取点嵌入为了从观察中提取点嵌入,我们使用CNN架构,该架 构 接 收 RGB-D 输 入 x∈Rh×w×4 并 产 生 张 量x′∈Rh′×w′×n,其中h′
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- zigbee-cluster-library-specification
- JSBSim Reference Manual
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功