没有合适的资源?快使用搜索试试~ 我知道了~
6687“The姿势在深绿色停车场下面。这个姿势就在绿色人行道的右边。”Text2Pos:文本到点云跨模态本地化德国慕尼黑工业大学{manuel.kolmet,qunjie.zhou,aljosa.osep,leal.taixe} @tum.detext2pos.github.io图1. 我们提出了基于文本描述的城市规模位置定位的Text2Pos。给定一个表示我们周围环境的点云和一个查询位置描述,Text2Pos提供了该地图中所描述位置的最可能估计摘要与移动设备和家用电器的基于自然语言的通信为了实现这一目标,我们研究了跨模态文本到点云本地化,这将允许我们指定,例如,车辆拾取或货物交付位置。特别是,我们提出了Text2Pos,一个跨模态本地化模块,学习以粗到细的方式将文本描述与本地化线索给定环境的点云,Text2Pos定位通过基于自然语言的周围环境描述为了训练Text2Pos并研究其性能,我 们 基 于 最 近 引 入 的 KITTI360 数 据 集 构 建 了KITTI360Pose,这是该任务的第一个数据集我们的实验表明,我们可以本地化65%的文本查询在15米的距离查询位置的前10名检索位置。这是一个起点,我们希望这将激发未来基于语言的导航的发展。“Alexa, hand me over my special delivery at thesidewalk本文的作者,未来。希望吧1. 介绍未来的移动机器人,如自动驾驶汽车和送货无人机,将需要与人类合作,以协调行动并规划其轨迹。在本文中,我们解决了基于自然语言的位置描述的目标位置的大规模位置定位,例如,用于货物递送或用于车辆拾取。对于地图内的自定位,移动代理依赖于视觉定位方法[4,22,35,41,56]。这些方法将观察到的图像与地理标记图像的数据库[4,16,45]或基于点云的地图[33,35,39]相匹配,通常使用运动恢复结构技术[38,40]获得。相比之下,在本文中,我们研究基于语言的本地化的任何位置,其中,重要的是,不需要用户在目标位置的物理存在。例如,这将允许我们经由基于自然语言的通信通过文本/语音向机器人出租车解释拾取位置或递送位置,这对人类来说是优选的。我们的方法也可以看作是GPS定位方法的补充,当GPS标签太粗糙、不可用时,或者基于语言的通信更方便时。作为本文的主要贡献,我们形式化的任务,基于语言的本地化,并提供了第一个数据集和方法,这项任务。在这个问题设置中,我们假设一个智能代理可以访问6688以3D点云和对象实例标签的形式出现的环境 虽然有几种获取点云的方法,但我们依赖于在现代汽车[8,43,52]和城市[26]数据集中容易获得的LiDAR点云。在查询方面,我们假设查询位置周围环境的文本描述,例如图1所示。然后,任务是基于该查询提供最可能的位置估计。为了研究这个具有挑战性的问题,我们需要一个数据集,它(i)提供基于点云的环境表示,(ii)提供查询位置形式的标签及其相应的文本描述,例如来自其周围环境的标签。我们建立在最近提出的KITTI360数据集[52]上,该数据集提供了9个场景(城市地区),覆盖了80 km的驾驶数据。重要的是,这个数据集提供了点云的语义和实例级注释,我们使用它来自动生成查询位置描述。我们通过随机采样查询位置并生成相应的文本描述来获得KITTI360Pose数据集对于每个查询位置,我们自动生成多个描述的基础上,自然语言模板,指定周围的实例的空间关系我们为14,934个采样位置生成了43,381个这样的描述,我们通过场景(代表一个城市地区)进行分割,以获得我们的训练/测试分割。我们使用这个数据集来训练和评估我们提出的执行从粗到精定位的Text2Pos模型。在粗略定位步骤中,我们检索可能包含我们的目标位置的地图的子区域。为此,我们的网络学习将编码查询与代表这些子区域的点云对齐最后,我们完善检索候选区域内的位置估计使用我们的基于匹配的精细定位模块。我们的实验表明,我们可以本地化这样的随机生成的位置在KITTI360场景中的前10名查询的召回率为65%,表明基于文本描述的本地化位置是可行的。总之,我们的主要贡献是:我们(i)介绍和形式化的三维点云基于文本描述的本地化的任务。为此,我们(ii)基于KITTI360数据集提供了KITTI360Pose,这是该任务的第一个公共数据集我们(iii)为定位任务提供了一个由粗到细的基线模型,该模型学习将文本中提到的对象与点云中的对象实例我们相信这项工作是与未来移动机器人(如送货无人机和自动驾驶出租车)进行基于自然语言的通信的第一步2. 相关工作基于视觉的定位。与我们的问题相关的是视觉定位的任务[4,6,16,22,32,33,35,41,45,46,56],这意味着基于观察到的图像或图像序列估计精确的姿态。 现有方法通常采用两阶段的粗到细定位流水线[33,35,56]。给定查询图像,粗略步骤首先使用图像检索技术找到具有对齐视图的图像子集[4,16,45]。然后,精细步骤基于视觉描述符建立查询的像素与检索到的图像之间的2D-2D对应关系。这些可以进一步用于获得查询和3D地图之间的2D-3D对应,通常使用运动恢复结构技术获得。最后,可以使用一组2D-2D对应关系[56]或2D-3D对应关系[33,35]来计算相机姿态。我们的方法遵循由粗到细的定位方案,首先定位包含查询文本所描述的对象的粗单元,然后在粗单元内进行更精确的姿态估计。与视觉特征之间的匹配相比,我们的方法需要隐式地学习对齐两种不同的模态:文本和3D点云。与通常用于机器人自定位的视觉定位相比,我们解决了语言定位,旨在指定任意目标位置。2D视觉与语言视觉和语言理解在诸如图像字幕[20,24,47,53]、视觉问题回答(VQA)[3,50]和视觉基础[18,21,25,54],定位查询文本所描述的图像中的视觉元素的任务视觉和语言感知相结合,以协助机器人在建筑物规模的环境下从一 个 房 间 到 另 一 个 房 间 的 导 航 任 务 [2] 。 后 来 ,ALFRED基准测试[42]被发布,以鼓励在交互式视觉3D环境中将语言与一系列人类日常任务联系起来的研究。更接近我们的任务是文本到图像检索[19,27,28,48,49],其中文本描述符被学习以匹配相应的图像描述符。这通常需要模型对一组单词和图像区域之间的关系进行推理,并将单词与其对应的图像区域进行匹配[28]。我们的方法和以前的工作之间的主要区别是,我们从文本匹配到点云,而不是图像。在粗定位阶段,我们的方法首先将文本序列与代表场景中的区域的单元格进行匹配,该单元格包含一组对象,然后将其与单个文本对象提示进行匹配。3D视觉与语言被3D世界所吸引我们生活在,最近的工作探讨了3D视觉和语言理解的3D形状生成[11]和3D对象的语言基础[1,10,15,30,55]的任务的潜力。[30]的方法体现了语言6689隐式地基于3D视觉特征,并预测不同颜色的原始形状的目标对象的3D边界框。ScanRefer [10]将查询描述所引用的3D对象定位在真实室内场景中。ReferIt3D [1]处理类似的任务,但假设给定房间中的分段对象实例,并专注于在相同细粒度类别的实例中识别所引用的对象。InstanceRefer [55]通过使用3D全景分割主干来提高其性能,引导模型捕获多级视觉上下文。[15]最近的工作提出了几个图形模块,有助于学习视觉和语言领域的上下文信息。与我们的工作类似,这些方法基于文本查询在3D点云中定位区域。然而,这与我们提出的城市规模的基于文本的位置本地化任务在几个方面不同:对于3D对象引用,模型需要学习将自然语言描述符与场景中的一个对象对齐。与此不同的是,我们的模型需要学习将对象的组合解释为位置,并将其与其他可能的位置区分开来,因为没有明确的位置视觉概念。额外的挑战来自于这样一个事实,即我们的目标是大(城市)规模的户外场景本地化。由于现代GPU的内存限制,这是具有挑战性的,它只能适应城市规模点云的一小部分。此外,与杂乱的人造室内环境相比,室外区域在语义方面的多样性较低[29],使得难以利用语义实例来获得唯一的位置签名。总之,我们的工作是解决这一挑战性任务的第一次尝试,并为3D视觉和语言社区打开了基于自然语言的本地化之门。3. KITTI360Pose数据集为了解决大规模环境(如城市)中基于语言的位置定位问题,我们(i)需要一个大规模的数据集,提供代表真实世界城市的点云,以及(ii)大量的位置-文本对来训练和评估我们的模型。到目前为止,没有这样的数据集存在,并且手工注释文本查询将是非常昂贵的。最近推出的KITTI360 [52]1数据集提供了9个静态场景,代表了卡尔斯鲁厄市的不同地区,覆盖了总共超过80公里的行驶距离。这些场景是通过使用LiDARSLAM方法(例如,[5])。这些点云将适合于研究该问题;然而,数据集不提供位置的文本描述。 幸运的是,KITTI360提供了对象实例1采用知识共享署名-非商业性使用-相同方式共享3.0许可协议。此数据集不包含任何个人身份信息或攻击性内容。用于静态的标签(例如,建筑物、交通灯、车库)和动力学(例如,人、汽车、自行车)对象实例和用于stuff类的语义标签(例如,道路、植被、墙壁)。在下文中,我们利用这些对象实例和语义标签来自动化位置描述查询对的生成。 我们使用这些来训练我们的模型,并在没有手动注释工作的情况下对大规模跨模态本地化进行基准测试。在这项研究中,我们专注于点云,由Li-DAR传感器记录,在现代汽车[8,43,52]和机器人[26]数据集中很容易获得。我们的方法也适用于使用现有视觉定位数据集[22,36]中可用的运动恢复结构方法[38,40然而,这样的数据集目前不包含适当的实例注释,我们可以利用自动生成的查询位置。最后,我们注意到室内RGB-D数据集,如[9,12]确实包含这样的对象实例标签。然而,在本文中,我们明确的目标是研究大规模的本地化,因此,专注于户外场景。3.1. 数据集生成对象实例。与大多数现有的自动驾驶数据集[8,43]相反,这些数据集专注于动态对象(如汽车和行人)的实例分割,KITTI360还为几个静态类(如建筑物和交通灯)提供对象实例标签,为本地化提供可靠的提示。在这项工作中,我们利用静态对象实例来生成位置查询,并作为位置定位的线索。除了标记的实例,我们还进一步分裂certain的东西类,并使用获得的集群生成描述。例如,类别植被聚集了大量的单独的树木和灌木丛,这些树木和灌木丛可以被指定为分布在整个场景中的单个对象的定位线索。为了恢复一组单独的,因此可本地化的实例,我们使用DBSCAN [14]算法聚类所有的stuff类,例如植被,围栏和墙壁我们在补充材料中提供了关于分组程序的进一步细节查询生成。下一步是位置查询对生成。这里的目的是获得一组位置和相应的文本,这些文本以自动化的方式基于周围的对象及其空间关系定性地描述每个位置我们首先沿着记录的车辆轨迹采样等距位置,随时可用的地图。在每个采样位置附近,我们对固定数量的随机位置(实际上是4或8个)进行采样,以增加位置数量我们通过一个简单的句子模板生成文本描述,描述每个位置的相邻对象的相对6690粗略定位基于模板的职位描述精细定位细胞数据库前k个细胞提示预测位置:姿势是在一条灰色道路的南面。...姿势是在一个深绿色停车场的西边。姿势是在绿色人行道的西边。提示到实例匹配位置估计:这个姿势是在一个灰绿色车库的西边。...匹配的单元内插塞:这个姿势是在一个绿色车库的西边。文本到单元格检索i=1{}T{}不WS宽×宽图2. 文本2位置粗定位。给定基于模板的查询位置描述,我们首先识别一组粗略的候选位置(即,单元),其潜在地包含目标位置,其用作查询的粗略定位。这是通过使用我们的文本到细胞检索模型从我们构建的细胞数据库中检索前k个最近的细胞来很好的定位。然后,我们通过我们的位置细化模块在检索到的单元内细化姿态。相对于相邻的物体。我们直接从点云中自动提取相对位置和对象颜色标签。我们在补充部分详细介绍了句子的生成。在下文中,我们将这样一个生成的句子称为提示。位置描述由描述给定位置的一组提示来定义,即,其中,Nh是每个位置描述的提示的数量通过选择接近采样查询位置的k个对象的集合来获得用于描述位置的对象的集合我们只保留至少有Nh对象在其附近的位置。这种结构良好的查询的原因是双重的:(i)这使我们能够在没有昂贵的人工注释的情况下调查问题,以及(ii)使我们能够在基于显式提示到对象匹配的良好控制的设置中严格地研究跨模态本地化。我们相信,通过建立在自然语言处理领域的最新发展,可以编码和理解更复杂的语言查询[7,13]。KITTI360Pose数据集。使用上述过程,我们生成了KITTI360Pose数据集。特别是,我们对14934个位置进行了采样,并为每个位置生成了多达三个描述,总共有43381个位置-查询对。我们使用五个场景(区域)进行培训(共涵盖11个)。59平方公里),一个用于模型验证,三个用于测试(共覆盖2。14公里2)。一个平均的地区面积为1. 78平方公里。相比之下,剑桥数据 集 [22] 覆 盖 的 面 积 为 0 。 063 平 方 公 里 , OxfordRobotCar和CMU Seasons [36]覆盖10公里和8. 5公里的行驶距离(分别),东京24/7 [45]覆盖面积2. 56平方公里。这些位置的描述是基于落在采样位置的15m半径内的对象生成的我们在附录中提供了更多详细信息。4. Tex2Pos:一个基于数据库的本地化基线给定一个文本位置查询,我们的目标是在一个给定的基于点云的(Sec.3.1)地图通过其位置的2D平面坐标w.r.t.场景坐标系统。为此,我们提出了第一个基于文本的粗到精定位方法,我们在图中概述二、由于问题的大规模性质,我们遵循一个由粗到细的框架,在大规模视觉定位领域得到了充分的研究和证明[33,56]。我们首先执行查询的粗略定位,其中我们将搜索区域离散化为矩形单元,并从数据库中检索与描述匹配的前k个单元(图2,左)。为了改进这个估计,我们将检索到的单元格中的可见3D实例与文本描述中的相应引用提示进行匹配(图2,右)。最后,我们从文本中识别的实例集合中获得位置估计(第二节)。4.2)。我们注意到,粗略的检索在未来可能会被街道名称或粗略地址等提示所取代。这需要在3D点云和城市地图之间建立额外的对齐,这仍然是我们未来的工作。4.1. 粗略定位图像检索技术[4,16,45]通常用于视觉定位管道中,以有效地缩小搜索空间[33,44,56],甚至提供查询图像[36]的直接粗略位置估计[37]给定查询图像,其学习的全局描述符与从参考图像的数据库中提取的全局描述符匹配,以基于它们的描述符距离获得其前k个最近的参考图像。我们遵循这个一般的方法,在我们的文本到细胞的跨模态检索方法。通过这一步骤,我们的目标是有效地定位地图中可能包含我们的目标位置的可识别区域数据库建设。作为预处理步骤,我们将代表城市地区的点云划分为矩形单元。我们通过在场景上以水平和垂直的步幅滑动窗口来步幅大小S被选择为小于6691Ci=1FCT不TCFFF∈ C我i=1J j=1NpNpC{}Dp提示到实例匹配+位置估计提示...嵌入+LSTM提示描述。...翻译回归in-cell实例例如描述部分分配平移矢量...实例编码器OT匹配器位置估计............图3. (顶部)查询文本编码器和单元编码器架构,(底部)实例编码器架构。单元大小,以覆盖整个场景区域,并允许部分重叠的单元。我们把一个实例pi看作是在一个胞元 如果至少三分之一的点位于单元内,或者如果最小数量的点(实际上是250个)与单元我们将这些实例命名为该单元的单元内实例,即,:=pi,其中Np是每个单元具有单元内实例,并且对于不同的单元是不同的。文本到细胞检索给定一个位置描述,我们的检索模型的任务是识别它的前k个候选单元格,这些单元格可能包含所描述的位置。与图像到图像检索相比,该模型需要学习从两种不同的模态中提取输入的描述符,即,文本和点云,使得可以使用嵌入空间中的欧几里得距离来直接比较两者。如图3所示,我们的检索网络有两个编码分支来处理查询位置描述和候选单元。完整的职位描述使用双向LSTM 单元将其编码为全局文本描述符T[17]。 在单元编码侧,我们首先为每个单元内实例pi∈ C提取描述符F p i。我们将单元内实例描述符{Fp}聚合到一个图4. 很好的定位。在精细定位中,对于每个候选单元,我们首先建立查询提示与其单元内实例之间的对应关系,这使我们能够从两个域中过滤掉对位置估计无用的噪声信号。然后,我们为每个匹配的实例预测一个向量,该向量通过平移回归器将其实例中心转换为位置估计最终位置是所有匹配实例的位置估计值的平均值。到投影层(另一个3层MLP),其输出嵌入Fpi∈R的最终实例。4.2. 精细定位给定一组检索到的候选单元格,我们现在可以找到线索,使我们能够根据查询描述来细化这些单元格之间的位置。在经典的视觉定位中,这种精细定位步骤通常依赖于在查询图像和检索的前k个数据库图像之间建立2D像素对应关系[33,56]。这些图像具有附加的地理信息,并提供线索来计算查询的准确相机位置。受此思想的启发,我们建议通过建立位置描述与其前k个检索单元格之间的提示到实例对应来提示到实例匹配。给定一个位置描述和一个候选单元格,我们首先与我们的跨模态匹配模块建立提示到实例的对应关系(图4)。正如在第二节中所解释的。3,位置描述由一系列提示{h}Nh组成,其中每个提示描述使用EdgeConv层[51]的全局单元描述符C,随后是最大池化操作。实例编码器。 每个实例Pi由点云表示,其中每个点包含三个空间和三个颜色(RGB)坐标,产生6D输入特征(图3底部)。我们使用PointNet++[31]主干对这样的点云进行编码,这为我们提供了语义嵌入。此外,我们显式地通过使用我们的颜色编码器对其RGB坐标进行编码来获得它的颜色嵌入,并通过对其进行编码来获得它的位置嵌入。实例中心P′i,即,其坐标的平均值使用我们的位置编码器。颜色编码器和位置编码器中的每一个采用3层多层感知器(MLP)的语义嵌入、颜色嵌入和位置嵌入通过拼接融合,关于其属性和与位置的关系的单个实例 我们使用实例编码器为每个单元格内实例提取描述符pi,并使用文本编码器提取每个提示的描述符hj。然后,我们使用匹配模块(受Super- Glue [34]的启发)在实例集和句子集之间执行部分匹配。匹配模块首先使用若干块自注意层和交叉注意层来传播上下文信息。从两组聚合描述符计算成对相似性分数,作为最优传输(OT)匹配层的成本矩阵。我们采用与[34]相同的OT设置。最后,我们通过挑选置信度得分高于特定阈值(0. 2在实践中)。基于翻译的改进。 对于每个识别的匹配文本到单元格检索职位描述嵌入层LSTM电池内放电实例描述实例编码器......边缘转换+MaxPooling实例编码器Inst.(XYZ,RGB)PointNet++Inst. RGB彩色编码器投影康卡特Inst. 中心POS. 编码器6692F- -联系我们C不不F不SSCi=1不 i=1NBIB{F}{F}FF··步幅#细胞 定位回忆(15/10/15米)
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 最优条件下三次B样条小波边缘检测算子研究
- 深入解析:wav文件格式结构
- JIRA系统配置指南:代理与SSL设置
- 入门必备:电阻电容识别全解析
- U盘制作启动盘:详细教程解决无光驱装系统难题
- Eclipse快捷键大全:提升开发效率的必备秘籍
- C++ Primer Plus中文版:深入学习C++编程必备
- Eclipse常用快捷键汇总与操作指南
- JavaScript作用域解析与面向对象基础
- 软通动力Java笔试题解析
- 自定义标签配置与使用指南
- Android Intent深度解析:组件通信与广播机制
- 增强MyEclipse代码提示功能设置教程
- x86下VMware环境中Openwrt编译与LuCI集成指南
- S3C2440A嵌入式终端电源管理系统设计探讨
- Intel DTCP-IP技术在数字家庭中的内容保护
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功