没有合适的资源?快使用搜索试试~ 我知道了~
首页【翻译】Visual Place Recognition_ A Survey视觉场景识别综述
资源详情
资源评论
资源推荐

基于视觉的场景识别综述
摘要:因为现实环境的外观变化迥异,对基于视觉的场景识别是一个具有挑战性的难
题。近年来,视觉场景识别系统有了很大的突破,原因主要包括视觉传感器环境感知
能力的提高,对长期移动机器人自主性的日益关注,以及利用其他学科的最新研究的
能力(特别是在计算机视觉中的识别和神经科学中的动物导航)。本文将提供详实
的视觉场景识别调研大综述。。我们首先介绍场景识别的基本概念——场景识别在动
物界中的作用,“地点”在机器人语境中是如何定义的,以及场景识别系统的主要组成部
分。在机器人持久作业过程中,环境外观的改变是视觉场景识别失败的重要因素因此,
我们讨论了场景识别如何处理环境外观变化问题。最后,我们进一步讨论了视觉场景
识别的未来发展,特别是深度学习,语义场景理解
和视频流描述的相关领域中的快速发展。
关键词:视觉场景识别,场景识别
1 介绍
视觉场景识别是一个定义明确,但极具挑战性的问题给定一张图像,人、动物或
机器人能不能判断这个图像中的地方是否已经看到过? 无论对于人类、动物、计算机
还是机器人,一个场景识别系统必须具备一些基本的内容。首先,场景识别系统必须
具有对环境的内部表示(地图),可以用来与输入的视觉数据进行比较。第二,场景
识别系统必须判断当前视觉信息是否表示包含在地图中地点,如果是,是哪一个。由
于一系列挑战,比如地点的外观可能会急剧变化(见图 ),环境中的多个地方可能
看起来非常相似,即感知偏差问题,观测时与地图存储时机器人的方位不同,这些都
会造成基于视觉的场景识别执行起来比较困难
图 视觉场景识别系统必须能够()成功地匹配感知上差异较大的图像,还要
()剔除不同地方的易混叠图像对之间的误匹配。
考虑到对持久作业移动机器人自主性的日益重视,以及视觉感知能力和成本的快
速提高,该研究主题在机器人学中是非常重要的。视觉是许多定位和场景识别算法的
主要传感信息【】【】。场景识别是一个不断扩大的研究领域,引文分析可以证
明这一点,而且在机器人和计算机视觉会议上,会有专门关于场景识别的研讨会,其
1

中 包 括 !"
# 和 $ %
#&长期的场景识别问题也成了许多研讨会的常规主题,包括专门针对“长期自主
性”的 研讨会( ! 年)。
我们写这篇综述的目的是提供一个全面的场景识别研究的现状,这也与机器人学
和其他领域的研究,包括计算机视觉和神经科学相关。写这个综述的时机较好,因为
相关领域的一些重大突破:比如,在计算机视觉领域内,最先进的识别系统几乎普遍
使用深度学习技术, ! 年诺贝尔生理学或医学奖授予了 ','(
)' 和 *+,-.,他们发现了哺乳动物的大脑的描述方法。本文提供了
场景识别问题,以及该问题与许多其他机器人研究领域的关系,包括实时定位与建图
(/0'),定位,地图构建和识别。由于研究人员越来越重视机器人在恶劣环境中
的长期自主性问题,我们还特别讨论了机器人视觉场景识别的持久性问题。
2 地点在机器人学和自然界中的概念
导航和场景识别在心理学和神经科学中就是一个经典问题。!1 年 2 在大
鼠走迷宫的研究3 4中,提出了认知地图——动物逐渐学习到的不同地点之间相互关
系信息,是世界信息的心理表征。对于认知地图的概念,虽然也有人批判的34、
34,但其影响涉及心理学和神经科学等领域,同时也包括城市规划(0(+354
提出认知地图的元素是路径、边缘、节点、区域和地标),和机器人学(建图方法受
认知地图3!4、3#4,及空间语义层次364的启发)领域。
图 神经实验显示,动物,例如大鼠,的大脑含有位置细胞和网格细胞。在特定
环境中,位置细胞在一个位置激活,而网格细胞在多个,规则间隔的位置激活。该图
显示了当动物在一个方形环境中行走的时候()位置细胞和()网格细胞的兴奋位
置。78(7&+7+
7"35!4(++
(+"&&
随着记录动物脑中神经活动技术的发展394,,-. 和 :;(314识别
出大鼠海马中的位置细胞314。当大鼠在环境中的特定地方时,位置细胞会激活3见图
()4,这些位置细胞群覆盖整个区域34,35 4。此外,如果大鼠从一个环境移动
到另一个环境,相同的位置细胞可以用来表示多种不同的环境。 ,-. 和 7(
354提出,这些位置细胞构成了 2 认知地图的一部分。通过背部前下托的头向
细胞354和在中间内嗅皮层中的网格细胞3554的发现,神经活动和实际地点之间关系
得到进一步了解。动物沿特定方向转动头部时,头向细胞会兴奋,而网格细胞在环境
2

中的多个位置处兴奋,它们的兴奋区域形成规则网格 3见图 ()4。
通过位置细胞的兴奋位置,我们观察到场景识别被感官信号和自身运动激发
34。对大鼠的研究显示,位置细胞最初基于自身运动而兴奋,但如果环境改变——
例如,改变出发点和目的地之间的距离——位置细胞会根据看到的地标校正到正确的
位置35#4,3564。根据不匹配的程度,校正可能是平滑的,也可能是突然的。
图 5视觉场景识别系统的框图。 输入的视觉数据由图像处理模块处理。机器人对
世界的感知信息存储在地图中。置信度生成模块决定当前视觉信息是否与先前存储的
地点匹配。系统中通常还包括运动信息,地图在运行过程中可以不断地更新。
许多与上面相同的概念会出现在机器人中。大多数机器人能够获取外部观测数据 ,
以及自身运动信息,并通过地点之间的拓扑度量关系与感官信息结合来确定最可能的
位置,这类似于位置细胞的神经元兴奋。图 5 描述了视觉场景识别系统框图。视觉场
景识别系统包含三个关键部分:图像处理模块(用于解释输入视觉数据),地图(维
护机器人对世界的感知),以及置信度生成模块(通过输入的传感器数据与地图结合,
来判断机器人是在一个到过的地方还是处于一个新的地点)。场景识别系统还可以将
运动信息或图像处理后的信息提供给置信度生成模块。大多数场景识别系统为在线操
作,并实时更新地图。
这篇文章讨论了在机器人导航中“地点”的概念。它着眼于组成地方识别系统的三个
关键模块:图像处理模块,地图框架,和置信度生成模块。接着,本文讨论环境变化
的问题。然后论文重新讨论每个模块——图像处理模块,地图框架,和置信度生成模
块,并且研究位置识别系统的每个模块如何适应环境的外观变化的。
3 什么是地点?
机器人学中地点的概念出自机器人导航和建图。实际的机器人传感器和致动器是
会出错的,所以构建一个度量准确的世界地图,并用来自定位是具有挑战性的。而这
两个目标的结合,称为 /0'35943!4,更难实现。
相对于维护一个精确的度量地图,替代方法是维护一个“关系地图,其具有弹性和
可扩展性的,而不是在一个 : 坐标系”(见3! 4)。这样的拓扑地图在概念上类似于
生物学中的认知图。节点表示世界中可能的地点,边表示这些地点之间可能的路径。
机器人导航可以抽象地定义为沿着节点之间的边走。地点表示路线之间的关键交叉点、
决策点3!4,3!54或最终目标点。
这种拓扑导航方法在实践中也有困难。机器人必须将抽象路线和地点与实际物理
位置和路径相关联,并且需要理清机器人传感器数据,机器人控制信号以及机器人对
世界的拓扑度量描述之间的复杂关系364。另一个问题是机器人如何生成拓扑地图。
如果机器人可以获取环境的度量栅格地图,那它可以从中提取拓扑信息,并突出相关
3

的导航信息,如开放的空间和通道3!!4。或者,机器人也可以通过视觉数据及其处理
后的信息创建拓扑图。
地点的定义取决于导航背景,它可以是一个精确的位置——“一个地方,将环境的
一部分描述为零维点”(见364),或一个更大的区域——“一个区域的抽象”,这里的
一个区域“代表环境的一个二维子集”(见364)。例如,建筑物中的一个房间,在某些
情况下,可能是一个地点,而在其他情况下,它也可能包含许多不同的地点。根据环
境或机器人的需求,一个地点也可以是三维的。与机器人位姿不同,地点不具有方向
性,并且场景识别中的一个长期挑战是姿态无关性——确保机器人在地点内任意方向
上都能识别出来。
无论是一维点还是更大的区域,每个地点的位置都可以基于空间或时间密度来确
定。在该方法中,根据特定的时间步长,或者,当机器人行进了一定距离时添加新地
点。一个地方可以根据其外观定义。. 和 )(3#4根据地点标签或地点描述
来定义地点。虽然拓扑地图没有固定的标准,但是要具有特定的外观形态3!#4,
3!64,外观变化显著时要有一个物理边界,称为“冲要”3!94。
具有视觉相似性的拓扑区域需要被量化——也就是说,场景识别系统如何将环境
分割成不同的地方?+3!14指出,它与视频分割中的变化点检测有相似之
处3!4,3# 4,+ 使用变化点检测算法,如 )(3# 4和
分割回归3#4来定义拓扑图中的地点3!14,3#4。传感器测量环境的外观,当它与当
前环境模型差异较大时,创建新的地点。类似地,. 等使用图像排序分割技术
将视觉上相似的图像归类为拓扑图节点,而 + 等人 3#!4使用了 . 滤
波与 8(%0 结合的方法来完 成这一步骤。 '+( 和 /(
3##4结合动态词汇构建3#64和增量式主题建模3#94,不断地学习环境中新的拓扑区域,
$; 等 人 3#14 使 用 3#4 来 分 割 环 境 。 主 题 建 模 , 和
)( 的技术也可用于机器人导航的其他方面,比如,总结机器人已有
的经验36 4<364,或确定勘探策略3654。
外观和密度,如距离,时间,或传感器值36!4,为可测量的量,所以,基于外观
和密度的地点选择方法比较实用。使用诸如“门”或“路口”的语义标签来增强外观信息,
虽然比较有挑战性,但是这样它们可以基于决策点的数据在线匹配地点。地图中语义
数据的添加有利于规划和导航36#4,它要求场景识别与其他识别和分类任务相关联,
特别是场景分类和物体识别。他们的关系是相互的:场景识别可以为物体检测提供标
检测的情境以及物体位置的先验信息,从而改善物体检测3664,反过来,物体识别也
有利于场景识别369439 4,特别是室内环境,我们可以从室内的东西来判断它的用
途,比如“厨房”或“办公室”,然后结合语义标签地图来定位394。
4 地点描述:图像处理模块
基于视觉的地点描述技术分为两大类:一类是选择性地提取一些有意义的图像部
分另一类是无选择性地描述整个场景。局部特征描述子属于第一类,例如尺度不变特
征(/=2)394和加速鲁棒特征(/>=)3954。局部特征描述子首先要检测图像中
的局部特征3见图 !()4。而全局图像描述子,如 ?39!4,39#4没有检测阶段,
但需要处理整张图像3见图 !()4。
.局部特征描述子
/=2394在场景识别中应用广泛 39643154。随着技术的发展,其他局部特征
检测和描述方法也用于视觉定位和场景识别问题中。例如,@ 和 8731!4使用
了 @A31#4,' 等人 3164和 与 873194使用
4
剩余16页未读,继续阅读


















安全验证
文档复制为VIP权益,开通VIP直接复制

评论0