没有合适的资源?快使用搜索试试~ 我知道了~
对象目标导航的在线学习及其在抽象模型中的重用
14870用于对象目标导航的可重用抽象模型的在线学习Tommaso Campari1,2Leonardo Lamanna2,3Paolo Traverso2Luciano Serafini2LambertoBallan11 University of Padova,Italy2 Fondazione Bruno Kessler(FBK),Trento,Italy3布雷西亚大学意大利{tcampari,llamanna,palliso,serafini} @ fbk.eulamberto. unipd.it摘要在本文中,我们提出了一种新的方法来逐步学习一个未知环境的抽象模型,并展示了一个代理如何可以重用学习的模型来解决对象目标导航任务。抽象模型是一个有限状态机,其中每个状态都是环境状态的抽象,如代理在某个位置和方向上所感知的那样。感知是高维感觉数据(例如,RGB-D图像),并利用图像分割和Taskonomy模型库实现抽象抽象模型的学习是通过执行动作、观察所达到的状态以及用所获得的信息更新抽象学习的模型由代理记忆,并且每当它识别出处于对应于第0幕第1幕第2幕存储模型我们调查的有效性,提出的方法的对象目标导航任务,依赖于公共基准。我们的研究结果表明,重用学习的抽象模型可以提高性能的对象目标导航。1. 介绍在人工智能中,智能体当在真实环境中行动时,智能体应该获取并有效地表示通过传感器(例如RGB或深度相机)获得的其周围环境的一些然而,这种知识获取过程是一个关键挑战。为此,可以遵循两个主要一方面,知识可以被编码成子符号模型(例如,神经网络),其例如通过设计可以直接应用于传感数据的监督或强化学习技术来学习[17,42]。另一方面,可以采用环境的符号/语义表示(例如,通过利用语义丰富的关系图1.在复杂的3D场景中导航期间,通过在抽象模型中存储丰富的语义信息来增量地获取关于环境的知识。例如,当机器人在s 0时,椅子和桌子是可见的;通过执行动作0,其他对象变得可见,因此抽象模型更新到s1。 我们的工作展示了知识如何随着时间的推移逐渐学习和有效地重用。结构),它捕捉了环境的高层次关键方面,抽象出无用的细节[24,37]。在我们的工作中,我们遵循第二种方法,试图获得一个更抽象和一般的知识表示,最终可以跨时间重用。为此,智能体(诸如在复杂场景中导航的机器人)将在对以下关键特征进行编码的抽象模型中表示所获取的环境知识:(i)关于对象、场景元素及其关系的一些语义见解;例如,它表示一个特定的状态,如s0椅子桌 子苹 果炉第0幕S1烤炉桌椅叉第1幕S2水槽桌椅.-是的 -是的第2幕S3披 萨桌椅.-是的 -是的地图抽象模型14871每个遇到的物体的形成,如其位置,相应的视觉特征等; (iii)动态地更新抽象模型以合并代理在其操作期间获取的附加信息;即,如果发现新对象,则应将其添加到模型中(iv)过去学习的模型应该可由代理在其识别到处于对应于所存储的模型的环境中时重用最后一个属性是必要的,因为在这里我们可以观察到学习的抽象模型的最大效用。在这项工作中,我们特别关注对象目标导航任务[7],其中要求代理接近给定对象类的实例最近的方法通常通过构建环境的语义地图[10,13]和利用SLAM[14,40]来解决这个问题相反,我们建议获取和存储的环境知识在一个抽象的,语义丰富的模型。具体地说,这样一个模型是由一个有限的自动机,其状态集明确地描述(在语义层面)什么是代理的意见,给定的姿势。因此,一个状态对应于一个智能体姿态、一组对象类(从该姿态可见的对象类)以及对每个对象的位置的估计。我们通过导航环境来逐步学习(在线)抽象模型,类似于[12,13]。与每个抽象状态相关联的信息是从低级感知中获得的,这些感知是从通过分割模型[21]和Taskonomy模型库[46]处理的RGB和RGB-D图像中获得的然后存储学习的抽象模型以供将来重用。因此,一旦一个代理rec- ognizes,当前的环境是类似的,它已经访问过之前,适当的抽象模型表示以前获得的信息内访问的环境可以由代理重新加载,然后更新与新的意见。为了实现这一功能,我们设计了一个“搬迁”机制,允许代理匹配不同的抽象模型的状态。我们在流行的栖息地模拟器[35]上评估了我们的方法,其中3D真实环境来自MatterPort3D数据集[11]。在我们的实验中,我们专注于对象目标导航任务,我们表明抽象模型有助于提高成功率(例如,避免一些假阳性检测)和规划路径的最优性。总之,本文的贡献是三方面的:(i)所提出的框架允许智能体增量地增强和重用先前获得的与当前环境相关的知识;(ii)我们将子符号技术(如图像处理,路径规划,全局策略学习)与抽象模型上的符号推理相结合;(iii)我们的实验分析表明,学习和重用抽象模型是利用先前获得的知识的有效方法,这些知识是从噪声观测中获得的(例如,从不准确的语义分割),对象目标导航任务。2. 相关作品具体化的AI。近 年 来,已经提出了几个大规模的人工智能任务数据集,如Matterport3D [11]和Gibson [43]。这些数据集包含环境的3D重建,这使得能够创建各种逼真的模拟器,例如Habitat [35]或GibsonEnv [43]。由于这些环境提供了新的实验设置,现在有许多令人兴奋的任务,如[2]所述一些例子是点目标[42](接近特定点),对象目标[7,10](接近特定对象)和视觉和语言导航[3,32](遵循自然语言的指示)。在这种情况下,最常见的方法是基于强化学习模型,这些模型利用基于RNN的策略[9,17,25,26,30,34]。例如,[26]通过学习RL策略,使用A3C算法[27]并利用辅助深度预测和循环闭合分类来解决点目标任务[30]提出了一个深度RL框架,它使用基于LSTM的策略进行对象目标导航。[17]提出了场景记忆转换器,这是一种基于注意力的策略[41],可以利用代理执 行 的 最 近 步 骤 。 在 这 种 情 况 下 , 使 用 Deep Q-Learning算法执行策略训练[28]。从[46]中所做的工作开始,[36]表明中层愿景产生的政策学习更快,泛化更好。从头开始学习,特别是对于点目标导航任务。先前描述的方法需要使用RL进行特定于任务的端到端相比之下,我们的方法更通用,因为我们训练了一个RL策略来最大化环境探索,并且可以用于解决不同的任务。最近的作品[10,12,13]利用从图像构造的显式映射 。 值 得 注 意 的 是 , [12] 提 出 了 主 动 神 经 SLAM(ANS),它从深度观察中构建障碍图。然后在这样的地图上应用RL算法,其目标是学习全局策略,该策略选择通过路径规划到达的点,以最大化环境探索。然后在[13]中提出了一种扩展,其中占用图用关于场景中对象的语义信息来丰富专门针对对象目标导航任务训练的全局策略,利用映射中可用的语义信息。使用语义地图来存储有关环境的信息以供将来重用,这是我们的主要目标,需要重新定位算法,这在以前的方法中没有考虑。在我们的方法中,而不是依赖于重新定位w.r.t.语义地图,我们存储信息的前访问的环境中的抽象模型,其中每个状态是与一些视觉特征足以搬迁。最后,[10]提出了一种构建语义映射的新方法,该方法利用具有空间存储器Transformer的编码器-解码器生成的语义映射然后测试对象目标导航任务。14872DDD∈ CFC⟨ ⟩ ⟨⟩FC {F}此外,他们还提出了一个实验,其中预先计算的地图在对象目标导航任务中重用。然而,这种方法假设完美的重新定位(即,提供机器人的绝对位置)。学习抽象模型。规划中的抽象模型学习的目标是从关于行动执行的观察序列开始,诱导一个描述行动的抽象模型。[15,19]建议从完整的观察开始学习结构化语言中的动作模型。[29]从嘈杂和不完整的观察中学习动作模型。[48]通过从一组源域迁移学习和部分观察来学习目标域上的动作模型[1]提出了一种从完整或不完整的观察中学习动作模型的方法。[8]的工作提供了一个从动作执行的完整信息中学习一阶符号表示的框架。在所有这些方法中,学习都是从符号观察中进行的,而不考虑连续环境中的感官知觉。在这项工作中,我们还解决了抽象的感官知觉到一个有限的状态集的问题。替代方法从连续观察中学习离散抽象模型。CausalInfoGAN [23]从高维序列观察中学习离散或连续模型。这种方法先验地固定离散域模型的大小。LatPlan[4,5]接受高维原始数据的输入对(例如,图像)并学习动作模型。LatPlan是一种离线方法,而我们的方法是在线学习,而不固定抽象模型的维度。[24]的工作提出了一种在线方法,通过将连续感知映射到确定性状态转换系统来学习抽象模型。对于我们的方法,它们需要输入抽象模型草案,并且不处理像RGB-D图像这样的复杂感知。我们的方法与通过强化学习进行规划的工作有一些相似之处[18,22,31,33,44],因为我们通过在环境中行动来学习。然而,这些工作集中于学习策略,并假设状态集和连续观测之间的对应关系传感器和状态是固定的。3. 预赛对象目标导航。在对象目标导航(OGN)任务[34]中,智能体需要接近特定类别的对象(如冰箱或床)-称为对象目标-从未知和静态环境中的随机位置开始,少于500个这个任务的一个特定实例(为了达到目标,智能体被允许执行一组动作(也称为步骤):即,向前移动(25厘米),向左转,向右转(30°),停止。在每一步,智能体都可以通过一组传感器观察环境,这些传感器提供RGB-D图像和智能体相对于初始姿态(0,0,0)的姿态x,y,θ。智能体通过执行停止动作来结束一个事件;如果它与最近对象目标的距离小于阈值(设置为1m),则事件被认为是成功的,否则失败。OGN任务的解决方案涉及多个挑战。首先,智能体必须通过利用SLAM技术以有效的方式探索环境以学习环境的地图。然后,它必须通过对象检测来识别环境中的新对象,无论它们何时进入其当前视图。最后,它必须能够接近目标对象,通过使用路径规划算法来决定它必须执行哪些动作。在标准的OGN任务中,每个片段都是独立的,没有信息在片段之间传输。我们称之为无记忆设置。我们还介绍了一个新的设置称为与记忆,代理可以利用在以前的情节中获得的知识。特别是,如果代理意识到正在访问一个已经访问过的环境,它可以检索和利用以前获得的知识。我们相信有记忆的设置更接近真实的场景,代理应该积累和重用先前已学习的知识。请注意,带内存设置引入了新的挑战,涉及如何以及哪些预先获取的知识可以在当前情况下重用(重新定位和聚合)。此外,在具有存储器的设置中,由于误差累积,处理先前获得的噪声知识甚至更具挑战性。抽象模型。代理人对环境的了解由有限状态机表示,其中每个状态与“相应”的视觉特征相关联形式上,有限状态机是一个三元组,=S,A,δ其中S是状态的有限集合,A是主体可以执行的动作的集合,δ是状态之间的确定性转移函数,即函数δ:S×A→S。 每个状态s∈S与一个三元组s,s,s,cc∈Cs其中s是一组数字特征与状态相关联(即,从RGB图像提取的特征向量); s是状态s中的代理可见的对象的标识符的有限集合;对于所有cs,S,C是与状态S中的对象C的视图相关联的真实特征的集合(其包括例如估计的相对位置、边界框和视觉特征的集合)。由于代理知道不同的环境,它保持多个抽象模型(1),。. .,(n).我们不假设模型和环境之间是一一对应的,因为代理可能将不同的模型关联到同一个环境。例如,智能体可能会错误地为同一环境构建两个模型,因为它第二次进入环境时,14873∈ CFCFD{D D}F FFC {F}D∈ C∃∈D它没有意识到这已经被访问过了。4. 方法图1中显示了代理为达到目标G而在每一步执行的主循环的概述二、这个循环由三个主要阶段组成:1)知识提取,2)知识建模,3)推理.该方法通过允许代理学习抽象模型并重用它们来扩展[12,13]知识提取。 在每次迭代中,智能体感知由RGB-D图像(对应于智能体的自我中心视图)和智能体当前相对姿态组成。Segmentator模块[21]从RGB-D图像中提取对象分割。地图生成器模块使用经典的SLAM方法[20]从当前深度图像和姿势创建以自我为中心的地图最后,状态创建器模块生成抽象状态s=F,C,{F },其中:F是状态fea的集合。不包含具有G的任何状态(例如,在探索新环境时,智能体可能没有看到任何类型G的对象),目标位置由我们的全局策略基于[12,13]计算。也就是说,给定当前地图,该策略在地图上寻找最大化环境探索的位置一旦通过推理器或全局策略设置了目标位置,代理就基于快速行进算法[38]使用路径规划器计算计划以到达目标位置,并执行第一个动作。为了计算计划,地图上所有未探索的区域都被认为是可导航的;这使得代理能够发现新的场景元素和对象,从而丰富地图和抽象模型。4.1. 抽象模型重用在带记忆设置中,在每个事件中学习的抽象模型由代理存储以供将来重用。因此,主体的知识由n个AB-模型{D(1),. . .,D(n)}。当代理启动s s s,c c∈C ss新的一集,它提出了一个新的抽象模型D(n+1)。由Taskonomy模型库的自动编码器从RGB图像中提取的tures[46];s是由Segmentator模块提取的对象类;对于所有cs,s,c包含:地图上的位置,边界框,以及距离类型c的每个可见对象的距离。通过将边界框质心的深度值添加到智能体姿态来估计对象位置。知识建模在知识建模阶段,环境地图和当前的抽象模型更新的知识提取在前一阶段。即:用存在于自我中心地图中的广告信息扩展当前地图,并且如果不存在由状态创建器提取的状态s,则将其添加到当前抽象模型中。最后,过渡在此事件的每一步中,代理都查看其当前状态是否=s,s,s,cc∈Cs匹配中(1)、. . .、(n)。不同Ab状态之间的匹配-通过状态特征s之间的余弦距离计算模型。因此,最佳匹配计算如下:s= argmincosdist(s,s(i))s(i)∈S(i)i ∈1,…n其中S(i)是第i个模型(i)的状态集合。 如果 cos dist(s,s)低于给定阈值(我们模型的超参数),并且s是第i个抽象模型的状态,则D(n+1)被合并到D(i)中,并且得到的函数用(s)扩展以前的状态,以及prev,a,s),其中sprev 是一个(i)被认为是当前抽象模型。 的结果模型包含两个合并模型的所有状态,a是最后一个执行的动作。在with-memory设置中,如果s与先前学习的抽象模型中的状态匹配,则使用第4.1节中描述的过程重新加载该模型并与当前模型合并。推理在推理阶段,给定对象目标类G,代理查看当前抽象模型是否包含具有类型G的对象的状态(即,SS. t.Gs)。在这种情况下,代理选择输入G并将对象的位置设置为地图上的目标点。如果抽象模型包含多个状态和类型G的对象,那么智能体根据它们可见的状态的数量对这些对象进行排名,并在前五个中选择最接近的一个我们更喜欢主要看到的对象,以减轻Segmen- tator的错误。实际上,从其检测对象的视点越多,它是分段器的假阳性的可能性就越小。如果抽象模型ELS,知识通过情节逐渐增强。在这样的合并之后,代理不会在当前事件中寻找进一步的匹配。请注意,匹配不可能是完美的,因为机器人在匹配状态s和s中的姿势可能略有不同。这种匹配差异可以传播到抽象模型中记录的对象位置,因此代理可以依赖于错误的信息。为了防止这些潜在的错误,我们提出了两种不同的策略:而且柔软在硬策略中,我们假设匹配总是完美的,并且智能体盲目地相信匹配的抽象模型,即,在软策略中,Agent试图减轻非完美匹配的影响。为此,智能体在给定的目标对象位置周围的区域中寻找目标对象。目标物体周围区域的尺寸与距离成正比14874NNN||−||imax(pi,li)1−我不是我max(pi,li)维度2048。 状态的余弦距离阈值N我我2图2.对象目标导航的建议体系结构概述。在匹配状态的主体位置和目标对象位置之间。此外,在其路径期间,它不断地寻找目标对象,可能在到达抽象模型所建议的目标对象位置周围的区域之前终止情节。4.2. 实现细节我们使用了Habitat Simulator [35]和Matter-port 3D数据集[11],其中包含90个不同的场景,总共194 KRGB-D图像。栖息地允许模拟在这90个不同场景中的导航。选择勘探目标的全球政策是5.1. 评估指标OGN任务使用四个标准度量进行评估:成功率、路径 长 度 加 权 成 功 ( SPL ) 、 软 SPL 和 成 功 距 离(RSL)。成功率定义为成功率与发作总数之间的比率SPL[2]估计代理在达到目标方面的效率,它被定义为:SPL=1ΣSlii=1在Matter-port 3D的56个训练场景上训练了1000万步(50个作为训练,6个作为验证),使用的是近端策略优化(PPO)RL算法。全局策略由5个Conv层组成,其中包含ReLU激活和MaxPooling2D,如[12,13]所示。对于语义分割,我们使用了在Matterport3D的40个类上预训练的RedNet模型[21](有关OGN任务中性能的详细信息,请参阅[45]从RGB数据计算Fs的特征提取器是Taskonomy模型库[46]和Fs是一个向量其中N是片段的数量,li是最短路径从智能体的起始位置到情节i中的最近目标点的距离,p i是情节i中智能体所SoftSPL[10]类似于SPL,但在所有事件中测量路径最优性,而不以零分惩罚不成功的事件;它被定义为:1Σ。德泽尔N i=1我匹配设置为0。3 .第三章。计算自我中心地图的SLAM算法基于[20]。5. 实验在我们的实验中,我们评估我们的方法上的OGN任务。我们的目的是表明,重用的非正式获得的知识,在抽象模型的形式,其中diniti 是主体的初始位置和目标点之间的测地线距离,并且dTi是主体的最终位置和目标点之间的两者都是指第i集。最后,距离测量器测量距离最近的目标点的平均距离,数学上:N01-02||x-g|| −d,0)对重用和不重用以前获得的知识进行定性比较其中xi gi2计算第i个episode,d是成功阈值(1m)。SoftSPL=可以增强现有方法中的导航此外,我们经验地证明了我们的要求与限制-i=0时148755.2. 重用抽象模型在这里,我们报告我们的调查不同的方式重用知识和他们的优势。为此,我们开发了以下四种模型:主动神经SLAM(ANS*):它是我们对ANS模型的实现[12]1。这是我们的基本原则,因为它没有利用任何先前获得的知识.Hard Pre-explored(ANS*+HP):基于我们的方法,它是ANS*的最简单扩展(第4节)。首先,为每个环境提供一个抽象模型。然后,这些抽象模型通过执行10000个探索步骤来初始化;对于每个情节,代理可以使用硬策略重用预先获得的抽象模型之一。Soft Pre-explored(ANS*+SP):类似于ANS*+HP,但代理通过应用Soft策略重用提供的抽象模型(参见第4.1节)。软增量(ANS*+SI):这是我们的“完整模型”。在第一集中,智能体没有提供抽象模型;然后,在连续的步骤中,智能体可以使用Soft策略重用和增量扩展在以前的片段中学习的所有抽象ANS*/ANS*+SI和ANS*+HP/ANS*+SP的根本区别在于前者不需要预先获得的知识,而后者需要这样的知识。此外,ANS*+SI是唯一的模型,其中代理扩展抽象模型与通过情节获得的额外知识。最后,除了ANS*,所有版本都使用3中描述的带内存设置。表1显示了我们的变体在Matterport3D验证集上的结果这是OGN任务的标准基准[10,13]。如预期的,ANS*+HP实现比ANS* 更高的结果,因为ANS*+HP被提供有额外的输入知识。此外,ANS*+SP获得了比ANS*+HP更好的结果,这是由于软策略减轻了由不同事件中的抽象模型的匹配引入的错误(第4.1节)。值得注意的是,ANS*+SI优于所有其他版本,成功率相对 提 高 +8.13% , SPLw.r.t. 相 对 提 高 +11.9% 。ANS*+SP。从表1的结果中,我们可以推断,抽象模型的增量学习比向代理提供预先获得的输入抽象模型更有效。1我们通过运行与[12]中相同的实验来检查我们实现的一致性;性能是相当的:即ANS [12]报告了7.056,成功和SPL分别为0.321和0.119;我们的实现在相同的指标上获得了6.721,0.313和0.127。方法↓成功↑SPL↑SoftSPL↑ANS*6.4170.2400.1020.191ANS*+HP6.3520.2510.1050.206ANS*+SP6.2940.2580.1170.214ANS*+SI6.1550.2790.1310.233表1.我们的变体在Matterport3D验证集上实现的结果。方法↓成功↑SPL↑ANS*6.7210.3130.127ANS*+SI6.3470.3540.150表2.在Matterport 3D验证集的子集上获得的结果,包含MS-COCO和MatterPort 3D数据集中的对象类(11个环境中的658集此外,智能体在每个情节中从不同位置开始的事实允许ANS*+SI变体覆盖环境内的空间,这些空间是单次长时间预探索难以到达的。ANS*+SI能够在69中重新定位代理。7%的剧集,证实了该方法利用了匹配系统。5.3. 知识积累本节的目的是研究如何积累知识的抽象模型影响代理perfor-mance。为了做这个实验,我们需要限制抽象模型中记录的噪声量(例如,从语义分段器给出的假阳性词因此,我们选择了Matterport3D验证集的一个子集,语义分割器在该子集上更稳定。这个子集是按照[13]构建的,包含目标对象在以下类之一的情节:椅子,沙发,植物,床,厕所,电视,桌子和水槽。表2报告了用ANS*和ANS*+SI获得的结果。我们的研究结果表明,重用抽象模型(ANS*+SI)允许代理采取更好的路径(15%SPL)并使代理更接近目标对象(6. 34m ²)与没有知识重用的版本相比的图3显示了对成功率随事件的演变的分析。在这里,我们用虚线绘制了11个实验中每个事件的平均成功率(例如,点0表示在其第一集中跨越11个环境的平均成功粗实线表示窗口大小为5时成功率的移动平均值从图中可以清楚地看出,在事件上累积知识可以持续提高成功率。5.4. 语义映射和抽象模型另一种表示环境知识的方法是语义映射[10]。语义图是一种充满了对象类信息的障碍图.14876图3. ANS*+SI模型中的移动平均成功率图。窗口大小设置为5。方法↓成功↑SPL↑SoftSPL↑SMNet[10]SMNet(GT)7.3165.6580.0960.3120.0570.2070.0870.282ANS*+SISemExp*+SI6.1555.7850.2790.3470.1310.1510.2330.274表3.在Matterport3D数据集的验证集上获得的结果(11个环境中的2195集请注意,SMNet(GT),如[10]所述,利用直接从Habitat API提取的地面真实自由空间地图。在这里,我们比较系统使用语义地图与我们的方法,并探讨如何语义地图和抽象模型可以适当地结合起来。利 用 预 先 计 算 的 语 义 映 射 的 OGN 方 法 是SMNet[10]。在SMNet中,通过计算到G类型对象的最短路径来获得到达对象目标G的计划。该方法作了一个简单的假设,即智能体的绝对位置是已知的,因此不 需 要 重 新 定 位 。 [10] 还 考 虑 了 一 个 称 为 SMNet(GT)的版本,该版本假设地面真实自由空间地图。另一个利用语义映射的系统是SemExp[13]。SemExp是ANS的一个演变,其中基本架构是相同的,但全局策略在输入中采用语义映射这种政策寻求的是直接找到目标,而不是最大限度地利用环境。为了理解语义映射和抽象模型如何结合,我们将SI方法集成到SemExp之上。此版本称为SemExp*+SI。表3比较了所有这些不同版本的重用知识。我们使用了与[10]相同的分割,这是Matterport3D数据集的验证集(11个附件中 的 2195 个 事 件 值 得 注 意 的 是 , ANS*+SI 和SemExp*+SI的表现大幅优于SMNet。此外,全球SemExp*+SI中利用的策略增加了所有指标w.r.t. ANS*+SI 对 应 物 。 SemExp*+SIw.r.t. ANS*+SI(+6。8%)表明,探索环境的方式在抽象模型的学习中起 着至关 重要的值 得注意 的是,SemExp*+SI与SMNet(GT)具有相似的性能,后者利用具有地面真实自由空间的5.5. 限制和故障分析在我们的模型中的主要限制之一来自输入传感器数据的抽象。Se-mantic Segmentator的输出以及存储在存储器中的视觉特征可能会受到错误的影响。这可能导致语义漂移,并限制知识表示的质量。此外,在无内存设置中,抽象模型相对于更简单的表示(如语义映射)并没有提供显著的附加值。然而,在有内存的设置中情况并非如此,其中在抽象模型中编码的抽象是重用不必要获得的知识的基石。在此之后,我们报告了一个失败的分析,旨在了解为什么代理失败的SI设置。特别是,我们试图定量地了解语义分割器引入的错误如何影响抽象模型的可靠性为此,我们随机抽取了200个失败的事件,其中抽象模型是从表2中的实验中重新加载的。然后,我们注释了w.r.t.五类:(i)最后一英里(导航失败):智能体正确地导航到目标对象的实例,但不能到达它(<102 m);(ii)幻觉(抽象模型失败):智能体接近从抽象模型提取的目标点,但在建议位置附近没有目标对象出现;(iii )检测(传感器故障):智能体在其到抽象模型建议的目标点的路径期间,发现目标对象的错误实例并接近它;(iv)探索(抽象模型不完整性):重新加载的抽象模型没有关于可能的目标对象位置的信息,并且代理在500步中找不到任何实例;(v)杂项:代理重新加载抽象模型,但是具有一般故障(例如,代理在产卵时被重建碎片捕获值得注意的是,我们有两个可能的失败案例与重新加载的抽象模型直接相关:探索,其中代理没有足够的环境信息,以及幻觉,其中代理依赖于错误的信息。图4中报告了有关失败事件的统计数据。我们可以观察到SemExp*+SI生成的抽象模型如何在探索和幻觉失败中给出比ANS*+SI更少的失败,突出了不同的全局策略如何影响cre。14877图5. ANS*变体的失败发作。代理探索了环境500步,没有发现任何沙发事件。地图上的绿色像素是障碍物,浅蓝色像素是探索区域,蓝色点是目标位置。图4.Matterport3D验证集上ANS*+SI和SemExp*+SI模型的失败案例条形图抽象模型。此外,两种型号的大多数失效都在检测中。这也表明,语义分割的更好的重建可以提高性能的大幅度。5.6. 定性示例在图5和图6中,我们报告了在MatterPort3D数据集中提供的场景2azQ1b91cZZ的同一集中ANS*和ANS*+SI之间的定性比较。ANS*从探索环境开始,但它从未遇到Sofa对象类的实例。而且,探员离最近的沙发很远这是因为场景2azQ1b91cZZ的环境相对于w.r.t.其他环境的平均维度,并且智能体可能会采取远离目标对象的区域的路径。因此,在500步的有限数量下,智能体在第一次导航到环境中时无法轻松找到对象。图6显示了利用增量学习的抽象模型的相同情节。具体地,在步骤15,代理的状态与先前学习的抽象模型的状态相匹配,因此,该抽象模型被重用。重新调整Agent随后,从所选择的目标对象位置开始在步骤82,代理已经到达所选择的区域并且因此接近他正在寻找的沙发。6. 结论和未来工作本文提出了一种新的方法,允许代理(i) 增量地获取和存储关于一组未知环境的知识,以及(ii)当代理返回到已经访问过的状态时,重用所获取的知识,表示为抽象模型我们评估图6. ANS*+SI变体的成功。代理将其当前状态与域中的状态正确匹配,并使用存储的信息成功导航到沙发。在目标导航任务上提出的方法。实验结果表明,重用抽象模型是有效的.一项关于重复使用这些知识的不同策略的消融研究证实,增量学习比重复使用离线学习的抽象模型效果更好。故障分析表明,重用抽象模型并不构成故障的主要原因,主要是由于语义分割模块。定性分析突出了重用抽象模型的效果如何未来的工作将集中在集成更多关于环境的语义信息(例如,房间类型和房间中存在的对象类型之间的相关性)以及处理需要在符号级别上进行推理的其他图像目标导航[47],隐藏的QA [16]和重排[6])。鸣 谢 。 这 项 工 作 得 到 了 意 大 利 MUR ( E94I19000650001)的PRIN-17 PREVUE项目和欧盟ICT-482020项目TAILOR(952215)的部分支持。我们还感谢UniPD-DM我们也要感谢匿名的重新观众的宝贵意见和建议。14878引用[1] 我是艾内托,我是塞洛里奥,我是奥奈印第。学习具有最小可观察性的动作模型。商业情报,275:104-137,2019。3[2] PeterAnderson , AngelChang , DevendraSinghChaplot,Alexey Dosovitskiy,Saurabh Gupta,VladlenKoltun , Jana Kosecka , Jitendra Malik , RoosevehMottaghi , Manolis Savva , et al. On evaluation ofembodiednavigationagents.arXiv 预 印 本 arXiv :1807.06757,2018。二、五[3] Peter Anderson,Qi Wu,Damien Teney,Jake Bruce,MarkJohnson,NikoSünderhauf,IanReid,StephenGould,and Anton van den Hengel.视觉和语言导航 : 在 真 实 环 境 中 解 释 视 觉 基 础 的 导 航 指 令 。IEEE/CVF计算机视觉和模式识别会议(CVPR),2018年。2[4] 浅井正太郎从图像中可规划的一阶逻辑表示 在proc2019年国际自动规划和调度会议(ICAPS)。3[5] Masataro Asai和Alex Fukunaga 深层潜在空间中的经典规划:弥合次象征-象征边界。AAAI人工智能会议,2018年。3[6] Dhruv Batra,Angel X Chang,Sonia Chernova,AndrewJ Davison,Jia Deng,Vladlen Koltun,Sergey Levine,Jiten- dra Malik,Igor Mordatch,Rooseveh Mottaghi,etal. Rear- rangement:A challenge for embodied AI. arXiv预印本arXiv:2011.01975,2020。8[7] Dhruv Batra、Aaron Gokaslan、Aniruddha Kembhavi、Olek-sandr Maksymets 、 Roozbeh Mottaghi 、 ManolisSavva 、 Alexander Toshev 和 Erik Wijmans 。 ObjectNavrevised:对导航到对象的具体代理的评估arXiv预印本arXiv:2006.13171,2020。2[8] 布莱·博内和赫克托·格夫纳从状态空间的结构学习规划的一阶符号表示。在Proc上。欧洲情报会议(ECAI),2019年。3[9] Tommaso Campari , Paolo Eccher , Luciano Serafini ,and Lamberto Ballan.利用场景特定功能进行目标导航。在proc 2020年欧洲计算机视觉研讨会2[10] Vincent Cartillier、Zhile Ren、Neha Jain、Stefan Lee、Irfan Essa和Dhruv Batra。语义地图网:从自我中心的观点建立以自我为中心的语义地图和表示. AAAI人工智能会议,2021年。二五六七[11] Angel Chang、Angela Dai、Thomas Funkhouser、MaciejHal- ber 、 Matthias Niessner 、 Manolis Savva 、 ShuranSong、Andy Zeng和Yinda Zhang。Matterport 3D:从室内环境中的RGB- D数据中学习在2017年3D视觉国际会议(3DV)上。二、五[12] Devendra Singh Chaplot , Dhiraj Gandhi , SaurabhGupta,Abhinav Gupta,and Ruslan Salakhutdinov.使用主动神经SLAM学习探索 在proc 2019年国际学习表征会议(ICLR)二、四、五、六[13] Devendra Singh Chaplot,Dhiraj Prakashchand Gandhi,Ab-hinav Gupta,and Russ R Salakhutdinov.使用面向目标的语义探索的对象目标导航。在proc 神经信息处理系统进展(NeurIPS),2020年。二四五六七[14] DevendraSinghChaplot , RuslanSalakhutdinov ,Abhinav Gupta,and Saurabh Gupta.视觉导航的神经拓扑系 统 。 IEEE/CVF 计 算 机 视 觉 和 模 式 识 别 会 议(CVPR),2020年。2[15] 斯蒂芬·克雷斯韦尔,托马斯·利奥·麦克拉伦基,玛丽·韦斯特。使用LOCM获取规划域模型。KnowledgeEng. Review,28(2):195-213,2013. 3[16] Abhishek Das、Samyak Datta、Georgia Gkioxari、StefanLee、Devi Parikh和Dhruv Batra。具身问答。IEEE/CVF计算机视觉和模式识别会议(CVPR),2018年。8[17] 关方、亚历山大·托舍夫、李飞飞、西尔维奥·萨瓦雷塞。场景记忆Transformer,用于长时间任务中的具体代理。 在proc IEEE/CVF计算 机视觉 和模式 识别 会议(CVPR),2019年。一、二[18] Marta Garnelo,Kai Arulketaran和Murray Shanahan。深度符号强化学习。神经信息处理系统工作坊进展,2016年。3[19] 彼得·格雷戈里和斯蒂芬·克雷斯韦尔。LOP系统中存在静 态 关 系 时 的 领 域 模 型 国 际 人 工 智 能 联 合 会 议(IJCAI),2016年。3[20] Saurabh Gupta,James Davidson,Sergey Levine,RahulSuk-thankar,and Jitendra Malik.视觉导航的认知绘图与规 划 在 proc IEEE/CVF计 算 机视 觉 和 模式 识 别 会议(CVPR),2017年。四、五[21] Jindong Jiang , Lunan Zheng , Fei Luo , and ZhijunZhang. Rednet:室内rgb-d语义分割的残差编码器-解码器网络。arXiv预印本arXiv:1806.01054,2018。二、四、五[22] 放大图片作者:Michael L. Littman和Andrew W.摩尔强化学习:一项调查。《智力研究杂志》,4:237-285,1996年。3[23] Hanard Kurutach、Aviv Tamar、Ge Yang、Stuart Russell和Pieter Abbeel。用因果信息源学习可计划的表达。神经信息处理系统进展(NeurIPS),20
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 十种常见电感线圈电感量计算公式详解
- 军用车辆:CAN总线的集成与优势
- CAN总线在汽车智能换档系统中的作用与实现
- CAN总线数据超载问题及解决策略
- 汽车车身系统CAN总线设计与应用
- SAP企业需求深度剖析:财务会计与供应链的关键流程与改进策略
- CAN总线在发动机电控系统中的通信设计实践
- Spring与iBATIS整合:快速开发与比较分析
- CAN总线驱动的整车管理系统硬件设计详解
- CAN总线通讯智能节点设计与实现
- DSP实现电动汽车CAN总线通讯技术
- CAN协议网关设计:自动位速率检测与互连
- Xcode免证书调试iPad程序开发指南
- 分布式数据库查询优化算法探讨
- Win7安装VC++6.0完全指南:解决兼容性与Office冲突
- MFC实现学生信息管理系统:登录与数据库操作
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功