双尺度图Transformer:智能导航的探索与规划

0 下载量 148 浏览量 更新于2024-06-20 收藏 1.18MB PDF 举报
拓扑地图与全局行动规划是自主导航和人工智能领域的重要研究议题,它涉及智能体在未知环境中执行任务时如何结合语言指令和环境理解。本文的核心内容集中在构建一个名为DUET(双尺度图Transformer)的模型,该模型旨在解决智能体在视觉和语言导航(VLN)任务中的挑战。DUET的关键在于它采用了双重编码策略,包括粗尺度编码和细尺度编码。 首先,粗尺度编码(如全局行动规划)是在拓扑地图上进行的,它关注的是整体环境结构和可导航区域。智能体通过预测全局动作,即地图中所有可到达的节点,来规划长远的探索路径。这种全局视角有助于指导实体有效地在复杂的行动空间中探索,但同时也带来了推理复杂性的问题。 另一方面,细尺度编码则聚焦于局部观测,即通过当前节点的感知信息来理解和响应具体的语言指令。这要求模型具备跨模态理解能力,能够整合视觉和语言信息,确保在执行指令时的精确性。 DUET通过动态融合这两种编码方式,解决了全局推理与细粒度理解之间的平衡。它并非单纯依赖于单一的全局或局部策略,而是根据当前状态灵活调整,以适应不同的导航任务。在实验中,DUET显示出显著优于其他先进方法,如REVERIE和SOON,尤其是在处理目标导向的视觉和语言导航基准测试,如R2R上,显示了其在实际场景中的优越性能。 这项工作的重要性在于它不仅推进了自主导航技术的发展,还展示了如何将语言理解和环境探索相结合,以提高智能体在复杂环境中的导航能力。这种双尺度图Transformer模型的设计思路和实证结果,为未来的AI研究提供了有价值的方向。