结构化状态演化在视觉语言导航中的应用

0 下载量 16 浏览量 更新于2024-06-20 收藏 1.14MB PDF 举报
"本文主要介绍了视觉语言导航中的结构化状态演化模型(SEvol),该模型旨在解决导航过程中关键环境线索的丢失问题。作者们提出了强化布局线索挖掘器(RLM)和结构化演化模块(SEM),以图为基础的特征表示导航状态,从而更好地捕获对象级时空关系,提高导航性能。在R2R和R4R数据集上的实验结果显示,SEvol模型在导航准确性方面有显著提升。" 在视觉语言导航(VLN)任务中,智能体需要依据自然语言指令在复杂的3D环境中移动。传统的序列模型,如Transformer和LSTM,虽然在处理连续动作序列上有一定效果,但它们的导航状态通常被简化为一维向量,无法充分保留环境布局的结构信息。这导致关键的导航线索,如物体的位置和关系,可能在演化过程中丢失。 陈金宇等人提出的结构化状态演化(SEvol)模型,创新性地使用基于图的表示法来维护导航状态,而不是一维向量。这样做的好处是可以更好地捕捉和学习对象级的时空关系,从而提高导航决策的精度。他们设计了强化布局线索挖掘器(RLM),该模块通过定制的强化学习策略,能够挖掘出对长期导航至关重要的布局特征。同时,结构化演化模块(SEM)允许状态随着时间的推移逐步演化,以学习和更新环境中的对象关系。 实验部分,SEvol模型在R2R和R4R两个标准VLN数据集上进行了测试。结果表明,与基线模型相比,SEvol在R2R测试集上的绝对SPL(Success weighted by Path Length,成功路径加权长度)准确度提升了3%,在EnvDrop设置下的SPL准确度更是提高了8%。这些提升验证了SEvol在保留和利用环境布局线索方面的有效性。 E-AI领域的研究,特别是VLN任务,对于开发能够理解并执行人类语言指令的自主智能体至关重要。SEvol模型的提出为解决导航过程中的信息丢失问题提供了一个新的视角,也为未来智能体在复杂环境中的自主行为研究提供了有价值的参考。通过结合视觉、语言和结构化的状态表示,SEvol模型有望推动智能体在现实世界中的导航能力更上一层楼。