结构化状态演化在视觉语言导航中的应用

16 浏览量更新于2024-06-20 收藏 1.14MB PDF 举报

"本文主要介绍了视觉语言导航中的结构化状态演化模型（SEvol），该模型旨在解决导航过程中关键环境线索的丢失问题。作者们提出了强化布局线索挖掘器（RLM）和结构化演化模块（SEM），以图为基础的特征表示导航状态，从而更好地捕获对象级时空关系，提高导航性能。在R2R和R4R数据集上的实验结果显示，SEvol模型在导航准确性方面有显著提升。" 在视觉语言导航（VLN）任务中，智能体需要依据自然语言指令在复杂的3D环境中移动。传统的序列模型，如Transformer和LSTM，虽然在处理连续动作序列上有一定效果，但它们的导航状态通常被简化为一维向量，无法充分保留环境布局的结构信息。这导致关键的导航线索，如物体的位置和关系，可能在演化过程中丢失。陈金宇等人提出的结构化状态演化（SEvol）模型，创新性地使用基于图的表示法来维护导航状态，而不是一维向量。这样做的好处是可以更好地捕捉和学习对象级的时空关系，从而提高导航决策的精度。他们设计了强化布局线索挖掘器（RLM），该模块通过定制的强化学习策略，能够挖掘出对长期导航至关重要的布局特征。同时，结构化演化模块（SEM）允许状态随着时间的推移逐步演化，以学习和更新环境中的对象关系。实验部分，SEvol模型在R2R和R4R两个标准VLN数据集上进行了测试。结果表明，与基线模型相比，SEvol在R2R测试集上的绝对SPL（Success weighted by Path Length，成功路径加权长度）准确度提升了3%，在EnvDrop设置下的SPL准确度更是提高了8%。这些提升验证了SEvol在保留和利用环境布局线索方面的有效性。 E-AI领域的研究，特别是VLN任务，对于开发能够理解并执行人类语言指令的自主智能体至关重要。SEvol模型的提出为解决导航过程中的信息丢失问题提供了一个新的视角，也为未来智能体在复杂环境中的自主行为研究提供了有价值的参考。通过结合视觉、语言和结构化的状态表示，SEvol模型有望推动智能体在现实世界中的导航能力更上一层楼。

15455

−

因此，本文研究了M-

序图

′

是

′

∈

和

′

∈

剩余28页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

结构化状态演化在视觉语言导航中的应用

不同变质程度煤的碳结构特征及其演化机制

动作扩散策略在视觉运动学习中的应用研究

【功能设计文档效率提升】：结构化编写秘籍与实施策略

FPGA中的视频图像处理与机器视觉

Tempus版本演化深度解析：21.11更新对比，软件成长的轨迹

立体视觉里程计仿真初探：理论基础与实践指南

立体视觉里程计仿真高级课程：深入理解SLAM算法与仿真

【离散系统状态估计】：滤波器设计与应用秘籍

【人工智能与控制理论】：结合状态方程的智能系统设计入门

计算机语言基础：编程语言简史与选型指南

最新资源