ENVEDIT：增强环境编辑提升视觉语言导航性能

12 浏览量更新于2025-01-16 收藏 2.21MB PDF 举报

ENVEDIT是一种创新的数据增强方法，专为视觉和语言导航（VLN）任务设计，以解决智能体在面对有限训练数据和多样化的实际导航环境时的适应性问题。该方法的核心在于通过编辑现有环境的三个方面来创建新的训练环境：风格、对象外观和对象类。 1. **训练环境与测试环境**： - 在传统的VLN设置中，训练数据往往受限于规模和多样性，这限制了智能体的泛化能力。ENVEDIT旨在通过模拟不同的环境变异性来扩大训练样本，使代理能够应对更广泛的场景。 2. **环境级增强**： ENVEDIT实现了环境级别的增强，即它不只是简单的图像变换，而是涉及到环境的深层次结构变化，如房间风格、家具布局以及物体类别。这有助于提高智能体对不同环境特征的理解和适应。 3. **编辑样式与外观**：方法通过编辑训练环境的样式，比如改变墙壁颜色、家具风格等，来模拟不同的室内装饰风格。同时，编辑对象外观则可能涉及更改物体的颜色、纹理或形状，以增加视觉多样性。 4. **编辑对象类**：通过添加或替换不同类型的物体，如家具、装饰品等，ENVEDIT确保智能体能够处理不同环境中的常见物体，增强其识别和理解能力。 5. **编辑合成环境**：创建的合成环境是在训练过程中作为数据增强的一部分使用的，这样可以让智能体在类似但有所区别的环境中学习，从而减少对特定训练场景的依赖。 6. **实验结果**：通过在Room-to-Room和多语言Room-Across-Room数据集上的实验，ENVEDIT展示了显著的性能提升，无论是在预训练还是非预训练的代理上，且在测试排行榜上取得了新的领先位置。这证明了编辑环境策略的有效性和通用性。 7. **编辑方法的互补性**：结果还表明，集成不同编辑方法的VLN代理能够进一步增强智能体的表现，说明这些编辑手段是互补的，可以相互补充训练效果。 ENVEDIT是一种有力的工具，通过环境编辑扩展了智能体的训练范围，增强了其对未知环境的适应能力，从而推动了视觉和语言导航任务的研究进展。

15409

风格转换模块图像合成模块风格编码器风格嵌入

①

...

... ... ...

②&③

. …

… ... ...

屏蔽一个语义类

... ...

（白色标签）

&我

... … … ... ...

... ...

阶段

：环境编辑

指示：

向前走

... ...

第二阶段：航海训练

转过身去

...

风格感知扬声器

第三阶段：反向翻译

图2.我们的ENVEDIT概览。在第一阶段，智能体使用风格转换和图像合成方法以五种方式编辑原始环境（第二节）。4）.然后，

智能体在原始环境和创建的环境下进行视觉和语言导航任务的训练（第二节）。3.2）。最后，一个风格感知的扬声器被用来

生成用于反向翻译的未注释路径的合成指令（Sec. 3.2）。

尽管预训练方法表现出良好的性能，但预训练数据仍

然不同于视觉和语言导航中的全景观测和人工注释指

令。为了解决预训练数据和VLN数据之间的域转移，

我们提出使用风格转移和图像合成方法来增加现有的

VLN数据与新的环境。

视觉和语言导航中的数据扩充。视觉和语言导航任务

的数据收集是资源消耗的。以前的数据扩充工作[14，

56]建议训练一个扬声器，该扬声器从所看到的环境中

给出未注释的路径来生成指令，并且[68]建议转移文

本的风格以进行指令增强。然而，如何加强培训

视野传统的数据增强方法包括随机裁剪、缩放、旋

转、噪声注入、图像混合等.[25、32、45]。随着深度

神经网络的进步，使用基于GAN [17]的方法进行数据

增强变得流行[5，15，26，50，53，64，69]。遵循这

一趋势，我们使用样式传输[16]和图像合成[49]来创建

数据增强的新环境。

方法概述

3.1.

问题设置

视觉和语言导航（VLN）要求智能体根据自然语言

指令在环境中导航。形式上，给定一个自然语言指令

I，在每个时间步t，智能体感知当前位置的全景P

，并

且需要从一组K

个

可导航位置中挑选下一个视点

更好的推广环境仍然没有得到充分的探索。

[37]提出了一种有用的环境混合方法，

解

{

，

}

.具体地，全景视图P

被显示为：

通过混合来自不同环境的子路径来选择新路径然而，

他们的方法仍然是有限的，由ex-absolutely-seen环境，

因为他们只连接[29]首先尝试为视觉和语言导航综合

现有环境并预测未来场景。与此相反，我们提出了

ENV EDIT，它通过风格转移和图像合成方法为数据增

强和代理泛化创建了新的环境

计算机视觉中的数据增强。数据扩充技术是计算机领

域中一项应用广泛的技术

被分解为

个单个视图

，

。

每个视图表示

，

是由预训练的视觉模型编码的其视觉表示

，

与其编码

航向

θ t

，

和仰角

θ t

，

信息的

定向特征

，

（cos

，

sin

，

cos

，

sin

，

）

的级联。的

可导航位置被表示为来自36个离散视图的最接近可导

航方向的一个特定视图的视觉特征当导航结束时，代

理将预测

3.2.

培训程序

我们的Enviramentediting（ENVEDIT）方法的概述

如图2所示。它包括三个阶段。我们将在本节中简要介

绍这三个阶段。

剩余10页未读，继续阅读

cpongm

粉丝: 6

ENVEDIT：增强环境编辑提升视觉语言导航性能

MTK NV入门：从入门到精通

nv工具：Node.js版本查询与管理新利器

N880E NV修复教程：忘记备份后的刷机步骤

matlab如何rgb颜色代码-Rgb2NV12:使用Matlab，IPP，PlainC和SSE优化代码将RGB转换为NV12色彩空间

docker-postgres-nv:自定义的postgres图像，用于预填充的db图像

nv_dds：用于OpenGL OpenGL ES2的DDS图像加载器

netdata_nv_plugin:用于Nvidia GPU统计信息的NetData插件

nv-example-meta-box:一个简单的、功能强大的 WordPress 插件，作为创建用于管理编辑器屏幕的新元框的示例

team-nv:NV团队的Project 2存储库

node-nv14-band:乐队用于 Nodevember 2014 演示 #1

最新资源