VLN-CE：实现连续环境中的视觉语言导航技术

需积分: 37 168 浏览量更新于2024-11-12 1 收藏 13.59MB ZIP 举报

资源摘要信息: "VLN-CE: 使用栖息地的连续环境中的视觉和语言导航" VLN-CE（Visual and Language Navigation in Continuous Environments）是一个结合视觉和语言理解的导航任务，它涉及到在连续环境中的自主机器人或代理的导航指令指导。这项任务依赖于众包指令，意味着指令来自于一个开放的社区，以提供多样化的环境和任务设置。由于其现实环境背景和不受约束的代理导航特性，这项任务能够更好地模拟真实世界中的导航挑战。该存储库是VLN-CE任务实现的起点，它提供了与任务交互的必要工具和基准代理实现，这些代理包括但不限于Seq2Seq模型和跨模态注意模型。Seq2Seq模型是一种基于序列到序列学习的模型，常见于机器翻译等领域，而在VLN-CE中，它能够将导航指令（语言序列）转换为代理的动作序列。跨模态注意模型则涉及对视觉信息和语言信息的联合处理，使代理能够同时理解和处理两种模态的信息。模型训练可以通过两种模仿学习方法来实现：教师强迫（Behavioral Cloning）和DAgger（Dataset Aggregation）。教师强迫是一种训练技术，其中模型在训练过程中被强制遵循人类专家的行为。DAgger则是一种迭代算法，用于监督学习，它通过收集模型在现实环境中的输出数据来丰富训练集，使得模型能够更好地泛化到未见的环境中。 VLN-CE任务的实现基于Python 3.6版本。为了使用该存储库，用户需要创建一个适用于该项目的Python环境。可以使用conda包管理器来创建这样的环境，并激活它。具体的命令是： ``` conda create -n vlnce python3.6 conda activate vlnce ``` 项目运行依赖于FAIR（Facebook AI Research）开发的Habitat模拟器和Habitat实验室。Habitat是一个高性能的室内模拟平台，旨在为研究者提供一个快速、高效、可扩展的3D环境模拟器，以及一系列与现实世界环境相似的高保真度场景。Habitat实验室则为AI研究者提供了一个平台，以测试和训练他们的算法，特别是在视觉和语言导航领域。为了使用Habitat-Sim和Habitat实验室，用户需要按照一定方式安装它们。如果用户使用conda，可以通过以下命令安装Habitat-Sim： ``` conda ``` 具体命令未能在描述中找到，但通常这种安装命令会涉及到查找对应的conda仓库并执行安装命令。从标签来看，该存储库主要与Python、研究、人工智能、计算机视觉、深度学习以及机器人技术相关。对于研究者和开发者而言，这是一个多学科交叉的项目，需要掌握编程、人工智能模型构建、视觉处理和语言处理等多个领域的知识。最后，从提供的压缩包子文件名称列表中可以看出，该存储库的文件结构可能被命名为"VLN-CE-master"。这表明该存储库可能包含了一个主分支的代码，涵盖了项目的主要功能和数据集。对于有兴趣研究或扩展VLN-CE的开发者和研究者来说，这样的结构有助于他们理解项目的组织方式，并在此基础上进行相应的研究工作。

收起资源包目录

VLN-CE:使用栖息地的连续环境中的视觉和语言导航（54个子文件）

utils.py 833B

cma_pm_da_aug_tune.yaml 766B

.pre-commit-config.yaml 627B

task.py 3KB

seq2seq_aug_tune.yaml 639B

cma_pm.yaml 619B

__init__.py 0B

README.md 18KB

run.py 2KB

LICENSE 1KB

seq2seq_pm_da_aug_tune.yaml 717B

.editorconfig 614B

cma_da.yaml 556B

seq2seq_pm.yaml 565B

policy.py 483B

cma_pm_aug.yaml 640B

seq2seq_pm_aug.yaml 586B

requirements.txt 127B

cma_policy.py 12KB

measures.py 10KB

environments.py 2KB

VLN_comparison.gif 13.61MB

cma_aug.yaml 596B

vlnce_task.yaml 1KB

cma.yaml 575B

nonlearning_agents.py 5KB

simple_cnns.py 5KB

instruction_encoder.py 3KB

nonlearning.yaml 493B

seq2seq.yaml 514B

seq2seq_da.yaml 495B

dagger_trainer.py 39KB

cma_pm_aug_tune.yaml 708B

__init__.py 0B

test_set_inference.yaml 366B

__init__.py 91B

default.py 6KB

cma_da_aug_tune.yaml 721B

vlnce_task_aug.yaml 1KB

cma_pm_da.yaml 603B

sensors.py 4KB

env_utils.py 3KB

utils.py 3KB

aux_losses.py 966B

default.py 4KB

__init__.py 166B

seq2seq_policy.py 6KB

seq2seq_aug.yaml 535B

resnet_encoders.py 7KB

.gitignore 2KB

shortest_path_follower.py 7KB

rcm_state_encoder.py 4KB

cma_aug_tune.yaml 696B

共 54 条

马福报

粉丝: 24
资源: 4568

VLN-CE：实现连续环境中的视觉语言导航技术

Habitat-开源

vln-bert:论文“使用Web上的图像-文本对改善视觉和语言导航”的代码（ECCV 2020）

Vincent-CS-11-VLN：CS 11任务的回购回购

VLN-CS-11-Project-1

国防科大最新《视觉-语言导航VLN》综述论文

regretful-agent:CVPR 2019论文的PyTorch代码

selfmonitoring-agent:ICLR 2019论文的PyTorch代码

valan:视觉和语言代理导航

探索视觉和语言导航模型的潜在性能快照集成方法_Explore the Potential Performance of Visi

最新资源