Pathdreamer：视觉世界模型的代理导航

154 浏览量更新于2023-10-14 收藏 2MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

14738Pathdreamer：室内导航的世界模型许静玉1李宏乐2杨音飞1杰森·鲍德里奇1 彼得·安德森11谷歌研究2密歇根大学摘要人们在不熟悉的建筑物中导航，利用无数的视觉、空间和语义线索来有效地实现他们的导航目标。对装备具有类似能力的计算代理，我们介绍了Pathdreamer，一个视觉世界模型的代理导航，在新的室内环境。给定一个或多个先前的视觉观察，Pathdreamer为训练期间未看到的建筑物中未被访问的视点生成合理的高分辨率360◦在高不确定性区域（例如预测角落周围，想象看不见的房间的内容），Pathdreamer可以预测不同的场景，允许智能体针对给定的轨迹采样多个真实的结果。我们证明，Pathdreamer编码有用的和可访问的视觉，空间和语义知识的人类环境中使用它的视觉和语言导航（VLN）的下游任务具体来说，我们表明，规划与Pathdreamer带来了大约一半的好处，从未观察到的部分的环境的实际观察。我们希望Pathdreamer将有助于解锁基于模型的方法，以挑战具体的导航任务，如导航到指定的对象和VLN。1. 介绍世界模型[23]，或环境模型[72]，是一种很有吸引力的方式来表示代理拥有世界模型的智能体可以通过“想象”一系列提议行动的后果来预测其未来这种能力可以用于基于采样的规划[16，57]，直接从模型学习策略（即，在梦中学习）[17，23，64，25]，以及反事实推理[6]。基于模型的方法通常也可以提高深度强化学习的样本效率[72，62]。然而，生成高维视觉观察的世界模型（即，图像）通常局限于相对简单的环境，例如Atari游戏[62]和桌面[16]。我们的目标是开发一个通用的视觉世界模型用于在室内环境中导航的代理。具体地说，1. 输入楼层平面视图（未在模型中使用）3二12.地面实况（2.3m）2.预测（2.3m）3.地面实况（6.3m）3.预测（6.3m）图1：从一个想象中的6.3米轨迹生成逼真的360◦视觉观察，在一个以前看不到的建筑物。观察结果还包括深度和分割（此处未示出）。给定一个或多个先前的观察和建议的导航动作序列，我们的目标是为尚未访问的视点生成可信的高分辨率视觉观察除了在视频编辑和内容创建中的应用之外，解决这个问题将为许多具体的人工智能任务解锁基于模型的方法，包括导航到对象[5]，指令引导导航[3，66，40]和对话引导导航[74，26]。例如，一个智能体被要求在一个新的建筑物中找到某种类型的物体例如建立这样的模型是一个挑战。它需要合成-thesizing完成部分可见的对象，使用尽可能少的一个以前的观察。这类似于来自单个图像的新颖视图合成[19，80]，但具有潜在的无界视点变化。还有一个相关的、但更为极端的挑战，那就是预测拐角处的情况。例如，如图2所示。1，任何未来导航轨迹经过一个看不见的房间的入口，都需要模型合理地想象整个内容14739×个（我们称之为房间暴露问题）。这需要从先前探索的环境的视觉、空间和语义结构中进行概括-在我们的情况下，这些环境是Matterport 3D数据集中真实室内空间的照片级逼真3D捕获[7]。第三个问题是时间一致性：对看不见的建筑物区域的预测理想地应该是随机的（捕获可能结果的全部分布），但是重访的区域应该以与先前观察一致的方式呈现。为了实现这一目标，我们引入了Pathdreamer。给定室内场景的一个或多个视觉观察（包括RGB、全景的深度和语义分割），Pathdreamer使用分层两阶段方法沿着通过未来视点的指定轨迹Pathdreamer受视频预测[11]的启发，这些输出以潜在噪声张量为条件，该潜在噪声张量捕获关于下一次观察的随机信息（例如看不见的房间的布局），该随机信息无法确定地预测。第二阶段为了保持所生成的观察结果的长期一致性，两个阶段都使用反向投影的3D点云表示，这些点云表示被重新投影到图像空间中以用于上下文[51]。Pathdreamer可以在大的视点变化下为看不见的室内场景生成合理的视图（参见图1），同时还解决了房间显露问题--从经验上讲，使用Matterport3D数据集[7]和360◦观察，我们根据先前的工作和合理的基线和消融来评估模型的两个阶段我们发现，模型的层次结构对于预测大的视点变化是必不可少的，需要保持RGB和语义上下文，并且当我们使用高达13m的轨迹卷展进行评估时，预测质量逐渐下降（视点平均相距2.25m）。在这些结果的鼓舞下，我们研究了Pathdreamer的RGB预测是否可以提高下游任务的性能：视觉和语言导航（VLN），使用R2R数据集[3]。VLN要求代理在逼真的3D环境中解释和执行自然语言导航指令。从以前的研究中得到的一个有力的发现是，当代理可以在遵循指令的同时向前看环境中未观察到的部分时，性能会显著提高[50]。我们表明，取代前瞻性的观察与路径梦想家的预测保持约一半的收益，我们希望有重大影响的VLN研究的发现。总而言之，我们的主要贡献包括：提出研究一般室内环境的视觉世界模型，并为未来的工作定义评估Pathdreamer，一种随机分层视觉世界模型，结合了先前关于视频预测[11]、语义图像合成[63]和视频到视频合成[51]的工作的多个独立线程。表征Pathdreamer性能的广泛实验，并证明下游VLN任务的改进结果[3]。2. 相关工作视频预测我们的工作与视频预测任务密切相关，视频预测的目的是预测视频序列的未来虽然一些视频预测方法直接预测RGB视频帧[76，1，41，44]，但许多其他方法使用分层模型来首先预测中间表示（例如语义分段）[47，35，77，82，42]，这提高了长期预测的保真度[42]。几种方法还结合了3D点云表示，使用投影相机几何形状来明确地推断下一帧的方面[75，51，43]。受这项工作的启发，我们采用并结合分层两阶段的方法和三维点云表示。此外，由于我们的兴趣是动作条件世界模型，因此我们为模型提供未来视点的轨迹，而不是假设恒定的帧速率并隐式地建模相机运动，这在视频生成中更典型[44，42]。在几个任务中已经探索了用于改进代理推理和规划的条件视频预测。这包括以控制输入为条件的Atari游戏的视频预测[60，10，62，25]和3D游戏环境，如Doom[23]。在机器人技术中，已经针对桌面设置中的对象推送研究了动作条件视频预测，以改善对新对象的泛化[15，16，14]。这项工作一直局限于简单的环境和低分辨率的图像，如64 - 64图像的对象在一个木箱。据我们所知，我们是第一个调查在具有高分辨率（1024×512）图像的建筑物规模环境中的动作条件视频预测。世界模型和导航先验世界模型[23]是总结和提炼关于复杂高维环境的知识的一种有吸引力的方式。但是，世界模型的输出可能会有所不同。虽然Pathdreamer预测视觉观察，但也有大量关于世界模型的文献，这些模型预测未来状态的紧凑潜在表征[38，24，25]或其他任务特定测量[13]或奖励[61]。这包括最近的工作，试图学习统计规律和其他先验的室内导航-例如，通过最小-···14740不不∈∈从房地产视频旅游中学习空间同现[8]，学习预测房间特征的自上而下的信念图[58]，或者学习使用来自短视频序列的音频和视觉线索重建房屋平面图[65]。与这些方法相反，我们专注于明确地预测视觉观察（即，像素），其是通用的、人类可解释的，并且适用于各种各样的下游任务和应用。此外，最近的工作确定了基于模型的RL [4]中图像预测准确性和下游任务性能之间的密切相关性。具体导航代理高质量的 3D 环境数据集，如Matterport3D [7]，StreetLearn [56，53]，Gibson [81]和Replica [71]，引发了人们对开发在现实人类环境中发挥作用的具体代理的浓厚兴趣[2]。感兴趣的任务包括对象导航[5]（导航到特定类型对象的实例）和视觉和语言导航（VLN）[3]，其中代理必须根据自然语言指令进行导航。VLN的变体包括室内导航[3，33，66，40]、街道级导航[9，53]、视觉导航[9，53]和对话框导航[59，74，26]，连续环境中的VLN [39]，等等。尽管对预训练策略进行了大量探索[46，27，50，87]，但数据增强方法[20，21，73]，代理架构和损失函数[86，48，49]，该领域的现有工作仅考虑无模型方法。我们的目标是解锁基于模型的方法来完成这些任务，使用视觉世界模型来编码关于人类环境的先验常识知识，从而减轻代理学习这些规律的负担。为了强调这一方向的潜力，我们注意到使用地面实况环境进行波束搜索规划通常会将R2 R数据集上的VLN成功率提高17-19% [20，73]。新颖视图合成我们将我们的工作定位于新颖视图合成[19，37，29，18，70，85，54]。用于表示3D场景的方法包括点云表示[80]、分层深度图像[12]和网格表示[68]。最近，神经辐射场（NeRF）[55，52，83]通过用神经网络隐式地捕获体积密度和颜色来NeRF模型可以合成非常高质量的3D场景，但对于我们的目的来说，一个显著的缺点是它们需要大量它从未观察过的建筑物中的视点。在- 向Pathdreamer提交的是一系列先前的观察结果，包括RGB图像I1：t−1、语义分割图像s1：t−1和深度图像d1：t−1（其中深度和分割可以是地面实况或来自模型的估计）。我们假设对应的相机姿态序列T1：t-1可从里程计系统获得，并且相机固有函数是已知的或估计的。我们的目标是为未来的姿态轨迹生成逼真的RGB、语义分割和深度图像T t，T t+1，. . .、T_T，其可以预先提供或由与返回的观测交互的某个代理替代地提供。注意，我们生成深度和分割，因为这些模态在许多下游任务中是有用的。我们假设未来的轨迹可能会穿过环境中看不见的区域，这不仅需要模型填充次要对象的非遮挡，还需要想象整个房间的显示（图1）。图2显示了我们提出的解决这一挑战的分层两阶段模型。它使用潜在噪声张量z t来捕获关于下一个观察的随机信息（例如，看不见的房间的布局）。给定采样的噪声张量Zt，第一级（结构生成器）生成生成新的深度图像dt和分割图像st提供一个合理的高级语义表示场景，使用先前的语义和深度图像s1：t-1，d1：t-1作为上下文。在第二阶段（图像生成器）中，预测的语义和深度图像st，dt为使用先前的RGB渲染成逼真的RGB图像ItimagesI1：t−1作为上下文。在每个阶段中，通过将先前的观察累积为使用T1重新投影到2D中的3D点云来提供上下文。3.1. 结构生成器：分割&深度Pathdreamer与[51]类似，为了提供先前的观察上下文，我们首先使用深度图像d1：t-1和相机姿态T1：t-1将先前的分割s1：t-1反向投影到统一的3D语义点云中。然后，我们使用T t将该点云重新投影回像素空间，以创建反映当前姿态的稀疏分割和深度引导图像s’、d’。t t渲染单个场景的输入视图的数量（例如，[ 55 ]中每个场景20更重要的是，这些模型通常被训练来表示单个场景，并且还不能很好地推广到看不见的环境。相比之下，我们的问题需要推广到看不见的环境，使用尽可能少的一个以前的观察。3. PathdreamerPathdreamer是一个世界模型，它可以从未来的轨迹中生成高分辨率的视觉观测。编码器的输入是与深度引导图像d’级联的语义引导图像s’RWXH XC的独热编码。RW×H×1。编码器-解码器模型的架构基于RedNet [34]ResNet-50 [28]架构，设计用于室内RGB-D语义分割。RedNet使用转置卷积在解码器中进行上采样，并跳过编码器和解码器之间的连接，以保留空间信息。由于输入包含分割图像，并且分割类在数据集之间不同，因此编码器14741Ground truth语义/深度RGB引导图像（从3D点云投影）PatchGAN鉴别器先前语义/深度观察（s1：t-1，d1：t-1）随机噪声引导图像3D点云Tt预测语义/深度上一个RGB图像，It-1预测RGB，I不跳过连接（st，dt）阶段2：图像生成器...阶段1：结构生成器交叉熵+ MAEN（’，��N（，）��CNN先验GAN损失+VGG损失+特征匹配损失zCNN邮报KLD∈1¨¨|N不不不不st，dt转换成真实的RGB图像It。ψ不不不不Multi-SPADEResBlock共享权重无梯度卷积模块损失函数Multi-SPADEResBlock黑桃正常化批次归一化图2：步骤t处的Pathdreamer模型架构。给定视觉观察的历史（RGB、深度和语义）和未来视点的轨迹，结构生成器在生成语义和深度输出之前对采样的噪声张量进行调节，以提供场景的高级结构表示在第二阶段中，由图像生成器合成真实的RGB图像解码器没有预先训练。通过将潜在空间噪声张量ztRH'×W'×32与编码器和解码器之间的特征映射相关联，将其引入到模型中。编码器-解码器模型的最终输出是s分段图像st和深度图像dt，其中由C路softmax和深度在范围（0，1）中归一化并通过和噪声张量的KL散度项：L结构=λceLce（st，st）+λddt−dt+λK LDK L。qφ（zt|st，dt），pψ（zt|s'，d'）Σ（1）sigmoid函数在推理过程中的每一步中，seg-心理状态预测st被反向投影并添加到点云以辅助未来时间步的预测。为了生成噪声张量zt，我们从SVG [11]中获得灵感，并学习条件先验噪声分布其中λce、λd和λKL是由网格确定的权重搜索我们将它们分别设置为1、100和0.53.2. 图像生成器：RGB图像生成器是一个图像到图像的翻译GAN [22，78]，它将语义和深度预测转换为pψ（zt|s’，d’）。Intuiti vely，thereareman ypossiblescenes？其可针对未看见的建筑物区域而产生。我们希望zt携带关于确定性编码器不能捕获的下一个观察的随机信息，并且我们希望解码器充分利用该信息。在训练过程中，我们通过使用KL散度损失来强制先验知识来我们的模型架构基于SPADE块[63]，该块使用空间自适应归一化层将上下文插入网络的多个层。与我们的结构生成器一样，我们维护一个包含所有先前图像观察的累积3D点云。这在重新投影时提供了稀疏的RGB引导图像I’。类似分布p（z|s’，d’）以靠近后盘。分布φ（zt st，dt），其以地面实况分割和深度图像为条件。我们通过向解码器提供来自后验分布qφ的采样zt值（条件是地面实况输出）。在推断期间，从先验分布pΦ中采样潜在噪声Zt，并且不使用后验分布qΦ。这两种分布都使用3层CNN进行建模，这些CNN从编码器获取其输入并输出表示μ和σ的两个通道，以参数化多变量高斯分布（μ，σ）。如图3中所示，噪声在编码看不见的区域的不同的、似乎合理的表示中是有用的。总的来说，结构生成器被训练以最小化由用于语义预测的交叉熵损失Lce、用于深度预测的平均绝对误差项、用于深度预测的平均绝对误差项和用于深度层到每个残差块中：一个以级联的语义和深度输入[st，dt]为条件，一个以RGB引导图像It’为条件。RGB引导图像的稀疏性通过应用部分卷积来处理解[45]。图像生成器总共由7个多SPADE块组成，前面是单个卷积块。在SPADE [63]之后，该模型使用GAN铰链损失，特征匹配损失[78]和来自预训练VGG-19 [69]模型的感知损失[36]进行训练。在训练期间，向生成器提供真实分割图像st和真实深度图像dt。我们的鉴别器架构基于PatchGAN [32]，并将地面实况im的级联作为输入年龄It或生成图像It，地面实况深度图像dt和地面实况语义图像st。损失为Multi-SPADEResBlockMulti-SPADEResBlockMulti-SPADEResBlock解码器Concat编码器项目编码器对于Multi-SPADE [51]，我们插入两个SPADE归一化1474211×个Nφ（i）（It）−φ（i）（G（xt））D（i）（It）−D（i）（G（xt））引导图像输入Pathdreamer预测（噪声向量z1）Pathdreamer预测（噪声向量z2）Pathdreamer预测（噪声向量z3）GroundTruth引导图像输入搁置Pathdreamer预测（噪声向量z1）抽屉柜表Pathdreamer预测（噪声向量z2）杜尔Pathdreamer预测（噪声向量z3）GroundTruth图3：当预测拐角附近时，结构生成器可以采样在图像生成器的RGB输出中紧密反映的多样且语义上合理的场景布局，在此针对两个引导图像输入（左列;看不见的区域由实心黑色区域指示）。每个示例显示三个备选房间分隔缝和地面实况。在下面的示例中，模型考虑了卧室的各种完成，但未能预测床对面的groundtruth生成器G和鉴别器D为：LG= −λGANExt[D（G（xt））]n可导航状态转换。对于每个轨迹，采样5-平均而言，这些轨迹中的视点相距2m。培训与相对Σ¨ ¨i=1 n1nΣ¨¨我 n单步（无需产生计算成本生成中间帧）。然而，这并不妨碍Pathdreamer生成流畅的视频输出。LD=−Ext[min（0，−1+D（It））]-Ext[min（0，−1−D（G（xt）]（3）其中xt=（st，dt，It′）表示生成器的完整输入集，φ（i）表示预训练的VGG-19模型的第i层的输出，D（i）表示鉴别器的第i层的输出（为了节省空间，已经丢弃了鉴别器的与结构生成器一样，图像生成器也不是预先训练的。3.3. 训练和推理为了训练和评估，我们使用Matter-port 3D [7]，这是一个来自90个建筑规模室内环境的10.8k RGB-D图像的数据集。对于每个环境，Matterport3D还包括一个纹理化的3D网格，该网格使用对象和建筑组件的40个语义类进行注释。为了与下游VLN任务对齐，在所有实验中，RGB、深度和语义图像是等矩形格式的360°为了训练Pathdreamer，我们从Matterport3D训练环境中采样了400k个轨迹。为了定义可行的轨迹，我们使用了来自房间到房间（R2R）数据集的导航图[3]，其中节点对应于全景图像位置，并且边缘定义了以高帧速率放置1.训练模型的第一阶段和第二阶段分别进行训练。对于图像生成器，我们使用Matterport3D RGB全景作为1024 512分辨率的训练目标。我们使用Habitat模拟器[67]来渲染地面实况深度和语义训练输入，并将这些拼接成等矩形全景图。我们通过随机裁剪和水平滚动RGB全景图来执行数据增强，由于可用的全景图数量有限，我们发现这是必不可少的。为了训练结构生成器，我们再次使用Habi- tat来渲染深度和语义图像。由于该阶段不需要对齐的RGB图像用于训练，因此在这种情况下，我们通过用从（0，0）绘制的随机高斯噪声向量扰动视点坐标来执行数据增强。2m）独立地沿着每个3D轴线结构生成器使用equirectan进行训练-512×256分辨率的全景图。推理为了避免在推理过程中的标题不连续性，我们在结构生成器和图像生成器的图像x轴上使用圆形填充。1有关视频生成结果，请参见https://youtu.be/StklIENGqs0窗口椅子表坐垫椅床表分割RGB图像分割RGB图像+λVGG大的视点变化是期望的，因为模型学习在一个时间段中合成具有大的视点变化的观察+λFM1（二）14743×个×个图4：以一个观察（深度、语义、RGB）作为上下文开始并且生成针对穿过走廊的3个新视点的观察的示例性全预测序列。在2.3米处，模型完成了一个房间的展示，想象一个厨房般的空间。在8.6米之后，模型的预测降低。补充资料中提供了更多示例的512 256分辨率语义和深度输出在将结构生成器传递到图像生成器之前，使用最近邻插值将结构生成器上采样到1024512。在定量实验中，我们将结构生成器噪声张量zt设置为先验的平均值4. 实验为了进行评估，我们使用来自R2 R数据集的Val-Seen和Val-Unseen分裂的路径[3]。Val-Seen包含来自Matterport 3D训练分割中的环境的340个轨迹。Val-Unseen包含783个在训练中看不到的Mat-terport 3D环境中的轨迹。由于R2 R轨迹包含5-7个全景图，并且至少有1个先前的观察结果作为上下文给出，因此我们报告了1-6个步骤的评估，表示对大约2- 13米的轨迹展开的预测（全景图平均间隔2.25米）。有关8.6米范围内的卷展示例，请参见图4。我们将Pathdreamer的性能与基线、消融以及视觉和语言导航（VLN）的下游任务进行比较。4.1. Pathdreamer结果语义生成我们的方法的一个关键特征是除了RGB之外还能够生成语义分割和深度我们使用平均交叉-联合（mIOU）评估生成的语义分割图像，并报告以下结果：最近邻：没有任何学习组件的基线，使用最近邻插值来填充投影的语义引导图像s′t中的漏洞。Ours（Teacher Forcing）：结构生成器使用地面真实语义和深度图像作为每个时间步长的先前观察进行训练。Ours（Recurrent）：结构生成器在反馈自己的语义和深度预测时进行用于下一步预测的先前观察这减少了训练-测试不匹配，并且可以允许模型在进行较长的转出时补偿误差。我们还尝试从[42]中训练分层卷积LSTM，但发现它经常崩溃为单类预测。我们将此归因于训练序列中的大视点变化和严重遮挡;我们相信这可以用点云几何比几何未知的LSTM更有效地建模。如表1所示，Pathdreamer的性能远远优于最近邻基线，无论在推出的步骤数或以前的观察，作为上下文使用的正如预期的那样，可见环境中的性能也许令人惊讶的是，在图5a中，我们示出了循环训练在训练环境（Val-Seen）中的较长推出期间改善了结果，但是这没有改善Val-Unseen上的结果，这表明由图像生成器学习的误差补偿不容易推广。除了准确的预测，我们还希望生成的结果是多样化的。图3示出了我们的模型可以通过插值噪声张量zt来生成不同的语义场景，并且RGB输出紧密地反映了生成的语义图像。这允许我们为相同的导航轨迹生成多个合理的替代方案。RGB生成为了评估图像生成器生成的RGB全景的质量，我们计算路径中每个步骤的生成图像和真实图像之间的Fre´ chet初始距离（FID）[30]我们使用由结构生成器生成的语义图像作为输入来报告结果（即，我们的完整模型）。为了用更好的结构生成器量化提升的潜力，我们还报告了使用地面真实语义分割作为输入的结果。我们比较了模型的两个消融版本：输入2.3m6.3m8.6m输入2.3m6.3m8.6m输入2.3m6.3m8.6m预测的RGBs分割深度GroundtrtuhRGBs···14744模型无语义SPADE（GT）我们的（GT）我们的（SG）↑↓↓↑0.90.80.70.60.50.40.30.20.1模型NN我们的（TF）我们的（记录）1、2、3、4、5预测步骤（Val-Seen）0.90.80.70.60.50.40.30.20.1模型NN我们的（TF）我们的（记录）1、2、3、4、5预测步骤（Val-Unseen）输入Val-Seen Val-Unseen模型上下文ObsSem RGB 1步骤1-6步骤1步骤1-6步骤无语义1 -C34.1 81.7 35.2 90.8SPADE 1 GTC23.3 24.947.3 50.3我们的1 GTC C 24.1 31.332.4 39.9我们的1 SGC C 26.2 41.7 34.8 70.4无语义2 -C34.0 69.0 39.5 78.6SPADE 2 GTC22.8 25.352.3 51.2我们的2 GTC C 23.5 31.235.3 39.9我们的2 SGC C 25.8 38.4 38.2 61.0(a) 语义分割是指-IOU（）。 [TF]：教师强迫。[Rec]：Recurrent.180 180160140120100806040201、2、3、4、5预测步骤（Val-Seen）160140120100806040201、2、3、4、5预测步骤（Val-Unseen）表2：使用地面实况语义（GT）或结构生成器预测（SG）作为输入，针对具有变化的上下文和预测步骤的所生成的RGB图像的FID得分（）。优化培训环境。在这种情况下，不需要RGB输入。然而，我们的模型在Val-Unseen中的表现明显更好，突出了(b) RGB生成FID（）。 [GT]：地面实况语义输入。[SG]：结构生成器预测。图5：Pathdreamer语义分割均值-IOU（上图）和RGB生成 FID （下图）。显示了 Val-Seen （左）和 Val-Unseen（右）的结果。置信区间表示以1、2或3个先前观察结果作为背景的结果范围。有价值无价值模型上下文1步骤1-6步骤1步骤1最近邻159.532.059.130.6教师强迫（TeacherForcing）184.959.278.350.8我们的（经常性）184.765.977.550.9最近邻257.435.256.533.8教师强迫（TeacherForcing）285.464.677.455.5我们的（经常性）285.170.276.655.7最近邻357.438.756.137.7教师强迫（TeacherForcing）385.168.577.360.4我们的（经常性）384.672.776.860.8表1：具有变化的上下文和预测步骤的所生成的语义分段的平均值-IOU（）。无语义：语义和深度输入st，dt从多SPADE块中移除• SPADE：模型的RGB输入的消融，包括先前的RGB图像I t-1和重新投影的RGB引导图像It′。语义图像s t替换I t−1作为模型的输入，并且It′输入层从多SPADE块中移除，这实际上是SPADE模型[63]。如表2所示，SPADE在Val-Seen中表现最好，表明该模型具有记忆能力。在看不见的环境中保持RGB上下文（这是我们的重点）。在Val-Seen和Val-Unseen中，在“无语义”设置中性能会显著降低。我们观察到，如果没有语义输入，该模型无法在更长的时间内生成有意义的图像，这验证了我们的两阶段分层方法。这些结果反映在FID分数中，以及定性地（图6）;图像生成器的输出明显更清晰，特别是由于引导图像的好处，图像生成器图5b逐步绘制了每个设置的性能。当使用地面实况语义时，图像生成器的FID显著改进，特别是对于较长的卷展，突出了从结构生成器的改进中受益的潜力4.2. VLN结果最后，我们评估是否预测路径梦想家可以提高下游视觉导航任务的性能。我们专注于使用R2R数据集的视觉和语言导航（VLN）[3]。由于达到导航目标需要成功地将自然语言指令与视觉观察相结合，因此这提供了一种具有挑战性的基于任务的预测质量评估。在我们的推理设置中，在移动通过环境的每一步，我们使用基于[79]的基线VLN代理来使用波束搜索生成大量可能的未来轨迹。然后，我们使用指令轨迹兼容性模型[84]对这些替代轨迹进行排名，以评估哪种轨迹最符合模型无语义SPADE（GT）我们的（GT）我们的（SG）FIDMiouFIDMiou·无语义3-C35.660.441.967.5黑桃3GTC23.126.252.850.7我们3GTCC23.231.735.539.2我们3SGCC25.636.738.552.914745意见计划步骤 NE↓SR↑SPL↑nDTW↑sDTW↑重复帕诺16.7535.733.852.031.2空白pano17.2935.933.750.931.5Pathdreamer16.5539.938.354.635.2地面实况15.8044.642.758.939.4重复帕诺26.7636.834.051.831.7空白pano26.6540.037.253.334.8Pathdreamer25.846.543.959.141.2地面实况24.9554.351.364.948.3重复帕诺36.2540.637.755.635.2空白pano36.4841.938.854.236.1Pathdreamer35.3250.447.361.844.4地面实况34.4459.355.867.952.7图6：Val-Unseen上消融图像发生器输出与真实分割和深度的视觉比较。RGB和语义上下文对于最佳性能都很重要。指导。然后，代理在重复该过程之前执行来自排名最高的轨迹的第一动作。我们考虑三种不同的规划视野，未来的轨迹包含1，2或3向前的步骤。指令轨迹兼容性模型是将文本指令和轨迹（使用视觉观察和路径几何学编码）单独编码到共享潜在空间中的双编码器为了提高不完整路径的性能，我们将截断路径引入到[84]中提出的原始对比训练方案中。兼容性模型仅使用地面实况观测来训练。然而，在推断期间，从三个不同的来源提取用于未来步骤的RGB观测：地面实况：来自实际环境的RGB观察，即，前瞻性观察。Pathdreamer：我们模型的RGB预测。重复pano：一个简单的基线，其中最近的RGB观察在未来的步骤中重复。空白全景：提供空白图像作为未来观察结果的简单基线注意，在所有情况下，未来轨迹的几何形状由地面实况R2R导航图确定。在表3中，我们使用VLN的标准度量报告了该实验的 Val-Unseen 结果：导航误差（NE）、成功率（SR）、最短路径长度（SPL）、归一化动态时间规整（nDTW）[31]和通过归一化动态时间规整（sDTW）加权的成功[31]。与先前的工作[20，73]一致，我们发现使用地面实况视觉观察进行前瞻提供了强大的性能提升，例如，成功率从采用1个计划步骤的44.6%（上图）增加到采用3个计划步骤的59.3%（下图）。在另一个极端，Repeated pano基线较弱，成功率仅表3：使用指令-轨迹兼容性模型对具有1、2或3个步骤的规划视野的替代未来轨迹进行排名的35.7%有1个计划步骤（顶行）。Blank pano基线相似，成功率为35.9%。这并不奇怪：这些基线拒绝兼容性模型对下一个动作的任何有用的视觉表示，这对性能至关重要[20，73]。然而，增加规划范围确实提高了性能，即使对于重复/空白全景基线，因为兼容性模型能够比较替代未来轨迹的几何形状最后，我们观察到，使用Pathdreamer的视觉观察关闭了Repeated pano基线和地面实况观察之间的大约一半的差距，例如，Pathdreamer与其他两组分别为40.6%和我们的结论是，使用路径梦想家作为一个视觉世界模型，可以提高下游任务的性能，虽然现有的代理仍然依赖于使用导航图来定义可行的行动空间在每一步。Pathdreamer是对当前基于SOTA模型的方法的补充，并且组合可能会导致VLN性能的进一步提升，这值得在未来的工作中进行研究。5. 结论Pathdreamer是一个随机分层视觉世界模型，可以合成真实和多样化的360全景图像，用于真实建筑物中看不见的轨迹。作为一个视觉世界模型，Pathdreamer在提高下游任务的性能方面也表现出了很强的潜力，我们用VLN展示了这一点。最值得注意的是，我们表明，Pathdreamer捕获了从环境中实际观察到的前瞻性收益的一半左右。Pathdreamer在VLN任务中的有效性可以归因于其对现实世界中的基本约束进行建模的能力，从而使智能体不必学习建筑物的几何形状以及视觉和语义结构。将Pathdreamer应用于其他嵌入式导航任务，如Object-Nav [5]，VLN-CE [39]和街道级导航[9，53]是未来工作的自然方向。1.1m5.9m1.1m5.9m1.1m5.9m1.1m5.9m格鲁恩特图我们黑桃没有语义····14746引用[1] SandraAigner和MarcoKörner.未来：在逐渐增长的gans中使用时空3d卷积来预测视频序列的未来帧。arXiv预印本arXiv：1810.01325，2018。二个[2] PeterAnderson ， AngelChang ， DevendraSinghChaplot，Alexey Dosovitskiy，Saurabh Gupta，VladlenKoltun ， Jana Kosecka ， Jitendra Malik ， RoozbehMottaghi，Manolis Savva，and Amir R.扎米尔嵌入式导航代理的评价。 arXiv 预印本 arXiv ： 1807.06757 ，2018。三个[3] Peter Anderson，Qi Wu，Damien Teney，Jake Bruce，MarkJohnson，NikoSünderhauf，IanReid，StephenGould，and Anton van den Hengel.视觉和语言导航：在真实环境中解释视觉基础的导航指令。在CVPR中，第3674-3683页，2018年。一、二、三、五、六、七[4] Mohammad Babaeizadeh 、 Mohammad Taghi Saffar 、Danijar Hafner、Harini Kannan、Chelsea Finn、SergeyLevine和Dumitru Erhan。模型，像素和奖励：评估基于视觉模型的强化学习中的设计权衡arXiv预印本arXiv：2012.04603，2020。三个[5] Dhruv Batra、Aaron Gokaslan、Aniruddha Kembhavi、Olek-sandr Maksymets 、 Roozbeh Mottaghi 、 ManolisSavva、Alexander Toshev和Erik Wijmans。Objectnav重新访问：对实体化的代理人导航到对象的评价。arXiv预印本arXiv：2006.13171，2020。一、三、八[6] Lars Buesing 、 Theophane Weber 、 Yori Zwols 、Sebastien Racaniere、Arthur Guez、Jean-Baptiste Lespiau和Nicolas Heess。Woulda，coulda，shoulda：反事实引导的策略搜索。2019年，在ICLR。一个[7] Angel Chang、Angela Dai、Thomas Funkhouser、MaciejHal- ber 、 Matthias Niessner 、 Manolis Savva 、 ShuranSong、Andy Zeng和Yinda Zhang。Matterport3d：从室内环境中的RGB- D数据学习。2017年3D视觉国际会议。二三五[8] Matthew Chang，Arjun Gupta，and Saurabh Gupta.通过观看youtube视频进行语义视觉导航。神经IPS，2020年。三个[9] Howard Chen ， Alane Suhr ， Dipendra Misra ， NoahSnavely，and Yoav Artzi.着陆：视觉街道环境中的自然语言导航和空间推理在CVPR，2019年。三、八[10] Sil viaChiappa ， Se´ bastienRacaniere ， DaanWierstra ，andShakir Mohamed.循环环境模拟器。ICLR，2017年。二个[11] 艾米丽·丹顿和罗伯·费格斯具有学习先验的随机视频生成。2018. 二、四[12] Helisa Dhamo ， Keisuke Tateno ， Iro Laina ， NassirNavab，and Federico Tombari.窥视物体背后：从单个图像进行分层深度预测。Pattern Recognition Letters ，125：333-340

下载后可阅读完整内容，剩余1页未读，立即下载