大规模深度学习模型导航代理的可解释性及其对环境和目标的理解能力

25 浏览量更新于2023-10-25 收藏 1.08MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

110276导航代理了解他们的环境是什么Kshitij Dwivedi，法兰克福歌德大学网址：dwivedi@em.uni-frankfurt.de，roig@cs.uni-frankfurt.deAniruddha Kembhavi，Roofah MottaghiPRIOR @ Allen Institute for AI网址：anik@allenai.org，roozbehm@allenai.org摘要当今最先进的视觉导航代理通常由端到端训练的大型深度学习模型组成。这样的模型提供了很少或根本没有可解释性的学习技能或采取行动的代理响应其环境。虽然过去的工作已经探索了解释深度学习模型，但很少关注解释具体的人工智能系统，这通常涉及对环境结构，目标特征和行动结果的本文介绍了一种面向对象的（a）药剂初步观察目标：导航到Apple/（x，y，z）c）d）苹果（目标）是否目标能见度b）、距离目标？对目标能见度预报的影响用于点目标和对象目标导航代理的agEnts（i S EE）。我们使用i S EE来探测这些代理所产生的关于代理和环境的信息的存在的动态表示。我们展示了使用i S EE的导航代理的有趣见解，包括编码可到达位置（以避免障碍物）的能力，目标的可见性，从初始产卵位置的进展，以及当我们屏蔽关键的单个神经元时对代理的搜索结果的戏剧性影响。1. 介绍人工智能的研究领域--越来越多的工作导致了几个强大且视觉丰富的模拟器的出现，包括AI 2-THOR[20]，Habitat [25]和iGibson [37];需要代理导航[2]，推理[5]，协作[18]，操纵[12]和遵循指示[3]的作品。虽然在各种任务和基准测试中取得了快速进展，但大多数解决方案都是经过训练的黑盒神经网络，图1. iSEE 框架。（ a ）智能体学习执行OBENGINNAV或POINTNAV任务。(b)我们希望探索在代理的隐藏表示中编码了什么信息。(c) 为了实现这一点，我们评估如何以及代理的隐藏的representation可以预测人类可解释的概念，如目标视觉，(d)然后，我们应用可解释性方法SHAP [23]来识别前k个相关单元。人类/预言家行动的顺序或通过强化学习训练，仔细选择积极和消极的奖励。这些模型几乎没有提供关于模型学习的概念和技能或模型响应任务或观察所采取的动作的开发可解释的系统在嵌入式AI中尤为重要，因为我们希望这些系统最终能够部署到机器人上，这些机器人将导航真实的物理世界并与其中的人进行交互。在图像分类文献中，在过去几年中已经开发了许多可解释性方法[7，14，28，49]。这些方法依赖于经由各种输入探测模型激活或生成导致激活中的尖峰的合成虽然这种方法在探测嵌入式AI模型时很有用，但它们没有考虑到丰富的元数据（例如完美分割、深度图、精确的对象定位等）。在通常用于训练这些人的合成环境前面有障碍物吗代理的隐藏表示我参观过这个吗位置之前？苹果（目标）是否隐藏单元值110277模型模拟世界为我们提供了一个独特的机会，扩大可解释性研究体现代理和开发新的方法，利用丰富的元数据。我们提出了一个框架来解释在模拟世界中训练的具体代理的隐藏表示。我们将我们的框架应用于两个导航任务（图- ure1a）：对象导航（OBINAV）[6]，导航到目标对象的任务和点目标导航（POINTAV）[2]，导航到指定的相对坐标的任务，在AI 2 THOR环境中;但是我们的方法是通用的，并且可以容易地应用于更多的任务和其他环境。我们训练智能体执行这些任务，然后探测它们的隐藏表示，以评估它们是否对任务、进度和环境的各个方面进行编码（图1b和1c）。然后，我们应用模型解释方法SHAP [23]来识别哪些隐藏单元与预测这些概念最相关（图1d）。我们的框架允许我们收集证据来回答关于训练模型的两个基本问题：（1）模型是否学习了一个特定的概念？(2)递归层中的哪些单元编码这个概念？使用这个框架，我们能够发现一些有趣的见解，关于O BENGINEAV和POINTNAV代理。这项工作的主要贡献是：• 一个新的可解释性框架专门用于导航代理，概念和隐藏单元之间没有线性假设。• 关于导航代理编码的内容和单位的新见解– 在 OBJECTIVENAV （ 50/512 单位）和POINTNAV（5/512单位）中的稀疏目标表示;– 学习的概念，如可到达的位置和访问历史的OBINTNAV代理;编码的进展目标和较少依赖于视觉信息的POINTNAV代理。• 消融实验表明，去除10%的单位后，对模型性能没有影响，这表明在表示中存在冗余。2. 相关工作我们通过预测人类可解释的关于代理及其环境的信息来探索代理隐藏单元中存储的表示我们的工作涉及可解释性研究的两个方向：（1）个体隐藏单元的可解释性和（2）解释模型隐藏单元的可解释性。研究隐藏单元编码什么的常见方法是找到导致感兴趣单元的最大激活的输入图像（也称为优选的图像可以来自数据集[49，50]中的示例，或者通过优化输入[13，16，28，29，39，42]使用梯度下降获得。冰毒的一个缺点使用优选图像的ODS的缺点在于难以量化单元与概念的关联。为了解决这个问题，NetDissect [7，51]使用单元的空间激活与人类可解释概念的地面实况分割图的重叠这个想法在Net2vec [14]中进一步扩展，以研究单个单元或一组单元是否然而，这些方法需要用于每个感兴趣的概念的地面实况像素级注释，因此对于新概念，需要新的注释。另一方面，模拟环境[20，25，37]具有作为元数据的一部分的注释。然而，由于大量的元数据超出了简单的对象信息，有必要开发新的方法，这些环境来解释体现代理。最近的具体化人工智能作品[43，48]已经开始关注可解释性，通过对隐藏单元的概念进行线性解码[43]，并使用固定点分析[ 48 ]找到代理Patel等人[31]探索了对协作具体代理中的紧急通信的解释然而，这些工作并没有把重点放在识别哪些隐藏单元编码一个给定的概念，这是本工作的主要贡献之一解释模型预测。显着性方法[4，30，33，35，40]使用梯度来找到图像的哪些像素与模型的预测相关附加特征属性方法[24，34，38]研究了在模型预测中添加输入特征的效果这些方法的缺点是它们集中于在原始像素水平上解释模型预测。为了使用人类可解释的概念来解释模型预测，TCAV [19]和随后的作品[15，17，21]被提出使用概念向量而不是原始像素来解释模型预测。为了找到概念向量，需要额外的人类注释。在具体化的环境中[20，25，37]，我们具有已经注释的人类可解释概念的优势这两个研究方向被认为是可解释性研究的独立方向- 一个专注于解释隐藏单元学习的内容，另一个专注于解释模型做出的决定。在这项工作中，我们观察到的潜力，连接两种方法来解释隐藏的单位学习使用人类可解释的概念。具体来说，我们训练了一个可解释的模型（梯度提升树）来从模型的隐藏单元中预测人类可解释的概念，然后应用全局模型可解释性方法SHAP[23]来解释哪些单元与哪些概念预测相关。在这项工作中，我们使用SHAP，因为（a）它提供了一个独特的解决方案，具有三个理想的特性：局部精度，缺失和一致性[24]，（b）它统一了几个模型不可知[34，38]和基于树的解释方法[1]，（c）它提供了对110278√局部（单个示例）和全局（数据集）级别。完成任务。已经提出了几种方法[8-在本文中，我们分析了两个流行的导航任务，PointNav [2]和ObjectNav [6]的标准基础模型。3. 可解释性框架我们介绍了嵌入式智能体的可解释性标准（iEE）。iSEEE探测代理对任务的理解，他们在这个任务中的进展以及他们所处的环境。这种探测是通过训练简单的机器学习模型来完成的，这些模型输入网络激活并输出所需的信息。模拟环境为我们提供了关于代理、任务和环境的各种元数据，使我们能够训练一系列模型来探测这些信息。iSE还有助于识别存储这些信息的特定神经单元这是通过计算单个神经单元的SHapley加法解释（SHAP）[36]值来完成的。最后，我们研究了关闭单个神经单元对下游任务的影响，这些任务是训练代理的。我们研究了针对POINTNAV [2]（在房间中导航到特定坐标）和O BENGINNAV [6]（导航到特定对象）训练的具身代理。我们的代理通过卷积神经网络对他们的视觉观察进行编码，并通过嵌入层对他们的目标进行编码。视觉和目标编码器的输出被馈送到门控递归单元（GRU）以增加存储器。然后，GRU的隐藏单元被线性转换为策略（动作上的分布）（图2a）。对于这些任务中的每一个，都有更复杂的定制模型来实现更高的性能。然而，我们利用这些简单，通用的模型，可以应用于各种任务，使跨任务的比较更加公平。在这项工作中，我们使用iSEE来探测GRU中的隐藏单元，并使用梯度提升树（GBT）作为ML模型来确定这些隐藏单元中相关信息的存在（图2b）。我们在这里特别关注GRU单元，因为（a）我们对分析动态视觉表示（GRU单元）而不是静态视觉表示（CNN视觉编码器）感兴趣，以及（b）我们的一些模型使用冻结的视觉编码器，并且只优化GRU内的参数。我们现在描述从模拟器中提取的元数据，通过构建GBT并使用SHAP来识别存储相关信息的各个隐藏单元来探测此元数据3.1. 元数据我们探测代理对目标的理解，他们在场景中的位置，周围物体的可达性以及他们对访问过的位置的记忆，因为他们导航他们的世界。我们可以很容易地从模拟器提供的元数据中提取这些信息目标信息：接受过O BENG-NAV和POINT NAV任务训练的特工必须分别导航到指定对象或点的位置。在这两种情况下，人们可能期望智能体能够估计其相对于目标的定位。因此，在给定的时间步长t，我们提取包含代理与目标的距离（Rt）和方向（θt）的元数据（图2c）。在OBJECTINAAV中，如果对象位于代理的1 m范围内并且可见，则代理是成功的;因此我们额外提取目标可见性（可见t）。由于对象可能在帧中可见但不在指定距离内以确定成功，因此我们还使用AI 2-THOR提供的分割掩模提取目标对象覆盖的像素百分比（面积t）。智能体因此，我们提取智能体可达性：智能体要在场景中成功导航，就应该能够检测到障碍物及其周围的路径。因此，我们提取元数据来检测相对于代理的当前位置的特定位置是否给定代理的位置，我们首先提取场景中所有可到达的网格点。然后，以代理对于这些点Rr，θangle中的每一个，其中r是半径，θangle是网格点相对于agent的方向，以度为单位，我们检查最接近的可达网格点是否在gridSize/2内。图2d示出了场景中这样的可达网格点。访问历史：上面提取的元数据捕获代理移动的全局摘要。并提取了其在当地的访问历史.这通过检查位置（visitedl）、旋转（visitedlr）和相机视野（visitedlrh）是否已经被代理访问来完成。3.2. 元数据提取当代理在场景中遍历时，我们提取代理的GRU激活以及上面描述的代理和这是在训练和验证场景中完成的。POINTNAV和OBINTNAV的最新模型架构和训练算法导致非常有能力的智能体（a）在其轨迹中表现出很小的可变性（b）不经常碰撞（c）很少犯错误，例如重新访问位置。这样的轨迹是不太有用的探针代理，因为感兴趣的事件发生稀疏。因此，我们使用人类轨迹（轨迹110279梯度提升树元数据a)b）、元数据目标：导航到Apple/（x，y，z）影响元数据预测c）d）代理的初始位置代理的当前位置目标位置图2. a）在给定的时间步，AI2THOR生成一个观察结果，该观察结果作为输入与目标嵌入一起提供给智能体。对于该时间步，我们还从AI2THOR中提取代理看不到的相关事件元数据。b）在从多个训练和验证片段中采样后，我们训练了一个梯度提升树，以从代理的隐藏表示（GRU单元）中预测元数据然后，我们应用SHAP，这是一种可解释性方法，可以识别用于预测给定元数据类型的前k个最相关单元c）在给定的时间步，我们提取代理相对于其初始产卵位置（Ra，θ a）和目标位置（Rt，θ t）的方向。d）我们以30度的步长提取距离为网格大小的2，4，6倍和不同角度的可达位置，以确定这些位置是否可以被代理到达。由周围导航的人指定），其鼓励探索并且具有故意的碰撞和错误。使用一组预定义的人类轨迹也使我们能够公平地比较代理之间的发现。3.3. 元数据预测我们训练GBT来预测特定的元数据概念，使用GRU使用训练场景内的片段训练GBT，并使用预测元数据与验证片段上的地面实况元数据之间的对于给定的模型，我们使用xgboost库为每个概念训练了一个深度=10对于二进制变量（如目标可视性），我们使用逻辑损失函数，对于连续变量（如距离目标/代理的初始位置），我们使用均方误差损失函数。GBT的总训练和评估时间在单个NVIDIA RTX 2070 GPU上为8秒。我们使用GBT是因为：(1)与许多其他ML模型相比，当从输入到输出的映射不线性;（2）允许精确计算SHAP值，与其他模型（其中SHAP值只能近似计算）相同[23]。3.4. 使用SHAP给定一组隐藏单元，SHAP通过量化每个单元对预测概念的贡献来计算每个SHAP值基于称为Shapley值的博弈论概念[36]。我们首先训练GBT使用所有隐藏单元来预测概念。然后，我们使用隐藏单元的子集和掩码其他单元来使用预训练的GBT预测概念。然后我们加入一个新的隐藏单元，并计算模型预测能力的变化。这种差异量化了隐藏单元相对于所选子集的贡献。通过对隐藏单元的所有可能子集的贡献进行平均，我们得到感兴趣单元的Shapley值。例如，我们使用这种方法来计算一个特定的GRU隐藏单元对预测指定目标的可见性的一致性。注意，获得的GRU演员评论GRUResNet18嵌入隐藏单元值110280一个示例的GRU单元10的Shapley值对对PNPN对RNRN预测目标能见度的前4个相关单位验证集图3. 阅读SHAP图的示意图：该图显示了预测目标可见性的前4个相关GRU单位。每行显示验证集中所有示例的给定GRU单元的SHAP值的分布，其中行中的每个点对应于单个数据点。点的颜色指示GRU单元Shapley值表示单个示例中隐藏单元对模型结果的影响。为了量化隐藏单元对模型结果的全局影响图3是SHAP蜂群图，用于可视化前k个相关GRU单元的全局贡献。我们用这个图来解释如何解释SHAP图。该图可视化了前4个相关单元对预测目标可见性的贡献。每行对应于给定的GRU单元，并且行中的每个点对应于给定示例的GRU单元每行显示验证集所有样本上SHAP值的分布。X轴上的点的位置显示GRU单元对模型预测的影响Shapley值）为正或负。样品的GRU单位作为示例，对于图3中的圆圈点，GRU单元10的沙普利值为负，并且点的颜色指示GRU单元10的值也较低。对于x轴右侧的示例，Shapley值为正，并且GRU单位的值也更高。这意味着GRU单元10与目标可见性正相关。使用类似的逻辑GRU单元477似乎与目标可见性负相关简而言之，SHAP图显示了GRU单元在概念预测中的全局贡献（按贡献排序的行），显示了验证示例的分布（点预测由OBNAV代理a）b）c）图4. OBENGINAVGRU单位的元数据预测：b）目标信息c）访问历史培训和验证的房间相同。4.1. O BENSENAV型号和基线我们考虑两个模型OBENGINAV。第一个模型使用冻结的ResNet18作为视觉编码器，并命名为RNON，而第二个模型使用5层CNN（称为SimpleConv）作为视觉编码器，由SCON表示。在SCON中，使用演员评论家损失的梯度来优化视觉编码器视觉表示与目标嵌入相连接，然后将其馈送到GRU。GRU连接到预测策略和值的两个线性层。为了确定OBENGINAV代理学习到的表示是否是由于训练，我们考虑两个随机初始化的模型，它们具有相同的架构作为基线。对于随机ResNet模型，命名为RNr，我们使用ImageNet权重初始化ResNet，并随机初始化GRU。对于随机SimpleConv模型，命名为SC_r，视觉编码器和G_R_U都被随机初始化。RNONSCON使用来自AllenAct框架的默认hyperparam- eters训练3亿步。4.2. POINT NAV模型和基线类似于O BennettAV模型，我们考虑基于ResNet的模型（RNPN）和基于SimpleCo n v的模型（SCPN）。到目标的距离和方向被用作目标信息的模型的相应的随机基线称为RNr和SCr。RNPN和SCPN使用AllenAct的默认超参数训练3亿步公司简介ResNet18 SimpleConv ResNet18 SimpleConv训练RNONSCONRNPNSCPN在每一行），并指出是否一个单位是积极的或与概念负相关（点的颜色随机RNrR r rON P N P N根据x轴值）。4. 实验装置我们使用 AllenAct [44] 框架在 AI2THOR [20] 内的iTHOR房间中为任务O BENGINAV和POINTNAV任务训练模型对于这两个任务，我们使用4.3. 人类轨迹在训练了OBJECTINAAV和POINTNAV模型之后，我们收集了用于训练和验证室的人类采样轨迹。训练轨迹包含59个事件，平均事件长度为480，而验证轨迹包含42个事件，平均事件长度为480。GRU单位GRU单位价值SC610281××a)目标单位d）b）、c）、可达性单位图5. 隐藏单元的可视化。a）目标可见度单元：预测目标距离的前4个最相关的单元。b）左侧的条形图显示了单元10（目标单元）的响应。中间的图像是代理的当前观察。右边的极坐标图显示了代理与目标之间的距离（以米为单位）和方向（以度为单位）。在这种情况下，智能体距离目标约3米，定向约为0度。10号机组的反应是否定的。c）在这种情况下，代理现在更接近目标（大约1米），并且单元10（目标单元）的响应是肯定的。d）可达性单元：前4个最相关的隐藏单元，以预测在距离2gridSize和θ 0处的可达性。 e）左侧的条形图示出了单元402（可达性单元）的响应。右边的极坐标图显示了在半径为2、4、6的gridSize和给定的方向（以度为单位）处，是否可达。在这种情况下，前面的所有位置都是绿色的，即可到达。单元402的响应是否定的。f）前面的所有位置都是红色的，即无法到达。单元402的响应是肯定的。长度470鼓励受试者通过故意碰撞完全探索房间，并访问先前访问过的位置，事件长度上限为500。所有8个模型都被迫遵循这些轨迹。提取相应的元数据和GRU活动，得到28，000个训练样本和20，000个用于GBT训练的验证样本。5. 结果5.1. 奥本纳AVOBJECTINAAV模型的验证性能RNON（成功=0.458，SPL=0.23 ）显著优于 SCON（成功 =0.124 ，SPL=0.056）。这里，成功率表示智能体成功完全达到目标的事件的分数，SPL指的是通过[2]中引入的路径长度加权的成功我们认为概念是-从与目标信息（Rt、θt、可见t、区域t）、可达性（Rr θ角度，其中r是半径，角度是相邻网格点w.r.t.代理）、代理元数据预测：我们训练GBT来预测来自G R U单元的元数据.我们观察到RNON 预测可达性比其他三个OBJECTI-NAV模型好得多（图4a），对于前方可达性（R2 θ 000），相关性为0.45，ROC AUC=0.75。我们还观察到一个有趣的模式，即当从0（智能体的前面）移动到180（后面）度时，可达性的预测下降，然后它开始从180度增加到330度，这表明前面位置的可达性比智能体后面更可预测。在图4a中，我们展示了半径=2×网格大小的可达性结果。对于半径=4×网格大小和半径=6×网格大小，我们观察到类似的模式（参见附录B）。e）、f）的710282PN×PN图6. 从RNON中恢复单位的影响。对于目标信息（Rt，θt，面积t，可见光t）RNON显示一希格尔相关性比的其他三个模型（图4b）。访问历史（访问l，访问lr，访问lrh）也显示了RN O N的更高相关性（图4c）。智能体的信息（Ra，θa）不能很好地模型显示了类似于基线的相关性，表明代理在训练期间没有学习到该信息（参见附录B）。总的来说，我们观察到RNON从O BAUNAT AV训练中学习可达性、目标相关信息和访问历史。这表明这三个特征对于执行此任务非常关键。虽然我们只给出了四个概念的结果，但我们也考虑了碰撞，但发现对所有4个模型的预测都很差（参见附录B）。隐藏单元可视化：为了识别哪些隐藏单元与上述概念相关，我们将SHAP应用于两个最有趣的概念（可见t和R2θ000）。在图5a中，我们显示了在预测目标可见性方面最相关的前4个单元在绘制单元10的SHAP图（图5 a）时，我们看到，当单元值较高时，它对目标可见性有积极影响，反之亦然，这表明当目标可见时，单元值较高（关于单元上的总SHAP值，请参见附录E）。极坐标图显示了代理的轨迹（图5 b，c），蓝线表示轨迹，绿点表示代理的当前位置wrt目标。条形图显示RNN单元这里，目标是一个碗;当代理远离目标时，它的响应是负的（图5b），当它更接近时，它的响应是正的（图5c）。这些结果还表明，该单位可能与目标能见度呈正相关在图5d中，我们显示了在预测R2θ000时最相关的前4个单位（关于各单位的总SHAP值分布，请参见附录E）。通过观察402单元的SHAP图（图5d），我们可以看到，当单元在图5e、f中，点位于距药剂的半径=2、4、6步长处，并且以30°的步长以从0到330 °的角度定位，其中0是药剂的前部。点颜色指示位置是否可达（绿色）或不（红色）。这里，当智能体前面的位置可到达时，单元这些结果表明，该装置可能正在探测前方的障碍物。单元消融：虽然SHAP提供了一种量化隐藏单元对特定元数据概念预测的影响的方法，但它并不意味着因果关系。为了确定因果关系，我们执行消融并测量对评价指标的影响我们删除了与可见 t和R2θ000预测相关的单位，并从SPL、成功率和发作长度方面衡量了对模型性能的影响我们将消融结果与随机选择的单位作为基线进行比较为了移除一个单元，我们将该单元在图6中，我们观察到，与删除多达50个随机单元或编码可达性的单元相比，仅删除10个目标单元会导致SPL大幅下降。当我们移除更多的目标单位时，成功率也开始下降。这表明，目标单元是至关重要的，并且首先移动它们会使代理识别目标的能力变差，从而导致更长的发作和低SPL评分，并且超过某个点，代理成功的能力移除可达性单位也会导致SPL下降，但影响不像目标单位那样剧烈有趣的是，移除可达性单元会导致成功率的增加，这可能是由于探索的增加。删除随机选择的单元不会显著影响任何性能指标。5.2. POINT NAV与O BENGINN AV类似，我们为POINTNAV模型选择了5000万步后的检查点。RNPN（成功= 0.925，SPL = 0.755）和SCPN（成功= 0.878，SPL =0.712）在这项任务中非常成功。我们考虑从元数据中导出的概念，这些概念与目标信息（Rt，θt）、可达性（Rrθangle，其中r是半径，angle是相邻网格点相对于agent的方向）、agent元数据预测：我们训练GBT来预测来自GRU单元的元数据。我们首先从图7a（左）中观察到另一个值得注意的有趣的事情是，甚至没有在 POINTNAV 任务（RNr和SCr）上训练的模型可以预测可达性。这个结果与OB-N-AV相比是令人惊讶的，在OB-N-AV中，唯一能很好地预测可达性的模型是在 OB-N-AV 任务（RNON）中表现良好的模型。此外，RNON仅从智能体的角度预测可我们对上述结果的直觉是，这可能是由于GPS +指南针传感器提供的距离的710283PNa）、POINTNAV（目标+视觉）POINTNAV（视觉）POINTNAV（目标）b）POINTNAV（目标+视觉）c）POINTNAV（目标+视觉）图7. 通过POINTNAVGRU单元进行元数据预测：a）可达性b）目标信息和c）代理信息图8. 从SCPN恢复单位的影响。以及目标的方位为了区分视觉传感器和GPS传感器的预测，我们进行了一项消融研究，在一种情况下，我们将GPS传感器的输出替换为随机噪声（仅视觉;图7中），在另一种情况下，我们将图像替换为全零（仅GPS;图7右）。在仅视觉的情况下，我们现在观察到类似于OBJECTINAAV的模式，其中视野中的可达性比视野外更可预测。然而，重要的是要注意，可达性的预测并没有随着训练RNPN而改善，这表明具有ImageNet权重的ResNet足以预测求解所需的可达性。POINT NAV.然而，SCr似乎不能像SCPN 那样有效地预测前方可达性（R2θ000），这表明随机初始化不足以预测求解POINTNAV所需的可达性。在仅目标的情况下，我们观察到，与视野中的角度相比，代理的背面的可达性更可预测。对此的一个可能的解释是，当目标和代理之间的距离在给定步骤中改变时，这意味着后面的位置是可到达的，因为代理在前一步中就在那里。因此，在某些情况下，可以使用GPS传感器值的变化来预测后方的可达性。当GPS传感器可用于所有型号时，目标距离和方向是可预测的（图7b和附录C）。这一发现是预期的，因为我们提供了这些信息作为输入，当GPS传感器是噪声时，它无法预测（参见附录C）。有趣的是，当GPS传感器可用时（图7c和附录C），经过训练的POINT NAV模型中的隐藏单元可以预测智能体（Ra）与初始产卵地点的距离第当使用SHAP方法来寻找预测Ra的相关单元时，我们观察到，最相关的单元在事件的几乎每一步都具有恒定值（参见附录D），并且在其输出中显示出非常低的方差。在进一步的检查中，我们发现，前20个最相关的单位为Ra预测的2个单位也相关的目标距离Rt预测。为了预测Ra，GBT可能使用恒定单元和编码目标信息的单元的组合。单位消融：与O BENGINAV相似，我们通过移除单位并测量对指标的影响来执行消融。如图8所示，删除随机和可达性单元对性能几乎没有影响。即使在删除50个单元后，我们也观察到所有三个指标的相似性能。去除与预测Ra相关的单元会导致性能的显著下降，并且在下降50个单元时，SPL和捕获率几乎都达到零。情节长度也达到任务定义中设置的最高可能值（500），即如果代理采取500步，情节结束进一步分析发现，在前50个Ra单位中，有6个单位来自前50个Rt单位。这是POINT NAV性能随着目标距离信息丢失而下降的关键原因。我们进一步进行了消融，仅取出了这6个靶单位，导致了急剧下降。6. 结论我们建议iSE调查有关代理，环境和任务的概念编码在隐藏的代表体现代理。虽然我们专注于在AI 2-THOR中训练的视觉导航代理，但该框架是通用的，可以应用于在任何虚拟环境中训练任何任务的代理，并提供相关的元数据。我们的分析表明，OBJECTINAAV代理编码的目标方向，可达性和访问位置的历史，以避免障碍物和访问相同的位置重复。POINTNAV代理编码目标方向及其朝向目标的进展，并且显示出对视觉信息的依赖性较小710284引用[1] 树解释器。 h t t p s ： //github.com/andosa/treeinterpreter. [2021年11月访问]。2[2] 彼得·安德森天使X Chang，Devendra Singh Chaplot，Alexey Dosovitskiy，Saurabh Gupta，Vladlen Koltun，Jana Kosecka ， Jitendra Malik ， Roozbeh Mottaghi ，Manolis Savva，and Amir Roshan Zamir.论具身导航代理人的评价。arXiv，2018年。一、二、三、六[3] Peter Anderson，Qi Wu，Damien Teney，Jake Bruce，MarkJohnson，NikoSünderhauf，IanReid，StephenGould，and Anton Van Den Hengel.视觉和语言导航：在真实环境中解释基于视觉的导航指令在CVPR，2018年。1[4] Sebastia nBa ch ， Ale xanderBinder ， Gre' goireMontavon，FrederickKlauschen，Klaus-RobertMüller ，andWojciechSamek.通过逐层相关传播对非线性分类器决策的PloS one，2015。2[5] Dhruv Batra天使X Chang，Sonia Chernova，Andrew J.Davison，Jia Deng，Vladlen Koltun，Sergey Levine，Jitendra Malik ， Igor Mordatch ， Rooseveh Mottaghi ，Manolis Savva，and Hao Su.重排：对嵌入式AI的挑战。Arxiv，2020年。1[6] Dhruv Batra、Aaron Gokaslan、Aniruddha Kembhavi、Olek-sandr Maksymets 、 Roozbeh Mottaghi 、 ManolisSavva 、 Alexander Toshev 和 Erik Wijmans 。 Objectnavrevisited ：关于对导航到对象的具体代理的评估。Arxiv，2020年。二、三[7] David Bau，Bolei Zhou，Aditya Khosla，Aude Oliva，and Antonio Torralba.网络解剖：量化深层视觉表征的可解释性。在CVPR，2017年。一、二[8] Devendra Singh Chaplot，Dhiraj Prakashchand Gandhi，Ab-hinav Gupta，and Russ R Salakhutdinov.使用面向目标的语义探索的对象目标在NeurIPS，2020年。3[9] Prithvijit Chattopadhyay，Judy Hoffman，Rooseveh Mot-taghi ， and Aniruddha Kembhavi. Robustnav ： TowardsBenchmarkingRobustnessinEmbodiedNavigation.ArXiv，abs/2106.04531，2021。3[10] Changan Chen，Ziad Al-Halah，and Kristen Grauman.视听导航。在CVPR，2021年。3[11] 杜鹤鸣、新宇、梁正。学习对象关系图及可视化导航的初步策略。在ECCV，2020年。3[12] Kiana Ehsani ， Winson Han ， Alvaro Herrasti ， EliVanderBilt ， Luca Weihs ， Eric Kolve ， AniruddhaKembhavi，and Rooseveh Mottaghi.Manipulathor：一个视觉对象管理框架。在CVPR，2021年。1[13] Dumitru Erhan 、 Yoshua Bengio 、 Aaron Courville 和Pascal Vincent。可视化深度网络的高层功能蒙特利尔大学，1341（3）：1，2009。2[14] 露丝·方和安德里亚·维达尔迪Net2vec：量化和解释深度神经网络中的过滤器如何编码概念在CVPR，2018年。一、二710285[15] Amirata Ghorbani，James Wexler，James Y Zou，andBeen Kim.基于概念的自动解释。NeurIPS，2019。2[16] Gabriel Goh、Nick Cammarata <$、Chelsea Voss <$、Shan Carter、Michael Petrov、Ludwig Schubert、AlecRadford和Chris Olah。人工神经网络中的多模态神经元。蒸馏，2021年。2[17] Yash Goyal，Amir Feder，Uri Shalit，and Been Kim.具有因果概念效应的解释量词。arXiv，2019年。2[18] Unnat Jain、Luca Weihs、Eric Kolve、Ali Farhadi、Svetlana Lazebnik 、 Aniruddha Kembhavi 和 AlexanderSchwing。一个亲切的同步：超越边际政策的多代理体现的任务.在ECCV，2020年。1[19] Been Kim，Martin Wattenberg，Justin Gilmer，CarrieCai ， James Wexler ， Fernanda Viegas ， etal.Interpretability be-yond feature attribution ：Quantitativetesting with concept activation vectors （ tcav ） . 在ICML，2018。2[20] Eric Kolve 、 Roozbeh Mottaghi 、 Winson Han 、 EliVanderBilt 、 Luca Weihs 、 Alvaro Herrasti 、 DanielGordon、Yuke Zhu、Ab-hinav Gupta和Ali Farhadi。AI2-THOR：一个用于视觉AI的交互式arXiv，2017. 一、二、五[21] Chih kuan Yeh，Been Kim，Sercan Arik，Chun-LiangLi，Pradeep Ravikumar，and Tomas Pfister.深度神经网络中基于概念的完整性感知解释。在NeurIPS，2020年。2[22] Juncheng Li，Xin Wang，Siliang Tang，Haizhou Shi，Fei Wu，Yueting Zhuang，and William Yang Wang.用于嵌入式导航的可转移元技能的无监督在CVPR，2020年。3[23] 斯科特·M放大图片创作者：Michael M. Prutkin，BalaNair ， Ronit Katz ， Jonathan Himmelfarb ， NishaBansal，and Su-In Lee.从局部解释到对树木的可解释人工智能的整体理解自然机器智能，2020年。一、二、四、十一[24] Scott M Lundberg和Su-In Lee。解释模型预测的统一方法。NeurIPS，2017。2[25] ManolisSavva* ， AbhishekKadian* ， OleksandrMaksymets* ， Yili Zhao ， Erik Wijmans ， BhavanaJain，Julian Straub，Jia Liu，Vladlen Koltun，JitendraMalik ， Devi Parikh ， and Dhruv Batra. Habitat ： APlatform for Embodied AI Research.在ICCV，2019年。一、二[26] Bar Mayo、Tamir Hazan和Ayellet Tal。视觉导航与空间注意力。在CVPR，2021年。3[27] Arsalan Mousavian，Alexander Toshev，Marek Fisˇer，Jana Ko sˇ eck a´，AyzaanWahid，andJamesD a vidson. 用于语义目标驱动导航的视觉表示。在ICRA，2019年。3[28] Anh Nguyen 、 Alexey Dosovitskiy 、 Jason Yosinski 、Thomas Bro

下载后可阅读完整内容，剩余1页未读，立即下载