EmbCLIP:高效嵌入式AI的视觉骨干

12 浏览量更新于2023-10-25 收藏 1.99MB PDF 举报

简单有效

嵌入式AI

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

14829简单但有效：用于嵌入式AI的 CLIP嵌入Apoorv Khandelwal*Luca Weihs*Rooseveh Mottaghi Aniruddha KembhaviAllen人工智能{apoorvk，lucaw，rooorhm，anik} @ allenai.org摘要对比语言图像预训练（CLIP）编码器已被证明对从分类和检测到字幕和图像处理的一系列视觉任务是有益的。我们研究了CLIP视觉骨干对人工智能任务的有效性。我们构建了非常简单的基线，名为EmbCLIP，没有特定任务的架构，归纳偏差（例如使用语义映射），训练期间的辅助任务或深度映射，但我们发现我们改进的基线在一系列任务和模拟器中表现非常好。 EmbCLIP 以 20 分的巨大优势（成功率）在RoboTHOR ObjectNav领先榜上名列前茅。它在iTHOR1-Phase Rearrangement排行榜上名列前茅，击败了使用Active Neural Map- ping的下一个最佳提交，并且将% Fixed Strict指标增加了一倍多（0.08至0.17）。它还击败了2021年Habi- tat ObjectNav挑战赛的获胜者，该挑战赛采用了辅助任务，深度图和人类演示，以及2019年Habitat PointNav挑战赛的获胜者。我们评估了CLIP的视觉表示在捕获有关输入观测的语义信息方面的能力-对导航繁重的具体任务有用的原语-并发现CLIP的表示比ImageNet预训练的骨干更有效地编码这些原语。最后，我们扩展了我们的一个基线，产生一个能够进行零拍摄对象导航的代理，该代理可以导航到在训练期间未用作目标的对象。我们的代码和模型可在 https://github.com/allenai/alleed-clip上找到。1. 介绍CLIP系列神经网络在一系列视觉识别任务中产生了令人印象深刻的结果，包括在ImageNet上惊人的零射击性能，与完全监督的ResNet- 50模型的准确性相匹配[22]。毫不奇怪，视觉表现亲-*同等贡献图1.我们展示了强大的视觉编码器对于复杂的AI任务很重要。我们考虑了四个导航繁重的任务，并展示了基于CLIP的编码器比在ImageNet上训练的ResNet架构提供了巨大的收益。更有趣的是，仅使用RGB图像作为输入，它们的性能优于采用深度图像，地图和更复杂架构的方法。由CLIP提供的技术现在也被证明可以在其他计算机视觉任务中提供改进，例如开放词汇对象检测[11]，图像字幕，视觉问题回答和视觉蕴涵[27]。在这项工作中，我们调查的有效性CLIP的视觉表示在该领域的具体人工智能的任务人工智能任务涉及学习导航和与环境交互的代理。Shen等人。 [27]证明了CLIP功能可以提供沿着导航图的指令增益：一个代理使用语言指令（如走过钢琴）遍历图的任务。基于这一结果，我们提供了一个彻底的调查剪辑供电的EM-SPL生境目标Nav最短路径1 m （测地距离）成功领域目标对象的中心导航对象可见的点0.10.080.050.050 ImgNet CLIP0.90.870.850.820.80.75ImgNet CLIPHabitat PointNavImgNet CLIP00.20.170.1零点零七房间重新安排ImgNet CLIP00.20.20.150.1RoboTHOR ObjectNavSPLSPLFS14830具体的人工智能模型的任务要求代理使用低级别的指令（如向前移动，转弯，向下看，拿起），以采取步骤，在一个场景和互动的对象。这些任务，包括对象目标导航[3]和房间重排[2]，本质上是导航繁重的。因此，在这些任务中，观察的视觉表示必须不仅对识别类别有效，而且对编码图元（如可行走表面、自由空间、表面法线和几何结构）有效。我们使用CLIP ResNet-50视觉编码器构建了一系列简单的基线。我们的具身代理输入CLIP表示的观察结果是冻结的，没有为手头的任务进行微调。这些表示与目标规范相结合，然后传递到一个回流神经网络（RNN）单元以提供记忆。线性层将RNN的隐藏激活转换为代理动作的分布这些简单的基线具有非常少的任务特定设计选择，不使用深度图（其通常被认为是良好结果的关键），不使用空间或语义图，并且在训练期间不使用辅助任务。然而，如果没有这些已经被经验证明有效的设计选择，我们简单的基于CLIP的基线非常有效-在AI 2-THOR环境中的对象目标导航和房间重新布置任务的两个排行榜中名列前茅，并且在2021年的对象目标导航和2019年的点目标导航中超越了人居模拟器挑战赛的获胜者。这些结果是令人惊讶的，并表明CLIP的视觉表征是强大的，编码的视觉原语对下游的人工智能任务是有用的。事实上，我们发现CLIP特别是，CLIP我们分析了4个视觉编码器（2个在ImageNet上预训练的ResNet模型和2个用CLIP预训练的ResNet模型），并使用它们来训练4个对象目标导航代理。然后，我们研究了ImageNet Top-1准确率和目标导航成功率之间的相关性。我们发现，ImageNet的准确性本身并不能很好地反映编码器是否适用于人工智能任务，而探测其语义和几何信息的然而，我们的结果确实表明，智能AI代理可以继续受益于更好的视觉编码。最后，我们在一个简单的架构中使用CLIP导航，导航选通到在训练时不是目标的对象）。我们的结果是有希望的：代理实现了大约一半的成功率为看不见的对象相比，看到的对象。他们认为，使用以语言为基础的视觉表示可以帮助构建可扩展的AI模型，这些模型不仅可以推广到新场景，还可以推广到新对象。2. 相关工作具体化的AI。现在有许多模拟器和任务在嵌入式AI中。模拟器具有照片般的真实感，模拟物理学，并实现代理与其环境之间的交互[7，8，15，16，25，26，30，36]。大场景数据集伴随着这些模拟器[4，23，36]。许多人认为-主动任务[2，3，7，8，13-虽然在理想传感器的存在下，点目标导航任务[35]取得了快速进展，但大多数其他任务仍然具有挑战性。AI中的视觉编码器。由于大型模型的效率低下，大多数先前的工作使用轻量级CNN或ResNet模型作为嵌入式AI任务中的视觉编码器。当关注采样或计算效率时，情况尤其如此。已经进行了广泛的实验，以比较简单CNN与ResNet-18在这种低样本/计算制度[34]中用于Habitat [25]的点目标导航尽管使用更大的ResNet视觉编码器为Em- bodied AI进行的实验提供了一些证据，els可以稍微提高下游性能，还有有趣的证据表明，使用ImageNet-预训练的权重可能会损害下游向新任务的转移[35]（例如，当使用迁移学习来利用针对点目标导航训练的模型执行探索时）。CLIP和基于CLIP的模型。CLIP这些表示在视觉语言任务中也是有效的，例如VQA和视觉蕴涵[27]。CLIPCLIP也被证明在视频任务中是有效的，特别是基于文本的视频检索[9，17，21]。最后，CLIP已用于像素生成任务，包括用于StyleGAN图像操作的基于文本的界面[20]和基于自然语言输入的合成新图纸[10]。在人工智能领域，CLIP已与Transporter [38]网络一起使用，以解决语言问题。14831× ×--× ×× ×× ×× ×× ×∈夹法模型查找笔记本电脑环境图2. 模型概述。我们所有的模型都使用这里所示的相同的高级架构，其中模型（采用RNN）从视觉编码器，任务定义和先前的隐藏单元接收特征作为输入，并输出动作。指定的桌面任务，如包装物体和折叠布[28]。CLIP也被证明有助于指令遵循[27]，这需要代理沿着导航图的边缘移动。该任务要求模型通过名称和描述来识别场景中的对象和位置。在这一成功的鼓舞下，我们研究了CLIP在导航任务中的应用，这些任务需要代理使用原子动作（如向前移动，左转，拾取，放置等）。在场景中导航为了成功地做到这一点，视觉编码器不仅要识别对象，还要捕捉对深度、自由空间、表面法线等的理解我们的实验表明，CLIP是非常有效的，在这样的任务。3. 在嵌入式AICLIP [22]是最近发布的一系列图像和文本编码器，它们经过预训练，可以在对应和非对应的图像-字幕对之间进行对比虽然看起来很简单，但这个预训练任务，当在4亿图像-字幕对的规模下CLIPCLIP的视觉表现已被证明是有效的，为其他几个视觉和视觉语言的任务（见节。2）。我们研究了它们在四个导航繁重的人工智能任务中的有效性：RoboTHOR 和 Habitat 中的对象目标导航（ OBENGNAV ）， Habitat中的点目标导航（ POINTNAV ）和iTHOR中的房间重排（ROOM对于这些基准测试，我们使用其作者提供的基线实现，并用CLIP ResNet-50替换其视觉编码器（通常是浅层CNN，由此产生的基线具有非常相似的核心architec-在他们对目标描述的使用中（对象名称在OB中，坐标在POINT NAV中，等等）和视觉特征的处理。下面，我们在RoboTHOR中的OBENGINAV的上下文中描述这个核心有关其他任务的详细信息，请参阅补充材料。具体地说，RoboTHOR中的O BENGIN AV的模型接收3 224 224 RGB图像i和整数g0，...，11指示目标对象类别作为输入。通过CLIP ResNet-50模型将RGB图像编码为2048 7 7张量I，其权重被冻结，并且最终注意力池和分类层已经被移除。g用于索引（可训练的）嵌入矩阵并形成32维目标嵌入G。然后，两层CNN压缩I以形成形状为32 7 7的张量I′。矢量G被平铺成32 7 7的形状，并与I ′相协调。这个64 7 7张量通过另一个两层CNN（产生32 7 7形状）并展平以形成V：1568-dim目标条件视觉嵌入。V被传递到一个有512个隐藏单位的单层GRU中，以及任何先前的隐藏状态.然后，一个线性层将GRU输出映射到一个6维logit向量，另一个线性层将其映射到一个标量，分别形成了actor（即，政策）和批评者（即，值）头通常用于强化学习。在这项工作中，我们只考虑CLIP ResNet-50，但我们的基线可以简单地扩展到其他CLIP变体。4. CLIP什么时候有效？我们构建基于CLIP的基线（使用CLIP ResNet-50）跨多个导航繁重的任务和跨模拟器。我们将这些模型与每个任务我们在表1至表4中展示了这些排行榜1，并将我们的模型提交给了这些在线排行榜（除了2019年Habitat POINTNAV排行榜，该排行榜现已关闭）。这是一个特别令人惊讶的结果，因为其他方法需要大量额外的研究和工程努力（例如，任务特定设计或长时间的大规模分布式训练）。重要的是，我们的CLIP基线只使用RGB，而排行榜上的大多数模型也使用完美的深度信息。在每个任务中，我们还使用 ImageNet 预训练的ResNet-50训练基线代理这确保了与基于CLIP的基线w.r.t.参数计数。我们评估检查点为每个代理的最佳vali- dation集性能。在所有四个实验中，我们发现，真的。图图2显示了一般基线的示意图模型与CLIP视觉编码器。它们主要不同1截至2021年11月16日14832模型SPLSrSPL近端SR近端模型FSSrEMResNet-50（CLIP）0.200.470.200.48ResNet-50（CLIP）0.170.080.890.88ResNet-50（ImageNet）0.150.340.150.35ResNet-50（ImageNet）0.070.031.061.05(1)EmbCLIP（我们的）0.200.470.200.48(2)动作加速0.120.280.120.30···表1. RoboThor OBennettAVChallenge（2021）. 在这里，我们展示了测试成功指标：成功加权路径长度（SPL）和成功率（SR）。我们比较我们的基线代理（上图）和排行榜条目（下图）。与ImageNet相比，使用CLIP进行预训练在成功指标上有显著的提高在下文中，我们将这些基线（使用冻结的ResNet-50视觉编码器和RGB作为唯一的视觉输入）称为我们的4.1. RoboTHOR中的目标导航任务O BENGINAV需要一个智能体在它的环境中导航，并找到一个给定类别的对象。已经为模拟的RoboTHOR环境开发了O BouncNAV任务的实例[7]。在RoboTHOR OBENGINAV中，机器人代理2被放置在随机位置处的接近照片真实的家庭环境中。然后给出十二个目标对象类别中的一个（例如，apple），并且必须使用MoveAhead、RotateRight、RotateLeft、LookUp和LookDown操作导航到此对象。如果智能体采取特殊的完成操作，并且存在目标对象类别的实例，该实例对智能体可见并且在智能体的1 m范围内，则智能体成功。以前的工作。RoboTHOR O BENGINNAV面临两个挑战（2020年和2021年），以及之前使用RoboTHOR OBENGINNAV作为强化和模仿学习方法[12，32]以及研究模型鲁棒性[6]的测试平台的几项工作。我们在2021年RoboTHOR OB-BROWNAV排行榜3上展示了结果。在我们提交之前，性能最好的模型是性能我们为我们的实验修改了“RGB+D ResNet18”基线模型（如第2节所述）。3）使用DD-PPO训练我们的ImageNet和CLIP代理，以获得200 M在表1中，我们显示了模型的性能。我们的CLIP代理人大大超过-···表2. iTHOR 1-Phase Rearrangement Challenge（2021）. 我们报告了我们的基线（上面）和排行榜条目（下面）的测试集度量。形成了我们的ImageNet代理（SPL和成功率提高了1.34.2. iTHOR中的房间重新布置任务最近，人工智能领域的一个研究联盟提出，房间重新布置将成为现有模型和方法的下一个前沿挑战。ROOM R任务的一个实例已经为模拟的iTHOR环境开发[31]。这个建议的任务有1阶段和2阶段的变体，我们只专注于1阶段的设置在这项工作中。在这个1阶段任务中，代理被放置在一个房间里，每一步都有两个图像。一张图片描绘了房间的“现状”，代理人的自我中心观点。另一幅图像（从同一个角度）显示了房间笔记本电脑可以放在桌子上，在沙发上，或者橱柜可以是打开的而不是关闭的）。使用一组离散的标准导航操作（例如，MoveAhead、RotateRight等）以及更高级的语义动作（例如，PickUpX（对象类别X的PickUpX），则代理必须将环境中的对象从其当前状态重新排列到其以前的工作。我们报告2021年iTHOR重排挑战4的结果。在我们提交之前，性能最好的模型是并通过模仿学习进行训练。我们采用的第二种性能最好的方法（由iTHOR Rear- rangement作者提出）使用ImageNet预训练的ResNet-18视觉编码器，具有冻结权重，注意力模块比较图像对，以及1层GRU随时间推移整合观察结果。性能而不是依赖于语义映射形式的复杂归纳偏见，我们将我们的架构建立在第二个最好的执行方法（Ta中的“RN18 + IL”）上。2基于LoCoBot机器人（www.locobot.org）3leaderboard.allenai.org/robothor objectnav4leaderboard.allenai.org/ithor rearrangement 1阶段(1)EmbCLIP（我们的）0.170.080.890.88(2)[31]第0.090.031.041.05(3)[31]第三十一话0.060.031.091.1114833型号SPLSRSoftSPL目标距离ResNet-50（CLIP）0.080.18 0.20 7.92ResNet-50（ImageNet）0.050.13 0.17 8.69[18 ]第18话：我的世界0.220.189.17（2）第一次世界大战[19]0.21 0.17 9.20（3）网上生境（IL-HD）[24] 0.080.240.167.88（-）网络人居2021[24]0.070.21 0.15 8.26（5）赤兔2021[37]0.060.24 0.12 9.15ResNet-50（ImageNet）0.82 0.94 0.73表4. Habitat POINTNAV. 由于2019年排行榜现已关闭，我们报告了我们基线的完整验证集指标。（9）DD-PPO···0.000.00 0.01 10.326竞争性排行榜条目包括许多改进以提高性能（例如，增强场景表3.2021年，任北京市人民检察院检察长。我们报告测试-标准分裂指标为我们的基线（上）和领导板条目（下）.带上标2021的字母表示挑战赛获胜者。表2）。在我们的实验中，我们使用模仿学习训练了ImageNet和CLIP代理7000万步。我们的模型和前两个最佳基线的性能如表2所示。结果是戏剧性的：我们的CLIP 代理在用于对 ROOM R 模型进行排名的FixedStrict（FS）度量中实现了ANM模型的1.94倍改进（从9%到17%）。另一方面，我们使用ResNet-50编码器的ImageNet代理（7%FS）表现出（1）仅略好于它所基于的这表明，仅仅使视觉编码器更深是相对无效的。击败基于ANM的模型在某种程度上是值得注意的，这表明使用CLIP表示提供了比地图的归纳偏差更大的改进。4.3. Habitat中的对象目标导航任务Habitat中的O BNAV4.1），包括具有相同的动作空间和机器人代理设计。然而，Habitat使用了21个对象，并且不需要智能体查看目标对象即可成功执行事件。对于O BENGINAV挑战，Habitat使用了来自真实世界室内空间的Mat-terPort 3D [4]数据集的场景。以前的工作。O BNAV一直是2020年和2021年人居挑战的一部分。然而，在2021年的排行榜5中，基线（使用DD-PPO从头开始训练的具有ResNet-50可视化编码器的 RGB-D代理）得分0.00 SPL在测试标准集上-这种相同的方法被证明可以4.4）。即使是目前的领导者（经过两年多的参赛）也只能达到0.10 SPL，我们可以看到这项任务仍然非常具有挑战性。由于基线是无地图的，并且具有与任务无关的组件，5eval.ai/web/challenges/challenge-page/802/排行榜/21953D对象扫描[19]，预测语义片段作为额外的输入[37]，以及众包人类演示用于模仿学习[24]）。性能对于我们的实验，我们采用了“DD-PPO”基线，尽管它在排行榜上的得分非常低，并使用DD-PPO训练我们的ImageNet和CLIP代理2.5亿步。在表3中，我们显示CLIP预训练比ImageNet预训练提高了1.45倍SPL。此外，我们的CLIP代理在排行榜上排名第四，与领先的参赛者大致相当，并超过了2021年挑战赛的两位获奖者。这一点特别令人印象深刻，因为与其他条目不同，我们的代理不（1）使用深度信息，（2）需要额外的数据，如人类注释，或（3）要求特定于任务的组件。此外，我们的智能体在排行榜上的目标距离第二低，这表明它平均比大多数其他模型更接近目标，即使它比最好的模型在更少的总事件上成功。4.4. Habitat中的点目标导航任务在POINTNAV中，智能体必须从随机初始位置导航到（相对）极目标坐标。我们选择为代理商提供理想的GPS+指南针传感器（如在人居2019挑战中），因为基线代理商是无效的，很难进行比较[35]。POINT NAV中的动作空间比 OBINT NAV 中的小，并且仅包括MoveAhead、RotateRight和RotateLeft。当代理到达其目标坐标时，它应该调用Done.我们只在Gibson 3D空间数据库上训练[36]（在挑战允许的情况下）。以前的工作。先前的方法在具有理想传感器的POINTNAV上取得了快速进展6- [35]在测试标准集上实现了0.92 SPL（当仅给出RGB视觉输入时），这与我们在其他任务中看到的成功指标相比相对较高（表1至3）。并且，当提供深度并在Matterport3D [4]数据集上进行额外训练时，该相同方法在该集合上实现了0.94SPL和0.996成功率[35]，因此任务被视为该方法由任务不可知的组件组成，经过2.5亿步的训练，证明了持续改进，6eval.ai/web/challenges/challenge-page/254/排行榜/836模型ResNet-50（CLIP）SPL SR目标距离0.87 0.970.40（4）EmbCLIP（Ours）0.080.180.207.9214834×达性无法获得（一）网格上的对象存在报纸面包咖啡机（b）第（1）款对象存在报纸，面包，信用卡，马克杯，（c）第（1）款自由空间… 54 3 2 1（d）其他事项图3. 视觉编码器评估的示例。（a）上图：两个自我中心的图像，一个是面包可及的，另一个是面包不可及的;下图：两个第三人称图像，展示可及性的含义（仅用于可视化目的）。（b）对于3 × 3网格上的每个位置，模型必须预测哪些物体是可见的。(c)以多标签方式预测图像中哪些对象可见。（d）顶部：给模型的图像，它必须预测在与物体碰撞之前可以向前走多少步;底部：第三人称视角，显示在这种情况下，智能体可以在与桌子碰撞之前向前走4步通过这个训练期的步骤（尽管它在1亿步后达到总性能的90%）。性能由于“DD-PPO”代理具有任务不可知的设计，并且这种训练方法现在被普遍使用，因此我们采用它作为我们实验的基线。我们在实验中使用DD-PPO训练ImageNet和CLIP代理250 M步，并在表4中报告结果。同样，我们的 CLIP 代理优于我们的 ImageNet 代理（+0。05 SPL和+0。03成功率，距离目标减少1.8倍）。我们观察到，在训练期结束时，模型的性能仍在增加。根据Wijmans等人的研究结果。[35]，我们假设在相同的训练持续时间下，它可以超过[35我们的CLIP代理也击败了2019年的挑战赛冠军，该冠军引入了ANM [5]，+0.14 SPL。5. 为什么CLIP有效？在上一节中，我们展示了CLIP表示在多个具体任务中非常有效，特别是与ImageNet对比时。我们希望就为什么会出现这种情况提出一些见解为此，我们设计了一系列实验，以测量ImageNet和CLIP预训练模型的视觉表示对以下语义和几何原语的编码效果：对象存在、对象在某个位置的存在、对象可达性和自由空间。我们认为，有效地编码这些原语的视觉表示将导致更有能力的人工智能代理，特别是考虑到我们正在研究的4项任务的性质对于这些原语中的每一个，我们训练简单（线性）分类器从图像特征预测感兴趣的结果（使用ResNet-50编码器，使用ImageNet或CLIP进行预训练）。见图3、这些任务的例子我们的结果总结在表5中，表明在CLIP表示上训练的分类器在这些任务中的每一项上都优于在ImageNet表示上训练的分类器对象本地化显示出非常大的改进（+6.5绝对和+16%相对改善）。在观测中定位对象对于两个OBENGINENAAV任务以及ROOM R任务是有用的。这些结果支持我们在第二节中看到4：它们表明CLIP特征原生地编码与导航和类似的体现技能相关的信息。为了实现上述评估，我们生成了一个包含iTHOR场景中对象的帧的小数据集。在iTHOR中，有4种房间类型（厨房、起居室、卧室和浴室），每种类型有20个火车、5个火车和5个测试场景。由于浴室很小，我们排除了这种类型，总共留下60个火车，15个val和15个测试场景。我们在每个训练场景中采样100帧，在每个val/test场景中采样50帧（来自随机位置和方向）。我们还为每个任务对应的每个帧生成地面实况数据（详细信息如下），其中元数据在iTHOR中可用。对于这个数据集中的每一帧，我们使用带有CLIP或ImageNet预训练的ResNet-50提取卷积特征，并将它们池化到嵌入中。在每个训练步骤中，我们使用单个线性层对它们进行分类，并使用地面真实数据进行监督。我们使用128的批量大小，Adam优化器和0.001的学习率进行训练。我们评估每个模型提供免费面包14835×××× ×××××}{≥ImageNet可达性夹平均值0.677夹子注意力0.668ImageNet平均值0.2870.60.50.40.30.20.10ResNet50夹ResNet50x16夹ResNet18ResNet50ImageNetImageNet0.65 0.7 0.75 0.80.85准确度（ImageNet）自由空间CLIP平均值0.315夹子注意力0.257图4.使用ImageNet或CLIP预训练的ResNet模型的ImageNet准确度比较O Bennett AV成功率。表5. 视觉表示是否对基元进行编码？我们在第二节中报告了实验的测试集分数。五、我们计算对象存在和对象定位的F1分数，以及可达性和自由空间的准确性。在我们的测试集上。合并。我们使用两种方法将由ResNet-50编码器创建的2048 7 7特征注意：“对象本地化”的池化略有不同，如下文相应部分所述。平均：我们平均池我们的conv。从7 7到11并且平坦化，导致2048-dim嵌入。注意力：我们使用注意力池机制，CLIP生成1024-dim嵌入。这仅适用于CLIP模型的特征，并且该模块在我们的实验中没有进一步训练。物体的存在。在这个任务中，我们训练我们的模型来预测给定图像中是否存在物体。见图3c.这个任务并不是通过物体检测就可以解决的，因为我们图像中的物体可能非常小（例如，只有几个像素宽）--类似于在对象导航的具体化任务中，我们的分类器需要指示对象是否可能在前面出现，即使它不是明确可见的。我们选择了一组52个对象类别，因此线性层的输出维度为52。我们在该分类器的输出上应用Sig-moid激活以产生独立的类概率o =（o0，. - 是的- 是的 51）其中oi>0。5表示存在类别i图像中的某个地方我们用一个二进制的交叉熵损失对象定位。这个任务与上面的“对象存在”非常相似，使用相同的52个对象类别。我们将图像划分为3 × 3的矩形网格，模型现在必须预测每个网格部分中是否存在对象（见图3b）。关于物体的空间信息与导航任务高度相关（例如ObjectNav），因为这应该帮助代理定向他们的视觉和运动。我们平均池我们的卷积特征从77到3 3（即，对应于每个网格部分），而不是11。这里我们也忽略CLIP特性在训练过程中，我们卷积这些具有从2048到52个通道的11内核的特征（即，对象的数量）-该卷积相当于单个线性层。我们应用Sigmoid激活，然后在每个网格部分中有每个对象存在的指示器。我们的预测是监督与二进制交叉熵损失。可达性。在这个任务中，我们训练我们的模型来预测智能体是否能够从当前的姿势中伸出手来捡起某种类型的物体（见图2）。（见第3a段）。这种技能特别适用于像ManipulaTHOR [8]中的Arm- PointNav这样的具体任务，该任务涉及用机器人手臂拾取和移动物体。当存在时对象是否可达）。我们的线性层相应地具有57的输出维度，并且我们对其输出应用Sig-moid激活以产生独立的类概率。在训练过程中，我们对所有训练图像集中的每个对象进行遍历，并使用二进制交叉熵损失（在该对象是否确实可达与该对象类的模型自由空间。在这个任务中，我们训练我们的模型来预测一个智能体在以自我为中心的情况下可以向前移动多少步（以0.25米为增量）。第3d段）。确定前面的可用空间量对于代理计划移动到哪里以及如何避免冲突非常重要。我们将其设计为类c = 0，. - 是的- 是的，9，10，因此线性层的输出维度为11。我们对该分类器的输出应用Softmax激活，产生概率，并通过分类交叉熵损失来监督这些概率6. ImageNet的性能与人工智能的成功相关吗？我们在SEC的分析。4显示使用CLIP编码器在一套基准测试中提供了很大的增益现在，我们要问：当下一代网络构建时，我们如何选择合适的视觉编码器精度高成功（ObjectNav）任务预训练池化评分ImageNet平均0.502对象存在夹平均0.530夹关注0.529ImageNet平均0.387对象本地化CLIP平均0.452平均0.63814836L型夹1024*+1024 法224 x 224 x 31024512CLIPV1024GRU512ℎ��环境日本+1“Navigate【篮球】看不见的物体方法全部全部苹果篮球室内植物电视随机0.0160.02 0.0130.0070.0470.013我们0.1700.081零点一四七0.0670.0530.060表6. 零射击成功率为OBENSENAV。我们报告8个看到的和4个看不见的对象在验证场景的指标。图5. 零拍摄OBENGINNAV模型架构。该模型具有非常少的可学习参数，包括GRU，演员（1024→6线性层）和评论家（1024→1线性层）。在ImageNet上足以预测人工智能任务的高成功率？为了回答这个问题，我们使用了4个预训练的视觉编码器，并使用它们中的每一个来训练OBennettAV我们对每一个都使用相同的架构，如第2节所述。3 .第三章。我们使用的四个编码器是：在ImageNet上预训练的 ResNet-18 和ResNet-50 ，以及通过CLIP 预训练的ResNet-50和ResNet-50 x16。图4示出了OBJECTINAAV成功率（测试）与ImageNet Top-1准确度的图。在ImageNet模型中，更大的模型可以提高Top-1准确率，也可以提高成功率，但成功率的提高很小。在CLIP模型中也是然而，ImageNet和CLIP模型之间的成功率增益更大。当我们考虑相同的架构（ResNet-50）时，更高的Top-1准确度并不会导致更高的成功率。这些结果和我们的探测实验（Sec. 5）认为人工智能仍然受到视觉编码器的限制，似乎只有通过改进视觉编码才有改进的空间然而，我们必须探索语义和几何信息的视觉表示;继续前进，仅仅看ImageNet7. 讨论局限性。我们在实验中使用了冷冻脊椎骨。开发强大的训练技术来更新骨干，同时完成任务是一个有趣的探索方向。这项工作的另一个限制是，我们的编码器是用视觉和文本信息训练的。在表征学习过程中重复交互动作可能会导致更丰富的表征。零射击O BENGTONAV.我们被CLIP零炮图像分类正如我们所看到的，CLIP为具体环境中的观察产生了有意义的视觉表示（第二节）。5），我们希望OBENGINAV代理可以使用通过CLIP文本编码器编码的对象目标进行学习。我们在RoboTHOR中使用DD-PPO和图中的简单基线模型五、该模型具有非常少的可学习参数，并且完全基于CLIP表示作为输入进行操作。我们在12个对象中的8个上进行训练，并在表6中显示了可见和不可见对象的评估结果在可见的物体上，该代理实现0.17的成功率，而在不可见的物体上，它实现0.08-大约一半。这是一个有趣的结果，特别是当人们考虑到所使用的模型的简单性和与本文和排行榜中的其他模型在6000万集的情况下，智能体在训练场景中实现了0.45的成功率，因此我们希望这个模型能够不断改进。这是一个很好的第一步，未来的工作应该建立在这一结果的基础上，探索可以提高零射击性能的架构和训练策略。进一步考虑。我们的研究为今后的工作提出了几个非常有趣的问题。特别是，由于CLIP对比学习或数据的多样性是CLIP整体有效性背后的原因吗我们想知道CLIP的训练文本的分布是否可能不鼓励学习强几何先验，这对于导航和确定自由空间是有用的。这可能会激发未来CLIP风格模型添加明确的几何目标最后，我们也感兴趣的CLIP功能的稀疏性可能编码更高级别的导航原语。结论我们展示了CLIP表示在导航繁重的人工智能任务中的有效性，甚至在某些挑战中击败了专门的架构。为了诊断CLIP的有效性，我们研究了这些表示对导航任务的相关原语进行编码的效果，发现CLIP模型优于ImageNet模型。最后，我们还利用CLIP来实现零拍摄O BENGINNAV的初始基线。我们期待着令人兴奋的未来调查改进的可视化代表体现代理，以及进一步的进展零杆O BENGINNAV任务。14837引用[1] Yubing Bai，Sixian Zhang，Weijie Li，Xinhang Song，and Shuqiang Jiang. 机器人挑战行动推进。https：//github.com/964728623/robothor_challenge_objnav21. 4[2] Dhruv Batra，Angel Xuan Chang，S. Chernova，AndrewJ. Davison，Jun Deng，Vladlen Koltun，Sergey Levine，Jitendra Malik ， Igor Mordatch ， Rooseveh Mottaghi ，Manolis Savva，and Hao Su.重排：嵌入式人工智能的挑战。Arxiv，2020年。二、四[3] Dhruv Batra、Aaron Gokaslan、Aniruddha Kembhavi、Olek-sandr Maksymets 、 Roozbeh Mottaghi 、 ManolisSavva 、 Alexander Toshev 和 Erik Wijmans 。 Objectnavrevisited ：关于对导航到对象的具体代理的评估。Arxiv，2020年。2[4] Angel Chang、Angela Dai、Thomas Funkhouser、MaciejHal- ber 、 Matthias Niessner 、 Manolis Savva 、 ShuranSong、Andy Zeng和Yinda Zhang。Matterport 3d：从室内环境中的rgb-d数据中学习。在3DV，2017年。二、五[5] Devendra Singh Chaplot ， Dhiraj Gandhi ， SaurabhGupta，Abhinav Gupta，and Ruslan Salakhutdinov.学习使用主动神经系统探索。在ICLR，2020年。四、六[6] Prithvijit Chattopadhyay ， Judy Hoffman ， RoosevehMottaghi，and Ani Kembhavi.Robustnav：面向嵌入式导航的鲁棒性基准测试。ICCV，2021。4[7] Matt Deitke，Winson Han，Alvaro Herrasti，AniruddhaKem-bhavi ， Eric Kolve ， Roosevh Mottaghi ， JordiSalvador ， Dustin Schwenk ， Eli VanderBilt ， MatthewWallingford，Luca Weihs，Mark Yatskar和Ali Farhadi。RoboTHOR：一个开放的模拟到真实的嵌入式AI平台。在CVPR，2020年。二、四[8] Kiana Ehsani ， Winson Han ， Alvaro Herrasti ， EliVanderBilt ， Luca Weihs ， Eric Kolve ， AniruddhaKembhavi，and Rooseveh Mottaghi.ManipulaTHOR：一个视觉对象操作框架。在CVPR，2021年。二、七[9] 韩芳，熊鹏飞，徐鲁辉，陈宇。Clip2video：通过图像剪辑掌握视频文本检索。arXiv，2021。

下载后可阅读完整内容，剩余1页未读，立即下载