无模式识别：代理以感知物体为目标进行移动

67 浏览量更新于2023-10-12 收藏 1.25MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2040无模式识别：学习移动以感知物体杨建伟1 <$任志乐1 <$徐铭泽2陈鑫磊3DavidJ.Crandall2Devi Parikh1，3Dhruv Batra1，31佐治亚理工学院2印第安纳大学3Facebook AI Research摘要被动视觉系统通常无法识别非模态设置中的对象，在那里它们被严重遮挡。相比之下，人类和其他具体的代理人有能力在环境中移动，并积极控制视角，以更好地理解对象的形状和语义。在这项工作中，我们介绍了嵌入式 AmodelRecognition （ AmodelRecognition）的任务：代理在接近被遮挡目标对象的3D环境中被实例化，并且在环境中自由移动以执行对象分类、非模态对象定位和非模态对象分割。为了解决这个问题，我们开发了一个新的模型，称为隐藏掩码R-CNN，用于智能体学习策略性移动，以提高其视觉识别能力。我们使用室内环境模拟器进行实验。实验结果表明：1）具有具体化（运动）的智能体比被动的智能体获得更好的视觉识别性能; 2）为了提高视觉识别能力，智能体可以学习不同于最短路径的策略路径。1. 介绍视觉识别任务，如图像分类[29，31，39，57]，对象检测[23，24，47- 49 ]和语义分割[ 42，66，67 ]已经得到了广泛的除了识别物体的语义和可见部分的形状之外，感知被遮挡物体整体的能力（称为非模态感知）也很重要以桌子（红色边界框）在左上角的图。1为例。非模态预测（图右上）1）可以告诉我们深度排序（即，桌子在墙后），遮挡的范围和边界，甚至是物理尺寸的估计[36]。更有趣的是，它们帮助智能体理解客体恒存性，即客体具有范围，并且当它们被遮挡时不会停止存在[6]。“前两位作者贡献相当。图1：无模式识别的任务：智能体在3D环境中靠近被遮挡的目标物体产生，并执行非模态识别，即，预测目标对象的类别、非模态包围盒和非模态掩码。智能体可以自由移动以聚合信息，从而更好地进行非模态识别。近年来，物体识别和非模态感知的主要范式是基于单个图像的。尽管利用了深度学习的进步，但视觉系统在存在严重遮挡的情况下无法从单个2D图像中识别对象及其形状。例如，在非模态感知中，现有的工作要求模型隐式地学习对象的3D形状以及该形状到图像中的投影[19，40，70]。这是一个纠缠的任务，因此深度模型容易过度拟合数据集中的细微偏差[22]（例如，学习床总是向左延伸到框架中）。人类具有显著的识别能力，可以从单个图像中推断出被遮挡物体的语义和形状。但人类也有能力从新的视角收集信息最近的一项研究[9]表明，幼儿能够主动转移观点来学习物体，即使他们只有4- 7个受人类视觉的启发，我们工作的关键论点是，除了学习产生幻觉外，智能体还应该学习移动。如图1、为了识别红色边界框所指示的目标对象的类别和整体形状，智能体应该学会主动地向2041目标对象以揭开墙后的遮挡区域，以便更好地识别。在本文中，我们介绍了一个新的任务，称为非模态识别（AIMS），其中智能体主动移动在三维环境中的目标对象的非模态识别，即，预测其类别和非模态形状。我们的目标是系统地研究是否以及如何具体化（运动）有助于非模态识别。下面，我们将重点介绍针对这一任务的三种设计选择：三个子任务。在重建中，我们的目标是恢复目标对象的语义和形状。该工具包括三个子任务：目标识别、2D非模态定位和2D非模态分割。通过这三个子任务，我们为视觉系统提供了一个新的测试平台。单一目标物体。当在3D环境中产生时，智能体可以在视场中看到多个对象。我们指定一个实例作为目标，并使用包围其可见区域的边界框来表示它。然后，智能体预测第一帧。代理执行amodal识别的目标对象观察到的产卵点。如果智能体不移动，那么识别就退化为被动的非模态识别。被动算法和具体因此，我们可以创建一个公平的基准来评估不同的算法。基于上述选择，我们提出了图1所示的通用流水线。二、与被动识别模型相比（图）。2 a），具体的代理（图。2b）遵循来自策略模块的建议动作在环境中移动，并使用非模态识别模块对目标对象进行预测。该管道引入了几个有趣的问题：1）由于智能体的移动，观察场景和目标对象的外观在每个步骤中发生变化。如何将未来帧的信息聚合到第一帧以进行非模态识别？2)没有“专家”可以告诉代理如何移动，以提高其非模态识别性能。我们如何在没有任何监督的情况下有效地提出战略举措？3)在这个任务中，感知模块和动作策略都是从头开始学习的。考虑到每个人的表现在很大程度上取决于另一个人的能力，我们如何设计适当的培训制度？为了解决上述问题，我们提出了一种新的模型，称为嵌入式掩码R-CNN。感知模块通过添加递归网络来聚合时间特征，从而扩展了Mask R-CNN [28]。策略模块从过去的帧中获取当前的观察和特征来预测动作。我们使用分阶段的培训方法来有效地培训这两个模块。图2：建议的通用流水线用于嵌入式非模态识别。为了对被遮挡的物体进行非模态识别（物体识别和非模态感知），智能体学会移动（右），而不是静止不动和产生幻觉（左）。非模态识别模块侧重于预测第一帧的对象类、非模态政策模块提出了下一步行动的代理，以获取有关对象的有用信息。捐款. 本文的主要贡献是：• 我们引入了一个新的任务，无模式识别，其中代理可以在3D环境中移动，以执行2D对象识别和无模式感知，包括无模式定位和分割。• 我们建立了一个新的数据集。使用模拟器在室内环境中，我们收集代理的观点，使目标对象是部分可见的。我们还提供对象类、非模态边界框和掩码的精确地面实况注释• 我们提出了一个通用的流水线，并提出了一个新的模型，masked Mask R-CNN，来学习移动以进行非模态识别。在该模型中，非模态识别和策略模块在每一步都进行预测，旨在提高第一帧目标对象的非模态识别性能。• 我们评估了被动和具体的非模态识别系统，并证明了运动的代理始终优于被动的。此外，与随机或最短路径移动相比，学习的移动在提高非模态识别性能方面更有效• 我们观察到有趣的代理人的出现：所学习的移动不同于最短路径移动并且很好地推广到看不见的环境（即，新房屋和对象的新实例）。2. 相关工作对象识别。构建物体识别系统是我们社区的长期目标之一火车-2042在大规模数据集[41，51，68]上，我们已经见证了深度神经网络在许多任务中的多功能性和有效性，包括图像分类[29，39，57]，对象检测[23，24，47，49]和语义段-[28，42，66，67]。非模态感知非模态感知任务是对被遮挡的物理结构的整体形状与经典的对象识别相比，非模态感知系统的表示示例是非模态边界框[50，54]和3D体积[13，63]或分层重建[53，58]。在本文中，我们专注于非模态分割，为可见和闭塞的对象部分。最近的工作学会了使用标记的数据集[19，21，40，70]对完整的分段进行幻觉。我们希望建立代理的能力，移动和改变视角，以感知被遮挡的物体。这就是主动视觉的目标。主动视觉。主动视觉的研究历史悠久[2，7，62]，并且与发育心理学也有联系[9]。最近的工作学习对象识别的主动策略[17，32-检测/检测[11，25，45]，对象操作[12]，物体分割[46]，特征学习[1]和场景合成[20，59]。然而，所有这些都假设了约束场景，其中提供单个图像或者目标对象被定位在不同视图中。此外，智能体没有体现在3D环境中，因此不需要移动。Ammirato等人[3]为活动对象实例分类建立了一个现实的数据集[27]。虽然涉及运动，他们有一个类似的设置上述作品。我们的任务更加现实和具有挑战性实施例的最近，已经引入了许多3D模拟器来模拟虚拟实施例。其中一些是基于真实世界的环境[3，4，61，64]，用于机器人导航[4，65]和场景理解[5]等其他模拟器已建成的合成环境[10，37，52]。它们为3D对象提供准确的标签，并为构建各种任务提供可编程接口，例如视觉导航[69]和嵌入式问答[15，16，26]。对这些环境而言，这是一项新的任务：与视觉导航不同，视觉导航的目标是找到物体或位置，我们的任务假设目标物体在开始时已经（部分）被观察到，并且与问题回答不同[15，16，26]，我们只关注非模态识别，这可以说适合于基准测试进展和诊断视觉系统。图3：从左到右，我们显示了RGB图像上的地面实况我们显示部分被遮挡的物体和视野外的物体。3. 非模态识别数据集环境尽管可以在任何仿真环境[4，37，52]上设置模拟器，但在本文中，我们使用室内模拟器作为演示。在这些合成生成的室内环境中，存在不同类别的对象。类似于EQA数据集[15]，我们过滤掉了太大或有多个楼层的非典型3D房间，总共有550所房子。这些房屋分为400、50和100个，分别用于培训、验证和测试。渲染。基于室内模拟器，我们渲染了640 - 800幅图像，并为对象类别、非模态边界框和非模态掩码生成了地面实况注释。先前关于非模态分割的工作[19，40，70]做出了在图像边界处剪辑非模态掩模的设计决策。这破坏了非模态掩码的定义，并且是使用静态图像的限制。我们的工作依赖于一个模拟器，因此我们可以很容易地生成非模态掩模，扩展到图像边界之外（见图1）。（3）第三章。在实践中，我们将渲染图像的边界每边扩展80个像素（产生800 × 960个图像）。对象我们选择了一个子集的对象类别，适合我们研究一个代理的理解，包括对象。我们的选择标准是：1）对象应该在训练数据中具有足够数量的外观，2）对象应该具有相对刚性的形状，没有可变形的结构（窗帘、毛巾等），模糊的几何形状（玩具、纸张等），或者是房间部件（地板、天花板等），以及3）如果对象类别标签是粗略的，则我们深入标签Hi-They一级，并找到合适的子类别（例如洗衣机等）。因此，80个类别中有8个类别，包括床，椅子，书桌，梳妆台，冰箱，沙发，桌子和洗衣机。在我们的数据集中，有859/123/349个唯一对象实例（即，形状），并且235由训练集和测试集共享。初始位置和视点。我们首先定义的可见性的一个对象的可见性之间的比率可见和amodal掩模。然后，我们随机抽取代理的产卵位置和视点，如下所示：1）代理应靠近物体产生，在3到6米之间;2043图4：我们数据集中的对象实例。对于每个类别，三个分组的条表示训练/验证/测试集;上面的蓝色条表示“简单”实例，底部的橙色条表示“困难”实例。2)对象可见性应不小于0。2;和3）对于一个房屋中的每个对象类别，最多采样6个实例最后，我们得到了8940个训练集，1113个验证集和2170个测试集的实例如果对象可见性小于0，我们也将产卵位置归类为“硬”实例。五是“易”。在图3中，从左到右，我们可视化了简单，困难和部分视图外的样本。图中的对象出现的摘要4表明我们的数据集在不同类别和难度之间相对平衡行动空间。我们用两组基本动作配置我们的代理：移动和旋转。对于移动，我们允许代理向前、向后、向左和向右移动，而不改变视角。对于转向，我们允许代理向左或向右转向2度。这将在动作空间中产生六个动作。请注意，我们在动作空间中包括向后移动，因为代理可能需要返回跟踪以移除遮挡。最短路径由于ESTA的目标是学习移动，以更好地识别被遮挡的物体，它不是立即清楚什么是这与其他任务不同，例如：点导航，其中最短路径可以充当尽管如此，由于最短路径导航允许智能体更接近目标对象并可能获得更好的视图，因此我们提供最短路径作为数据集的一部分，希望它可以提供模仿监督和强大的基线。4. 屏蔽R-CNN在本节中，我们提出了一个称为隐式掩码R-CNN的模型来解决隐式非模态映射。所提出的模型包括两个模块，非模态识别和行动政策，如图所示。二、在讨论详细设计之前，我们首先定义符号。智能体是用上一节中描述的初始位置和凝视产生的。它对环境的初始观察用I0表示，任务用包围盒b0指定目标对象，可见区域。给定目标对象，智能体在3D环境中遵循动作策略π移动。在0到T的每一步，智能体基于π采取行动a t，并从视角v t观察图像I t。代理输出其对第一帧中的目标对象的对象类别、非模态边界框和掩模的预测，由y t“tct，bt，mtu表示。目标是在时间步长0处恢复真实对象类别、非模态边界框和非模态分割掩模y= c x，b x，m x u。4.1. 非模态识别非模态识别模块负责在每个导航时间步预测对象类别、非模态边界框和非模态掩码。Mask R-CNN w/ Target Object。我们的amodal识别模块与Mask R-CNN [28]具有类似的目标，因此我们遵循了架构设计。在我们的任务中，由于智能体已经在第一帧中提供了目标对象的可见位置，因此我们从Mask R-CNN中删除了区域建议网络，并直接使用位置框来馈送到第二阶段。在我们的实现中，我们使用在ImageNet上预训练的ResNet- 50 [29]作为骨干。时间掩模R-CNN。给定的顺序数据tI0，I1，. . .在沿着智能体的轨迹移动时，聚集信息是具有挑战性的，特别是当场景的3D结构和目标对象在后面的帧中的位置未知时。为了解决这个问题，我们提出了一个称为Temporal Mask R-CNN的模型来聚合来自多个帧的时间信息，如图所示五、形式上，我们的时间掩码R-CNN在时间步t的预测是：yt“fpb0，I0，I1，...，Itq.（一）我们的非模态识别模型有三个组成部分：tfbas e，ffus e，fhea du。对于每个帧It，我们首先使用卷积神经网络来提取特征图xt“f basepI t q。然后，特征聚集函数组合直到t的所有特征图，从而产生融合特征图x∈fusepx0，. . . ，xtq. 对于特征聚合ffuse，我们使用单层卷积门控递归单元（Conv-GRU）[8，14]来融合时间特征。除了Conv-GRU，我们还可以使用简单的时间平均或最大池来融合特征。然后这些特征被发送到感兴趣区域（RoI）[23]头层fhead，以预测第一帧：yt“f head p b 0，x t q.（二）为了训练模型，我们使用从最短路径轨迹生成的图像序列。我们的整体损失2044不不不不图5：隐藏的Mask R-CNN的amodal识别部分。代理在环境中移动，在每个步骤中获取不同的视图（底部行），并更新第一帧（顶部行）的目标对象的非模态识别定义为：图6：隐藏掩码R-CNN的操作策略部分。在每一步中，智能体将目标对象的当前视觉对象、最后一个动作和初始可见边界框作为输入，并预测要采取的动作层GRU网络功能，用于整合历史信息：1吨“的z´rzimg，zacts，h¯、（五）LpLppct，cxq`Lppbt，bxq`Lppmt，mxq，tactt tt′ 1TtM（三）其中ht′ 1是上一步的隐藏状态zt然后被发送其中Lp是交叉熵损失，Lp是平滑L1重。到一个线性层与softmax推导出的概率分布-cpb在动作空间上，从动作a是[28]《金刚经》云：“以德为先，以德为先。4.2. 学习移动策略网络的目标是提出下一步的行动，以获得有用的信息，为amodal识别。我们将其与感知网络分开，以便学习的策略不会过度适应特定的感知模型。我们详细说明我们的设计如下。政策网络。与感知网络类似，不抽检我们通过强化学习来学习fimgEnc，factEnc，factu我们现在描述我们如何设计奖励。奖励我们的目标是找到一个好的策略，为代理移动，以提高其非模态识别性能。我们直接使用分类准确率和交集（IOU）来衡量候选智能体移动的优势。具体地，在每个步骤t，我们获得非模态识别的预测yt，然后计算分类准确度Accc（如果正确，则为1，否则为0），冰冷网络接收目标对象的可见边界框非模态边界框IoUb和掩模0和原始图像作为输入，并输出概率在行动空间。我们在步骤t使用以下方法对动作进行采样：an πpb0，I0，I1，. Iq.（四）我爱你。由于这三种奖励的规模不同，我们计算加权和，然后使用奖励整形：rtt tt t t t如图6、策略网络有三个组成部分tfimgEn c、factEnc、fac tu。 fimgEnc是图像特征的编码器在步骤t，其输入包括I0，It，以及a 掩模Ib 代表在初始视图中目标物体B0的可见边界框。我们将这些输入连接起来，将它们调整为320 × 384，并将它们传递给fimgEnc，它由四个t5 × 5 Conv，BatchNorm，ReLU，2× 2MaxPool u组成块[15]，产生编码图像功能：Rt其中λ c= 0。1，λ b-10和λ m-20。为了学习策略网络，我们使用策略梯度和REINFORCE [56]。4.3. 分阶段培训我们观察到，从头开始的感知和策略网络的联合训练很困难，因为感知模型不能为策略网络提供正确的奖励，并且策略网络不能采取合理的行动。fimgEnc´¯rIb，I0，Its.反过来的话。因此，我们采取了分阶段的培训策略。也就是说，我们首先用帧训练感知网络除了图像特征，我们还将最后一个动作编码到每个步骤t.我们使用多层感知器（MLP）网络factEnc获取动作特征zact“f actEnc p a t ′ 1 q。那我们连接zact和zimg，并将结果传递给单个从最短路径收集。然后，我们插入预先训练好的感知网络，在感知部分固定的情况下训练策略网络。最后，我们重新训练感知网络，使其能够适应学习的动作策略。t tCB20455. 实验5.1. 指标和基线指标. 回想一下，我们在移动路径中的第一帧上评估了非模态识别性能。我们报告了对象分类准确度（Clss-Acc ）、非模态框（ ABox-IoU ）和非模态掩码（AMAk-IoU）的IoU得分。我们还评估了非模态分割的性能，仅在目标对象的遮挡区域（AMAsk-Occ-IoU）。基线。我们对一些基线进行了广泛的比较。我们使用格式训练/测试移动路径来表征基线：• 被动/被动（PP/PP）：这是被动的非模态识别设置，其中智能体在训练和测试期间不移动。与这条基线的比较确立了具体化的益处。• ShortestPath/Passive（SP/PP）：Agent沿着最短路径移动我们使用此基线来了解由于额外的未标记数据而带来的改善程度。• 最短路径/被动 *（SP/PP*）：训练同上;在测试中，智能体不移动，但我们通过复制初始帧创建一系列静态观察，并将它们馈送到模型。这条基线决定了改善是否是由于经常性网络的有效性。• ShortestPath/RandomPath（SP/RP）：Agent在测试过程中随机移动。这一基线确定了是否需要采取战略行动来实现具体的非模式识别。我们通过五次随机测试的平均得分来报告性能• ShortestPath/ShortestPath（SP/SP）：Agent在训练和测试过程中沿着最短路径移动。这是一个但是，不能保证这是识别的最佳路径。我们将这些基线与我们的两个最终模型进行比较：最短路径/活动路径（SP/AP）和活动路径/活动路径（AP/AP）。对于ShortestPath/ActivePath，我们使用最短路径轨迹中的帧来训练对于ActivePath/ActivePath，我们进一步微调我们的amodal识别模型的基础上学习的行动政策。值得注意的是，所有上述模型都使用相同的时间掩码R-CNN架构进行非模态识别。对于单帧预测，还存在GRU模块。此外，所有这些模型都是使用相同数量的监督进行训练，然后在相同的测试集上进行评估以进行公平比较。5.2. 实现细节这里我们提供了完整系统ActivePath/ActivePath的实现细节。有三个阶段：第一阶段：非模态识别训练。我们基于Mask R-CNN的PyTorch实现来实现我们的非模态识别模型TemporalMask R-CNN [44]。我们使用从ImageNet [51]预训练的ResNet50 [29]作为主干，并使用C4头[49]裁剪RoI特征。骨干中的前三个残差块在训练期间是固定的。我们使用随机梯度下降（SGD），学习率为0。0025，批量8，动量0。99和重量衰减0. 0005.第二阶段：培训行动政策。我们修正了非模态识别模型，并从头开始训练行动策略。我们使用RMSProp [30]作为初始学习率为0的优化器。0000 4，并设置“0”。00005. 在我们所有的实验中，智能体总共移动了10步。第三阶段：微调非模态识别。基于学习到的动作策略，我们对非模态识别模型进行了微调，使其能够适应学习到的移动路径。我们使用SGD，学习率为0。0005.5.3. 实验结果综合分析在表1中，我们显示了不同模型的非模态识别性能的定量比较。我们报告了测试集（“all”）中所有示例的数字，简单示例（可见性> 0）。5），和硬的例子（可见性100。（五）。我们有以下几点意见。最短路径移动不利于被动非模态识别。如表1所示，ShortestPath/Passive 和 ShortestPath/Passive* 都略逊于Passive/Passive。由于移动，广告图像的视觉外观与第一帧相比可能改变很多。因此，这些额外的输入似乎并不作为有效的数据增强被动视觉系统中的非模态体验有助于非模式识别。在表1中，我们发现在测试时移动的代理（底部四行）始终优于保持静止的代理（前三行）。有趣的是，即使在测试时随机移动（最短路径/随机路径），代理仍然优于被动代理。这提供了证据表明，这种体现的范例有助于非模态识别，并且所提出的Em- bodied Mask R-CNN模型对于非模态识别是有效的。我们的模型学习更好的移动策略。在表1中，我们将模型与实施例（底部四行）进行比较。最短路径的推导，以指导代理移动接近目标对象。它可能不是最佳的移动策略，因为任务不一定要求代理接近目标对象。在2046移动路径类访问ABox-IoU AMask-IoU AMask-Occ-IoU火车测试所有容易硬所有容易硬所有容易硬所有容易硬被动被动92.994.190.981.383.976.567.669.663.949.046.054.6最短路径被动92.894.389.981.283.876.467.469.663.448.645.854.1最短路径被动 *93.094.390.780.983.176.866.768.463.648.444.954.9最短路径RandomPath93.194.191.181.683.977.167.869.764.349.045.855.2最短路径最短路径93.294.191.782.084.377.768.670.465.350.246.956.3最短路径ActivePath93.393.992.282.084.477.668.870.565.550.246.956.4ActivePathActivePath93.794.692.282.284.378.268.770.365.650.246.856.7表1：使用不同模型的非模态识别的定量比较。“Train” denotes the source of moving path used 我们报告的性能在最后（第10）的行动步骤体现代理。图7：不同模型在硬样本上的性能与四个指标上的行动步骤。图8：所有方法在每个对象类别上的性能对于每个类别，我们对每个方法的前三个指标取平均值，并将其截断为最差方法的数字，以显示相对的改进。相比之下，我们的模型学习移动策略，以提高智能体的非模态识别能力。虽然采用了相同的非模态识别模型，但 ShortestPath/ActivePath 找到了更好的移动策略，性能与ShortestPath/ShortestPath相当或稍好。在罚款之后-图9：不同特征聚合/扭曲方法在硬样本上的性能随操作步骤的变化。使用学习路径调整非模态识别模型（ActivePath/ActivePath）通过使非模态识别模型适应学习路径来实现进一步的改进。5.4. 非模态识别具有不同遮挡的对象。在表1中，我们观察到，与“容易”样品相比，具有实施方案的试剂通常在“硬”样品上实现更多的改善。例如，ActivePath/ActivePath的对象分类精度为0。5%高于被动/被动的“容易”的样品，而1。3%的“硬”样本。通常，具有严重遮挡的对象更难以从单个视点识别，并且实施例是有帮助的，因为它可以恢复被遮挡的对象部分。改进了行动步骤。我们在图中显示了沿着动作步骤的非模态识别性能。7、坚硬的样品一般来说，性能随着采取更多步骤和聚合更多信息而提高，但最终会饱和。我们怀疑，经过若干步骤后，智能体2047第一步第三步第五步第七步第十图10：测试集上步骤1、3、5、7、10的动作分布。向前，向前：后退，后退：向左移动，右移动，左：向左旋转，旋转：向右旋转。顶行：最短路径移动。下一行：我们的学习政策。颜色越深表示动作越频繁。更难整合信息。在不同对象类别上的性能。在图8中，我们绘制了不同模型在不同对象类别上的相对改进（为了清晰起见，我们在可视化中为每个模型添加了一个小的常数值为了比较，我们计算每个类别和所有样本的前三个指标的平均值床、梳妆台、沙发、桌子和洗衣机等类别的改善更为显著其他特征聚合和扭曲方法。我们在这里研究其他特征聚合和扭曲方法。对于非模态识别模块中的特征聚合，我们用简单的Max/Average池化来替换GRU。为了扭曲特征，我们使用[55]（OP）提取光流此外，我们使用空间转换器网络（ SpaceTransformerNet，简称SPN）来学习如何扭曲这些特征。比较如图所示。9.第九条。正如我们所看到的，最大/平均池化方法在三个步骤之后不能进一步聚合有用的信息;仅仅扭曲特征也不能很好地工作。然而，将 GRU 与特征扭曲（GRU/OP）相结合确实进一步提高了性能。5.5. 学习型政策使用学习的移动路径，智能体可以预测更好的amodal掩模相比，最短路径，他们的移动模式也不同。比较移动策略。图10示出了针对最短路径和我们的学习路径的步骤1、3、5、7和10处的动作的分布。我们可以观察到，即使两个模型共享非模态识别模型，与最短路径相比，从我们的模型中学习到不同的移动策略。特别是，我们的代理人很少向前移动。相反，它学会偶尔向后移动。这在代理靠近目标产生的情况下是有益的，并且向后移动可以显示对象的更多内容。这种比较表明，最短路径可能不是最佳路径。如图11、在最短路径下，智能体更接近图11：最短路径测试集和学习路径测试集上每一步到目标对象的平均距离。对象。然而，我们学习的移动保持与目标物体的距离几乎恒定。在这种移动策略下，目标对象在每一步的可视尺寸不会变化太大。6. 结论在这项工作中，我们引入了一个新的任务，称为嵌入式非模态识别-代理是在3D环境中产生作为解决这一任务的第一步，我们提出了一个隐藏的Mask R-CNN模型，它学会了策略性地移动，以提高视觉识别性能。通过与各种基线的比较，我们证明了具身性对视觉识别的重要性.我们还表明，我们的代理开发的战略运动是不同的最短路径，恢复被遮挡物体的语义和形状。致谢。我们感谢Liuxing Liu、Manolis Savva、MarcusRohrbach和Dipendra Misra进行了有益的讨论。佐治亚理工学院和印第安纳大学研究副教务长，艺术与科学的IU学院，和信息学，计算和工程的IU学校通过研究项目的新兴领域“学习：《大脑、机器和孩子》本文所载的观点和结论是作者的观点和结论，不应被解释为必然代表美国政府的官方政策或认可（无论是明示还是暗示）。政府或任何赞助商。引用[1] Pulkit Agrawal、Joao Carreira和Jitendra Malik。学习通过移动来观察。在IEEE计算机视觉国际会议论文集，第37-45页，2015年。3[2] 约翰·阿洛伊莫诺斯，艾萨克·韦斯，阿米特·班约帕德 · 海耶 .主动视觉。国际计算机视觉杂志（IJCV），1988年。3[3] Phil Ammirato，Patrick Poirson，Eunbyung Park，Jana Ko s ec ka' 和Al e xanderCBe r g。一个数据集，用于DEVEL-2048oping和benchmarking主动视觉. IEEE机器人与自动化国际会议（ICRA），2017年。3[4] Peter Anderson ， Qi Wu ， Damien Teney ， JakeBruce ， MarkJohnson ， NikoSünderhauf ，IanReid，StephenGould，and Anton van den Hengel.视觉和语言导航：在真实环境中解释基于视觉的导航指令。在IEEE计算机视觉和模式识别上，2018年。3[5] I. Armeni，A.Sax，A.R. Zamir和S.Savarese 用于室内场景理解的联合2D-3D语义数据。arXiv预印本arXiv：1702.01105，2017。3[6] Renee Baillargeon ， Elizabeth S Spelke 和 StanleyWasserman 。五个月婴儿的客体恒存性。Cognition，20（3）：191-208，1985. 1[7] 鲁泽娜·巴伊奇主动感知。IEEE会议录，1988年。3[8] 尼古拉斯·巴拉斯、李耀、克里斯·帕尔、亚伦·考维尔。深入研究卷积网络用于学习视频表示。国际学习代表会议（ICLR），2016年。4[9] 放大图片作者：David J.作者：Linda B.史密斯和陈宇。幼儿启发的视觉对象学习。神经信息处理系统进展（NeurIPS），2018。第1、3条[10] Simon Brodeur 、 Ethan Perez 、 Ankesh Anand 、Flo- rian Golemo 、Luca Celotti、Florian Strub 、Jean Rouat、Hugo Larochelle和Aaron Courville。Home：家庭多模式环境。arXiv预印本arXiv：1711.11017，2017。3[11] Juan C Caicedo和Svetlana Lazebnik。使用深度强化学习的主动对象定位。 IEEE InternationalConference on Computer Vision，2015。3[12] 陈瑞森，阿皮特·阿加瓦尔，卡特琳娜·弗拉基-阿达基. 基于增强学习的主动视觉在遮挡条件下的物体处理。在机器人学习会议，2018年。3[13] Christopher B Choy ， Danfei Xu ， JunYoungGwak ， Kevin Chen ， and Silvio Savarese. 3d-r2n2：用于单视图和多视图3d对象重建的统一方法。欧洲计算机视觉会议论文集，第628-644页。施普林格，2016年。3[14] Junyoung Chung 、 Caglar Gulcehre 、 KyungHyunCho和Yoshua Bengio。门控回流神经网络在序列建模中的实证评价 arXiv 预印本 arXiv ：1412.3555，2014。4[15] Abhishek Das，Samyak Datta，Georgia Gkioxari，Ste- fan Lee，Devi Parikh，and Dhruv Batra.具体化的问题回答。在IEEE计算机视觉和模式识别会议论文集，2018年。三、五[16] Abhishek Das 、 Georgia Gkioxari 、 Stefan Lee 、Devi Parikh和Dhruv Batra。基于神经网络的智能问答系统。在机器人学习会议（CoRL），2018年。3[17] Joachim Denzler和Christopher M Brown。主动目标识别和状态估计的信息理论传感器数据选择。IEEE模式分析与机器智能学报（TPAMI），2002.3[18] 斯蒂芬·E.帕尔默视觉科学：从光子学到现象学。麻省理工学院出版社，1999年。1[19] Kiana Ehsani、Roozbeh Mottaghi和Ali Farhadi。Segan：分割和生成不可见的东西。在IEEE计算机视觉和模式识别会议论文集，2018年。第1、3条[20] SM Ali Eslami，Danilo Jimenez Rezaviz，FredericBesse ， Fabio Viola ， Ari S Morcos ， MartaGarnelo ，Avraham Ruderman，Andrei A Rusu，Ivo Danihelka，Karol Gregor，et al.神经场景表示和渲染。Science，360（6394）：1204-1210，2018. 3[21] PatrickFollmann ， RebeccaK ？ nig ， PhilippH ？rtinger，and Michael Klostermann.学习如何看到不可见的东西：端到端可训练的非模态实例分段。2019. 3[22] RobertGeirhos ， PatriciaRubisch ， ClaudioMichaelis，Matthias Bethge，Felix A Wichmann，and Wieland Brendel. ImageNet训练的CNN偏向于纹理;增加形状偏差提高了准确性和鲁棒性。2019年国际学习表征会议（ICLR）。1[23] 罗斯·格希克。快速R-CNN。IEEE InternationalConference on Computer Vision，2015。一、三、四[24] 罗斯·吉希克，杰夫·唐纳休，特雷弗·达雷尔，还有吉坦德拉·马利克.丰富的特征层次结构，用于精确的对象检测和语义分割。在IEEE计算机视觉和模式识别上，2014年。第1、3条[25] 阿贝尔·冈萨雷斯·加西亚亚历山大·维日涅韦茨和维托里奥·法拉利一种有效的目标类别检测的主动搜索策略在IEEE计算机视觉和模式识别会议论文集，2015年。3[26] DanielGordon、AniruddhaKembhavi、Mohammad Rastegari 、 Joseph Redmon 、 DieterFox和Ali2049法哈迪。IQA：交互环境中的可视化问答。在IEEE计算机视觉和模式识别会议集，2018年。3[27] 韩晓宁，刘华平，孙富春，张新宇。使用深度q网络进行多步动作预测的活动对象检测。IEEETransactions on Industrial Informatics，2019。3[28] KaimingHe ， Geor giaGkioxari ， PiotrDolla'r ，andRossGirshick.面罩R-CNN。在2017年IEEE计算机视觉国际会议上。二三四五[29] Kaiming He，Xiangyu Zhang，Shaoying Ren，andJian Sun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议论文集，2016。一二三四六[30] 杰弗里·辛顿，尼蒂什·斯里瓦斯塔瓦，凯文·斯威斯基.机器学习的神经网络第六讲小批量梯度下降概述。2012. 6[31] 杰虎，李申，孙刚。压缩-激励网络。Proceedingsof the IEEE Conference on Computer Vision andPattern Recognition，2018. 1[32] Dinesh Jayaraman和Kristen Grauman学习与自我运动相关的图像表示IEEE International Conferenceon Computer Vision，2015。3[33] Dinesh Jayaraman和Kristen Grauman主动视觉分类的端到端策略学习。IEEE Transactions on PatternAnalysis and Machine Intellige

下载后可阅读完整内容，剩余1页未读，立即下载