主动视觉探索：自我注意力的视觉探索方法

193 浏览量更新于2023-10-13 收藏 1.32MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

16137浏览-参与-探索：主动视觉探索的自我注意力Soroush Seifi*Abhishek Jha*TinneTuytelaars PSI，ESAT，KU LeuvenKasteelpark Arenberg 10，3001鲁汶firstname. esat.kuleuven.be摘要主动视觉探索的目的是帮助一个代理有限的视野，以了解其环境的基础上，通过选择最佳的观看方向在场景中的部分观察。最近的方法试图通过使用难以训练的强化学习或不确定性地图来解决这个问题，不确定性地图是特定于任务的，只能用于密集预测任务。在本文中，我们提出了Glimpse-Attend- and-Explore模型，该模型：（a）采用自我注意来引导视觉探索，而不是任务特定的不确定性图;（b）可用于密集和稀疏预测任务;以及（c）使用对比流来进一步改进所学习的表示。与以前的作品不同，我们展示了我们的模型在多个任务上的应用，如重建，分割和分类。我们的模型提供了令人鼓舞的结果，同时在驱动探索时较少依赖于数据集偏差。我们进一步进行消融研究，以调查我们的模型学习的功能和注意力。最后，我们表明，我们的自我注意力模块学习在-倾向于不同地区的场景，通过最大限度地减少损失的下游任务。代码：https://github.com/soroushseifi/sligse-attend-explore.1. 介绍大多数计算机视觉方法依赖于人类摄影师捕获的数据集[27，34]。这样的数据偏向于在图像的可预测区域中出现的显著信息（例如，在图像的可预测区域中）。图像中心）。此外，大多数计算机视觉方法假设输入图像的完全可观察性[26，18]。然而，在动态环境中，具有有限视野/资源的智能体不能完全观察其即时360°场景。这可能会导致智能体的摄像头捕捉到与标准计算机视觉数据集中所见不同在本文中，我们提出了一种主动视觉[1]方法来*同等贡献。通过从场景中顺序地收集部分观察结果来自主地探索和推理场景。我们的方法可以部署在代理不能查看和处理整个场景的情况下，由于限制，如代理的小视场或有限的传输带宽之间的相机和处理单元。我们通过限制我们的方法从常见的计算机视觉数据集中的图像中看到小作物（称为瞥见）来模拟这一点。此外，我们限制了代理可以从单个图像中看到的一瞥总数。在每个时间步，智能体都可以自由地改变其观看方向并对场景进行新的一瞥。因此，重要的是，代理选择的环境中的区域与最高的信息增益为一个给定的任务。给定一组训练示例和每个示例的初始随机一瞥，我们的模型学习选择下一个一瞥的策略，对看不见的区域产生幻觉，并在给定来自访问区域的结构线索的情况下解决任务。虽然以前的方法依赖于强化学习[32，25]，重建损失[35]和不确定性度量[36]，但我们采用自我注意层生成的热图来指导探索。与以前的作品相反，我们提出了一个统一的双流架构，用于不同的任务，如图像重建，分类和se-mantic分割，并使用几个基线评估我们的方法此外，我们表明，代理可以建立通过使用对比学习来更丰富地表示环境。在这种情况下，仅在训练期间，我们使用预训练的编码器来产生用于完整环境的特征。接下来，从[12]中获得灵感，我们训练我们的网络流之一最后，我们进行了一个消融研究的一瞥和我们的网络架构的数量。我们的贡献如下：• 我们介绍了一种新的自我监督的注意力机制，nism主动视觉探索。• 我们提出了一个统一的架构，稀疏和密集的预测任务。• 我们表明，我们提出的注意力机制16138训练时间对比度损失（余弦距离）图1. Glimpse Attend and Explore生成的结果：（左）显示了SUN360数据集[ 38 ]上的场景重建结果。（右）显示了ADE20k[43]上的语义分割结果。在获取包含图像中18%的像素的8次视网膜样一瞥（底行）之后计算结果。全图像浸提模块（冷冻重量）地面实况流图像特征F_I对比流预测特征F_CGlimpse（t）提取模块存储器模块重建O_C（t）[1，t]自我注意流重建O_S（t）重建O（t-1）下一位置对比流重构O_C（t）测试时间Glimpse（t）提取存储器模块模块重建O（t）[1，t]自我注意流重建O_S（t）重建O（t-1）下一位置重建O（t）图2.体系结构概述。将位置预测从先前工作中使用的辅助密集预测任务中分离出来[36]。因此，诸如分类/回归的下游任务可以直接引导注意力机制。这使得该架构比以前的工作快了两倍• 我们采用对比学习来训练网络，使其在可见区域之外进行推理，并构建更丰富的环境表示。2. 相关工作主动视觉：具有主动视觉的智能体可以控制其视点进行一系列观察，以进一步改善其对环境的内部表征。一些最早的工作[1]为低资源视觉系统和相机控制[5]中的这个问题提供了一个通用框架。该领域的最近工作旨在学习视图选择策略以解决各种任务，包括对象识别[29，2]，分割[8，28]，视觉导航[39，10，44]和姿态估计[16，37]。与我们类似的工作属于活动图像理解领域，在随后的小节中，我们提供了对我们模型的组成模块的简要文献调查。图像重建：条件图像重建基于部分观察到的图像的绘制可以作为修复任务[31，42]或外绘任务[24，32，35]来完成。虽然可用于图像修复的上下文的量通常很高，但是图像外绘接收图像的部分视图作为上下文。Jayaraman等人[24]提出了一个视图网格重建作为一个借口任务，以学习的对象的2D视图Ramakrishnan等[32]介绍了一种动作策略学习策略，用于选择一系列视图网格来重建整个场景。我们的工作与[32]相同，在[ 32 ]中，我们顺序地选择一瞥来重建整个场景，不同之处在于我们学习选择视图的方式。与我们的工作类似，[32]采用完整图像来帮助训练。然而，[32]中的视图网格的不同视图在这项工作中，我们固定的大小的一瞥和con-summary场景覆盖始终是相同的。此外，我们认为，[32]通过限制代理总是从相邻的一瞥中选择，同时我们的代理可以将其观看方向改变到场景中的任何地方，来减少强化学习训练方案与我们的工作最接近的是[35]，它执行基于注意力的视图选择。[35]提出的注意力策略学习预测具有最高重建损失的图像区域，从而需要训练损失值。我们提出的模型的自我注意模块使用从下一层接收的梯度进行训练。因此，每一层自我注意力都学习关注特定于下游任务的图像区域。语义分割：传统的分割方法，如FCN [28]，U-net[33]，Segnet [4]和Deeplab[9]已经成功地用于分割自然场景和生物医学成像，然而，它们不能用于具有有限FOV的环境中，其中不可能对环境进行最近的工作旨在对场景的部分进行主动采样以提供分割掩模，如[21]，其迭代地预测对象和上下文框对以预测对象周围的然而，它需要目标对象的初始位置作为输入。Chai等人[8]使用注意力机制来指导视图选择16139自我注意层图3.自我注意流解码器的前两个级别策略来分割视频流中的对象。虽然我们也使用注意力来指导的一瞥选择，我们展示了场景中的多个对象的分割。我们还评估了我们的模型比这两个以前的作品更多样化的数据集。与我们最相似的工作是[36]，它通过用来自网络内部状态的不确定性图对分割损失进行加权来训练注意力机制我们的方法的灵感来自于使用不确定性地图，然而，我们的注意力机制是内隐训练的，并且不直接依赖于预测任务特定的损失。该注意力模块的权重由来自连续层的梯度来这允许自注意模块学习用于每个特定下游任务的不同策略，而不需要模块本身的架构改变，从而使模块任务不可知。图像分类：分类工作的开创性使用主动视觉循环注意力模型（RAM）[29]示出了通过学习视图选择策略对杂乱MNIST数据集的分类。DRAM [2]学习深度RAM以显示多位MNIST数据集的检测和分类。与这些方法不同的是，我们展示了一个具有挑战性的自然场景数据集的分类。我们的模型还使用类似于[35，8]的空间记忆库来保持比递归神经网络[29，2]的潜在表示更具表现力的场景表示，但更具记忆密集性。注意机制：学习注意和显著性通过对特定任务的优化，已经显示出视觉[41，15]和语言任务[40，14]相对于非注意对应物的显著我们提出的自我注意力模块类似于Transformer模型[40]和ViT[15]中提出的乘法然而，对于每一层，我们的自我注意力模块不依赖于显式查询，而是通过处理该层的输入特征来直接计算注意力对比学习：Hadsell等人[20]学一个比喻。通过最小化正对之间的距离和最大化负对之间的距离来进行感测。最近，自监督表示学习的整个领域[3，22，11，19，12]已经通过将每个实例视为单独的类来适应这种对比学习公式。以在没有地面真值标签的情况下学习图像特征在本文中，我们使用与[19，12]类似的损失公式，以最小化表示空间中正对之间的距离。正如我们将在实验部分看到的，这特别提高了重建质量。3. 方法我们的架构由四个主要组成部分。“提取模块”对每个参与的一瞥和完整图像的特征进行“记忆模块”收集空间记忆图中所有访问过的“自我注意流”采用自我注意层来引导探索和推理场景。“对比流”预测给定部分观察的完整图像的特征。手头的任务（图像重建、语义分割等）基于自我注意和对比流的输出来解决。最后，在每个步骤中要参加的位置由该步骤中的自我注意模块的内部状态确定。图2提供了我们的方法的概述。3.1. 提取模块遵循[36]中提出的架构，提取模块接收“视网膜样一瞥”。这样的一瞥有助于节省像素预算和处理能力，通过缩小位于远离其中心的区域。我们使用（预训练的）Resnet-18的前四层[23]网络来编码每个视网膜一瞥。此外，仅在训练时间期间，我们使用相同的编码器来提取完整的图像特征FI（其中I表示输入图像）。请注意，当提取完整图像的特征时，网络3.2. 存储器模块受[36]的启发，我们采用空间记忆映射来保持当前时间步长访问的一瞥的提取特征特别是，我们的内存模块mains- tains 4个不同的矩阵，每个编码器的提取模块中的水平我们将这些矩阵分别表示为假设整个场景是大小为N×M×3的图像，则1级存储器将是矩阵自我注意层瓶颈注意力热图取最高值用于下一位置减少通道（Conv）繁殖存储器模块256个通道16个通道原始特征3级注意力热图繁殖连接和合并（Conv）原始特征3级加权要素三级记忆压缩存储器瓶颈内存瓶颈加权特征一瞥提取模块上采样161402×2161644FCNM××CI大小为N× M× 64，瓶颈存储器的大小为N×M×256。（2级：N×M×64，3级：8 8 128）。在现场参观了一眼后，提取的fea-将数据存储在这些矩阵中的相应位置在两个一瞥之间重叠的情况下，这些备忘录用重叠区域中的最新一瞥的特征来更新。注意，如果智能体访问图像中所有可能的非重叠瞥见，则这些矩阵将包含整个场景的提取特征。然而，由于瞥见的次数是有限的，这些矩阵在实践中保持部分空的。对比流和自我注意流在这些部分填充的矩阵之上工作，以填充未访问的区域并构建整个场景的表示。3.3. 对比流该模块的目的是在仅给出图像I的部分观测的情况下预测完整图像特征FI。注意，FI由对应于4个编码器级别的4个特征矩阵组成我们定义了一个解码器对称的提取模块，以创建一个U形网结构的对比流。虽然提取模块将每个瞥见的特征与其他瞥见分开编码，但是对比流在“瓶颈存储器”之上操作，该“瓶颈存储器”包含直到当前时间步为止访问的“中间”存储器中的特征我们将访问所有一瞥之后的预测特征表示为FC，并且将其相应的损失表示为LFc。LFc被计算为FI和FC之间的负余弦距离，等式1。注意，L_F_c总结了每个编码器/解码器级别的四个损失项。最小化这种损失将训练网络为具有相似结构的场景分配相似的表示。此外，我们将该模块在每一步的输出记为OC（t），其对应的损耗记为LC（t）。取决于手头的任务，LC（t）可以是用于重建的L2损失或用于分割任务的交叉熵损失。两个语义上不同的场景可能共享其环境的大部分的特征，例如室内/室外场景的天空/墙壁。因此，针对那些场景提取特征可能不适合于学习用于诸如重建的任务的表示。图4. 自我关注模块：在卷积层中使用额外的过滤器，我们预测一个额外的通道（注意力图）以及特征图（原始特征）。我们在这个注意力地图上应用ReLU激活[30]，使其非负。然后将该注意力图用作权重并乘以原始特征图以得到关注特征图。然后将这些参与的特征图作为输入传递到下一层。3.4. 自我注意流自我注意流（图3）与对比流有着相似的结构。然而，在每个解码器级别，它预测额外的不确定性通道（注意力热图）。然后将该热图乘以该解码器级别的预测特征（图4）。这样，在解码时，场景的特定位置获得更高的权重，并且因此获得更高的重要性以用于求解fi。最终任务。因此，由自注意模块生成的热图是哪些区域是要关注的最重要区域的良好指示。在我们的实验中，我们使用瓶颈注意力热图（图3）来选择下一次一瞥的位置。该热图是使用全连接层生成的，该全连接层考虑了对输入场景的最高抽象进行编码的瓶颈特征存储器中的所有激活此外，该热图中的每个像素都代表了1616现场结论接下来，我们将从一个以前的视角来观察--在这个注意力地图中具有最高激活的区域。图3示出了自注意流上采样到更高级别FC停止grad（FI）L=−F·stopgrad（F）（一）以与针对这两个级别所描述的类似的方式完成如前所述，对比流遵循类似请注意，我们的方法与[11]中介绍的对比学习框架不同，因为我们没有为对比流提供反例我们遵循[12]中的方法，其中停止目标图像特征（FI）上的梯度正如我们将在实验部分看到的，特别是在我们的目标是幻觉场景中看不见的部分的设置中，最好不要为对比流提供否定的例子这是由于但没有注意力热图。我们将该模块的输出表示为OS（t），将其损失表示为LS（t）。3.5. 最终任务和网络根据手头的最终任务的性质，网络的解码器部分可以被不同地设计以更有效地工作。对于密集预测任务，例如图像重建和语义分割，我们使用针对对比和自我注意流描述的完整解码器。16141方法/数据集自我-关注对比SUN360 [38]（RMSE）↓MS-Coco[27]（RMSE）↓ADE20k [43](mPA%）↑COCO-Stuff[7]（mPA %）↑我们CC33.840.352.447.8没有对比CX34.243.752.347.5随机一瞥（SA）CC39.447.851.546.0随机一瞥（无SA）XC38.648.552.447.7随机一瞥（无SAC）XX39.248.451.746.4表1.模块的评估：通过消融各个模块来比较我们的模型的不同变体的性能，其中SA是自注意流，并且SAC：自我注意流+对比流）然而，对于分类/回归任务，与先前的方法不同[35，36]，注意力机制的训练不依赖于密集预测任务在这种情况下，自注意和对比流仅在瓶颈特征的级别被采用，并且用于两个模块的解码器的其余部分以及所有中间存储器被从流水线中移除正如我们将在实验部分看到的，这使得网络工作得更快，使用更少的GPU内存。我们将网络在每一步的最终输出表示为Ot，其相应的损失表示为LOt。取决于任务的性质，L0t可以被计算为重建、分割或分类损失。因此，所得到的总体损失L总体上是对比损失、自我注意力和对比预测在每个步骤的损失以及下游任务损失的总和L总体=LFc+LC（t）+LS（t）+LO（t）（2）4. 实验4.1. 密集预测在本节中，我们将我们的方法与用于重建和分割的几个基线进行比较。我们在SUN 360 [38]和MS-COCO[27]数据集用于重建，ADE 20 k [43]和COCO-Stuff [7]用于分割任务。我们使用均方根误差（RMSE）和平均像素精度（mPA）分别测量重建和分割精度，并报告每个实验的最低RMSE和最高mPA。表1总结了我们在使用我们的方法的变体训练的基线上的结果。这些基线有助于独立评估我们的网络架构中的每个模块。对于该表中的所有实验，我们使用8次视网膜样一瞥。在无对比度架构中，我们降低了对比度损失，我们观察到重建的性能下降，分割任务的性能下降最小。这种差异可以通过对比损失在我们的体系结构中的公式化对于重建和分割任务两者，在U-Net架构中，来自对比流中的层的解码表示与来自地面实况流中的对应层的编码表示之间这推动网络学习低级特征，这有助于重建任务。而分割需要学习高级特征，以预测类别标签。因此，存在对比损失的最小贡献。在地面实况流中使用附加的全图像分割解码器并且最小化其表示与对比流中的对应层的表示之间的距离可以提高性能。尽管如此，这将使地面实况流两倍大。因此，为了保持体系结构的一致性，我们将其排除在本工作的范围之外。随机瞥见（SA）基线保持网络架构完整，同时随机选择瞥见，而不是选择注意力热图中的最大值。这导致重建和分割性能与我们的模型的一致性显著下降，证明了基于注意力的一瞥选择的重要性。在随机一瞥（无SA）中，随机选择一瞥，并且自注意模块被具有额外信道的卷积层替换，以保持该层中的参数总数。我们观察到，添加一个额外的功能通道的结果，在性能接近随机一瞥（SA）的RMSE值的SUN 360和一个小的递减，也不是在MS-COCO的增量。我们还观察到，分割性能提高两个数据集相比，随机一瞥（SA）接近我们的（完整）模型。原因是下一层中的参数数量更多，这是由于该层的输入通道数量更多。最后，我们评估随机一瞥（无SAC），其中我们随机选择一瞥，使用额外的通道而不是注意力地图，并放弃对比流。我们观察到的性能下降相比，随机一瞥（无SA），最小的递减幅度为MS-COCO数据集的RMSE值。总体而言，我们可以得出结论，基于注意的一瞥选择比随机一瞥选择表现得更好，并且对比16142流导致更好的重构性能。数据集/方法我们参加和细分[36个][38]33.837.6MS-COCO [27]（RMSE）40.341.8ADE20k [43]（mPA）0.5240.479COCO-Stuff [7]（mPA） 0.4780.456KITTI [17]（mPA）0.8060.805城市景观[13]（mPA）0.7480.762CamVid [6]（mPA）0.8230.832表2. 主动视觉密集预测：我们的模型与Attend和Segment模型[36]在重建和分割任务上的比较，分别使用均方根误差（RMSE）和平均像素精度（mPA）评估指标4.2. 与基线在这里，我们将我们的模型与最接近的相关工作进行比较，Attend和Segment模型[36]，用于重建和分割任务。应该注意的是，[36]中提出的模型仅针对语义分割进行评估，但是为了更广泛的评估，我们也在重建任务上对其进行了训练。Attend-and-Segment out-执行之前的重建模型（37.6 vs 39.0图5. 数据集偏倚：（左）表示模式，即最频繁的标签和（右）表示地面真值标签的平均值。计算训练集中所有样本的均值和众数，但Cityscapes数据集[13]除外，其中选择了100个训练样本的随机集。更接近模式的平均图像表示数据集中的均匀性，即，标签中的空间偏差。由室内和室外场景组成的ADE20k显示出最小的数据集偏差。(More关于数据集偏差的结果可以在补充中找到）。[32] 38.8 [25] RMSE），因此是最具竞争力输入参加者和段热图我们的方法的热图我们工作的基准。为了进行公平的比较，我们保持模型和Attend and Segment的参数数量相同。从表2可以看出，我们的模型在SUN 360和MS-COCO数据集上都实现了比[36对于分割任务，我们的模型在ADE 20 k和COCO-Stuff 上实现了更好的 mPA ，同时在 KITTI [17] ，Cityscapes [13]和CamVid[6]数据集。为了进一步分析这一点，我们计算了来自这四个数据集的样本的地面真值标签的均值和众数（图5）。我们发现KITTI、Citisapes和CamVid显示出样本的高度同质性，其中大多数图像在数据集中具有相似的对象空间布置。如图5中的模式图像所示，最频繁的标签接近图像的平均值，这意味着样本之间的差异较小（即高数据集偏差）。另一方面，我们发现ADE20k的模式图像与其平均图像最不相似，因为ADE20k是由室内和室外场景组成的更多样化的数据集我们还计算了这两种方法的注意力图随机选择的城市景观的图像。图6描绘了[36]注意力主要集中在一个区域周围，而我们的自我注意力模块则关注图像中更大的区域。因此，虽然我们的注意力机制捕获了具有较少多样性的数据集（图中较暗的区域）中的偏差，但它执行图6. Attend和Segment生成的热图与我们的方法在Cityscapes数据集上的比较。此数据集上的大多数图像都由前面有道路的场景组成。因此，这些区域在两种方法的注意力图中被分配的重要性较低（即捕获数据集偏差）。注意，Attend和Segment在ADE20k等数据集上优于[36]，ADE20k由各种场景和较少的数据集偏差组成。方法分类精度（%）我们的（满）56.4我们的（完整+随机）49.6我们的（无解码器）67.2我们的（无解码器+随机）62.6[36]第三十六话52.6表3.主动视觉分类：SUN360数据集分类性能比较4.3. 分类为了显示任务适应性，我们在SUN360数据集上的26类分类任务上评估了我们的模型，表3。我们将完整模型与Attend和Segment进行比较为了与后一种模型保持一致，我们将重建设置为辅助任务，保留所有损失，并在两种模型的瓶颈特征上添加单独的分类头。16143方法列车试验GPU（GB）参加和细分474455.5我们的（无解码器）213200.4表4.训练/测试时间和GPU内存使用情况的比较（批量大小：6）对于具有Attend和Segment的分类任务以及我们的模型没有解码器。注意，内存使用值是通过torch.cuda.max memoryallocated（）函数获得的。图7. Glimpse与性能的数量：（左）显示了在SUN360数据集上使用不同数量的一瞥（x轴）训练和评估的模型的RMSE值（y轴），（右）显示了在ADE20k数据集上使用不同数量的一瞥（x轴）的mPA（y轴）的类似趋势。020406080100120在密集预测和分类任务上的证明因此，在本节中，我们将详细分析不同性质的一瞥。瞥见次数：它是一个重要的超参数，主要取决于环境的难度和智能体在环境中的感知能力。因此，研究瞥见的数量对模型性能的影响是重要的虽然大量的一瞥可以观察到环境的更大区域，使得部分可观察性过时，但是太少的一瞥不能提供足够的信息来推理环境。图7比较了三个模型，我们的模型与基于注意力的一瞥选择，我们的模型与随机一瞥，以及Attend和Segment模型。对于SUN360数据集上的重建任务，与其他两个基线相比，我们的模型最差的性能，每一个数量的一瞥观察随机的一瞥选择，这表明自我注意力模块学习看图像中的不确定区域，并基于此的一瞥选择在提高性能中起着至关重要的作用。对于ADE20k上的分割任务，我们的模型在四次或更多次瞥见时，mPA始终较高，代表了相对于基线的更好分割性能。对于小于四次的一瞥，我们发现基于注意力和随机的性能0 50 100 150 200 250图8. 平均一瞥图像：最终一瞥的平均值-由SUN 360测试集的所有图像上的8次一瞥组成的图。在这个框架下，我们观察到的3.8%的准确率比Attend和Segment的提高在我们的（完全+随机）模型中，我们使用随机的一瞥选择，而不是依赖于自我注意模块。准确率下降了5.8%，证明了自我注意模块学习参加对更好的分类重要的区域。与Attend和Segment不同，我们的模型不依赖于用于一瞥选择的分割辅助任务。因此，我们删除了重建/分割解码器，只训练分类器，称为无解码器模型。这导致我们的（完整）模型和Attend和Segment的准确性分别提高了10.8%和14.6%。我们重复这个实验，随机选择的一瞥。我们观察到的性能下降了4.6%，没有解码器模型，再次确认我们的注意力为基础的一瞥选择启发式的功效。特别是，我们的模型没有解码器，运行速度快两倍，与Attend和Segment相比，使用了十分之一的GPU内存（表4）。4.4. 一瞥分析从前面的部分，我们观察到，我们的注意力为基础的一瞥选择的结果，在一个整体的im-要比参加和分段基线更好的一瞥选择。平均一瞥图像：在每个步骤中，选择一瞥作为注意力图中的最大激活区域。潜在的假设是，具有最大激活的区域对损失贡献最大，从而注意到它减少了损失和模糊性在重建的图像中。为了研究在瞥见选择中的任何模式，我们计算在为重建任务训练的SUN360测试集中的所有图像的最终瞥见图的平均值。我们观察到左上角和左下角是最受关注的区域，由图8中的最亮区域示出。由于SUN360数据集由室内或室外场景的360°视图组成，因此网络学习查看这些角落以推断一般环境是室内还是室外。然后，模型使用受关注区域开始绘制天空或地面。从图9中还可以看出，从步骤2到步骤3，当模型在步骤3中出现右角由于图像是360°视图，因此模型通过查看左角来学习右角的推理（补充材料中有更多示例）。其余区域基于由平均瞥见图像中的均匀明亮区域示出的图像内容而受到关注。初始化的影响：图像由以下内容组成16144图9. 主动视觉重建：自然场景的基于逐步关注的一瞥的重建（行1）示出了地面实况图像，（行2）示出了每一步处的重建图像，（行3）示出了自我注意力流的最后一层的注意力热图，（行4）示出了每一步处的输入一瞥位置。特定的空间显著性，其重建取决于关注那些最不明确的显着区域来重建。因此，学习参与图像重建的网络应该参与那些与第一瞥初始化无关的相同区域。为了验证这一点，我们随机初始化图像上的第一次瞥见，并观察这些图像的其余瞥见。如图10所示，不管不同运行中第一次瞥见的空间放置的显著差异如何在运行中瞥见的高度一致性验证了我们的模型学会关注图像中的突出区域。图10. 初始化的影响：第一行示出了从SUN 360数据集随机选择的地面实况图像，第2-5行示出了针对四个不同运行随机选择的第一一瞥位置和最后一组参与的一瞥位置。4.5. 循环一瞥选择作为我们的最终结果，我们在图9 .第九条。在底部行中的每个步骤处添加的一瞥掩码表示该步骤的访问位置。第3行中的注意力图示出了与瞥见相对应的区域变暗。该区域中的这些低注意力值是由于在处理瞥见之后不确定性的降低根据从掠影上得到的新信息解码器模块改进了每个步骤中的图像重构。这种迭代的一瞥选择过程减少了每个步骤中的不确定性，以生成最终的重建图像。5. 结论我们提出了一个基于注意力的主动视觉模型，学习参加的基础上下游任务的图像中的显着区域。通过解开的注意力政策的损失制定，并取代它与我们提出的自我注意力模块，我们表明，我们的架构可以适应多个任务。我们评估了我们的模型在不同的数据集上的重建、分割和分类，并显示出比基线模型在性能上的显着改善。对我们模型的各个模块的烧蚀研究为我们提供了更多关于我们的性能增益的见解。虽然对比流导致重建任务的显着改善，但基于我们的自我注意力模块的一瞥选择在所有任务上都比随机选择的一瞥具有更高的性能。对于不同的初始化，我们的模型学习关注场景中的显著区域，这表明我们的模型收敛到相似的图像区域。最后，我们将展示如何参加选定的一瞥结果在减少不确定性的注意力图，从而在细化的图像重建在每一步。最后，我们的研究结果鼓励进一步研究这个模型的不同方面。特别是，内存模块和问题的重复性使其成为内存密集型问题。通过表示学习来减少架构的存储器需求是未来的一个方向。进一步研究分割任务中的对比度损失是未来研究的另一个有趣方向。致谢本工作得到了 FWO SBO 项目 Omnidrone1 和Flanders AI Research program2的支持。1https://www.omnidrone720.com/2https://airesearchflanders.be/16145引用[1] John Aloimonos，Isaac Weiss，and Amit Bandyopadhyay.主动视觉。国际计算机视觉杂志，1（4）：333-356，1988。一、二[2] Jimmy Ba、Volodymyr Mnih和Koray Kavukcuoglu。具有视觉注意的多目标识别。 arXiv 预印本 arXiv ：1412.7755，2014。二、三[3] Philip Bachman ， R Devon Hjelm ， and WilliamBuchwalter.通过最大化跨视图的互信息来学习表示arXiv预印本arXiv：1906.00910，2019。3[4] Vijay Badrinarayanan Alex Kendall 和 Roberto CipollaSegnet：用于图像分割的深度卷积编码器-解码器架构。IEEE Transactions on pattern analysis and machineintelligence，39（12）：2481-2495，2017。2[5] 鲁泽娜·巴伊奇主动感知。Proceedings of the IEEE，76（8）：966-1005，1988. 2[6] Gabriel J Brostow，Jamie Shotton，Julien Fauqueur，andRoberto Cipolla.利用运动点云的结构进行分割和识别。欧洲计算机视觉会议，第44-57页。Springer，2008. 6[7] Holger Caesar Jasper Uijlings 和 Vittorio Ferrari 可可 - 东西：上下文中的事物和东西类。在IEEE计算机视觉和模式识别会议论文集，第1209-1218页，2018年。五、六[8] 柴玉Patchwork：一个用于视频流中有效对象检测和分割的补丁式注意力网络在IEEE/CVF计算机视觉国际会议论文集，第3415-3424页，2019年。二、三[9] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义IEEE Transactions on Pattern Analysis and MachineIntelligence，40（4）：834-848，2017。2[10] Tao Chen，Saurabh Gupta，and Abhinav Gupta. 学习导航的探索政策。 arXiv 预印本 arXiv ： 1903.01959 ，2019。2[11] 陈婷，西蒙·科恩布里斯，穆罕默德·诺鲁齐，和葛offrey Hinton.视觉表征对比学习的一个简单框架国际机器学习会议，第1597-1607页。PMLR，2020年。三、四[12] Xinlei Chen，Kaiming He.探索简单的连体表征学习。arXiv预印本arXiv：2011.10566，2020。一、三、四[13] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集在Proceedings of the IEEEconference on computer vision and pattern recognition，pages 32136[14] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert：为语言理解而进行的深度双向转换器的预训练。arXiv预印本arXiv：1810.04805，2018。3[15] AlexeyDosovitskiy，LucasBeyer，AlexanderKolesnikov，Dirk Weissenborn，Xiaohua Zhai，ThomasUnterthiner ， Mostafa Dehghani ， Matthias Minderer ，Georg Heigold，Syl-16146vain Gelly等一张图片相当于16x16个单词：用于大规模图像识别的变换器 . arXiv 预印本 arXiv ：2010.11929，2020。3[16] ErikG？rtne r，AleksisPirinen，andCristianSminchisescu.用于主动人体姿势估计的深度强化学习。在AAAI人工智能会议论文集，第34卷，第10835-10844页，2020年。2[17] Andreas Geiger，Philip Lenz，Christoph Stiller，andRaquel Urtasun.视觉与机器人技术的结合：Kitti数据集。The InternationalJournal of Robotics Research，32（11）：1231-1237，2013. 6[18] Ross Girshick，Jeff Donahue，Trevor Darrell和JitendraMalik。丰富的特征层次结构，用于精确的对象检测和语义分割。在Proceedings of the IEEE conference oncomputer vision and pattern recognition，pages 5801[19] Je a n-BastienGrill ， FlorianStrub ， FlorentAltch e´ ，CorentinTallec，PierreHRichemond，ElenaBuchatskaya，Carl Do- ersch，Bernardo Avila Pires，Zhaohan Daniel Guo，Moham- mad Gheshlaghi Azar，et al. Bootstrap你自己的潜在：一种自我监督学习的新方法。arXiv预印本arXiv：2006.07733，2020。3[20] Raia Hadsell，Sumit Chopra，and Yann LeCun.通过学习不变映射进行降维在2006年IEEE计算机协会计算机视觉和模式识别会议（CVPRIEEE，2006年。3[21] Junwei Han ， Le Yang ， Dingwen Zhang ， XiaojunChang，and Xiaodan Liang.增强切割--用于视频对象分割的智能体学习。在IEEE计算机视觉和模式识别会议论文集，第9080-9089页2[22] Kaiming He，Haoqi Fan，Yuxin Wu，Saining Xie，and Ross Girshick.用于无监督视觉表示学习的动量对比。在IEEE/CVF计算机视觉和模式识别会议论文集，第9729-9738页3[23] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页，2016中。3[24] Dinesh Jayaraman，Ruohan Gao，and Kristen Grauman.通过基于一次性图像的形状重建的非监督学习。CoRR，abs/1709.00505，3，2017。2[25] Dinesh Jayaraman和Kristen Grauman学习环顾四周：智能地探索未知的环境以执行未知任务。在IEEE计算机视觉和模式识别会议论文集，第1238- 1247页，2018年。1、6[26] AlexKendallMatthewGrimes 和 RobertoCipoll

下载后可阅读完整内容，剩余1页未读，立即下载