基于一致性的部分可观察场景顺序Transformer注意力模型

201 浏览量更新于2023-10-25 收藏 13.89MB PDF 举报

注意力模型

图像分类

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

ing incomplete images. For example, the accuracy of DeiT-Small [44] drops by around 10% when 50% of the image re-gions are unavailable [25]. Moreover, they cannot performautonomous sensing.Many developed autonomous agents that acquire a seriesof most informative sub-regions from a scene to performclassification from partial observations [5,14,24,27]. Mostexisting scalable approaches [14, 27, 45] initially glance atan entire scene to locate the informative sub-regions. How-ever, in practice, glancing at an entire scene is not alwaysfeasible. Examples include time-sensitive rescue operationsusing aerial imagery, an autonomous car driving in a newterritory, and a medical expert probing a tissue to find ab-normalities. We develop an autonomous agent that predictslocations of the most informative regions, called glimpses,without observing the entire scene initially. Starting fromobserving a glimpse at a random location, the autonomousagent decides which location to attend next solely based onthe partial observations made so far.We design our autonomous agent using a transformer ar-chitecture [13, 44, 47] and call it Sequential TransformersAttention Model (STAM). Transformers efficiently modellong-range dependencies and are ideal for aggregating in-formation from distant glimpses. At any given time, our25180基于一致性的部分可观察场景顺序Transformer注意力模型0Samrudhdhi B. Rangrej a，Chetan L. Srinidhi b，James J. Clark a0a 加拿大麦吉尔大学。b 加拿大多伦多大学Sunnybrook研究所。0samrudhdhi.rangrej@mail.mcgill.ca，chetan.srinidhi@utoronto.ca，james.clark1@mcgill.ca0摘要0大多数困难注意力模型最初会观察完整场景以定位和感知信息片段，并根据片段预测场景的类别标签。然而，在许多应用中（例如航空成像），由于获取的时间和资源有限，不总是能够完整观察整个场景。在本文中，我们开发了一种顺序Transformer注意力模型（STAM），它只部分观察完整图像，并仅基于过去的片段预测信息片段的位置。我们使用DeiT-distilled[44]设计了我们的代理，并使用一步演员-评论家算法对其进行训练。此外，为了提高分类性能，我们引入了一种新的训练目标，通过强制要求教师模型从完整图像预测的类别分布与我们的代理使用片段预测的类别分布之间的一致性来实现。当代理仅感知总图像区域的4％时，将所提出的一致性损失纳入我们的训练目标中，ImageNet和fMoW数据集的准确性分别提高了3％和8％。此外，我们的代理在ImageNet和fMoW上观察到的像素数量分别减少了近27％和42％，超过了先前的最新技术。01. 引言0高性能的图像分类模型，如EfficientNet [42]，ResNet [15]和VisionTransformers（ViT）[13]，假设可以获得完整的场景（或图像）进行识别。然而，在许多实际场景中，并不总是一次性获得完整图像。例如，自主代理可能只部分地获取图像，并通过一系列狭窄的观察来获取。原因可能包括视野小，获取成本高，获取时间有限，或传感器与计算单元之间的带宽有限。通常，代理可能已经部分获取了图像，系统必须根据不完整的信息进行识别。在完整图像上训练的模型在处理不完整图像时效率低下。例如，当图像区域的50％不可用时，DeiT-Small[44]的准确性下降约10％[25]。此外，它们无法进行自主感知。许多开发的自主代理从场景中获取一系列最具信息的子区域来进行部分观察的分类[5，14，24，27]。大多数现有的可扩展方法[14，27，45]最初会扫视整个场景以定位信息子区域。然而，在实践中，扫视整个场景并不总是可行的。例如，使用航空图像进行时间敏感的救援操作，自动驾驶汽车在新领域行驶，医学专家探测组织以寻找异常。我们开发了一种自主代理，它可以在最初不观察整个场景的情况下预测最具信息的区域位置，称为“glimpses”。从在随机位置观察一个片段开始，自主代理仅基于迄今为止的部分观察决定下一个要关注的位置。我们使用Transformer架构[13，44，47]设计了我们的自主代理，并将其称为顺序Transformer注意力模型（STAM）。Transformer可以高效地建模长距离依赖关系，非常适合从远处的片段中聚合信息。在任何给定的时间，我们的0图1.顺序Transformer注意力模型（STAM）的示意图。我们将图像（X）分割为大小相等且不重叠的片段。STAM从图像中顺序观察信息片段（gt）。虽然从未完整观察过图像，但STAM根据片段预测图像的类别标签（y）。在每个t时刻，我们的代理将过去的片段及其位置（g0:t，l0:t）编码为马尔可夫状态st。它使用状态st来预测类别分布p(yt|st)和注意力策略π(lt+1|st)。我们从π(lt+1|st)中采样下一个片段位置lt+1。25190代理根据迄今为止收集到的窥视预测下一个窥视的最佳位置和图像的类别标签。由于窥视获取是一个离散且不可微分的过程，我们使用强化学习（RL）来训练我们的代理。此外，我们提出了一个额外的训练目标，要求代理根据从完整图像预测的类别分布，从一组窥视中预测类别分布。为此，我们使用一个教师变换器模型从完整图像预测类别分布，而我们的代理（学生模型）尝试使用部分观察来复现这个分布。我们在两个大规模真实世界数据集ImageNet[34]和fMoW[10]上进行实验。0我们的主要贡献如下。0•我们开发了一种基于变换器的强化学习代理称为STAM，它从场景中主动感知窥视，并根据部分观察预测类别标签。我们的代理不是通过观察整个图像来定位有信息的窥视，而是根据过去的窥视顺序预测下一个最具信息的窥视位置。0•我们提出了一种基于一致性的训练目标，代理必须使用部分观察来预测与完整图像一致的类别分布。仅观察到总图像面积的4%，我们提出的目标在ImageNet和fMoW上分别提高了约3%和8%的准确性。0•我们的代理从不观察完整的图像，而是优于先前的方法，这些方法最初瞥见整个图像以定位有信息的窥视。在ImageNet和fMoW上，它在感知窥视中使用的像素数量分别减少了27%和42%，超过了先前的最新技术。02. 相关工作0硬注意力。与软注意力[52]相反，软注意力关注图像的所有区域，但重要性不同，硬注意力[24]顺序地关注图像中最具信息的子区域。硬注意力最初由Minh等人引入[24]，后来被许多其他人研究。硬注意力使用不同的技术，如期望最大化[30]，多数投票[1]，唤醒-睡眠算法[6]，从自注意力或确定性地图中采样[37,38]，以及贝叶斯最优实验设计[29]。最成功的硬注意力模型使用策略梯度强化学习算法[5, 14, 24, 27, 48,52]来学习采样窥视。大多数先前的硬注意力模型最初瞥见完整的图像以定位最具信息的窥视。例如，Xu等人[52]和Saccader[14]分析了0原始分辨率的完整图像；而DRAM[6]，TNet[27]和GFNet[48]以低分辨率观察完整图像。此外，TNet[27]和GFNet[48]使用图像的低分辨率要点来预测类别标签。相反，我们的模型不以低分辨率或其他方式查看整个图像。我们仅根据部分观察来预测值得关注的窥视位置和完整图像的类别。从这个角度来看，RAM[24]也是在部分可观察性下操作的最相关的方法。虽然RAM无法扩展到MNIST数据集之外，但我们的方法可以扩展到大规模真实世界数据集。0选择补丁。许多方法一次观察整个图像以选择所有信息子区域。例如，区域建议网络[33]，前K个补丁选择[2,11]，多实例学习[18]，注意力采样[19]和PatchDrop[45]。与这些方法不同，我们的模型不观察整个图像，而是顺序预测信息子区域的位置。在视觉变换器中，诸如PS-ViT[54]，Dynamic-ViT[31]和IA-RED2[26]等方法从观察完整图像开始，并逐渐（重新）采样每个连续变换器块中最具辨别力的补丁。相反，我们只采样并输入有信息的补丁到变换器中。此外，我们的模型是顺序的，每一步只感知一个额外的补丁。0一致性学习。一致性学习的概念最初由Sajjadi等人提出，并已成为许多最近半监督学习（SSL）算法的重要组成部分。一致性学习作为一种正则化器，强制模型输出对输入图像的扰动保持不变，或对隐藏状态或模型参数的扰动保持不变。通过使用从一个扰动中得出的预测作为从另一个扰动中得出的预测的伪目标来实现一致性。半监督学习中的另一个密切相关的概念是伪标记，其中使用训练模型（称为“教师模型”）为无标签数据生成软（连续分布）或硬（one-hot分布）伪标签。然后在使用部分观测的情况下训练学生模型时，将这些伪标签用作目标。这种方法与知识蒸馏密切相关，其中学生模型被训练以复现教师的输出。在这项工作中，我们基于这些概念开发了一种一致性训练目标。我们训练我们的代理模型对特定类型的输入扰动具有不变性，即部分和完整的观测。此外，我们使用教师模型从完整图像中生成软伪标签，并在使用部分观测训练我们的代理模型（学生模型）时将其用作目标。25200步骤1：步骤2：步骤3：0图2.我们顺序Transformer注意力模型（STAM）的概述。STAM包括一个核心T，分类器G和D，一个演员A和一个评论家C（仅在训练过程中使用）。我们在第3.1节中讨论了这些模块的工作原理，除了评论家C，我们在第4节中讨论了它。我们使用右侧显示的并在第4节中讨论的目标每批次更新模型参数T次。每个训练迭代包括三个步骤：步骤1（绿色路径）：给定完整图像X，教师模型预测软伪标签q（y |X）。步骤2（蓝色路径）：给定glimpses g0：t，核心T预测特征fgt和fdt。分类器G和D分别从特征fgt和fdt预测类别分布pg(yt |fgt)和pd(yt | fdt)。给定状态st = [fgt; fdt]，评论家C预测值V(st)，演员A预测注意力策略π(lt+1 |st)。演员以条件独立的方式预测所有未观察到的glimpse位置(i, j)的logitsπ'((i, j) | st)，并对logits应用softmax，得到π(lt+1 |st)。步骤3（橙色路径）：在lt+1 � π(lt+1 | st)的位置lt+1处感知到glimpsegt+1。使用观察到的glimpsesg0：t+1，按照与步骤2相同的路径计算集成类别分布p(yt+1 |st+1)和值V(st+1)。模型参数使用来自步骤2的梯度进行更新。实际上，步骤1在t = 0时每批次执行一次，而步骤2-3每批次执行T次。03. 顺序Transformer注意力模型（STAM）0给定一个未观察到的场景X，代理主动捕获一系列不重叠的glimpses，并且在从未完全观察到X的情况下，基于glimpses预测X的类别标签y。我们的代理模型的示意图如图1所示。在时间t，代理从图像X中的位置lt感知到glimpsegt。使用到时间t为止观察到的glimpses，我们的代理模型预测：i）y t，标签y的近似值，以及ii）lt+1，下一个glimpse的位置。我们将代理的顺序注意机制建模为部分可观察的马尔可夫决策过程（POMDP）。在POMDP中，代理将部分观测的历史{ (g t ′ , l t ′ ) | t ′ ∈ { 0 , . . . , t}}编码为马尔可夫状态st，并将其映射到：i）类别分布p(yt |st)和ii）注意力策略π(lt+1 | st) -一个分布，用于下一个时间步t+1的候选glimpse位置。03.1. 我们的Agent模型0我们使用DeiT-distilled[44]构建我们的agent，简称为DeiTD。简要地说，DeiTD是一种使用知识蒸馏训练的ViT类型。DeiTD中的transformer将一个类别令牌的输入序列转换为...0一个蒸馏令牌和patch令牌（图像patches的线性投影加上位置嵌入）组成的输出序列；通过这些输出，两个分类器分别预测出真实标签和教师的预测结果。在我们的方法中，我们调整DeiTD来从glimpse中预测标签，并使用蒸馏令牌来保持一致性。图2展示了我们的agent模型。我们的agent由以下组件组成。0传感器。我们考虑一个从场景中捕捉非重叠glimpse的传感器。为了建模这个传感器，我们将图像X分成N×N个大小相等的非重叠块，X = {X(i, j) | i, j ∈ {1, ..., N}}。给定位置l_t= (i, j)，传感器会感知到一个glimpse g_t = X(i,j)，如图1所示。0核心（T）。在时间t，我们从每个观察到的glimpse中提取M×M的patches，形成一个t×M×M的patches集合。我们将这些patches、位置嵌入、类别令牌和蒸馏令牌输入到DeiTD模型中。位置嵌入表示图像中patch的位置。我们从图像中父glimpse的位置推导出patch的位置。8:lt+1 = argmax(π′(l′|·))p(yt|st) = 2(pg(yt|f gt ) + pd(yt|f dt )).(1)25210算法1 使用STAM进行推理01: 随机初始化 l 0 ; 2: 对于 t ∈ { 0 , . . . , T − 1 }，进行如下循环：3: 从图像中的 l t 处采样 g t � 传感器04: f g t , f d t = T ( g 0: t , l 0: t ); s t = [ f g t ; f d t ] � 核心06: π ′ ( l ′ |∙ ) = A ( s t , l ′ ) , � l ′ ∈ {{ 1 , .., N } 2 − l 0: t } �演员09: 结束循环0在最终transformer块的输出中，我们将对应于类别令牌的输出定义为f g t，将对应于蒸馏令牌的输出定义为f dt。然后，我们通过连接f g t和f d t形成一个马尔可夫状态st，演员模块将在后续使用该状态来预测注意力策略。0分类器（G和D）。与DeiTD相同，我们使用两个线性分类器分别从f g t和f dt预测两个类别分布p g ( y t | f g t )和p d ( y t | f d t)。在训练过程中，我们独立处理预测的分布，并在推理过程中对它们进行平均以形成一个集成分布[44]：0演员（A）。一个演员MLP预测注意力策略π ( l t +1 | s t)。分布π ( l t +1 | s t )通过对逻辑回归 { π ′ (( i, j ) | s t ) }进行softmax计算得到，其中 ( i, j )是未观察到的glimpse位置。演员以条件独立的方式为每个( i, j ) 预测π ′ (( i, j ) |∙)，演员接受glimpse位置嵌入 e ( i, j )和马尔可夫状态 s t 的连接作为输入，并输出π ′ (( i, j ) | s t)。这里，e ( i, j ) 是由预训练的DeiTD的位置嵌入插值初始化的可学习嵌入。在训练过程中，我们使用 l t +1 � π ( l t +1 | s t )，在推理过程中，我们使用 lt +1 = argmax ( π ( l t +1 | s t))。我们在附录中提供了算法1中的推理步骤。04. 训练目标0我们使用训练目标来训练核心（θ T）、分类器（θ G 和 θD）和演员（θA）的参数。图2说明了我们模型的训练步骤，附录中的算法1给出了相应的伪代码。04.1. 学习分类0我们的代理基于输入的瞥见预测两个类别分布，即pg和pd；其中，pg是与完整图像相关的地面真实类别分布的估计，pd是由教师模型从完整图像预测的类别分布的近似。我们使用以下两个目标来学习pg和pd：0监督损失。由于我们的目标是从部分观察中预测y，我们通过最小化pg(yt|st)和δ(y|X)之间的交叉熵来学习参数{θT, θG}，给出0通过计算pg(yt|st)和δ(y|X)之间的KL散度给出0Lsup = -δ(y|X)log(pg(yt|st)), (2)0其中，δ(y|X)是指示完整图像的地面真实标签的δ分布。0一致性损失。为了提高我们代理的性能，我们要求从瞥见中得出的预测与从完整图像中得出的预测保持一致。此外，以上预测无论迄今为止观察到的瞥见数量和位置如何，也应该是相同的。理想情况下，对于每个t，我们要求我们的代理产生最小化KL[pd(yt|st)||p(y|X)]的pd(yt|st)；其中p(y|X)是代理在观察完整图像的所有瞥见后的预测。直接优化上述KL散度很困难，因为目标p(y|X)在训练过程中不断变化。为了解决这个问题，我们依赖于一个单独的教师模型提供稳定的目标。我们的教师模型从完整图像中预测类别分布q(y|X)；其中q(y|X)在文献[16,51]中通常被称为X的软伪标签。用于训练{θT,θD}的一致性目标给出0Lconsist = KL[pd(yt|st)||q(y|X)]. (3)04.2. 学习注意力策略0我们将注意力视为POMDP。在观察到位置lt+1�π(lt+1|st)的瞥见之后，我们根据观察到的瞥见的效用奖励Rt+1奖励我们的代理。我们的训练目标是学习最大化未来奖励之和，也称为回报Gt=∑Tt′=t+1(R′t)的π(lt+1|st)。大多数现有的工作[5, 14, 24,27]使用REINFORCE算法[49]来学习注意力策略。这些方法在t=0到T−1步运行代理以获得R1到RT并计算G0到GT−1。最后，更新代理的参数一次以最大化回报。由于变压器的二次复杂度，运行我们的代理T步并在最后一次更新参数是昂贵的。因此，我们采用一步演员-评论家算法[41]来在每个时间步更新参数。0评论家损失。为了使用一步演员-评论家算法训练我们的代理，我们引入了一个具有参数υ的评论家MLP（C）。评论家学习一个值函数V（st），该函数估计给定代理当前状态的预期回报，即Eπ[Gt]。由于Eπ[Gt]=Eπ[Rt+1+Gt+1]，V（st）应该等于Eπ[Rt+1+V（st+1）]。因此，评论家参数υ通过最小化两个量之间的差异来学习。实际上，我们使用对π的单个蒙特卡罗样本估计期望，得到0Lcritic = ||V(st) - (Rt+1 + V(st+1))||. (4))25220我们运行我们的代理程序进行额外的一步来计算V（st+1）。注意，数量（Rt+1+V（st+1））作为目标而不参与参数更新。我们只在训练期间使用评论家MLP，并在训练结束后丢弃它。0演员损失。代理的目标是学习一个能够实现最大回报的策略。当代理通过在位置lt+1处观察到瞥见时，π(lt+1|st)必须按比例减少以减少缺口。换句话说，π(lt+1|st)必须减少因子(V(st) - (Rt+1 +V(st+1))；其中V(st)是对st的预期回报的估计，(Rt+1 +V(st+1))是对在lt+1处瞥见后的预期回报的估计。我们通过最小化来优化参数{θT, θA}0Lactor = log(π(lt+1|st))(V(st) - (Rt+1 + V(st+1))).0注意(V(st) - (Rt+1 +V(st+1)))作为一个缩放因子，不参与参数更新。0奖励。我们使用一种奖励来激励代理根据完整图像基于教师模型预测的标签来预测yt。我们的奖励是0Rt = -KL[p(yt|st)||q(y|X)], (6)0其中p(yt|st)是使用公式1计算的。我们期望从完整图像中进行的预测的准确性为从部分观察中进行的预测的准确性提供一个上限。以上奖励鼓励代理达到上限。我们的最终训练目标如下。0L = 102 (Lsup + Lconsist) + (Lactor + Lcritic) (7)05.实验设置0数据集。我们使用两个大规模真实世界数据集进行实验，分别是ImageNet [34]和fMoW[10]。ImageNet包含来自1000个类别的自然图像。它包括约1.3M个训练图像和5万个验证图像。我们将图像调整为大小为224×224。fMoW包含来自62个类别的卫星图像。它包含约0.36M、约53K和约64K个训练、验证和测试图像。我们根据数据集提供的边界框裁剪图像，并将裁剪后的图像调整为224×224。除非另有说明，我们在两个数据集上都使用相同的默认设置来实现和优化STAM。0实现。我们将图像分成大小为32×32的非重叠瞥见，得到一个7×7的网格01我们的代码可在以下网址找到：https://github.com/samrudhdhirangrej/STAM-Sequential-Transformers-Attention-Model0瞥见。根据DeiTD的要求，我们将每个瞥见进一步分成四个大小为16×16的非重叠补丁。除非另有说明，我们的代理使用DeiTD-Small架构。演员和评论家的MLP的形式为{3×{FC-BN-ReLU}-FC}，隐藏维度分别为2048和512。我们使用预训练的DeiT D2初始化核心和分类器，并随机初始化演员和评论家。我们对训练稳定性对logitsπ'(∙)进行l2范数归一化，并在应用softmax之前乘以τ。我们阻止评论家对代理的梯度传播。我们在每个训练迭代中将奖励归一化为零均值和单位方差。值V(∙)的大小从一个时间步长到下一个时间步长不同，因为它近似于未来奖励的期望总和。为了学习具有不同大小的V(∙)，我们对预测值应用PopArt风格的归一化[46]。我们在ImageNet和fMoW上分别使用DeiTD和DeiT作为教师模型。对于ImageNet教师模型，我们使用公开可用的权重。fMoW的教师模型首先使用在ImageNet上预训练的DeiT模型进行初始化，然后使用默认超参数设置[44]在fMoW数据集上进行100个时期的微调，同时进行额外的垂直翻转增强。0优化。我们的代理每个图像运行 T = 21个时间步长，每次捕捉一个瞥见。我们在每个时间步长后对模型参数进行 T 次批量更新。为了考虑每个批次的 T次更新，我们允许代理在一个时期内只看到数据的 1/T部分。我们在ImageNet上使用4096的批量大小（B）进行200个时期的训练，在fMoW上使用600的批量大小（B）进行400个时期的训练。超参数 τ在前100个时期内线性增加从1到4，并在剩余的训练中固定为4。我们使用Rand-Augment方案[12]增强训练图像，并遵循Touvron等人的相同设置[44]。此外，对于fMoW，我们还使用随机垂直翻转增强。我们使用AdamW优化器[23]进行代理训练，权重衰减为0.05。我们采用余弦学习率调度，初始学习率为lr base ×B/512，最小学习率为1e-6。基本学习率lr base对于评论模块设置为1e-3。对于其他模块，lr base对于ImageNet设置为1e-6，对于fMoW设置为1e-5。我们在四个V100GPU上进行代理训练，ImageNet每个GPU使用32GB内存，fMoW使用16GB内存，训练时间不到一天。06. 结果06.1. 与基准注意策略的比较02 https://github.com/facebookresearch/deit0 2 4 6 8 10 12 14 16 18 20Time t20406080RandomPlusSpiralSTAM (Ours)45678950556065(a)0 2 4 6 8 10 12 14 16 18 203040506070Accuracy (%)(b)domly from a set of unobserved glimpses. In contrast, thePlus and the Spiral agents account for the object-centricnature of vision datasets and select glimpses in the ordershown in Figure 4 (c). For a fair comparison, all baselineagents begin with the first glimpse at a random location.The model architecture of the baseline agents is similar toour proposed agent, except that the baseline agents do nothave an actor module. We train the baseline agents follow-ing the same procedure as our agent using the losses fromEquation 2 and 3.Results are shown in Figure 3. Among the three base-lines, the Spiral and the Plus agents outperform the Randomagent. For t ≥ 8, the Plus achieves higher accuracy thanthe Spiral on ImageNet, whereas, on fMoW, the Spiral out-performs the Plus. This inconsistent behavior is mainly dueto the different orientations of objects in the two datasets.While the objects are mainly aligned vertically or horizon-tally in ImageNet, the landmarks in fMoW have no spe-cific orientation. Finally, our agent outperforms all base-line agents across the two datasets both at initial (t < 8)and later (t ≥ 8) time-steps. At t = 8, it achieves 1.8%higher accuracy on ImageNet and 2.3% higher accuracy onfMoW than the top-performing baselines for the respectivedatasets.0 2 4 6 8 10 12 14 16 18 200.00.51.01.52.02.53.00 2 4 6 8 10 12 14 16 18 2001234567825230准确率（%）0时间t0RandomPlus SpiralSTAM（我们的方法）0图3.不同注意策略的基准比较。（a）ImageNet；（b）fMoW。Random以随机顺序选择瞥见。Plus和Spiral按照图4（c）中显示的顺序选择瞥见。Random和STAM的结果以从十次独立运行中计算得到的均值±5×标准差呈现。06.2. 一致性损失分析0为了量化从方程3中获得的一致性损失所获得的增益，我们将训练包含和不包含此损失的代理进行比较。为了公平比较，当训练我们的代理时不使用一致性损失时，我们评估方程1中的集合分布p(yt|st)与真实值之间的交叉熵损失。其余的训练设置对两个代理都是相同的。0时间t0准确率提高（%）0（a）0时间t0准确率提高（%）0（b）0（c）0图4.当训练时包含一致性损失（使用软伪标签和硬伪标签）与不包含一致性损失时，STAM准确性的提高。（a）ImageNet；（b）fMoW。结果以使用十次不同运行计算得到的均值±标准差呈现。（c）给定一张图像，（上）Spiral和（下）Plus基准按照所示顺序选择瞥见。0在图4中（蓝色曲线），我们展示了在训练目标中包含和排除一致性损失（方程7）时，STAM的准确性差异。使用仅两个瞥见（即一个随机瞥见和一个在t=1时由代理选择的瞥见），所提出的一致性损失在ImageNet上的准确性显著提高，提高了约3％，在fMoW数据集上提高了约8％。为了评估我们提出的一致性损失所带来的改进，我们研究了使用硬伪标签的替代一致性损失的效果，其中L consist =-δ(ˆy|X)log(pd(yt|st))，ˆy是由教师模型从完整图像预测的硬伪标签，即ˆy =argmax(q(y|X))，δ(ˆy|X)是一个delta分布。结果如图4所示（紫色曲线）。使用具有硬伪标签的一致性损失训练的代理在ImageNet上获得了约1.5％的提高，在fMoW上获得了约3.5％的提高，仅针对前两个瞥见。总体而言，一致性损失改善了STAM的性能。使用软伪标签评估的一致性损失的准确性提高大于硬伪标签。在补充材料（第1.1节）中，我们证明了一致性损失也改善了Random、Plus和Spiral代理的性能。在那里，我们观察到STAM相对于基线代理的性能提高更高。0补充材料中的其他结果（SM）。在SM的第1.2节中，我们展示了当图像中观察到的区域<20％时，STAM使用较小的瞥见实现更高的准确性。此外，在SM的第1.3节中，我们展示了模型容量的增加可以改善STAM的性能。在SM的第1.4节中，我们展示了在ImageNet上进行更长时间的训练还可以进一步提高STAM的性能。25240（a）0（b）0图5. STAM在示例图像上选择的瞥见的可视化，从t =0到15。（a）ImageNet；（b）fMoW。仅用于参考的完整图像。STAM不观察完整的图像。放大以观察细节。06.3. 瞥见可视化0在图5中，我们展示了STAM选择的瞥见和ImageNet和fMoW示例图像上的预测标签。在ImageNet示例中，STAM在t= 14处定位并识别了雨伞。在fMoW示例中，STAM在t =8处定位了输电线并识别了发电厂。请注意，尽管没有观察到完整的图像，但STAM仅基于过去的瞥见预测了信息瞥见的位置。有关更多示例，请参见补充材料中的图5-6。0在图6中，我们显示了我们的代理随着t的增加选择的瞥见位置的直方图。在t =0时，代理在随机位置观察瞥见，并且在t =1时，代理学会主要观察以图像为中心的瞥见，可能是由于数据集的以对象为中心的性质。对于随后的瞥见，代理倾向于在ImageNet中关注垂直和水平居中的瞥见。而对于fMoW，它会关注距离中心最小的瞥见。请注意，在ImageNet中，感兴趣的对象经常出现在中心并且垂直或水平对齐；而在fMoW中，感兴趣的对象出现在中心，但没有特定的方向。随着时间的推移，代理根据通过先前瞥见观察到的内容在中心以外的不同位置进行关注，如图5所示。0（a）0（b）0图6.STAM在ImageNet和fMoW上感知到的瞥见位置的直方图（a）（b）。每个面板的第一行，第二行和第三行分别显示了t =0到6，7到13和14到20的直方图。在t =0时，STAM在随机位置观察瞥见。在t>0时，STAM在RL代理预测的位置感知瞥见。06.4. 最先进的比较0由于以下原因，我们的方法与先前的工作之间进行公平比较是具有挑战性的。大多数先前的工作观察整个图像，偶尔以低分辨率观察最具信息的瞥见[5, 14, 27, 45,48]。此外，如果他们以低分辨率观察整个图像，他们可以选择使用图像以及瞥见来预测类别标签[27, 45,48]。相反，我们的代理只在部分可观测性下运行。我们在表1中提供了最先进的比较，并指出哪种方法使用整个图像以及使用图像的原因。由于不同的方法使用不同的瞥见大小，我们根据每个图像用于分类的像素数量进行比较。如果该方法感知到完整的图像但不用于分类[5, 14]，我们不会020406080=0.0=0.1=0.2=0.3=0.4=0.5=0.6=0.7=0.8=0.9=1.003040506070=0.0=0.1=0.2=0.3=0.4=0.5=0.6=0.7 =0.8=0.9=1.025250ImageNet fMoW0方法注释是完整的图像用于准确性的像素数量准确性的像素数量注意力？分类？分类（%）分类（%）0DRAM [5]来自[27]的结果是否 47.4K 67.50 — — GFNet [48] 是是 46.1K 75.93 — — Saccader [14]来自[27]的结果是否 35.6K 70.31 — — TNet [27] 是是 35.6K74.62 — † — STN [32, 45]在[45]中开发，基于[32] 是是 28.2K 71.40 22.0K 64.8 PatchDrop [45] 是是 27.9K 76.00 19.4K 68.30STAM（DeiT D-Small（默认））� � 等效否否 20.5K（t = 19） 76.35 11.3K（t = 10） 68.8 STAM（DeiT D-Base）与[45]的准确性等效否否 14.3K（t = 13） 76.13 —— STAM（DeiT D-Small（默认））� � 等效否否 27.7K（t = 26） 78.25 19.5K（t = 18） 71.5 STAM（DeiT D-Base）与[45]的感知等效否否 27.7K（t = 26） 80.78 ——0表1.最新技术比较。我们报告了每个图像进行分类时感知的像素数量和相应的准确性。如果一种方法使用完整图像的低分辨率概要进行分类，我们将包括概要中的像素在上述计数中。我们的结果是在十次运行中计算得出的平均值。我们在两个不同的时间步骤（�前两行）报告了当我们的方法的准确性与PatchDrop相等时，以及（�最后两行）当我们的代理器进行分类时感知的像素数量与PatchDrop相等时的结果。†TNet[27]使用896×896分辨率的图像，因此我们不在上述比较中包括他们

下载后可阅读完整内容，剩余1页未读，立即下载