双侧注意力聚集算法在少镜头实例定位中的有效性

18 浏览量更新于2023-10-16 收藏 1.93MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6325面向少镜头实例定位的双侧注意力聚集算法谢和彦，陈定杰，张正伟，刘廷禄，中央研究院资讯科学研究所，台湾heyen@iis.sinica.edu.tw，djchen.tw gmail.com www.example.com@www.example.com，wwwgmail.comjohnnyccw.tw @liutyng@iis.sinica.edu.tw摘要正确检测错误检测各种学习场景下的注意力过滤已被证明有利于增强许多神经网络架构的性能。主流的注意机制建立在非局部块上，也被称为突出的Transformer网络的重要组成部分，以捕获长程相关性。然而，这种单侧注意力通常受到稀疏和模糊的响应的阻碍，这表明图像/块之间的依赖性不足，以及高计算成本，特别是对于采用多头设计的那些。为了克服这些问题，我们引入了一种新的聚合双边注意力（ABA）机制，并验证了它在处理少镜头实例定位任务中的有效性。查询图像支持图像（马）NLB反映底层查询支持依赖性。具体来说，我们的方法通过评估以下内容来帮助发现信息特征：i）用于探索语义相关线索的嵌入规范; ii）用于将查询数据和支持区域相关联的上下文感知。ABA，然后进行整合的亲和力关系来自两个测量作为一个轻量级的，但有效的查询支持注意力机制，具有高本地化召回。我们评估ABA的两个定位任务，即，少数镜头动作定位和一次性目标检测。大量的实验表明，建议ABA实现优于现有的方法的性能。1. 介绍非局部块（NLB）[39]是一种自我注意机制，也被称为基本单元，即，突出的Transformer中的多头注意力内的缩放点积注意力单元NLB和Transformer都显示了特征增强在解决自然语言处理和计算机视觉的各种任务方面的成功。例如，这种注意力机制[27]3D成像[33]和语义分割[51]。图1：聚合双边注意力。左上角的两个图像是输入对，剩下的四个显示了叠加在查询图像上的注意力热图。每个注意力热图描绘了支持图像内的绿框区域的像素级特征相似性。提出的ABA算法可以提高局部化查全率，有利于少量实例的定位。本文的动机是观察到，大多数现有的少镜头实例定位方法，直接使用典型的非局部块，遭受稀疏的注意力和高计算成本的问题。在计算查询支持度依赖关系时观察到稀疏注意的问题，通过典型的NLB可以导致高准确率但低召回率的感兴趣区域。图1中右上角的图像显示了一个被检测到的集中注意力的棕色马和一个被忽略的抑制注意力的白马。这种情况是由NLB中的亲和力计算步骤引起的，包括点积操作和随后的softmax操作。准确地说，一个高相似性像素对，查询brown horse对支持brown horse，可以通过点积运算快速积累其在特征通道此外，随后的softmax操作可以加速这样的ABA上下文感知嵌入规范人马马马人马6326高相似性像素对以从其他不同像素对中脱颖而出，包括查询白马对支持棕马和任何其他查询非马区域对支持非马区域。然而，在处理几个镜头的实例定位任务时，我们希望检索查询图像和支持图像中的任何潜在不幸的是，这种来自点积和softmax的稀疏注意力可能会降低这些潜在对的召回率，从而降低模型性能。第二个问题是从一种自我注意机制，即，Transformer，它集成了涉及多个表示子空间的多头多层点积计算。虽然这种操纵可以缓解第一个问题;然而，额外的计算成本成为另一个问题。本文讨论了两个少量的实例本地化任务：少数拍摄动作定位[4，13，23，44，45]和一次性物体检测[6，19]。前一个任务的目的是本地化的untrimmed视频序列中的unseen-class动作，其中unseen-class动作暗示了一个支持集的修剪视频拥有unseen-class动作。后一个任务的目的是本地化图像中的unseen-class对象，这是暗示一个支持图像拥有unseen-class实例。一般来说，查询支持依赖性在解决少数实例本地化任务中是必不可少的。非局部块[39]和Transformer [37]的上述注意力机制通常在实践中使用，例如，基于NLB的方法[19，23，44]和基于Transformer的方法[6，45]，以构建这样的依赖性，用于使查询知道由支持集指示的不可见的感兴趣类。所提出的聚合双边注意力旨在成为一种低计算成本的查询支持注意力机制，其可以增加本地化召回率以适合少量实例本地化任务。我们的核心思想是增加查询和支持中的信息成对亲和力的数量，其中信息亲和力触发从本地化模型生成的高召回区域建议。为此，我们的ABA发现，这些信息成对的亲和力，通过整合的亲和力来自建议的嵌入规范和上下文意识。嵌入范数采用p范数来测量每个数据对的查询支持特征距离。该度量减少了查询支持对之间的相似性差异，从而增加了发现具有较小相似性的数据对的机会。上下文感知采用通过全局平均池化捕获的支持上下文信息。捕获的支持上下文引导查询支持亲和度计算，以了解支持中描述的突出实例的类。因此，整合上述两个测量的亲和力不仅涉及发现具有各种相似性的数据对，而且还关注支持上下文信息。此外，为了达到低计算成本，ABA嵌入数据具有更高的降维率，并放弃了多头或多层的设计。此外，由于从两个测量导出的亲和度可能不是同等重要的，所以我们的亲和度矩阵融合步骤采用卷积来学习融合。实验表明，我们的设计有利于少镜头的实例定位任务。我们确定ABA的主要贡献如下：• 我们引入了新的查询支持亲和力聚合占学习嵌入规范和上下文感知的相似性，以提高查询功能的支持。建议ABA是轻量级的，易于被纳入现有的网络，以产生信息查询支持的亲和力。• 我们进行了大量的实验，以证明ABA改善现有的模型，以实现最先进的性能，在两个少数镜头的动作定位和一次性的对象检测。2. 相关工作注意力机制。注意力机制在解决语言相关[1，2，37]和视觉相关[6，10，21，35，39]任务方面表现出了其优势考虑到输入数据的成对相关性，注意机制能够捕获长程依赖性以增强数据表示。例如，Denget al. [9]提出了在排除噪声的同时，集中查询、图像和对象三种注意力进行信息提取。Wu等[40]采用非局部块来关联长期特征。Xu等[43]调节视觉和语言表示之间的关系，以通过注意力机制更好地产生图像字幕最近，已经提出了其他几种注意力机制，例如通道注意力机制[14]，非纠缠非局部神经网络[46]，非局部块集合方法[50]以及辅助位置的附加项[21，22]。而不是直接采用现有的注意力机制，我们提出了一种新的聚合双边注意力，通过两个亲和力测量提取的信息成分少镜头动作定位。关于支持集的类型，我们简要地将少数镜头动作本地化任务分类为镜头支持的[8，15，18，47]，视频支持的[8，15，18，47]，支持的[13，44]和图像支持的[49]任务。支持片段的少镜头动作定位尝试在未修剪的查询视频中定位与支持句子匹配的视频片段。Chen等人[8]建议通过6327∈∈∈∈∈∈∈UU ∩ U∅N U UU我 Z（x）我 JJ非本地块。Zhang等人[47]使用迭代图调整网络将建议编码与时间结构推理相关联。视频支持的少镜头动作定位旨在检索包括由一些修剪的支持视频暗示的动作实例Feng等人[13]提出了一种交叉门控的双耳匹配方法，将支持视频语义对齐到未修剪的查询视频中。Yang等[44]采用非局部块来将查询视频的动作建议的表示与支持视频相关联。利用Transformer机制，Yang等人. [45]设计一个具有专用编码器-解码器结构的几个镜头的Transformer，以更准确地定位动作实例。与视频支持的少镜头动作定位不同，图像支持的少镜头动作定位检索具有更严格条件的视频片段，即，支持牺牲时间信息的图像块Zhang等人[49]应用基于注意力的机制以将所述支持图像内描述的对象在本文中，我们使用FSCAL [44]插入ABA，以获得比原始FSCAL更多的改进，如实验所示。少镜头物体检测。少数拍摄对象检测任务可以根据学习策略进行分组，例如迁移学习[7]，度量学习[25，29，31，34，38，41]，元学习[20，24]，或对比-学习[12]。基于迁移学习的方法[7]旨在通过使用正则化方法来减轻少数不可见图像的过度拟合问题。基于度量学习的少数镜头对象检测方法[25，29，31，34，38，41]的目标是构建一个可学习的度量分类器，用于推理由一些标记示例暗示的不可见类。元学习方法[24]利用经过训练的少量元模型来细化从检测器导出的图像表示Hu等人[20]通过用多个卷积层替换单个嵌入层来引入非局部块的变体，以增强查询图像和支持图像之间的共存特征。基于对比训练的方法[12]通过基于注意力的RPN和多关系检测器将查询图像和支持图像相关联。虽然仅使用一个支持图像作为更严格的约束，Hsiehet al.[19]建议采用非局部块来将来自支持图像和查询图像的特征相互 Osokin 等人 [32]在语义上对齐 query-image 和support-image特征。Chen等人[6]提出Transformer结构以将查询图像提议与支持图像补丁相关联。本文插入我们的ABA与CoAE [19]和AIT [6]，改进了这两种单次目标检测方法。3. 预赛问题定义。少镜头实例（查询支持）本地化的问题遵循标准的M路K镜头协议，以在查询内区分由每个类的K标记数据暗示的M个类的所有实例。假设本地化任务涉及的数据全部来自= ¯类，其中互斥的和（¯= ）分别表示训练中的可见类和不可见类。注意，在推理中，支持集中的M个类可以来自U或U。在少量实例定位任务中，X对来自视频输入的建议/帧级特征或来自图像输入的像素级特征进行对于视频输入，我们遵循[44]采用C3D主干[36]将每个查询视频编码为R t × d中的张量，每个支持视频编码为SRt×d，其中t表示速度。ral尺寸，d表示特征尺寸。接下来[44]，我们然后使用建议子网R-C3 D [42]来检索编码查询视频的建议级表示为QRp×d，其中p表示数字的建议。因此，我们将来自Q的一个提议级特征点表示为xQR1×d，将来自S的一个支持特征点表示为xSR1×d。对于图像输入，我们遵循CoAE[19]使用ResNet主干[16]将查询图像编码为QRhw×d，每个支持图像编码为S Rhw×d，其中h和w分别表示一个特征通道的高度和宽度。因此，我们将来自Q的一个像素级特征点表示为xQ∈R1×d，从S中提取像素级特征点，xS∈R1×d。非局部块[39]被设计为通过密集地关联来自一个输入的每个数据对来捕获自关注的长距离依赖性。为了解决少数镜头实例定位任务，提出了各种注意力相关模型来计算查询支持注意力，例如用于少数镜头动作定位任务的FSCAL [44]，用于一次性对象检测任务的CoAE [19]和AIT [6]。值得一提的是，Transformer [37]已经表明，堆叠多个非局部块以同时编码内部注意力和内部注意力可以提高几种基于注意力的模型的性能。非本地块。非局部块是一种被建模为非局部均值的自注意[3]，其公式化了每个元素与所有其他元素之间的相关性因此，每个元素都可以将其自身与所有数据元素相关联，作为一种远程依赖关系。例如，取图像I，我们将xiI表示为图像y=1<$ω（x，x）θ（x），（1）j∈Ω6328ΣQS⊙我我J pe我eJ eΣ. ΣΣQS ppIjijij其中，n表示I的所有像素，函数ω计算像素对xi和xj的嵌入特征相似性。函数θ形成值嵌入，Z（x）表示归一化因子。函数ω通过采用点积来计算成对相似度，如下所示：4.1. 嵌入范数ωN该度量旨在检索嵌入空间内相邻的语义相关性更高的嵌入范数计算每个查询支持对在ω（xi，xj）=<$（xi）<$ρ（xj）=en（xi）e×p（xj）e，（2）局部相邻数据作为包括相似（语义相关）类的潜在候选。我们开展其中，e表示通道上的求和，ρ re和ρre表示查询和密钥嵌入函数，×表示乘法运算，符号ep-范数的嵌入范数，定义为1x，x当将非局部块插入神经网络时，关注特征yi通常伴随有附加的线性变换xi和剩余连接作为增强特征xi+xi（yi），如图2（a）所示其中函数ε和ρ表示线性嵌入，并且符号e表示嵌入后的特征维度的索引。为了将距离转换为相似度，我们采用如下操作：ωN（xQ，xS）=1.（五）相互增强块。一种现有的查询支持注意力建模是通过两个非本地块交换查询支持特征[6，19，44]。图2（b）示出了FSCAL中的相互增强块的示例[44] 以供参考，并且采用用于执行这种查询支持注意的转换器模块的另一种方式可以参考[6，37，45]以获得更多细节。简单地说，相互增强块采用以下测量来进行查询和支持yQ=1<$ω（xQ，xS）θ（xS），1 +xQ，xSp不失一般性，2-norm是默认设置。讨论所提出的嵌入范数采用p范数来测量每个数据对的查询支持特征距离。与典型的点积相比，这样的基于距离的测量代替了等式（1）中的每通道成对乘法。(2)在等式中减去。（四）、结果，替换减慢了每个数据对的通道上的相似性累积，特别是高-iZ（x）iJJj∈S（三）相似性1通过这种方式，嵌入范数减少了yS=1<$ω（xS，xQ）θ（xQ），高相似性数据对与其他数据之间的差异jZ（x）j我我i∈Q对.它增加了发现中等相似性数据对的机会，白马对超级其中i和j分别表示一个像素级特征从Q和S，函数ω测量等式中的成对相似性。（二）、此后，每个EQ的输出。(3)即，y1线性地嵌入自身，即，（y），用于与y相加。4. 集中双边注意力与之前使用成对点积测量来捕获长程依赖性的基于注意力的方法[6，19，37，39，44]不同，如图2（c）所示，我们的ABA提取了来自嵌入规范和上下文感知的特征注意力。具体来说，ABA通过两个测量来集成两种查询支持成对亲和力：i）从基于距离的嵌入范数导出的一个亲和度示出了检索更多语义相关数据的能力; ii）从上下文感知导出的另一亲和度示出了经由所捕获的支持上下文信息来关注突出支持实例的能力。此外，我们提供了一个有效的亲和矩阵融合机制，以整合这两个亲和力。实验表明，ABA有助于提高局部召回的少数镜头的实例定位任务。PortBrownHorse或甚至低相似性数据对，例如，查询人反对支持棕马，如图1所示。另一方面，减少查询-支持对之间的差异意味着发现潜在实例的更高机会，即，摆脱仅关注稀疏的高相似性实例，就像典型的NLB在少镜头本地化场景中所做的那样。4.2. 上下文感知ωC上下文感知的目标是检索支持中与显著实例相关的实例这种亲和性度量通过采用全局平均池化和点积来迫使查询数据考虑支持上下文。准确地说，我们测量成对相似性为ωC（xQ，xS）= [<$（xQ）<$σ（GAP（ρ（S）]<$ρ（xS），（6）其中，σ表示S形函数，GAP表示全局平均池化，表示按通道缩放，并且P和P表示线性嵌入函数。由方程式(6).，σ（GAP（P（S）是从支持S导出的信道缩放向量，以重新加权P（XQ）的每个信道。表示嵌入后的特征维度的索引Ij6329(d)亲和矩阵融合(e)单项亲和矩阵注释点积逐通道定标逐元素加法连接：重塑（逐元素减法）卷积层（内核=3x3）全局平均池化嵌入层聚合双侧注意力（ABA）||→××∈∈q q s s∈我→我i、jJ我J||(a) 非局部块点积(b) 互增强块(c) 我们的方法(a)非局部块(a)非局部块图2：各种注意力机制的比较。（a）非局部块[39]，用于捕获自关注的远程依赖性。(b)相互增强块[44]采用两个非局部块来捕获查询支持注意力。(c)聚合双边注意力融合两个查询支持的亲和力，以增强查询数据。（d）亲和度矩阵融合将空间数据邻域的两个亲和度矩阵进行融合。(e)两个查询支持亲和度测量生成亲和度矩阵AN和AC。符号Q和S分别表示来自查询和支持的输入讨论上下文感知度量查询支持数据对Conv ：Rhq×wq ×2hswsRhq×wq×hsws在级联仿射上使用hsws2D核的数量，q q s q q s由全球平均池捕获。在每个查询支持函数f−1：Rh×w×hw→Rh w×hw重新表示数据对，对应的亲和度被公式化为一个查询数据，该查询数据针对描述支持内的显著实例这样的设计显示了将查询焦点强制放在突出支持类上的能力，无论该类是可见的还是不可见的。例如，成功检测到的三匹马如图1所示。4.3. 双边亲和融合对空间数据邻域进行了相似度矩阵融合假设查询和支持的空间分辨率分别为hqwq和hsws，我们的融合机制旨在将由ω N和ω C产生的两个亲和矩阵ANRhqwq×hsws和ACRhqwq×hsws集成为最终的亲和矩阵ANRhw×hw。为此，我们的融合机制被定义为A=f−1。公司;公司f（AN）f（AC），（7）将3D相似度矩阵形状还原为2D表示。由方程式(7)，我们可以将关于在卷积函数Conv的2D核中定义的每个查询像素的空间邻域的两个亲和度矩阵进行积分讨论从ωN和ωC生成的两个亲和矩阵用于发现语义相关的数据，但知道支持的实例类。由于从两个测量中导出的亲和力可能不同等重要，因此我们的融合步骤涉及空间数据邻域以采用卷积来学习融合。完整的机制。完整的聚合双边注意力机制增强了查询Q的每个特征，zQ=xQ+x。softmax（A）θ（xS），（8）其中函数f：Rhqwq×hswsRhq×wq×hsws将2D亲和矩阵整形为高度×宽度×通道的3D表示，其中，i和j分别表示来自Q和S的每个特征点，A表示xQ和xS之间的融合成对相似性在信道维度上的卷积函数，在维度j上的卷积函数，并且j表示线性嵌入函数。ABA63305. 实验5.1. 数据集和指标少镜头动作定位。我们遵循之前的方法[13，44]来重建ActivityNet-1.3视频数据集，以评估少数镜头动作定位模型。ActivityNet-1.3数据集包括200个动作类的14，950个注释视频。根据方法[13，44]，包含多个实例的视频序列被分解为一个实例的独立忽略那些实验是在目标未裁剪视频中设置一个单独的实例进行的。然后，我们评估了配备ABA机制的几次动作定位模型，其平均平均精度（mAP）度量为[17]。由于[44]中某些特定重叠阈值下的大多数评估尚不清楚，因此我们报告重叠为0时的mAP。5，即，mAP@0.5（%），在此任务上。单次目标检测。我们在两个标准数据集上评估模型，PASCAL-VOC [11]和MSCOCO [30]，使用与[5，19，28，31]相同的设置。在PASCAL-VOC数据集中，我们使用遵循与方法[19，48]相同的设置，我们考虑对象类来组织PASCAL-VOC数据集。对于这样一个包含20个对象类的数据集，我们分别以80%和20%的比例形成对于MS-COCO数据集，模型训练使用我们通过在标准[48]下分离80个对象类来获得四组来测试模型三组60个对象类用作包括可见类的训练分割，而其余组20个对象类作为不可见测试分割提供我们采用CoAE [19]协议来准备目标查询图像对;有关数据准备的详细信息，请参阅[19]。在评估阶段，我们报告前五个采样的查询图像块的平均平均精度（AP）分数，以确保统计数据的一致请注意，在MS-COCO数据集中，我们遵循先前的方法来使用度量AP 50进行评估，即，AP，IoU阈值固定为50%。5.2. 实现细节少镜头动作定位。我们选择了几个镜头的共同行动定位由于FSCAL是一个非本地1https://github.com/PengWan-Yang/commonLocalization测量ωNω C亲和矩阵融合配置单次目标检测牛羊猫Aero地图1✓-n/a84.768.779.151.771.12- ✓n/a85.670.879.649.471.33456✓✓✓✓✓✓✓✓AN<$ACσ（AN<$AC）σ（AN）<$σ（AC）Conv1×1（ANAC）83.483.682.783.568.770.069.469.578.480.279.576.548.546.950.046.769.770.270.469.1789✓✓✓✓✓✓f−1。1 × 1. f（AN）f（AC）f−1。Co nv 5 × 5。f（AN）f（AC）f−1。第三季第三集。f（AN）f（AC）84.783.984.070.970.273.480.881.881.853.551.453.672.571.873.2表1：使用PASCAL-VOC数据集的一次性目标检测任务的消融研究（AP评分（%））。亲和矩阵融合步骤的三个配置集从上到下涉及单一亲和、初始亲和融合和我们的亲和融合。卷积函数Conveq内的核大小。（7）表示为它的下标。基于块的方法，我们表示为FSCAL（NLB）。注意机制替换后的结果模型，即，‘FSCAL (NLB-ABA),’ isoptimized with Adam opti- mizer initiated by a learningrate of 我们训练批量大小为1，然后在经过40K次迭代的25K次迭代后将学习率衰减到1e-6。为了进行公平的比较，我们使用C3D主干[36]在 Sports-1 M [26] 上进行预训练，其中排除了ActivityNet-1.3数据集中看不见的类动作。为了检索高质量的行动建议集，我们采用R-C3 D [42]来获得各种行动建议，然后过滤出置信度得分低于0的前景无关建议。3 .第三章。在非最大抑制后，我们分别保留了128和300个输入特征在函数ρ、ρ和θ中以8的降维率进行改变。单次目标检测。我们选择了'CoAE（NLB）' [19] 2和'AIT（TF）' [6] 3的一次性对象检测模型由此产生的模型，即，“CoAE（NLB-ABA）”和“AIT（TF-ABA）"通过SGD优化器优化，动量为0。9，使用四个V100GPU并行进行十个epoch。我们训练'CoAE（NLB-ABA）'和'AIT（TF-ABA）'，批量大小为32，并调整学习率，从0开始。01，0。每四个时期退化1次。为了在训练过程中进行公平的比较，而不对未看到的类对象进行分类，我们排除了数据集中的PASCAL-VOC和MS-COCO缩减后的ImageNet有725个类的933，052张图像来训练主干的初始权重。输入要素在函数ρ、θ和θ中的降维率为2。2https://github.com/WOMMOW/AIThttps://github.com/timy90022/One-Shot-Object-Detection6331⊙×× × × × ××5.3. 消融研究本部分的实验比较了所提出的聚合双边注意的不同结构，以评估各个成分为了分析所提出的聚合双边注意机制，我们在本实验中采用CoAE [19]的一次性物体检测模型来装备我们的ABA机制表1总结了各种配置的结果，包括单一亲和、天然亲和融合和我们的亲和融合。单一亲和力。表1中的第1行和第2行示出了如图2（a）中所示的CoAE模型中的非局部块内的点积替换为从等式2导出的提议的亲和力AN或AC的结果(5)或等式(6)分别表示。与基线模型相比， CoAE使用表 3 中的典型NLB，两种亲和力都能够提高1. 8%的mAP分数超过了看不见的类。初始亲和融合。表1中的第3行到第6行显示了各种原始亲和力融合策略，例如逐元素乘积（）、卷积（Conv1×1）和S形激活（σ）。它表明，单纯地按元素整合亲和力对于亲和力融合不起作用。我们的亲和融合。在表1中，第7行到第9行考虑等式（ 1 ）中的卷积函数（ Conv ）的各种核大小。（七）、结果表明，我们的空间域内的亲和力融合可以成功地整合两个来自嵌入规范和上下文意识的亲和力。所有不同内核的融合都有积极的贡献。根据烧蚀研究结果，我们在以下的实验中采用了3.3的这种成功融合的可能原因是在空间域上表示的空间数据邻域，使得融合机制能够关注每个查询像素（七）、结果，可以检索将查询和支持关联的鲁棒亲和性。5.4. 最新技术水平比较实验比较了不同的方法来处理少量实例定位任务，以评估我们的ABA机制的有效性。此外，我们还比较了模型的效率与三个指标和可视化的一些例子，更好地实现我们的模型。少镜头动作定位。表2显示了使用ActivityNet-1.3数据集在少数镜头动作定位任务上使用最先进方法的对比结果。本比较实验中的最先进方法包括Buch方法单次拍摄2-拍摄三发4-拍摄5次射击Buch----39.7Hu41.0---45.4Feng43.5----[44]第四十四话53.153.854.955.456.5杨57.5---60.6FSCAL（NLB-ABA）56.957.157.857.958.0FSCAL（TF-1L-1H）56.256.656.856.257.2FSCAL（TF-6L-8H）57.158.358.859.159.7FSCAL（TF-1L-1H-ABA）60.760.961.561.661.2表2：使用ActivityNet-1.3数据集的少数动作定位任务的最新技术水平比较（mAP@0.5评分（%））。‘-’:not我们建立的FSCAL（NLB-ABA）模型后，取代内FSCAL（NLB）的非本地块与我们的聚合双边注意机制。表2中的结果显示了FSCAL（NLB-ABA）在3.8%，3. 3%、2. 9%，2. 5%，1。5%mAP@0.5（%）与FSCAL（NLB）相比，有超过五种不同的拍摄设置在为 FSCAL 配备典型的六层八头 Transformer 时，‘FSCAL (TF-6L-8H)’, it can boost the FSCAL (NLB) by3.2%然而，通过用我们的 ABA 替换Transformer‘FSCAL (TF-1L-1H- ABA)’,单次目标检测。表3显示了与PASCAL-VOC数据集上最先进的单次目标检测方法本实验中的方法包括SiamFC [5]、 SaimRPN [28]、 Comp-Net [48]、 CoAE（NLB）和AIT（TF），其中CoAE（NLB）是基于非局部块的方法，AIT（TF）是基于Transformer的。表3中的结果表明，当用我们的ABA代替NLB时，对于大多数对象类， “CoAE （ NLB-ABA ） ” 相对于 CoAE（NLB）获得了明显的改进，证明了ABA的贡献。令人惊讶的是，用我们的ABA代替Transformer‘AIT (TF-ABA),’ can obtain the best模型效率。我们使用开源工具4来评估模型的效率。评估指标包括可训练参数（Params）、FLOP和每个视频的计算延迟（Latency）;每个度量的较低值意味着更好的模型效率。每个查询和支持视频分别使用3 768 112112和3 64 112 112的输入分辨率实验是在FSCAL-C上进行4https://github.com/Lyken17/pytorch-OpCounter6332Seen class Unseen class表3：使用PASCAL-VOC数据集的一次性对象检测任务在AP分数（%）方面的最新技术水平比较顶部的方法集是在1000类ImageNet数据集上预训练的，而底部的方法集是在减少的725类ImageNet数据集上预训练的，以避免在测试中忽略看不见的类CoAE是一个重新实现的版本。方法参数（M）FLOPs（G）延迟[44]第四十四话5.2541.6140.712FSCAL（TF-1L-1H）22.9642.9760.755FSCAL（TF-6L-8H）220.35518.1660.826FSCAL（NLB-ABA）0.9901.2860.716表4：模型效率。比较了几次动作定位方法FS-CAL与典型非局部块Transformer以及我们的聚合双边注意机制的模型效率。查询图像支持图像ABA上下文感知嵌入范数NLB基于模型，其中FSCAL采用R-C3 D的提案子网进行提案级表示。表4显示了四种FSCAL配置的结果基线模型，即，此外，我们还分别用一层一头和六层八头的Transformer代替FSCAL的NLB，构建了更多的层和头带来更高的模型复杂性。表4中的底行示出了当配备有我们的ABA机制时FSCAL模型的效率。请注意，参数和FLOP的度量仅在注意力机制上进行估计，而延迟度量是在整个少数动作定位模型上进行估计的。由于注意力块只占整个模型的一小部分，我们的注意力机制不会导致模型延迟的大幅减少。可视化。图3显示了我们的聚合双边注意力机制和非局部块中的注意力热图。上面两行显示我们的ABA机制比非局部块检索到更好的注意结果。在这两行中，使用点积的非局部块努力回忆由支持图像暗示的区域，即，自行车或汽车。相比之下，我们的ABA机制显示出更显着的能力，回忆这些地区的利益，由于嵌入规范更好地相关的语义相关的对象类，如人/自行车和交通标志/汽车。我们的上下文感知被设计为检索与突出实例相关的实例类，图3：注意力热图可视化。从左到右的列显示输入和注意力热图。因此，人们更加关注自行车和汽车。最下面一行显示，非局部块可以集中在人的正确区域，而我们的ABA完成了人的区域和汽车的部分语义相关区域。更多实验结果请参考补充资料。6. 结论指出了已有模型存在的注意力稀疏和计算代价为了缓解这些问题，我们提出了聚合关于嵌入规范和上下文感知的双边注意力。前一个亲和度发现具有较小相似性的这种注意力机制是轻量级的，并且很容易集成到现有的模型中。实验结果证明了ABA机制的有效性和效率，它可以帮助前几次实例定位模型提高其定位查全率，从而获得更好的性能。鸣谢。这项工作得到了社会变革管理计划赠款110-2634-F-007-027、110-2221-E-001-017和台湾的111-2221-E-001-015我们感谢国家高性能计算中心提供的计算资源和设施。方法植物沙发电视车瓶船椅子人总线火车马自行车狗鸟姆比凯表地图牛羊猫Aero地图SiamFC3.222.85.016.70.58.11.24.222.222.635.414.225.811.719.727.815.16.82.2831.612.413.3SiamRPN1.915.74.512.81.01.16.18.77.96.917.417.820.57.218.55.19.615.915.721.73.514.2CompNet28.441.565.066.437.149.816.231.769.773.175.671.661.452.363.439.852.775.360.047.925.352.1CoAE（北草坪会议大楼）43.959.772.074.553.664.621.768.885.286.382.180.785.175.077.461.168.284.369.883.249.971.8AIT（TF）47.762.771.976.151.863.531.570.384.087.281.280.884.572.278.762.869.286.674.383.747.773.1CoAE（NLB-ABA）46.766.672.773.353.765.325.570.984.486.184.278.184.976.376.860.469.186.372.184.655.774.6CoAE（北草坪会议大楼）39.353.372.970.849.760.716.665.182.385.479.075.879.171.874.056.864.585.069.178.744.469.3CoAE（NLB-ABA）48.565.573.876.551.260.526.667.485.186.681.177.882.571.373.359.167.984.073.481.853.673.26333引用[1] Dzmitry Bahdanau，Kyunhyun Cho，Yoshua Bengio.通过联合学习对齐和翻译的神经机器翻译。2015年，国际会议[2] Denny Britz、Anna Goldie、Minh-Thang Luong和QuocV. Le。对神经机器翻译架构的大量探索在arXiv，2017年。[3] 安东尼·布阿德斯、巴托梅乌·科尔和让-米歇尔·莫雷尔。一种非局部图像去噪算法。见CVPR，第60-65页[4] Shyamal Buch、Victor Escorcia、Chuanqi Shen、BernardGhanem和Juan Carlos Niebles。SST：单流临时行动建议。在CVPR中，第6373-6382页[5] Miaobin Cen和Cheolkon Jung。用于目标跟踪的全卷积连体融合网络。在ICIP，第3718-3722页[6] Ding-Jie Chen，He-Yen Hsieh，and Tyng-Luh Liu. 用于单次目标检测的自适应图像Transformer。在CVPR中，第12247-12256页[7] Hao Chen，Yali Wang，Guoyou Wang，and Yu Qiao.LSTD：用于物体检测的低拍摄传输检测器。在AAAI，第2836-2843页[8] 陈静媛，陈新鹏，马林，杰泽群，蔡达生.视频中的自然句子的时间在EMNLP，第162-171页[9] Chaorui Deng，Qi Wu，Qingyao Wu，Fuyuan Hu，FanLyu，and Mingkui Tan.通过累积注意力的视觉基础。在CVPR中，第7746-7755页[10] Misha Denil ， Loris Bazzani ， Hugo Larochelle ， andNando de Freitas.学习在何处使用深度架构进行图像跟踪。神经元计算，24（8）：2151[11] 放大图片作者： Mark Everingham ， Luc Van Gool，Christopher K. I.约翰·威廉姆斯温恩和安德鲁·齐瑟曼。Pascal Visual Object Classes （ VOC ） InternationalJournal of Computer Vision，88（2）：303[12] 范琦、卓伟、唐志强、戴玉荣。基于注意-rpn和多关系检测器的少镜头目标检测。在CVPR中，第4012-4021页[13] 杨峰，马琳，刘伟，张彤，罗杰波。视频重新定位。在ECCV中，第55-70页[14] Jun Fu ， Jing Liu ， Haijie Tian ， Yong Li ， YongjunBao，Zhivei Fang，and Hanqing Lu.用于场景分割的双注意网络。在CVPR中，第3146-3154页[15] Jiyang Gao ， Chen Sun ， Zhenheng Yang ， and RamNevatia. TALL：通过语言查询的时间活动定位。在ICCV，第5277-5285页[16] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。CVPR，第770-778页，2016年[17] Fabian Caba Heilbron、Victor Escorcia、Bernard Ghanem和Juan Carlos Niebles。Activitynet：人类活动理解的大规模视频基准。在CVPR中，第961-970页[18] Lisa Anne Hendricks 、 Oliver Wang 、 Eli Shechtman 、Josef Sivic、Trevor Darrell和Bryan C. Russell.使用自然语言对视频中的时刻进行本地化在ICCV，第5804[19] Ting-I Hsieh ， Yi-Chen Lo ， Hwann-Tzong Chen ， andTyng- Luh Liu.具有共同注意和共同激励的单次目标检测。在NeurIPS，第2721-2730页[20] 胡汉哲，白帅，李傲雪，崔进士，王立伟。密集

下载后可阅读完整内容，剩余1页未读，立即下载