基于双线性注意力网络的人物检索方法

70 浏览量更新于2023-10-13 收藏 954KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8030基于双线性注意力网络的人物检索方鹏飞1，2，周洁明1，Soumava Kumar Roy1，2，Lars Petersson1，2，Mehrtash Harandi2，31The Australian National University，2DATA 61-CSIRO，Australia，3Monash University{Pengfei.Fang，u5761794，Soumava.KumarRoy}@anu.edu.auLars. data61.csiro.au，mehrtash. monash.edu摘要本文研究了一种新的双线性注意块，它发现并使用输入特征图中的二阶统计信息，用于人检索。双注意力块使用双耳池化来对沿着每个通道的局部成对特征交互进行建模，同时保留空间结构信息。我们提出了一个注意力的注意力（AiA）机制，以建立二阶局部和全局特征之间的相互依赖性建议的网络，配备了建议的双注意力被称为双线性注意力网络（BAT-net）。我们的方法在标准基准数据集（例如CUHK 03，Market-1501，DukeMTMC-reID和MSMT 17）。1. 介绍人员检索1，也称为人员重新识别（re-ID），由于其在创建高度区分的特征表示方面的重要工业潜力和学术重要性，在计算机视觉（CV）社区中引起了越来越多的关注，其中最早的作品之一是[6]。简而言之，人员检索机器的任务可以被表征如下：给定特定人的图像，机器应该从图库中检索包含具有相同身份（ID）的个人的所有图像。这是一项具有挑战性的任务，造成不可靠的人检索系统的主要问题之一是未对准。也就是说，人的身体及其部分相对于参考系的位置这反过来又会导致训练和测试期间的功能不匹配，导致-1在本文的其余部分，我们将交替使用术语不准确的重新识别。在研究和解决这些问题方面已经做了很多努力[20，36，38，32，34，36]。23，41，17，22，35];然而，它仍然是一个占主导地位的问题，并要求进一步研究。多年来开发的一些尝试[34，29这些估计器网络用额外的线索补充其他解决方案受益于人属性[16，35]，其在姿态、照明、未对准等上是不变的。然而，人属性学习还需要在附加的人属性数据集上训练网络或在现有的人re-ID数据集中标记属性。最近，几种解决方案已经受到使用视觉注意机制的人类视觉感测过程的启发[20，43，33，22]，以聚焦于人边界框内的区分固有注意力模块被设计为自动选择图像的有意义的部分，并且以弱监督的方式（即，没有提供明确的标签信息来识别要处理的区域然而，当前的注意力模型倾向于仅利用一阶信息，诸如特征图中的模式本身，忽略了可能隐藏在特征图中的高阶统计信息双线性映射和模型已被广泛采用作为其线性对应物的推广。一些主要的例子是双线性分类器[25]，双线性池化[5]和双线性CNN [21]，其应用于视觉问答，细粒度图像识别，纹理分类等。据我们所知，注意机制配备了双线性模型尚未开发或研究之前，尽管他们有趣的属性。本文的贡献可概括如下：（a）我们用注意中的注意（ AiA ）机制制定了一种新的双线性注意（ Bi-attention）块。AiA机制可以被理解为在另一个注意力模块内部具有注意力模块，其中内部的注意力模块被去除。8031.xc¯为外部注意力模块确定聚焦的位置。因此，具有AiA块的双注意利用二阶统计信息，并且在统一块中逐通道地建立二阶局部和全局特征之间的相互依赖性，同时保留输入特征图的空间结构信息（b）我们提出了一种新的深度架构，使用双注意力块，创建我们的双线性注意力网络（BAT-net），用于人员检索任务。据我们所知，这是第一次提出了一种用于表征学习的双线性注意机制。（c）对标准基准数据集（包括CUHK03[18]，Market-1501[52]，DukeMTMC-reID[26]和MSMT17[46]）进行的广泛实验表明，我们的方法在可考虑的范围内表现出当前最先进的方法2. 相关工作人员重新识别。人的重新识别领域的早期工作主要依赖于手工制作的特征表示[6]和学习潜在空间[49]。我们建议感兴趣的读者参考[8]，了解有关传统方法的更多细节。卷积神经网络（CNN）是目前用于表示学习的选择方法，在人的re-ID中提供最先进的结果。在[49]中，Yi等人提出了一个使用Siamese网络进行特征和相似性学习的统一框架[27]。在[45]中采用多层次相似性来做出更可靠的决定。考虑到鲁棒性，Xiaoet al.在多个数据集上训练模型[48]，并使用域引导的退出来静音域不相关的神经元。诸如正交性约束[37]和几何约束[1]的结构也已被证明有助于在人员重新识别中实现更好或注意力机制。最近，受人类感知过程启发的注意力机制已经被在自然语言处理[42]和计算机视觉[20]方面进行了广泛的研究。在人员重新ID中，人员未对齐[36]和背景偏差[40]阻碍了学习鲁棒的表示。视觉注意机制的目标在FAB（FAB）中，信道信息被重新校准，并且空间结构信息也被保留。双线性池。双线性池化[5，51]首先被引入以对细粒度识别问题的局部成对特征相互作用进行建模，并且其表示能力也通过归一化高阶统计量来增强[21，15]。此后，Liuet al.利用双线性运算的紧凑形式来汇集用于人员重新ID任务的高维特征表示[23]。在[41]中，Ustinova等人提出了一种基于块的多区域双线性池，以解决人边界框之间的几何错位问题。最近，Suhet al.使用部分对齐表示，通过在双线性池化层中融合外观和部分特征映射来减少未对齐问题[36]。3. 双线性注意力在本节中，我们将首先详细介绍双线性注意力块，并将其应用于注意力机制中的新型注意力一个简化版本的双线性注意力，然后introduced，减少了近一半的可学习的参数3.1. 双线性注意力与AiA双线性注意力（Bi-attention）与注意力中的注意力具有AiA的双注意力的架构如图所示。1.一、设X∈Rc×h ×w是一个特征映射，其中c，h和w分别表示通道数，高度和宽度。我们表示空间位置（i，j）处的局部特征，其中xij∈Rc，i∈ {1，2，. . .，h}，j∈ {1，2，. . .，w}。向量（x）的双线性池化，即x的嵌入（为简单起见省略下标），获得为（参见图1B）。（二）Y=（x）（x）T=x¯x¯Tx¯2。 . .x¯x¯强调用于识别的信息区域，而贬低有害区域（例如，背景和遮挡1。. .1 c¯.（一）区域）。空间Transformer网络（STN）[13]，一种二元硬注意，在[17]中用于定位人类的潜在身体部位。Liu等提出了一种比较注意力网络（CAN），它重复定位区分部分并比较人对的不同局部区域[22]。在和谐注意力卷积神经网络（HA-CNN）[20]中，硬区域级注意力和软像素级注意力在统一的注意力中学习x´c´x´1. . .2其中（x）∈Rc′，c′=c/r，且Y∈Rc′×c′。r型参数r是一个降维因子，其影响将在§5.4中讨论。考虑到效率，并且由于Y是对称矩阵，因此我们仅考虑其上三角形元素在后续处理中。这有助于将特征维数从c¯2降低到c¯·（c¯+1）/2（见图10）。 2）的情况。最后，块在[43]中，Wanget al.同时考虑通道。Σ在完全注意块中的方向和空间方向的注意力x~=VecUTri（Y），（2）=、8032图1. 双线性注意的结构与注意中的注意机制。（·）、φ（·）和Bi（·）指示双线性池化和二阶特征重排函数。 GAP操作全局平均池。表示逐元素乘法。其中Vec（·）和UTri（·）分别表示向量化和提取矩阵的上三角元素的运算我们提取胆汁。耳池和fea-真重排：Bi（x<$）=VecUTri（x<$x<$T）。图2.双线性池化和二阶特征重排的处理，由Bi（·）表示。在该操作中，我们对Y的上三角形中的元素进行采样，并将这些元素向量化为新的特征向量。我们注意到，尽管x~包含x’的二阶信息，但它对空间未对准敏感。为了解决这个缺点，我们引入了注意力中的注意力（AiA）机制的概念（参见图1B）。（3）第三章。该想法是通过对二阶全局特征和局部特征之间的相互依赖性进行建模来自适应地重新加权二阶特征响应（参见图1）。①的人。我们对二阶全局特征建模为图3.注意机制中的注意洞察。AiA中的内部注意力模块产生其输入特征图的逐通道注意力值（例如X~），在概念上对它们进行加权或校准以用于将来的处理。与全局特征更相关的特征φ（x~）（m），由等式强调。（四）、最后，输入X的注意力掩码通过归一化获得。在本文中，我们使用Sigm〇ld（·）作为归一化函数（i.例如， z=Sigmoid（x（））。该归一化向量将充当通道掩码，并且同时强调其输入特征向量x的重要元素。空间位置，通过逐元素乘法为：xz=z x。（五）备注1由Eq. （3）和（4），m=1HWΣhwi=1x~i.（三）类似于挤压和激励（SE）网络[10]。然而，有一个本质的区别：SE网络首先将每个通道中的信息压缩为标量该公式包含二阶统计信息（即，AiA的输入的经验自相关矩阵的向量化版本）。嵌入式二阶全局特征m与每个嵌入式二阶局部特征x~之间的相互依赖性为：其然后用于均匀地缩放信道的所有元素。相比之下，我们使用通道注意力作为内部注意力模块来加权注意力的重要性相关特征图（例如， X〜）在AiA中。3.2. 无AiA的双线性注意力x=（m）φ（x~），（4）哪里⊗表示逐元素乘法和φ（x~）∈Rc. 嵌入函数（m）和φ（x~）不仅重新加权二阶特征响应，而且还将二阶特征的维数从c′·（c′+1）/2减少到c（i）。例如，的通道大小如果AiA中的参数的数量变为如果我们不考虑AiA，我们可以求助于称为双注意力的简化版本，而不考虑AiA（见图4）。这种简化方法将双注意力块的参数数量减半，同时仍保持有竞争力的性能重新确认身份的任务(See§5 用于与各种基准的比较）。从形式上讲，我们有输入x）。图3、我们进一步细化前述步直观上，（m）充当内部注意力和局部注意力。xz= S形..ΣΣφBi（（x））x.（六）8033i=1我我我图4.没有AiA的双线性注意的结构。注释2没有AiA的双注意力的结构类似于完全注意力块（FAB）[43]，因为两种类型的注意力都保持特征图的空间结构信息，但有一个根本区别，即我们的模块利用了通道上的二阶信息，而FAB只考虑了普通的一阶通道模式。学习中间层特征时，加入双注意力以捕获特征图的二阶统计信息并突出其区分区域。这个双线性的特征图鼓励下面的层学习一个人的整体表示。最近在人员重新识别方面的研究表明，部分区域的独立建模可以提高整个系统的精度[36，38，20]。我们还为BAT-net配备了这种基于部分的学习能力。更具体地说，我们使用一个简单的子网络作为部分特征提取器，其目的是学习不同的和有区别的输入图像中的部分将双线性伴随特征映射Xz∈Rc×h×w划分为T个不重叠的区域，z zc×h ×wgionsXt s.t. Xt ∈RT，t = 1，. . . 、T. 每个值得一提的是，这两个提出的双注意力模块可以无缝地放置在任何现有的卷积神经网络中，以增强与大多数现有注意力块类似的表示学习。在第5节中，我们将展示两个双注意模块在人员重新ID应用中的有效性。4. 用于人员检索的双线性注意力网络在本节中，将从我们的应用程序的问题公式化开始，详细说明所提出的网络的架构，即双线性注意网络（BAT-net）。4.1. 问题公式化设p∈RC表示输入图像，其中C，H和W分别是通道的数量、高度和宽度。每个图像pi由其标识来标记，由yi∈ {1，. . . ，k}。因此，具有N个图像的训练集可以被描述为{pi，yi}N。由θ参数化的人检索系统F（p，θ）旨在将图像p编码到嵌入空间，使得人内变化被最小化，而人与人之间的变化被最大化。在这项工作中，嵌入空间是人-外观嵌入空间的串联，I.E. fa=Fa（p，θa），以及人称部位嵌入空间，I.E. fp=Fp（p，θp），满足F（p，θ）=[fT，fT]T.非重叠区域通过双线性变换被调整为c×h×w插值并馈送到零件特征的第t个流提取器网络;其生成部件特征嵌入。备注3我们的零件特征提取器网络不同于当前基于零件的解决方案[36，20，38]。例如，在[36]中，通过名为OpenPose [2]的姿态估计网络提取部件特征。在[20]中，通过硬注意力网络对部分区域进行采样在[38]中，部件在最终特征图中被分割。相比之下，除了结构差异之外，BAT网络中的每个这反过来可以增加学习部分的多样性，从而导致用于检索目的的更一般化的判别嵌入空间。4.3. 多任务训练多任务训练（MTT）已被证明是有效的，在现代人重新识别解决方案。顾名思义，MTT将整体学习过程制定为若干子任务的组合;每个子任务在整体学习机制中具有其自身的[50]对分类任务使用交叉熵损失，对排序任务使用三重损失[43]结合了三重态损失、焦点损失和交叉熵损失来训练最先进的模型。在[50]之后，我们训练我们的网络进行排名和分类。ap排名任务。我们使用三重损失进行排序任务。在小批量中，{p}Nm，一个可能的三元组可以被分解。4.2. 概述+ii=1记为{p，p，p-}，使得锚点p共享BAT-net具有两个特征提取器，即，人外观特征提取器（由Fa表示）和人部位特征提取器（由Fp表示）。BAT网络的整体架构如图所示。五、人ii i+i与阳性样品pi相同和负样本p-属于不同的恒等式。在嵌入空间F（·）中，三重态损失被公式化为如下：整体外观由外观特征ex编码Jrank=1ΣNtriΣ+−D− d +m、（7）拖拉机;而零件特征提取器旨在编码人的不同部位N三i i+i=1外观特征提取器由4个卷积组成，其中[·]+=max（·，0），Ntri指示功能块。在第二卷积块之后，在一个批次中为三个，m是余量。D+=（F（pi）−8034图5.双线性注意力网络（Bilinear Attention Network，BAT-net）。BAT-net具有两个特征提取器，人物外貌特征提取器和人物部位特征提取器。由双线性注意力网络施加的特征图Xz被馈送到卷积层的后续阶段以用于外观和部分特征嵌入。F（p+）2，且d−=F（p）− F（p−）2。在三联体中人物部分嵌入。在测试阶段，f和fi ii iia p选择，对于每个锚点，我们挖掘一个硬阳性和5个硬底片，有五个三胞胎这是为了避免被连接以给出最终的人物表示F，使得f=[fT，fT]T∈R1024.a a在优化的早期阶段崩溃到局部最小值第分类任务。三元组丢失没有完全考虑身份特异性（人内）信息，并且仅编码特定三元组内的相对相似性（人间）信息因此，我们用基于交叉熵的分类损失Jcls来增强三元组损失以编码类特定信息。4.4.实现细节网络架构。我们在PyTorch [24]深度学习框架中实现了我们的BAT- net模型。骨干网络是GoogLeNet [39]的第一个版本，在 ImageNet [28] 上使用 BatchNormalization [12]进行预训练。输入图像的空间大小固定为256×128。在外观特征提取器中，在全局平均池化（ GAP ）之后的特征的平均值为1024，其后是512维的人物外观嵌入层fA。另一个fc层被连接使用人的外表来预测人的身份寝具在零件特征提取器中，我们遵循[20]中的工作，并在所有实验中固定T=4T个流中的每一个的输出特征被级联，并且被传递通过512维的部分嵌入fP。fc层被进一步连接以使用在双注意块中，嵌入函数（·）、φ（·）和（·）是1×1共变层，具有以下-将批处理归一化层和非线性层结合起来。这里，非线性层使用ReLU（·）函数。在（·）中，CUHK03[ 18 ]数据集的降维因子r设置为8，其他数据集设置为4。数据集的详细信息见第5.1节。网络培训。我们使用Adam [14]优化器，默认动量值为0。九比零。999）对于（β1和β2）。权重衰减设置为0。0001CUHK03 [18]的学习率初始化为1×10−3Market-1501 [52]、DukeMTMC-reID [26]和MSMT 17[46]的5×10−4我们训练网络300个epoch。学习率以0的因子衰减。1在150，200，250epoch分别为所有的数据集。在多任务中训练时，我们分别在外观特征提取器和零件特征提取器中提出了排序任务和分类任务;这受到[38]的启发，其中对每个相应特征提取器的监督对于学习区别性特征是至关重要的。我们的训练图像在水平方向上随机翻转，然后随机擦除[54]。在这里，随机擦除用于提供跳出局部最优的动力，受[11]的启发;因此，我们在50个时期后应用此数据增强。在测试阶段未使用我们报告性能8035在最后一个时期训练的网络。此外，值得注意的是，我们在测试阶段不应用重新排名来提高排名结果。5. 实验5.1. 数据集在本节中，我们在四个标准基准数据集上评估我们提出的算法，即，[18]，市场-1501[52]，杜克MTMC-[26]和MSMT17[46]。CUHK03这个数据集由13164张1467个身份的人物图像组成，由6台摄像机拍摄。每个人被观察到两个不相交的相机视图。中大03优惠手动标记和DPM检测[4]边界框，我们在这两个集合上评估我们的模型。我们采用[53]中提出的新的训练/测试协议。在该方案中，训练集包含767个身份，测试集包含剩余的700个身份。Market-1501这个数据集由32，668张1，501个身份的个人图像组成，在最多6个不同的相机视图下观察。该数据集被分成751个身份的12，936个训练图像和剩余750个身份的19，732个测试图像，并且使用DPM检测训练和测试图像[4]。DukeMTMC-reID这个数据集是用8个不同的摄像头收集的，最初是为了基于视频的人跟踪和重新识别而提出的它有1，404个身份，包括702个身份的16，522个训练图像，702个身份的2，228个查询图像和17，661个图库图像。MSMT 17这是最大的人re-ID数据集，由Faster R-CNN [7]检测到的126，441个人图像和4，101个身份组成。该数据集由15台相机收集，涵盖了一个月内不同天气条件下的4训练集由属于1041个身份的32621张图像组成，而测试集包含其余3060个身份的93820张测试集被进一步随机地分成11，659个查询图像，并且剩余的82，161个被用作图库图像。5.2. 评价方案我们使用平均精度（ mAP ）和累积匹配特性（CMC）来评估模型的CMC曲线测量给定查询图像相对于各种排名的图库图像的正确匹配率，而mAP测量给定查询图像的图库图像中的所有正确匹配的概率，从而测量总体排名性能。5.3. 与最新技术水平方法的为了显示具有高阶信息的注意力块和AiA机制的有效性，Bilin-在四个数据集上测试了具有AiA和不具有AiA的耳朵注意力网络CUHK03我们在CUHK03的标记和检测到的人物边界框上评估了我们的模型。表1清楚地表明，我们的模型在这两种设置中都显着改善了当前的最新技术水平。特别是，当与当前最先进的Manc进行比较时，我们观察到BAT-net w/o AIA的性能明显优于它：I.E. 8. 1%的mAP和5. 手动标记集的秩-1准确度为2%，8。2%，5。检测集的Rank-1准确率为9%。这种显著的改善表明，使用这种二阶信息增加了通过注意本身进行表征的辨别能力AiA机制的引入导致针对Manc的进一步改进：I.E. 4.第一章1%，在mAP和4. 4%的人工标记集的秩-1准确度和4。5%，在mAP和4. 在检测集上的Rank-1准确率为8%。这证实了我们BAT网络中的设计选择以及AIA机制的重要性，以获得更好的个人检索判别嵌入。表1.在标记和检测的边界框中对CUHK03 [18]数据集进行评估。红色/蓝色的第一/第二好。@标签@检测到模型地图R-1地图R-1SVDNet [37]--37.341.5美国有线电视新闻网[20]41.044.438.641.7AOS [11]--47.143.4MLFN [3]49.254.747.852.8MGCAM [33]50.250.146.946.7达雷[45]52.256.450.154.3PCB+RPP [38]57.563.7--[43]第四十三话63.969.060.565.5BAT-net w/oAIA72.074.268.771.4BAT-net w/AiA76.178.673.276.2市场-1501我们进一步评估我们提出的BAT-net对市场-1501在单一查询设置最近的国家的最先进的方法。结果示于表2中。和以前一样，BAT-net w/o AiA的表现优于Mancs 3。2%的mAP和1. 1级准确度分别为0%。类似地，通过添加AiA模块，我们观察到5的进一步改进。 1%/2 。在 mAP 和 Rank-1 准确度方面，相对于Mancs为0%。此外，当与使用双线性池化进行部分比对的PBR相比时，BAT-net w/o AiA和BAT-net w/AiA两者都比PBR高9。5%/3。9%和11。4%/4。在mAP / Rank-1指标方面分别为9%我们提出的用于DukeMTMC-reID的算法的评估在表3中示出。与Mancs相比，BAT-net w/o AiA将其评估结果提高了4。0%，1。2%，排名第一8036表2.在单一查询设置下对Market-1501 [52]数据集的评价。红色/蓝色的第一/第二好。模型地图R-1R-5R-10MSCAN [17]57.580.3--SVDNet [37]62.182.392.395.2PDC [34]63.484.192.794.9JLML [19]65.585.1--达雷[45]69.986.0--AOS [11]70.486.5--快乐[47]73.989.9--MGCAM [33]74.383.8--MLFN [3]74.390.0--DKPM [31]75.390.196.797.9美国有线电视新闻网[20]75.791.2--PBR [36]76.090.296.197.4DuATM [32]76.691.497.1-PCB+RPP [38]81.693.897.598.5[43]第四十三话82.393.1--SGGNN [30]82.892.396.197.4BAT-net w/oAIA85.594.198.299.1BAT-net w/AiA87.495.198.298.9活泼配备AiA，BAT-net的性能超过Mancs准确度分别。表4.在单一查询设置下对MSMT17 [46]数据集的评价。“*”indicates the results of the algorithms as re- ported in [ 红色/蓝色的第一/第二好。模型地图R-1R-5R-10[39]第三十九话23.047.665.071.8PDC*[34]29.758.073.679.4[47]第四十七话34.061.476.881.6GoogLeNet（我们的）39.365.880.585.3+ 双注意，带AiA43.169.582.787.2BAT-net w/o AIA50.474.186.489.7BAT-net w/AiA56.879.589.191.15.4. 消融研究我们进一步进行了额外的实验，以验证我们提出的双注意力在单一查询设置下使用AiA在Market- 1501[52]和CUHK 03 [18]上使用检测到的边界框的双线性注意力的效果。我们首先评估双线性注意力对特征提取器的影响，结果如表5所示。两个数据集的实验结果表明：（1）双注意带来了检索增益五、5%，2。一品准确率8%。此外，BAT-net w/o AiA和BAT-net w/AiA改善了mAP/秩-1比PBR高11。6%/4。0%，13。1%/5。6%，分别。表3.在单次查询设置下对DukeMTMC-reID [26]数据集的评价。红色/蓝色的第一/第二好。模型地图R-1R-5R-10达雷[45]56.374.5--SVDNet [37]56.876.786.489.9AOS [11]62.179.2--MLFN [3]62.881.0--DKPM [31]63.280.389.591.9美国有线电视新闻网[20]63.880.5--DuATM [32]64.681.890.2-PBR [36]64.282.1--SGGNN [30]68.281.188.491.2PCB+RPP [38]69.283.3--[43]第四十三话71.884.9--BAT-net w/o AIA75.886.193.995.6BAT-net w/AiA77.387.794.796.3MSMT17表4显示了我们提出的网络在新的挑战MSMT17数据集上没有/有AiA机制的结果。正如所观察到的，我们提出的两个网络都以有形的优势优于基线算法。更具体地说，BAT-net w/o AiA和w/ AiA优于次优算法，即。快乐，164%/12。7%和22。8%/18。mAP和Rank-1占1%人物外貌特征提取器。（2）该检索─当外观特征提取器配备有部件特征提取器时，精确度增加。（3）进一步添加双注意力继续改善网络作为整体的整体性能。这表明，我们的设计是有效的，在利用互补信息-特征提取器和注意力模型之间的信息。表5.双注意力对Market-1501 [52]和CUHK 03 [18]数据集的影响。市场@ SQ中大03@D模型地图R-1地图R-1（一）Fa80.791.664.567.1（二）+ 双注意，带AiA83.493.267.470.6（三）Fa+Fp85.193.867.871.1（iv）BAT-net w/AiA87.495.173.276.2双线性注意的位置效应。表6示出了当添加到基线GoogLeNet网络的不同位置时双注意力的效果p1、p2、p3和p4分别指示Blk 1、Blk 2、Blk 3和Blk 4的输出沿着外观特征提取器的位置（参见图11）。（五）。表6显示：（1）在早期阶段，即在学习过程中使用双注意p1，p2，优于将其插入到后面的阶段，即，p3，p4。在[44]中也进行了类似的观察，其中非本地网络在其早期阶段增强了ResNet [9]的性能。(2) 此外，在p28037与添加时相比，性能更佳8038p1.一个合理的解释是，p2中的特征图比p1中的特征图具有更丰富的信道信息，同时它仍然保持了空间结构信息，从而使网络能够更加强调统计信息。（3）在训练集较小的CUHK03数据集中，当在p4中插入双注意时，人检索的性能下降。这被观察为由于p4中的特征图的高维度，双注意力模块的嵌入层在训练集上过拟合。表6.双注意力位置对Market- 1501 [52]和CUHK 03 [18]数据集的影响。降维因子r的影响。嵌入函数（·）中的约化因子r是影响汇集信息的重要超参数通过双线性操作。表7中所示的结果和比较揭示：（1）业绩不(a)（b）第（1）款图6.从市场数据集（a）和CUHK03数据集（b）采样的我们的双注意力在人图像中的可视化在每个数据集中，从左到右，（1）输入人物图像，（2）到双注意力的输入特征图和（3）掩蔽特征图。在热图中，响应从蓝色增加到红色。最好用彩色观看。图6示出：（1）注意力掩模过滤掉人物图像中的无信息背景杂波，（2）注意力掩模进一步强调了人物图像的辨别性。以减小因子单调地改进。主要解释是参数大小将通过减小因子而指数地增加，这导致嵌入函数的过拟合（例如，（·），φ（·））在训练中集（2）我们观察到，当r=4时，在Market数据集中，观察到r的最佳值为8当网络在CUHK03上训练时。一个可能的前-在市场上训练的网络由于其与CUHK03相比更大的训练集而不太表7. 嵌入函数（·）的降维因子r对Mark et-1501[52]和CUHK03[18]数据集的影响。市场@ SQ中大03@D模型地图R-1地图R-1（一）无注意85.193.867.871.1（二）R=287.194.972.375.4（三）R=487.495.172.674.9（iv）R=887.294.573.276.2（v）r=1686.994.472.575.6（vi）R=3286.994.172.174.8双线性注意力的可视化。我们在图2中的Market-1501数据集中对人物图像的双注意力进行了可视化。6（a）和CUHK 03检测集在图。第6（b）段。这减少了检索任务中普遍存在的未对准问题。6. 结论在本文中，我们提出了一种新的双线性注意（双注意）块的人检索。双注意力块使用双线性池来对沿着每个通道的局部成对特征交互进行建模，同时保留空间结构信息。然后，提出了一种注意力中的注意力（AiA）机制，以建立二阶局部和全局特征之间的相互依赖性，以便更好地利用或更加关注这种高阶统计关系。我们还介绍了一个简化的版本，称为双注意力没有AiA，这大约- imately一半的双注意力块的参数的数量，同时仍然保持在视觉任务的竞争力的表现我们将上述两个双注意力块纳入我们的网络BAT-net中，并表明可以通过受益于表示学习中的高阶注意力来实现最先进的性能。这包括对四个标准人员重新识别基准的广泛评价以及所需的消融研究，以了解双注意阻滞的效果。未来的工作包括分析AiA解决其他视觉任务和开发其他形式的注意力机制，通过利用高阶信息。市场@ SQ中大03@D模型地图R-1地图R-1（一）无注意85.193.867.871.1（二）p186.894.471.473.28039引用[1] 宋白、项白、齐天。监督光滑流形上可扩展的人员再识别。在IEEE计算机视觉和模式识别会议（CVPR）中，2017年7月。2[2] 曹哲、托马斯·西蒙、魏世恩和亚瑟·谢赫。使用部分仿射场的实时多人2D位姿估计。在IEEE计算机视觉和模式识别会议（CVPR），2017年7月。4[3] Xiaobin Chang，Timothy M Hospedales，and Tao Xiang.用于人员重新识别的多级分解网络。在IEEE计算机视觉和模式识别会议（CVPR），2018。六、七[4] 佩德罗 ·F. 罗斯？费尔岑斯瓦尔布 Girshick ， DavidMcAllester，and Deva Ramanan.使用有区别训练的基于零件的模型的对象检测。IEEE Transactions on PatternAnalysis and Machine Intelligence，32（9）：16276[5] 杨高、奥斯卡·贝博姆、张宁和特雷弗·达雷尔。压缩双线性池。在IEEE计算机视觉和模式识别会议（CVPR）中，2016年6月一、二[6] 作者：Thomas B.作者：Peter H. Tu，Jens Rittscher，andRichard Hartley.使用时空外观的人员重新识别。在IEEE计算机协会计算机视觉和模式识别会议中，2006年6月。一、二[7] 罗斯·格希克。快速R-CNN。2015年，国际计算机视觉会议（ICCV）。6[8] Shaogang Gong，Marco Cristani，Shuicheng Yan，andChen Change Loy. 人员重新识别。Springer，2014年1月至2014年3月。2[9] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议（CVPR）中，2016年6月。7[10] 杰虎，李申，孙刚。挤压和激励网络。在IEEE计算机视觉和模式识别会议（CVPR），2018年6月。3[11] Houjing Huang，Dangwei Li，Zhang Zhang，XiaotangChen，and Kaiqi Huang.用于个人重新鉴定的不利闭塞样本。在IEEE计算机视觉和模式识别会议，2018。五、六、七[12] Sergey Ioffe和Christian Szegedy。批次归一化：通过减少内部协变量偏移来加速深度网络训练。国际机器学习会议（ICML），第448-456页，2015年。5[13] Max Jaderberg，Karen Simonyan，Andrew Zisserman，and koray kavukcuoglu.空间Transformer网络在Advancesin Neural Information Processing Systems 28中，第2017-2025页。Curran Associates，Inc. 2015. 2[14] Diederik P Kingma和Jimmy Ba。亚当：一种随机优化方法。arXiv预印本arXiv：1412.6980，2014。5[15] Piotr Koniusz，Hongguang Zhang，and Fatih Porikli.更深入地了解功率标准化。在IEEE Confer-计算机视觉和模式识别（CVPR），第5774-5783页，2018年。2[16] Ryan Layne，Timothy Hospedales，and Shaogang Gong.按属性重新识别。第 23 届英国机器视觉会议（BMVC），2012年9月。1[17] Dangwei Li，Xiaotang Chen，Zhang Zhang，and KaiqiHuang.在身体和潜在部位上学习深度上下文感知特征，用于人员重新识别。在IEEE计算机视觉和模式识别会议（CVPR）上，2017年6月。一、二、七[18] Wei Li ， Rui Zhao ， Tong Xiao ， and Xiaogang Wang.Deep- ReID：用于人员重新识别的深度过滤配对神经网络。在IEEE计算机视觉和模式识别会议（CVPR），2014。二五六七八[19] Wei Li，Xiatian Zhu，and Shaogang Gong.通过多重损失分类的深度联合学习进行人员重新识别。在第26届国际人工智能联合会议的会议记录中，IJCAI7[20] Wei Li，Xiatian Zhu，and Shaogang Gong.和谐关注网络的人员再识别。在IEEE计算机视觉和模式识别会议（CVPR），2018年6月。一、二、四、五、六、七[21] 林宗宇和Subhransu Maji。用CNN改进双线性英国机器视觉会议（BMVC），2017年。一、二[22] Hao Liu ， Jiashi Feng ， Jianguo Jiang ， and ShuichengYan.端到端比较注意力网络人员重新识别，2016年。arXiv：1606.04404 [cs.CV]。一、二[23] 刘健，甄阳，张涛，熊慧琳。用于人员再识别的多部分紧凑双线性CNN。在2017年IEEE图像处理国际，2017年2月。一、二[24] Adam Paszke、Sam Gross、Soumith Chintala、GregoryChanan、Edward Yang、Zachary DeVito、Zeming Lin、Alban Desmaison、Luca Antiga和Adam Lerer。PyTorch中的自动微分第31届神经信息处理系统会议，2017年12月。5[25] Hamed Pirsiavash，Deva Ramanan，and Charless C.福克斯用于视觉识别的双线性分类器。神经信息处理系统进展22，第1482- 1490页。Curran Associates，Inc. 2009. 1[26] Ergys Ristani ， Francesco Sole

下载后可阅读完整内容，剩余1页未读，立即下载