多粒度参考辅助注意特征聚合的视频人物再识别

69 浏览量更新于2023-10-23 收藏 983KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

10407多粒度参考辅助注意特征聚合的视频人物再识别Zhizheng Zhang1张翠玲兰21中国科学技术大学2微软亚洲研究院zhizheng@mail.ustc.edu.cn{culan，wezeng}@ microsoft.comchenzhibo@ustc.edu.cn摘要基于视频的人物重新识别（reID）旨在跨视频片段匹配同一个人。这是一个挑战性的任务，由于帧之间的冗余，新显示的外观，遮挡和运动模糊的存在。在本文中，我们提出了一个关注的特征聚合模块，即多粒度参考辅助的尝试性特征聚合（MG-RAFA），精细地聚合时空特征到一个区分的视频级特征表示。为了确定时空特征节点的贡献/重要性具体来说，我们将其关系堆叠，即，相对于代表全局视频信息的参考特征节点（S-RFN）的代表性集合的成对相关此外，为了利用不同层次的语义，我们提出了基于在不同层次捕获的关系来学习多粒度注意力广泛的消融研究证明了我们的专注特征聚合模块MG- RAFA的有效性。我们的框架在三个基准数据集上实现了最先进的性能。1. 介绍人物重新识别（reID）旨在匹配处于不同位置、时间和相机视图的人物。许多研究通过比较静止图像集中于基于图像的设置[42，18，12，30，16，21]。随着视频采集系统的普及，基于视频的人物识别提供了更大的容量以实现更鲁棒的性能。如图1所示，对于视频剪辑，不同帧的可见内容不同，但也存在重叠/冗余。通常，视频剪辑/序列的多个帧可以提供更全面的信息图1.不同标识的两个视频序列1的图示。我们注意到：（a）视频具有重复内容跨越时间的冗余;（b）存在一些偶尔出现但却是区别性因素的内容（例如，T = 2，3中的人1的红鞋）。(c)可以以不同的粒度/尺度（例如，例如，在一个实施例中，可以从大的区域（粗粒度）捕获身体形状，而从小的局部区域（细粒度）捕获发型。但是也提出了更多的挑战，例如处理大量冗余、遮挡、运动模糊的存在。一个典型的基于视频的人reID管道[24，20，36，6，15，5，43，22]提取并聚合空间和时间特征以获得单个特征向量作为视频表示。为了使视频级特征表示精确、全面、有鉴别力，必须从全局的角度抓住信息特征，同时排除干扰。注意力的目的是加强重要特征，同时抑制不相关的特征，这与上述目标很好地匹配。一些作品已经研究了时空注意力[15，5]或注意的递归神经网络[47，21]，以聚合空间和时间特征。他们分别或顺序地学习空间和时间维度的注意力权重[47，15]。然而，由于缺乏全球视野，他们遭受这项工作是在Zhizheng Zhang在MSRA实习时完成的。†通讯作者。1图像中的所有面孔都被掩盖以进行匿名化。示例人物1的视频序列性别，年龄，发型，t = 1 t = 2 t = 3t = 4t = N视频人物2身体形状，.服装细节t = 1 t = 2 t = 3t = 4t = N10408精确地确定某个位置的特征是否重要以及在整个视频剪辑内的冗余度如何的困难。[15，5]中采用了多样性正则化来解决这个问题，但只是在一定程度上解决了这个问题。一个强大的模型，预计共同确定每个时空特征的重要性水平，从全局来看。此外，如图1所示，人类可以以不同的粒度（不同大小的区域）捕获区分性因素/语义。然而，缺乏有效的机制来探索这种分层特征。在本文中，我们提出了一个多粒度参考辅助的注意特征聚合（MG-RAFA）方案，基于视频的人的身份识别。为了对空间和时间位置进行有效的特征聚合，我们从以下方面确定每个特征位置/节点的重要性：一个全局视图，并考虑在这个过程中的语义层次。对于每个特征位置，我们使用其相对于所有参考特征节点的关系/亲和度（其表示全局结构信息（类聚类模式））连同特征本身（外观信息）一起来建模和推断用于聚集的注意力权重。这在一定程度上受到了关系感知全局注意力（RGA）[41]的启发，该全局注意力是为有效的图像特征提取而设计的。然而，3D视频与2D图像有很大的不同，其中视频剪辑通常沿时间维度呈现丰富的冗余，并且由于人体姿势的多样性，时空结构模式复杂。考虑到视频的特点，我们建议构建一个小的，但有代表性的参考特征节点（S-RFN）的全局建模的成对关系，而不是使用所有的原始特征节点。S-RFNs为全局关系建模提供了一个简化但具有代表性的参考此外，我们还考虑到语义在粒度上是不同的，如图1所示。我们提出了层次模型的关系，专注的特征聚合，这使得注意力学习更精确和适应性低的计算复杂度。总之，我们有三个主要贡献：• 对于基于视频的人reID，我们提出了一个简单而有效的多粒度参考辅助注意力特征聚合（MG-RAFA）模块，用于联合空间和时间关注特征聚合。• 为了更好地捕捉不同粒度的判别语义，我们利用多粒度的关系来推断特征聚合的注意力。• 我们建议建立一个小的，但代表性的参考集更有效的关系建模，通过压缩视频数据的冗余信息。我们进行了广泛的实验，以评估我们提出的基于视频的人reID的特征聚合，并证明每个技术组件的有效性最终的系统显着优于国家的最先进的方法在三个基准数据集。此外，本文提出的多粒度模块MG-RAFA与单粒度模块SG-RAFA相比，进一步降低了计算复杂度。我们的最终方案仅略微增加了基线的计算复杂度（1%）。<2. 相关工作在许多实际场景中，视频已准备好供访问，并且包含比单个图像更全面的信息。基于视频的人物身份识别为提高身份识别性能提供了更大的优化空间，近年来受到越来越多的关注。基于视频的人员ReID。一些作品简单地将基于视频的人reID问题公式化为基于图像的reID问题，其提取每帧的特征表示并聚合所有帧的表示帧使用时间平均池化[27，6]。McLaughlin等人对从CNN提取的逐帧特征应用递归神经网络，以允许信息在不同帧之间流动，然后在时间上汇集输出特征以获得最终特征表示[24]。类似地，Yanet al.利用LSTM网络聚合帧特征以获得序列级特征表示[37]。Liu等提出了一个双流网络，其中运动上下文与外观特征一起由递归神经网络积累[19]。受3D卷积神经网络用于学习其他视频相关任务（如动作识别[11，3]）中的时空表示的探索的启发，3D卷积网络用于提取序列级特征[17，14]。这些工作以相同的重要性对待特征，即使不同空间和时间位置的特征对于基于视频的人reID具有不同的贡献/重要性水平。注意基于图像的人员ReID。对于基于图像的人的身份识别，已经设计了许多注意机制来强调重要特征并抑制不相关的特征以获得区分性特征。一些作品使用人体部位/姿势/掩模信息来推断用于提取部位/前景特征的关注区域[26，12，35，26]。一些作品在端到端框架中的空间位置或通道方面学习注意力[18，42，16，30，38]。文献[16]采用空间注意和通道注意来调节特征。一般来说，具有有限感受野的卷积层用于学习空间注意力。Zhang等人提出一个关系感知的全局注意力，通过利用成对关系来全局学习注意力[41]，并实现sig，10409对基于图像的人员reID进行了重大改进尽管在基于图像的reID中进行了广泛的探索，但对于基于视频的reID，注意力设计的探索还不够，在全局衍生注意力方面的努力要少得多。在本文中，部分受[41]的启发，[41 ]旨在通过探索关系进行图像的有效特征学习，我们为基于视频的人reID设计了一种多粒度参考辅助的意向特征聚合方案。特别是，为了计算关系，我们构建了一个参考节点的小集合，而不是使用所有节点来提高鲁棒性和计算效率。此外，设计了多粒度注意力来捕获和探索不同层次的语义。注意基于视频的人员ReID。对于基于视频的人物识别，设计了一些注意机制。一类工作考虑要匹配[36、25、4]。在[36]中，一个序列的时间注意力权重由来自与另一个序列的距离匹配的信息指导。然而，给定图库集合中的一个序列，需要为不同的查询图像准备不同的特征，这在实际应用中比较复杂且不友好.另一类作品独立地决定了序列本身的特征。为了减弱噪声帧的影响，Liuet al.提出了一个质量感知网络（QAN），它估计每个帧的质量分数，用于聚合时间特征作为最终特征[20]。 Zhou等使用学习的时间注意力权重来更新当前帧特征作为RNN的输入[47]。Zhao等人将每个帧的特征分解为语义属性相关的子特征，并通过属性识别的置信度对它们进行重新加权以进行时间聚合[43]。这些工作并没有同时产生空间和时间的注意力，从全局来看，功能aggregation。最近，直接从特征图计算的时空图被用于聚合帧级特征图，而不使用任何附加参数[5]。然而，由于注意力是以预定义的方式计算的，因此优化空间是有限的。考虑到在基于视频的人物身份识别中缺乏有效的时空联合注意力机制，本文提出了一种多粒度参考辅助的全局注意力机制，该机制联合确定了特征聚合的时空注意力3. 多粒度参考辅助属性聚合我们提出了一个有效的注意力模型，即多粒度参考辅助全局注意力（MG-RAFA），用于时空特征聚合以获得视频级特征向量。在第3.1节中，我们引入初步调查然后，我们在第3.2节中描述了我们提出的在单粒度设置下的参考辅助注意特征聚合，并在第3.3节中阐述了多粒度（我们的MG-RAFA的最终设计）。我们最后在3.4节中给出损失函数。3.1. 概述对于基于视频的人reID，我们的目标是设计一个专注的特征聚合模块，可以从通常包含冗余、新显示的内容、遮挡和模糊的视频中快速捕获有区别的信息并排除干扰为了实现这一目标，从全局角度联合确定时空特征的注意力对于鲁棒性能是重要我们建议通过探索相对于一组参考特征节点的全局关系来学习每个时空位置/节点的注意力。特别地，对于目标节点的全局关系建模，我们构建了一小部分具有代表性的特征节点作为参考，而不是使用所有的特征节点，以减轻优化难度，降低计算复杂度。此外，如图1所示，区别性信息可以物理地分布在不同的语义级别上。因此，我们引入层次（多粒度）的关系建模捕捉在不同的粒度的语义。图2 给出了我们的总体框架的说明.对于视频tracklet，我们将T帧采样为V={I1，I2，···，IT}。通过一个单一的框架功能extrac-托尔（e. 例如，在一个实施例中，ResNet-50骨干），我们获得一组特征图Fall={Ft|t=1，2，···，T}，其中Ft∈RH×W×C包括H×W特征节点，（H，W，C分别表示通道的高度、宽度和数目）.基于在所提出的多粒度参考辅助注意力上，该集合中的所有特征节点被加权求和为特征向量V，作为用于通过L2距离进行匹配的最终视频级特征表示。为了清楚起见，我们首先在3.2小节中的单粒度设置下提出我们提出的参考辅助注意特征聚合，并在3.3小节中介绍多粒度版本。3.2. 参考辅助的注意特征聚合执行特征集Fall={Ft|t=1，2，···，T}由K=H×W×T个特征节点组成，每个特征节点是一个C维特征向量。为了确定重要性-为了确定特征节点的重要性级别，如果所有其他特征节点也被“看到”，则将是有帮助的，因为人们可以通过将某个特征节点与所有其他特征节点进行比较来直观地确定该特征节点的相对重要性。对于特征节点，为了确定其重要性级别，我们准备其与每个节点的关系/亲和度作为推断注意力的成分。对于任何节点i，当堆叠其与所有节点的关系（e）时，例如，在一个实施例中，在光栅扫描顺序中），关系元素的数量是10410参考辅助的注意聚集加权和(in时空）Concat联系我们 Rel+Ori注意力分数S-RFNs（电子邮件）特征提取框架特征12341234ResNet-50S-RFN（刘伟）RrRreID监督三重损失BN+FCID丢失视频专题(a) 我们的管道与参考辅助的专注特征聚合。（b）多粒度参考辅助注意的架构。图2.我们提出了多粒度参考辅助的注意特征聚合方案，用于基于视频的人reID。(a)图示了使用参考辅助的关注特征聚合的reID管道。这里，我们使用四个帧（T=4）作为示例。为了清楚起见，我们只在（a）中显示了单粒度设置，并在（b）中说明了导出多粒度参考辅助注意力的过程我们在这里使用三个粒度（N=3）进行说明。D=H×W×T。考虑到外观变量的存在集合FR，i（和j）标识节点索引。我们定义μ（xi）=ReLU（Wμxi）和ν（yj）=ReLU（Wνyj），R r（E）。例如，在一个实施例中，由姿势、视点变化引起）和帧之间的大冗余，关系向量的分布空间很大，并且可能导致难以挖掘用于准确确定注意力的模式。因此，我们建议通过选择一小组代表性的特征节点，而不是所有的节点，作为建模关系的参考，以减轻困难。如我们所知，对于视频轨迹，通常存在跨时间帧的大冗余对于视频动作识别，Bobicket al.[2]提出使用静态矢量图像来压缩表示视频的信息，其中每个点处的矢量值是视频序列的相应空间位置处的运动属性的函数。出于这一动机，我们采用沿时间要融合的帧Fall={Ft|t=1，···，T}的特征映射FR∈RH×W× C.与动作识别中运动/时间演化是重要的不同，一般来说，面部运动和演变对人的ReID没有因此，我们简单地对时间帧进行平均以获得作为参考的FR，例如，参考特征节点（S-RFN）的代表集，以建模全局关系，由D=H×W特征节点组成对于Fall中的特征节点xi∈RC，我们计算它与F all中的所有特征节点之间参考集FR来模拟其对应关系。成对关系被公式化为嵌入空间中两个节点的相关性：ri，j=r（xi，yj）=μ（xi）T·v（yj），（1）其中Wμ∈R（C/s ）×C和Wν∈R（C/s ）×C是学习的权重矩阵，其中s是控制降维率的正整数。我们通过采用1×1卷积滤波器，然后采用Batch Nor来实现它。分别为malization（BN）和ReLU激活。注意我们省略BN运算以简化符号。通过堆叠特征节点xi与所有节点的成对关系（例如，例如，在一个实施例中，在参考集合FR中，我们有关系向量为ri=[ri，1，ri，2，···，ri，D]∈RD，（2）该算法完整地反映了全局的、类聚类的结构信息。此外，由于关系被堆叠成相对于参考节点具有固定扫描顺序的向量，因此空间几何信息也包含在关系向量中。直觉上，一个人可以有一个节点的重要性级别的感觉，一旦他或她获得了这个节点与许多其他节点的亲和力/相关性。类似地，描述与所有参考节点的亲和性/关系的关系向量特别地，原始特征xi表示局部外观信息，而关系特征ri表示全局关系。它们在不同的语义空间中相互补充、相互加强。因此，我们将它们组合在各自的嵌入空间中，并通过建模函数共同学习、建模和推断特征节点xi的重要性水平（注意力分数），如下所示：其中yj∈RC表示参考中的特征节点ai=θ（[φ（xi），φ（ri）]），（3）多粒度S-RFN生成CC/3C/3C/3C/3C/3C/3H13H23池化23WS-RFNW1多粒度S-RFNPCPHW帧级特征粒度-1关系特征11关注关系Rel + Ori评分22冷却粒度-233冷却粒度-32110411高×宽×米米MMMM嗯嗯嗯M其中φ（·）和φ（·）是两个嵌入函数，[·，·]将t标为Ft，mC∈RN和空间和速度-表示连接操作，θ（·）rep-给出了一个模型函数，用来推断出xi对应的注意向量ai∈RC。我们定义φ（xi）=ReLU（Wφxi），θ（[φ（x i），θ（ri）]）=ReLU （Wθ（[φ（xi），θ（ri）]），其中Wφ∈R（C/s）× C，W∈R（D/s）× D 且Wθ ∈RC×（（C/s）+（D/s））是学习的权重矩阵。我们通过执行1×1卷积滤波，然后执行BN和ReLU来实现它们。Foreach feature node xi in Fall (nodes corresponding to all thespatial and temporal posi- tions), we obtain an attentionscore vector ai.所有节点将最终特征节点设置为Fall ，m={Ft ，m|t=1，2， ···，T}。然后，我们采用参考辅助注意特征如第3.2节所述，分别对每组进行聚合。因此，Eq.（1）和方程中的注意力建模函数（3）可以扩展为多粒度版本，r（xi，yj）=μm（xi）T·νm（yj），（5）i=θm（[φm（xi），φm（ri）]），（6）其中下标m标识粒度的索引，在F所有，我们有A=[a1，a2，···，aK]。表示Fall，m和yj中的第i个节点表示第j个我们通过Soft- max函数在不同的空间和时间位置（节点索引）上对学习到的注意力分数进行归一化，并获得最终的注意力ai，i=1，2，· · ·，K.之后，我们用最后的注意力作为权重以聚合所有要素结点（来自所有空间和时间位置）在F中。在数学上，我们通过下式获得最终的序列级特征表示v∈RC：参考特征图FR，m中的节点。类似于在第3.2节中的单一粒度下的特征聚合，我们通过Softmax函数对注意力分数进行归一化，并对特征节点（跨不同的时空位置）进行加权求和。最后，我们将每个分裂/组的融合特征（由vm表示）连接起来，以获得最终的序列级特征表示v=[v1，v2，···，vN].ΣKv=k=1一个ixi，ai=Softmax（ai），（4）3.4.损耗设计我们添加基于检索的损失，i。例如，三重态损失其中，符号表示逐元素乘法。3.3. 多粒度注意力人类可以在不同的粒度级别（例如，从不同的角度）捕获一个人的不同语义（如性别、体型、服装细节）。例如，在一个实施例中，在观看距离或图像分辨率方面）。一些类型的语义（e。例如，在一个实施例中，无论该人是否戴眼镜）可以更容易以精细粒度捕获，而一些其他（例如，例如，在一个实施例中，体型）可以在视频特征向量v上硬挖掘LTr，以及由LID表示的ID/分类损失（具有标签平滑的交叉熵损失[29]）。每个分类器由批处理归一化（BN）层之后是全连接（FC）层。特别地，为了鼓励网络在每个粒度上聚合区分性特征，我们在每个粒度的聚合特征上添加两个损失函数。粒度vg，g=1，···，N.最终损失为：ΣN通过从精细细节中排除干扰，更容易在粗粒度下捕获。基于此，我们提出了多粒度参考辅助注意力分析方法。L=LID （v）+LTr1（v）+NG=1（LID）（vg））+LTr（vg）））。（七）真聚合（MG-RAFA），它引入了层次化的设计，目的是在不同的语义层次上获取有区别的时空信息。基本上，我们区分不同的粒度建模关系和派生的不同分辨率的特征地图上的atten- tion。按照前面的符号，对于FR中的参考节点和Fall中要聚合的节点，我们沿着它们的通道维度将它们分成N个分裂/组。每个组对应于一个粒度。通过这种方式，我们降低了计算复杂度相比，单粒度的情况下。对于第m个粒度，我们在第m个粒度和第m个粒度上使用比率因子m执行空间平均池化。FR和Ft分裂特征，t=1，2，· · ·，T. 我们得到一数据集火星[44][31]第三十一话PRID2011 [9]身份1261300200轨迹片段20751600400干扰项小行星324800相机622决议128× 25664× 12864× 128箱式检测手动手动评价CMC mAPCMCCMC10412∈RNm m m m2m−1m2m−14. 实验4.1. 数据集和评估指标表1.三个基于视频的人reID的公共数据集因子化参考特征FR，mHm×Wm×CD=H×W节点，其中H=H且W=W. 类似地，我们获得上的因子分解特征图。我们在三个基于视频的人reID数据集上评估了我们的方法，包括MARS [44]，iLIDS-VID [31]和10413表2.我们提出的多粒度参考辅助全局注意（MG-RAFA）模块的消融研究。这里，“SG”表示“单粒度”，而“MG”表示“多粒度”。N表示粒度的数量。S表示沿着信道维度的分别用于掩蔽对每个分割的注意的分割（组）的数量。在多粒度设置中，分割的数量等于粒度的数量（即，例如，S=N），因为每个分割对应于一个粒度级别。我们使用模型GFLOPs数量地图火星一品五品二十阶秩-1iLIDS-VID秩-5二十阶秩-1PRID2011秩-5二十阶基线32.69482.185.995.197.386.596.698.992.598.599.6MG-AFA（N=4）+0.09582.586.696.197.886.796.698.792.698.199.6SG-RAFA（S=1）+2.30185.187.896.198.687.197.199.093.698.299.9SG-RAFA（S=4）+0.61584.988.496.698.586.796.698.794.298.699.6MG-RAFA（N=2）+0.74285.588.497.198.587.197.399.394.298.299.9MG-RAFA（N=4）+0.21285.988.897.098.588.698.099.795.999.7100PRID 2011 [9]。表1提供了详细信息。按照通常的做法，我们采用秩-1（R-1）到秩-20（R- 20）的累积匹配特征（CMC）和平均精度（mAP）作为评价指标。对于MARS，我们使用[44]中定义的训练/测试分割对于iLIDS-VID和PRID 2011，类似于[19，4，15]，我们报告了10个随机半半训练/测试分割的平均CMC，以进行稳定比较。4.2. 实现细节网络. 与[1，23，5]类似，我们将ResNet-50 [7]作为每帧特征提取的骨干。类似于[28，39]，我们删除了基线和我们方案的conv5 x块中的最后一个空间下采样操作。在我们的方案中，我们在最后一个残差块（conv5x）之后应用我们提出的MG-RAFA进行attentive特征聚合，以获得最终的特征向量v。我们通过获取通过全局时空平均池化获得的特征向量v来构建基线实验设置。我们将整个视频均匀地分成T=8个块，并对每个块随机采样一帧对于硬挖掘的三重丢失[8]，在一个小批量中，我们对P个身份进行采样，每个身份包括Z个不同的视频tracklets。对于MARS，我们设置P=16和Z=4，这样小批量大小为64。对于iLIDS-VID和PRID 2011，我们设置P=8和Z=4。我们使用随机裁剪[33]、水平翻转和随机擦除[46，33，30]的常用数据增强策略（基线和我们的方案在序列水平的序列级数据增强比帧级数据增强优越得多。这更接近真实的数据变化，不会破坏帧之间的固有一致性。我们将图像的输入分辨率设置为256×128，T=8帧。使用Adam优化器详情请参阅补充资料。4.3. 消融研究4.3.1效能分析我们验证了我们提出的多粒度参考辅助注意（MG-RAFA）模块并在表2中显示了比较。MG-RAFA 与基线。我们的最终方案 MG-RAFA（N=4）在MARS、iLIDS-VID和PRID 2011上分别优于基线2.9%、2.1%和3.4%。这证明了我们提出的注意聚集方法的有效性。有效利用全球关系。在表2中，MG-AFA（N=4）表示当我们单独使用视觉特征（不使用关系）来学习注意力时的方案我们使用关系的方案MG-RAFA（N=4）在MARS ， iLIDS-VID 和 PRID 2011 上的 Rank-1 分别比MG-AFA（N=4）高2.2%，1.9%和3.3%，表明利用全局关系学习注意力的有效性。单一粒度与多粒度。SG-RAFA（S=1）也利用了关系，但忽略了在不同粒度上对语义的探索.与SG-RAFA（S=1）相比，我们的最终方案MG-RAFA（N=4）在多粒度上探索关系，分别实现了MARS，iLIDS-VID，PRID 2011 的 1.0% ， 1.5% ， 2.3% 的 Rank-1 改进 MG-RAFA在捕获不同粒度级别的相关性方面是有效的。此外，我们通过比较 MG-RAFA （ N=4 ）和 MG-RAFA（N=2）来研究不同粒度数的影响。结果表明，粒度越细，更好的表现。注意，帧特征Ft的空间分辨率为16×8。两个相邻粒度级别之间的空间分辨率比被设置为4，这允许粒度级别的最大数量N为4（即，例如，16×8，8×4，4×2和2×1）在这项工作中。在在随后描述中，我们使用MG-RAFA来指代MG-RAFA（N=4），除非另有说明。为了进一步证明这些改进来自于不同粒度的关系建模，而不是多个注意力掩码，我们将 MG-RAFA（N=4）与单粒度设置SG-RAFA（S=4）进行了比较。在此设置中，特征沿着通道被划分为四个分割（组），每个分割具有注意力掩码而不是共享的注意力掩码。每一个注意力面具都来自于相同的细微差别。结果表明，MG-10414表3.参考特征节点（S-RFN）选择策略的比较不同的空间（S）和时间(T)比较池化策略。我们将空间和时间节点维度表示为（H×W×T）。例如，我们通过采用时间平均池来构建S-RFN，从而在S-RFN中产生16×8×1个节点。火星S-RFN节点数GFLOPs数量地图R-1R-5R-10 转轴-20基线032.69482.185.9 95.196.597.3S-P（8×1×8）64+2.03483.986.6 96.197.498.0S-P（8×2×8）128+2.34583.987.2 95.697.297.9S-P（4×4×8）128+2.34584.187.1 95.797.397.9S-P（8×4×8）256+2.96784.287.0 95.897.498.0T-P（16×8×2）256+2.91684.787.4 96.197.498.3T-P（16×8×4）512+4.15984.787.3 96.197.498.1ST（16×8×8）1024+6.69784.387.3 95.897.298.1我们的（16×8×1）128+2.30185.187.8 96.197.898.5RAFA（N=4）优于SG-RAFA（S=4）。复杂性由于采用了信道分裂和空间池化，多粒度模块MG-RAFA（N=4）的计算复杂度（FLOPS）仅为单粒度模块SG-RAFA（S=1）的9.2%。4.3.2参考要素节点在我们的方案中，我们采取了一组特征节点（S-RFN）作为参考模型的成对关系。该算法不以帧特征中的所有特征节点为参考，而是考虑到帧特征具有较大的时间冗余度，在时间维上进行平均池化操作，以减少节点数，从而简化优化过程，降低计算复杂度。为了清楚起见，我们研究了在单一粒度设置下构建S-RFN的不同策略（即，例如，SG-RAFA）并将结果显示在表3中。帧特征的空间分辨率为H×W，其中H=16，W=8，每个帧特征Ft对应128个特征节点。时间帧的数量是T=8. 我们的方法：我们通过沿时间维度融合帧特征Ft，t=1，· · ·，T来获得S-RFN，并获得具有16×8=128个特征节点的特征图。S-P：我们通过平均池化融合特征节点以获得参考集沿着空间维度。T-P：我们使用不同的比率沿时间维度执行平均池化，以获得表 3 中的不同设置。 ST（16×8×8）：我们将所有的空间和时间节点作为参考集。我们有以下几点意见。 (1)我们的方案优于 S-P（8×1×8），S-P（8×2×8），S-P（4×4×8），S-P（8×4×8），空间合并1.2%、1.2%、1.0%和0.9%，其中空间合并可能去除了太多有用的信息并导致较差的S-RFN。(2)我们的也优于那些部分时间池。性能随着时间池化程度的增加而增加。(3)我们的比方案好ST（16×8×8），mAP中无任何合并，0.8%使用所有节点作为参考会导致更大的优化空间表4.与非本地相关计划的比较火星模型地图R-1R-5R-10转轴-20荷兰（南）83.286.695.997.197.9荷兰（ST）82.786.095.496.797.4SG-RAFA85.187.896.197.898.5表5.当在提取的特征图F t，t = 1，· · ·，T上使用其他注意力方法时的多粒度（MG）设计的评估。粒度设置为N=4。火星模型地图R-1R-5R-10转轴-20基线82.185.995.196.597.3RGA-SC83.587.295.397.198.2RGA-SC（MG）85.088.196.997.798.5SE82.986.595.597.198.1SE（MG）84.387.695.497.198.1CBAM82.986.895.797.298.1CBAM（MG）84.688.095.797.297.9MG-RAFA（我们的）85.988.897.097.798.5并且时间模式的多样性是复杂的，这使得难以学习。相比之下，通过时间平均池，我们降低了模式的复杂度，从而减轻了学习难度和计算复杂度。复杂性由于选择了S-RFN，相比之下，与ST（16×8×8）的ison，它使用所有的特征节点作为参考，计算复杂性方面的FLOP对于我们的聚合模块，从6.697G减少到2.301G，而mAP的性能提高了0.8%。4.3.3与非本地非局部块[32]探索了长程上下文，它对所有位置的特征进行加权求和以细化当前位置特征。我们的方法和非本地方法都可以探索全球背景。然而，非局部块使用确定性方式，即。例如，加权求和（无参数），以利用全局信息，这限制了其能力。相比之下，我们可以挖掘的结构模式和语义从堆叠的关系，通过利用学习模型/功能推断的重要性，一个特征节点的注意力，更灵活，有很大的优化空间。表4显示了与非本地计划的比较。我们在特征图Ft，t=1，···，T上添加了非局部模块，用于特征细化，随后是时空平均池化。NL（ST）表示对所有时空特征执行非局部，并且NL（S）表示在每个帧内执行非局部。我们的SG-RAFA在mAP中分别显著优于NL（ST）和NL（S）2.4%和1.9%。NL（ST）比NL（S）差，这可能是由于时空维度联合考虑时的优化困难造成的。10415表6.我们的方案与最先进的方法在三个基准数据集上的性能（%）比较2。模型地图火星一品五品二十阶秩-1iLIDS-VID秩-5二十阶秩-1PRID2011秩-5二十阶[ 19]第十九话52.968.381.490.668.7 94.399.383.7 98.3100TriNet（ArXiv17）[8]67.779.891.4-- --- --3D Conv +NL（ACCV 18）[17]77.084.3--81.3--91.2--（CVPR 18）[4]76.186.394.798.285.4 96.799.593.0 99.3100DRSA（CVPR 18）[15]65.882.3--80.2--93.2--[25]第二十五话62.378.7--- --- --[ 14]第74.184.493.897.774.0 94.3-94.4100-美国（AAAI19）[5]80.886.395.7-- --- -[ 43 ]第43话78.287.095.498.786.3 97.499.793.9九十九点五100GLTR（ICCV 19）[13]78.587.095.898.286.098.0-95.5100-MG-RAFA（我们的）85.988.897.098.588.698.099.795.999.71004.3.4MG设计到其他注意力的扩展不同的语义可以以不同的粒度被适当地捕获（如图1所示）。我们提出的多粒度设计也可以应用于其他AT-张力机制我们通过在提取的特征图Ft，t=1，· · ·，T上应用几种不同的注意设计进行实验，结果如表5所示。与单一粒度版本相比，多粒度设计带来了1.5%、1.4%和1.7%的改进。分别针对RGA-SC [40]，SE [10]和CBAM [34]在mAP中进行了证明，证明了所提出的多粒度设计的有效性。此外，我们提出的MG-RAFA在mAP中分别比RGA-SC（MG），SE（MG），CBAM（MG）高0.9%，1.6%和1.3%4.4. 与最新技术水平的比较表6显示，我们的MG-RAFA显著优于最新技术水平。在MARS上，与STA [5]相比，我们的方法在mAP上实现了5.1%的改进。在iLIDS-VID和PRID 2011上，我们的方法在Rank-1中分别比第二好的方法高出2.3%和0.4%。4.5. 可视化分析我们在图3中以不同的粒度在不同的时空位置可视化学习到的注意力值。我们从（a）中得到两个观察结果。(1)学习注意倾向于从不同的框架集中在不同的语义区域，从而摆脱了大量的重复（re-dumping）。(2)有趣但并不奇怪的是，我们的注意力能够选择更好的代表性领域，并排除推论（e。例如，在一个实施例中，见（a）中右侧子图的第3栏和第4我们相信我们的注意力模型是一种有效的方法来捕捉和学习歧视性的空间和时间表示。（b）示出MG-RAFA在不同的粒度上捕获不同的语义，其倾向于在更细的粒度上捕获更多的细节，并且在更粗的粒度上捕获更大的身体部分。2我们不包括DukeMTMC-VideoReID [45]上的结果，因为该数据集不再公开发布。(a) 在第二个粒度的不同帧上的可视化.原始G-1级G-2G-3G-4原件G-1级G-2G-3G-4(b) 在给定时间内不同粒度的可视化图3.我们注意力的可视化（a）在不同的框架中，（b）在不同的粒度上。“G-1st”至“G-4th”表示第1至第4粒度，其对应的每帧注意掩码的空间分辨率分别为16×8、8×4、4×2、2×1。在这里，我们将不同空间分辨率的注意力地图重新缩放到相同的空间分辨率以进行可视化。5. 结论本文提出了一种多粒度参考辅助的注意特征聚合算法（MG-RAFA），用于基于视频的身份重识别，该算法在时空特征表示上有效地增强了鉴别特征，抑制了身份无关特征.特别是，为了减少优化的困难，我们建议使用一组代表性的参考特征节点（S-RFN）的建模的全局关系。此外，我们提出了多粒度注意，通过探索不同粒度层次上的关系来捕获不同层次上的语义。我们的方案在三个基准数据集上实现了最先进的性能。确认这项工作得到了国家自然科学基金U1908209，61632001 和中国国家重点研究发展计划2018AAA0101400的部分支持。不不10416引用[1] 乔恩·阿尔玛赞，博贾纳·加吉奇，奈拉·默里，戴安·拉鲁斯.正确完成重新识别：制定重新识别身份的良好措施。arXiv预印本arXiv：1801.05339，2018。6[2] Aaron F Bobick 和 James W Davis 。基于时间模板的TPAMI，（3）：257- 267，2001. 4[3] Joao Carreira和Andrew Zisserman。你好，动作识别？新模型和动力学数据集。在CVPR中，第6299-6308页2[4] 陈大鹏，李洪生，肖彤，易帅，王晓刚.利用竞争性片段相似性聚合和共同关注片段嵌入的视频人重新识别。在CVPR中，第1169-1178页，2018年。三六八[5] Yang Fu，Xiaoyang Wang，Yunchao Wei，and ThomasHuang. Sta：用于大规模基于视频的人重新识别的时空注意力AAAI，2019年。一二三六八[6] Jiyang Gao和Ram Nevatia。再论基于视频的人的时间在BMVC，2018年。一、二[7] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。6[8] 亚历山大·赫尔曼斯、卢卡斯·拜尔和巴斯蒂安·莱布。为了防止三重丢失，进行人员重新鉴定。arXiv预印本arXiv：1703.07737，2017。六、八[9] Martin Hirzer，Csaba Beleznai，Peter M Roth，and HorstBischof. 通过描述性和区分性分类进行人员重新识别斯堪的纳维亚图像分析会议，第91-102页。Springer，2011. 五、六[10] 杰虎，李申，孙刚。挤压-激发网络。在CVPR中，第71

下载后可阅读完整内容，剩余1页未读，立即下载