没有合适的资源?快使用搜索试试~ 我知道了~
12026基于视频的人物再识别的金字塔时空聚合江苏大学2大连理工大学人工智能学院3大连理工大学信息与通信工程学院{yingquan1995,gs940601k}@ gmail.com;{zhpp,wdice}@ dlut.edu.cn;{Luhu,Gengxia}@ ujs.edu.cn摘要基于视频的人重新识别旨在跨多个非重叠相机关联同一人的视频剪辑。时空表示可以在帧之间提供更丰富和互补的信息,这对于在发生遮挡时区分目标个体是至关重要的。本文提出了一种新的金字塔时空聚合(PSTA)框架,用于逐步聚合帧级特征,并将分层的时间特征融合到最终的视频级(a) 按相邻参照(b) 按全局参考聚合要素表示.因此,短期和长期的时间信息可以很好地利用不同的层次。在此基础上,提出了一种时空聚合模型(STAM)来增强PSTA的聚合能力。它主要由两个新颖的注意力块组成:空间参考注意(SRA)和时间参考注意(TRA)。SRA探索帧内的空间相关性以确定每个位置的注意权重。TRA利用相邻帧之间的相关性扩展SRA,可以充分利用时间一致性信息来抑制干扰特征并增强区分性特征。在几个具有挑战性的基准上进行的大量实验表明了所提出的PSTA的有效性,我们的完整模型达到91。5%,98。在MARS和DukeMTMC-VID 基 准 上 的 3%1 级 准 确 度 。 源 代 码 可 在https://github.com/ WangYQ 9/VideoReID-PSTA上获得。1. 介绍人物再识别(ReID)旨在从非重叠的摄像机视图中匹配特定的人,这是许多应用中的重要技术,例如视频监控、跟踪和智慧城市。然而,由于许多实际障碍,诸如背景杂波、模糊、遮挡和视点变化,这是具有挑战性的。最近,基于图像的人ReID已经取得了令人印象深刻的进展[2,39,54,26,43]。这些作品*通讯作者(c) 通过我们的金字塔结构聚合特征图1.采用时间上下文信息来聚合帧级特征的各种解决方案的图示。(a)从相邻帧传输信息。(b)使用全局参考来引导每个帧的注意力(c)将框架一级的特征与金字塔结构(我们的)融合在一起。绿线表示目标人物的干净特征,而红线表示被遮挡干扰的特征。金字塔结构可以通过逐步聚集来减少不相关的特征。专注于在单个图像中提取更多的区别特征。因此,当发生遮挡或丢失关键部分时,难以检索目标人。相比之下,更丰富的时空信息可以减轻基于图像的ReID的限制,并且更有能力获得有区别的特征和鲁棒的结果。已经提出了几项工作[17,38,49,32],以增强目标人的区别性特征,并在时空背景信息的帮助下抑制不相关的特征。 Subramaniam等人[38]提出一个共同分割模块,以激活多个帧上的公共特征集。Hou等人 [17]旨在解决部分闭塞的问题。它们利用相邻帧的信息重建遮挡部分,从而可以减少无关特征的干扰。这些方法的消息传递流程如图所示。第1(a)段。虽然来自时间相邻帧的信息可以在一定程度上抑制被遮挡特征,但是当发生长距离遮挡时,它将失去功效,因为它缺乏长期依赖性。Yanet清理特征干涉特征W1W2W3W4全局参考视频特征视频特征视频特征12027al. [53]提出通过构造全局参考从全局视图学习注意。这些方法的消息传递流程如图所示第1段(b)分段。虽然参考可以捕获全局信息,但不能保证它可以很好地代表目标人。例如,当大部分帧被遮挡时,该方法可以集中于遮挡部分Jiang等人。 [21]提出通过为tracklet中的每对帧构建关系嵌入来这种方法在整个轨迹片段之间进行充分的消息交换。然而,它会受到帧之间的高另一方面,构造框架的所有关系在计算上是不高效的。为了缓解上述问题,我们提出了一种新的金字塔时空聚合(PSTA)框架,用于高性能的基于视频的人ReID。图1(c)说明了我们的基本思想。相邻的帧级特征图被分组成对,然后被发送到分层聚合模块中。随着这个过程的进行,在不丢失前一阶段的短期信息的情况下,可以在后期构建长期相关性。很明显,经过我们的PSTA聚合后,清洁特征的比例增加了。因此,提高性能的关键是如何聚合相邻的特征,使得融合的特征可以更具区分性并且具有更少的遮挡干扰。我们认为,一个设计良好的聚合模块应该满足两个要求:1)前景特征可以加强帧内信息。2)利用帧间相关性,可以增强目标人物的特征,并且可以抑制非目标信息。我们提出了一个时空聚合模块(STAM),根据上述两个要求。更具体地说,它由两个关键组成部分组成: 空间参照注意 (SRA )和时间 参照注意(TRA)。SRA探索帧内的空间相关性而TRA利用相邻帧之间的相关性来扩展SRA,使得可以充分探索时间一致性信息以抑制干扰特征并增强区分性特征。概括而言,主要贡献如下:• 我们提出了一种新的金字塔时空聚合(PSTA)框架,逐步聚合帧级特征,建立长期的依赖性,同时保持短期信息有效和高效。• 我们提出了一种新的特征聚合模块(STAM),它考虑了帧内和帧间的相关性,以抑制干扰功能,并提高了鉴别的。• 大量的实验表明,我们的PSTA在几个基于视频的人ReID基准测试中实现了最先进的性能我们的完整模型达到91。5%,98。在MARS和DukeMTMC-VID基准测试中,Rank-1准确率为3%2. 相关工作与基于图像的人物识别相比,基于视频的人物识别可以利用时间信息进行检索一个人更准确。为了提取视频级特征,一些作品[55,24,29]在所有时间戳上采用时间池。例如,Gao等人 [11]应用平均池化来获得视频特征。 然而,简单的池化特征可能丢失很多时间信息。因此,一些研究人员应用递归神经网络(RNN)来探索序列关系[57,6,34]。 Dai等人。 [6]首先提取图像级特征,然后利用两个级联Bi-LSTM网络和时间池来聚集逐帧特征。然而,RNN可能无法提取鲁棒的时间信息,因为Zhang等人。 [52]证明RNN可以通过无序采样实现更好的性能。为了直接捕获时空线索,3D卷积神经网络(CNN)是流行的[27,3]。例如,Carreira等人 [1]提出了双流膨胀3D CNN(I3D)用于动作识别中的时空特征学习。Li等人。 [23]进一步提出了一种用于基于视频的ReID的紧凑型多尺度3DCNN(M3D)。Gu等人。 [12]构建了一个保留外观的3D CNN(AP3D)来处理外观破坏问题。尽管他们有前途的性能,这些作品引入了大量的参数和计算。最近,一些作品使用图卷积网络(GCN)及其变体来提取视频表示[49,46]。例如,Yang等人。 [50]提出了一 种 用 于 挖 掘 空 间 和 时 间 关 系 的 时 空 GCN(STGCN)。然而,这些方法大多具有复杂的结构,这可能导致模型难以优化。为了处理这些问题,我们提出了一种新颖而简单的结构,即金字塔时空聚合(PSTA)框架,聚集的帧级功能,建立长期的依赖性,而不会丢失有用的本地信息。同时,基于注意力的方法广泛用于基于视频的人ReID [16,48,37,38]。例如,Fu等人 [10]提出了一种时空注意力(STA)方法来强调区分特征。受机器翻译的自注意机制[42]的启发,Wang等人。 [45]提出了非局部网络来挖掘长期的空间和时间依赖性。为了结合视频特征,Liu等人 [28]通过将非本地模块插入ResNet- 50的不同阶段[13]来提出非本地视频注意力网络(NVAN)。Li等人。 [22]进一步采用扩张卷积来挖掘多尺度时间线索。基于关系感知全局注意力(RAGA)[54],Zhang et al. [53]提出MG-RAFA融合图像级特征。12028不不VV{···}1不不gregates2t−1 2t2t,w,hF {···}∈{|{···}2nt,w,h全局平均池化SRA空间参考注意力TRA时间参考注意力AP平均合并损失APF3斯塔姆时空聚合模块0第3阶段此外乘法STAM-3损失APF20F2阶段-2STAM-21STAM-2损失F10F11F12F13阶段-1斯塔姆SRASTAM-1STAM-1STAM-1TRASRAF00F01F02F03F04F05F06F07CNNCNNCNN CNN CNN CNN CNN CNN图2.我们的PSTA框架的总体结构这里,我们使用八个帧(T= 8)作为示例。值得注意的是,聚合模块(STAM)在流水线中具有相同的结构,并且STAM的参数在同一级中共享真的。然而,MG-RAFA可能丢失一些局部时间信息。此外,基于变换器的方法在计算机视觉中变得流行[8]。最近,一些研究人员将变换器引入到基于视频的个人ReID [51,30]中,并实现了有希望的性能。然而,这些基于变换器的方法可能需要大量的计算资源,这可能增加难度′=F0,,F0,其中F0RC×H ×W(C,H和W表示通道的数量、高度和宽度)。然后,空间-时间聚合模块(STAM)(细节可以在第3.2节中找到)。 取相邻的特征映射F0,F0i1,2,,T作为输入,并将它们转化为局部时间特征,Fn=ST AMn(Fn−1,Fn−1),t=1,2,···,T.(一)在真实场景中的实现。 在本文中,我们2t−1 2t 2n提出了一个时空聚合模块(STAM),以有限的计算成本从当前和相邻的特征图中生成有区别的特征。3. 该方法我们提出了一种新的金字塔时空聚合(PSTA)框架,基于视频的人ReID。总体框架如图所示。2.该算法通过逐步聚合帧级特征,在充分利用帧间短期相关性的同时,逐步建立帧间长期相关性。然后我们提出了时空聚合这里n=1表示STAM的阶段。上面提到的过程可以继续,直到只有一个输出如图所示的STAM。2.以这种方式,可以获得具有不同时间感受野的分层特征。例如,表示为F2的STAM-2的输出特征包含22=4个帧级特征的信息。因此,随着阶段的增加,可以建立长期依赖性,而不会丢失从先前阶段获得的关系信息。然后将输出要素集Fn发送到全局平均池(GAP)图层以获得阶段要素FnT′W H模块(STAM)以进一步聚合相邻特征。 它增强目标相关特征,同时抑制Fn=1 11Σfnt=1w=1h=1、(二)干扰特征的帧内注意和帧间注意。 在本节中,我们首先介绍其中T′=T是阶段n的输出数,fn∈表示Fn的位置(w,h)处的向量。PSTA框架的金字塔结构然后,STAM的每个模块的细节在第3.2节中描述。最后,损失函数在第3.3节中给出。最后,多阶段特征Fn视频级特征N不作为最后的XN=1 ΣFn,(3)3.1. 金字塔结构对于视频序列,我们对具有T帧的轨迹片段进行采样,表示为=I1,I2,、IT.如图2、tracklet首先输入特征提取器。tor (例如,ResNet-50[13])以获得一组特征图T′ W H12029N n=1其中N=1,2,…log2T.为了确保每个阶段的特征都能很好地代表序列,我们采用了su-对所有舞台特征的透视。在测试过程中,我们使用所有阶段的平均特征作为视频级特征。12030全局平均池化残余块级联全连接层的TC×1×1不Cd×1×1FtSRA的tSCTST不不FSFt不Ft+1CTt+1TRAResF*的t不FTt,t+1C×1×1St+1不C×1× 1D的Tt+1Ft+1,t不C×1×1C×1× 1DAt+1FC不Ft+1FSSt+1SSCSSRAAt+1Ft+1t+1t+1At+1SFC间隙FC间隙FCFCFCResFC间隙间隙我我不不×不我电话+1不t,t+1我i,1i,N月1N我Fn=Res(FT+FT)+(FS+FS是通过堆叠关系向量ri及其cor-i来构造的。我.Σ我t,t+1t+1,t不电话+1响应嵌入向量β(xi)图3.提出的时空聚合模块(STAM)的架构。时间参考注意力(TRA)和空间参考注意力(SRA)在右侧部分中示出。3.2. 时空聚合模块注意机制已被广泛用于获得人ReID中的区分表示然而,大多数基于注意力的模块不能同时提取为了缓解这一问题,我们设计了一种新的STAM来增强前景空间参考注意(SRA)增强空间特征的区分度,抑制干扰信息.如等式1所示。4、直接学习An可能是昂贵的,具有大量参数。受[23]的启发,我们将An分解为两个低维注意力掩码:At=SS◦CS,(6)利用帧内信息进行特征提取并增强目标通过帧间相关性来识别人物信息。 那个-其中S∈R1× H × W 和CS∈RC×1×1 代表STAM的结构如图所示。3.它由两个关键部分组成:空间参考注意(SRA)和时间参考注意(TRA)。一旦一对时间相邻的特征图{Fn,Fn}被馈送到STAM中,其通过两个at-空间和信道注意掩模。为了学习这两个注意力掩码,SRA引入了两个分支,如图3的右侧所示。3.第三章。空间注意学习:受[54]的启发,我们将输入特征图Fi视为N=W×H的图Gst t+1结 每个节点对应于一个C-维的-注意块,SRA和TRA,首先,然后注意贡献向量x.如图3、定义关系映射An,An,An,An考虑到不同的关系t t+1t,t +1t +1,t从节点i到节点j为:可以获得。这里An是Fn的注意力图不通过SRA和n不rS=θS(x)TS(x),(7)At,t+1是TRA的输出,其中i,ji j输入Fn及其参考Fn。 后来,特征图可以通过以下方式获得:FS=At<$Ft,FT =At,t+1<$Ft,(4)其中◦是Hadamard乘积。然后我们采用元素方式其中θS和S是由11卷积层实现的两个嵌入函数,然后是批量归一化(BN)[19]层和ReLU [13]激活函数。那么关系向量可以定义为:SS添加,然后是残余块[13]以融合精炼的充分探索输入剪辑rS=γSrS···,r,rS···r,(8)其中γS是与θS具有相同结构的另一个嵌入函数。 那么关系值向量vSΣ ΣSi其中Res(·)是[13]中的残差块vS=[rS,β(xi)],(9)3.2.1空间参考注意力空间信息在基于视频的身份识别中起着重要的作用.所提出的金字塔聚合结构可以适当地聚合长期信息。然而,在特征融合期间,空间线索可能容易遗漏为了解决这个问题,我们提出了一个其中β(xi)是嵌入函数。然后,根据vS的节点指数构造关系值矩阵VS。最后,可以通过将关系值向量传递通过卷积块,然后传递Sigmoid激活函数,来获得空间注意力图SSS=S形。Conv(V S)Σ),(5)12031(十)12032不电话+1不IJΣ不不∈···×j,i不t我我高×宽w,h2(1(XS)).不电话+1不不不我i,1i,N月1N我∈.Σh=1w=1渠道注意力学习:我们首先通过平均池化来处理输入特征图Fi,如下所示:特征图 对于t +1时间步长,只需将t和t +1的位置互换,即可得到Ft +1的注意图。HW通道注意力学习:两个输入特征图XS=1ΣΣf。(11)首先被发送到嵌入层中用于计算。然后按照SENet [18],信道注意掩码因此可以实现两个特征向量XT和XT。CSRC×1×1由两个级联的FC层产生,乙状结肠FC FCΣ(12)之后,为了考虑相邻输入之间的通道影响,我们将XT和XT集中为不我与建议SRA,我们的金字塔聚合结构Xt,t+1。然后,在SENet [18]之后,信道注意CT∈R2C由两个级联的FC层生成,可以融合空间辨别线索,提高表现力聚合特征的感知能力。CT= S形。FC2.不t,t+1)ΣΣ .(十七)3.2.2时间参考注意相邻帧具有很强的时间相关性,可以相互补充和增强然而,大多数现有的工作[24,29]通过平均池化来获得时间特征,当发生遮挡时,这可能会受到巨大的干扰 。 为 此 , 我 们 提 出 了 一 种 新 的 时 间 参 考 注 意(TRA),探索时间关系。如图3、TRA具有与与处理单个图像的SENet [18]和RGA-S [54]不同,我们的TRA专注于提取相邻帧之间的互信息。此外,TRA与SRA一起可以提取更多有区别的时空信息。3.3. 损失函数为了优化我们的框架,我们采用以下目标函数(N=3),NSRA.我们也因式分解An将遮罩设置为:两个低维的atten-1L总计=N[Ln=1CLS(Xn)+L三(Xη)]、(18)AT=ST◦CT,(13)其中Lcls和Ltri是分类损失和三重态其中ST∈R1× H × W CT∈RC×1×1 代表”[14]故“失”也。我们选择交叉熵损失空间和通道注意掩模。空间注意学习:给定一对时间相邻的特征图Ft,Ft+1,我们构造两个图Gt,Gt+1,其中N=WH个节点。每个节点有一个C维属性向量xt,iRC,其中i= 1,,N. 除了嵌入特征之外,结构关系被证明是学习注意力的有效线索[54]。 为了充分利用相邻帧之间的相关信息,我们将当前帧中的节点与其相邻帧中的所有节点进行比较。然后我们将所有双向相似性堆叠以形成关系向量,标签平滑[40]作为分类损失,以学习识别特定的表示并避免过拟合。我们还采用了三重损失[14]和批量硬挖掘来提高排名性能。4. 实验4.1. 数据集和方案MARS[55]是最大的基于视频的人ReID数据集,其包含来自1261个身份的17,503个轨迹片段和另外3,248个质量较差的轨迹片段,其用作由6个摄像机捕获的干扰物。MARS数据集的视频由DPM [9]检测器生成,并不i、j=θT(xt,i)T<$T(xt+1,j),(十四)GMMCP [7]跟踪器。 训练集包含625个识别项。rt+1=θT(xt+1,j)T<$T(xt,i),rt=γTrt··,r,rt+1···rt+1,其中rt是图Gt中节点i的关系向量。θT,T测试集包含636个身份。DukeMTMC-VID[47]是另一个大规模数据集,具有4,832个tracklet和1,812个身份。它来自DukeMTMC[36]数据集。其中,702个身份和我γT是三个嵌入函数。 那么关系-其中2,196个tracklet用于训练,3,338个tracklet值向量vT是通过堆叠关系vec-其余的702个身份用于测试。托尔Tt我iLIDS-VID[44]包含300人,rt,i及其对应的嵌入向量,构成600个图像SE的两个不重叠的照相机不t我=ΣrT,β(xt,i)Σ。(十五)FC1(XRv效率然后采用平均池化层。CS=12033不不t我不不序列每个视频序列的长度从23到192帧不等,平均持续时间为73帧。值得注意的是,β(xi,i)的参数与在SRA中提到。最后,空间注意力图STR1×H ×W可通过下式获得:ST= S形。Conv(V S)Σ,(16)PRID-2011[15]包括分别来自两个非重叠相机的385和749个身份,其中仅前200个身份出现在两个相机中。PRID-2011的视频长度从5帧到675帧不等。评价方案。 我们采用平均前-其中,VT是由下式构造的关系参考矩阵:将每个vS放置到其对应的输入位置cision(mAP)和累积匹配特征(CMC)以评估性能。∈12034×××表1.MARS [55]和DukeMTMC-VID [47]上不同组件的比较在第二列中,AS表示A聚集S结构,并且P、A、G分别是P金字塔、A相邻和G全局的缩写在第四列中,Res表示STAM中采用的基线作为斯塔姆SRA TRA Res火星mAP等级-1DukeMTMC-VIDmAP等级-1速度ParamsGFLOPS✓✓✓✓✓✓✓✓–P× ×✓✓×✓×✓✓✓ ✓ ✓✓×✓✓×✓ ✓✓✓✓×✓84.7 88.885.2 90.685.1 90.285.2 90.185.4 90.985.5 91.285.8 91.385.8 91.596.3 95.996.7 97.396.5 96.896.6 97.096.9 97.797.1 97.997.4 98.197.4 98.3129.29夹/秒82.58成形夹/秒80.00夹/秒81.01成形夹/秒79.01成形夹/秒79.01成形夹/秒78.05成形夹/秒78.04成形夹/秒26.24M31.77M32.37M29.78M33.55M33.65M32.07M35.42M34.5735.5835.8435.8436.2736.2735.8636.864.2. 实现细节本工作基于Pytorch工具箱1在NVIDIA GTX 2080TiGPU(11GB内存)上实现了我们的模型。 根据RRS策略[28],我们从输入视频中采样8帧。每一帧的大小调整为256 × 128,并通过随机擦除和归一化来增强对于三重损失,我们随机选择8个人,并为每个人采样4个视频片段我们采用在ImageNet [20]上预训练的ResNet- 50 [13]作为我们的骨干网络。根据[33]中的设置,我们将ResNet-50的最后一个步幅设置为1,并删除最后一个空间下采样操作。在训练过程中,我们应用Adam [35]和权重衰减5 10−4来更新参数。 我们将初始学习率设置为3。5 10−4并遵循学习率衰减策略[33]。该模型总共训练了500个epoch。在测试过程中,我们采用余弦相似度来测量查询和图库之间的距离。4.3. 消融研究4.3.1成分分析为 了 验 证 每 个 组 件 的 效 果 , 我 们 对 MARS [55] 和DukeMTMC-VID [47]数据集进行了消融实验1.我们的基线方法仅在帧级特征的平均值上使用交叉熵损失和三重损失[14],并在测试期间将其作为视频特征。基线方法的结果显示在选项卡的第一行中。1.一、金字塔聚合结构的有效性。为了验证我们的金字塔聚集结构(PAS)的有效性,我们首先从我们的完整模型中删除SRA和TRA,以便与基线方法进行公平比较。具体而言,我们采用金字塔结构,但用一个简单的模块聚合帧级特征,该模块由逐元素加法运算和随后的残差卷积块组成。结果显示在选项卡的第二行中。1.与基线相比,我们的PAS将Rank-1提高了1。8%,1。DukeMTMC-VID的4%。为了进一步研究我们的方法的优越性,我们将我们的完整模型与两个简化的聚集结构(AS)进行了比较,包括相邻1http://pytorch.org/参 考 聚 合 结 构 ( ARAS ) 和 全 局 参 考 聚 合 结 构(GRAS)。ARAS通过参考相邻帧来提取局部时空信息,并对细化后的特征进行平均来表示整个序列。而GRAS使用所有帧特征的平均值如Tab.中的第3、4和7行所示。1,我们的PSTA优于ARAS和GRAS显着1。3% 和 1. 4% 在 MARS 上 排 名 第 一 , 以 及 1. 5% 和 1.DukeMTMC-VID的3%我们认为,这种简化的聚合结构失去了长期和短期关系之间的相互作用,限制了他们的能力,挖掘潜在的信息在视频。但是,我们的PSTA通过逐步聚集局部信息来获得全局依赖性,这抑制了干扰特征,增强了鉴别特征。STAM关键组件的有效性 我们评估了每个组件的贡献,并在表中报告结果。1.如第5行和第6行所示,我们单独地和分别地采用SRA模块和TRA模块。与只使用PAS的方法相比,分别使用SRA和TRA可以进一步提高Rank-1得分0。3%和0。6%的MARS作为以及0。4%和0。6%的DukeMTMC-VID。最后我们PSTA将秩-1准确度提高了2。7%和2。百分之四此外,我们移除应用于每一者层的STAM来评估卷积块的影响。如第7行所示,去除残留块的性能接近整个网络的性能。 这意味着我们网络的改进主要来自我们的金字塔时间聚合结构和精心设计的空间聚合模块,而不是简单的堆叠层。表 2. 在 不 同 数 目 的 STAM 阶 段 下 , PSTA 在 MARS 和DukeMTMC-VID上的性能。阶段火星mAP秩-1DukeMTMC-VIDmAP秩-1084.788.896.596.9185.290.096.797.0285.691.097.097.6385.891.597.498.3不同数量的STAM的效果 我们调查的影响,在标签的STAM阶段的数量。二、注意12035T T(a)(b)第(1)款图4.基线和拟定PSTA之间差异的可视化第一行显示不同时间的原始图像邮票. 第二行和第三行分别是基线和PSTA的通道激活图当STAM级的数量被设置为0时,模型的结构与基线相同随着STAM级的数量增加,性能普遍提高。我们认为,这是因为多个STAM阶段可以捕获更全面的信息,从更长的时间依赖。遵循STAM的定义,STAM级的最大数目η应当满足T=2n,其中T是序列的长度。因此,我们设置序列长度和STAM阶段的数量分别为8和3不 复杂性分析。 如Tab.所示。1、比较基线ArasGrasPSTA与基线相比,PSTA引入了额外的9M参数和2. 29G计算复杂度(FLOPs)。附加参数的计数和计算复杂度与STAM的复杂度相关。4.3.2可视化分析激活图的可视化。在图4中,我们在MARS上可视化基线和PSTA的通道激活图。如图如图4(a)所示,与基线相比,可以观察到PSTA可以进一步抑制遮挡帧并增强由红色和绿色边界框注释的区分特征。在图4(b)中,我们可以发现,与基线不同,PSTA基于空间和时间参考注意而聚焦于目标人并且避免背景信息干扰。此外,借助长期图5.MARS数据集上的可视化示例每个示例分别示出了根据基线、ARAS、GRAS和PSTA的前3个检索图像序列正确和错误的匹配由绿勾和红叉标注。最好用彩色观看。在这些情况下,考虑局部和全局时间关系,并采用金字塔结构来提取更多的区分信息。检索结果表明,该算法有效地解决了遮挡问题,捕获了全局的长时信息。信息,PSTA可以抑制无关(a) 基线(b) PSTA线索,这出现在图中的最后两个图像。第4(b)段。检索结果的可视化 我们在图中可视化了硬样品用不同方法的重新评估结果。5,并进行了三个实验来证明所提出的PSTA的有效性。如可以观察到的,当被遮挡帧出现时,基线模型难以区分人。如图2的第二列和第三列所示。5、在前1检索结果中减少查询的视觉歧义。然而,ARAS和GRAS在聚集帧级特征时利用简化的结构,这可能丢失一些重要的局部信息(例如,面部特征)。PSTA进一步确认-图6.通过t-SNE可视化的基线和PSTA的特征分布我们从MARS中选择了20个具有相似外观的行人。每个不同颜色的点代表不同的身份。我们使用三个不同颜色的虚拟线圈来标记三个不同的特征分布。特征分布的可视化。为了进一步证明可解释性,我们使用图1中的t-SNE [41]可视化通过基线方法和我们的PSTA提取的最终视频级特征的分布。6.每个点指示具有从视频序列采样的8帧的轨迹片段的特征。 点的同一性用颜色表示。与基线(a)相比,我们的模型可以更好地减少类内距离并增加查询Rank1 Rank2 Rank3 Rank1 Rank2 Rank3 Rank1 Rank2 Rank3 Rank1 Rank2 Rank3基地PSTA12036类间距离特别是对于基线中存在模糊判断的点,我们的方法可以得到更好的特征表达。具体地,如图1的橙色圆圈所示。6(a)和图如图6(b)所示,所提出的PSTA框架可以显著降低类内方差。我们推断这是因为PSTA可以逐步减轻离群点对金字塔结构的干扰,从而减少类内距离。PSTA除了比较红圈和蓝圈的分布外,还扩大了类间距离。4.4. 与现有技术的在本节中,我们将所提出的PSTA与其他最先进的方法在四个基于视频的每个ReID基准上进行比较:iLIDS-VID [44] 、 PRID-2011 [15] 、 MARS [55] 和DukeMTMC-VID [47]。结果报告在表中。3和Tab。4.第一章请注意,在这些实验中没有采用后处理技术,例如重新排名[56]或多查询[55]。表3.我们的方法与MARS [55]和DukeMTMC-VID [47]上的最新方法的性能(%)比较。模型火星mAP等级-1DukeMTMC-VIDmAP等级-1CNN+XQDA[55]47.665.3––STIM [31]72.784.4––M3D [23]74.184.4––美国[10]80.886.394.996.2AMEM [25]79.386.7––COSAM [38]79.984.994.195.4GLTR [22]78.587.093.796.3RTF [21]85.287.1––FGRA [5]81.287.3––VRSTC [17]82.388.593.595.0[28]第二十八话81.288.9––TCLNet [16]85.189.896.296.9STGCN [50]83.789.995.797.2AFA [4]82.990.295.497.2MGH [49]85.890.0––MG-RAFA [53]85.988.8––AP3D [12]85.690.796.197.2PSTA85.891.597.498.3在MARS和DukeMTMC-VID上,与其他最先进的方法相比,我们的PSTA方法取得了有竞争力的结果。更值得注意的是,所提出的PSTA达到91。在MARS上的rank-1准确度为5%,优于大多数已发表的方法,例如,AP 3D [12]和MG-RAFA [53],由0. 8%和1. 一品准确率7%。请注意,AP 3D [12]使用3D CNN来学习节奏-ral cues,因此需要更高的计算复杂度。MG-RAFA [53]在mAP上获得了很强的性能,但在秩-1准确度方面与我们的方法存在显著差距。这可能是因为MG-RAFA采用多粒度引用,其将捕获不同级别的语义并在mAP中实现高性能。然而,当发生长期遮挡时,[53]中使用的全局参考将引入巨大的干扰,这在基于视频的人ReID中是常见的情况的所提出的PSTA通过渐进地聚集局部特征同时保持来自短期聚集的信息来捕获全局依赖性因此,它对长期闭塞更稳健。此外,GLTR [22]采用金字塔结构以及通过膨胀卷积的时间维度。这种方式可能会丢失从短期关系到长期依赖的信息传递。因此,准确性不是那么令人满意。表4.我们的方法与现有技术方法在iLIDS-VID [44]和PRID-2011 [15]上的性能(%)比较。模型iLIDS-VID一品五品PRID-2011一品五品CNN+XQDA[55]53.0 84.477.3 93.5STIM [31]84.3 96.892.7 98.8M3D [23]74.0 94.394.4100AMEM [25]87.2 97.793.3 98.7COSAM [38]79.6 95.3–GLTR [22]86.0 98.095.5100Jiang等人[21日]87.795.8FGRA [5]88.0 96.795.5100VRSTC [17]83.4–TCLNet [16]86.6–AFA [4]88.5 96.8–MGH [49]85.6 97.194.8 99.3MG-RAFA [53]88.698.095.999.7AP3D [12]88.7–PSTA91.598.195.698.9就iLIDS-VID和PRID-2011数据集而言,我们仅报告累积准确度,因为数据集在图库集中仅具有一个正确匹配与其他方法相比,我们的PSTA方法在iLIDS-VID和PRID-2011数据集上分别具有91.5%和95.6%的 Rank-1准确率具体地,PSTA比关于iLIDS-VID的公开方法的最佳秩-1准确度好2。百分之九十四5. 结论这项工作提出了一种新的框架(PSTA)逐步融合帧级功能。受益于金字塔结构,可以建立长期依赖性而不会丢失有用的局部信息。此外,时空聚合模块的建议。它包含两个关键组件,一个空间参考注意力生成与帧内关系的注意力地图和一个时间参考注意力抑制无关特征和增强与帧间关系的区别性特征。最后,大量的实验证明了我们的PSTA在几个基准上的优越性。致谢本工作部分得到江苏省研究生科研&实践创新项目(第二批)的支持。KYCX20 3083)、国家自然科学基金(No. 62006098)和中央高校基础研究基金(第62006098号)。DUT20RC(3)083)。12037引用[1] Joao Carreira和Andrew Zisserman。什么是行动识别?新模型和动力学数据集。在CVPR中,第6299-6308页[2] Binghui Chen,WeiongDeng,and Jani Hu.混合高阶注意力网络用于人员再识别。在ICCV,第371-381页[3] Guangyi Chen,Jiwen Lu,Ming Yang,and Jie Zhou.基于视频的人重新识别的学习循环3D注意力。TIP,29:6963[4] Guangyi Chen,Yongming Rao,Jiwen Lu,and Jie Zhou.时间相干性或时间运动:基于视频的人员重新识别哪个更重要?在ECCV,第660-676页[5] Zengqun Chen,Zhiheng Zhou,Junchu Huang,PengyuZhang,and Bo Li.用于视频人物重新识别的帧引导区域对齐表示在AAAI,第10591-10598页[6] 戴菊,张平平,王东,卢沪川,王宏宇。基于时间残差学习的视频人物再识别。TIP,28(3):1366[7] Afshin Dehghan , Shayan Modiri Assari , and MubarakShah.GMMCP跟踪器:多目标跟踪的全局最优广义最大多团问题。在CVPR,第4091-4099页[8] AlexeyDosovitskiy、LucasBeyer、AlexanderKolesnikov、Dirk Weissenborn、Xiaohua Zhai、ThomasUnterthiner 、 Mostafa Dehghani 、 Matthias Minderer 、Georg Heigold、Syl-vain Gelly、Jakob Uszkoreit和NeilHoulsby。一张图片相当于16x16个单词:用于大规模图像识别的变压器ICLR,2021年。[9] Pedro Felzenszwalb David McAllester和Deva Ramanan一种区分训练的多尺度可变形零件模型。在CVPR,第1-8页[10] Yang Fu,Xiaoyang Wang,Yunchao Wei,and ThomasHuang. STA:大规模基于视频的人重新识别的时空注意力。在AAAI,第8287-8294页[11] Jiyang Gao和Ram Nevatia。再论基于视频的人ReID的时间在BMVC,2018年。[12] Xinqian Gu , Hong Chang , Bingpeng Ma , HongkaiZhang,and Xilin Chen.用于基于视频的人重新识别的保持外观的3D卷积在ECCV,第228[13] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。CVPR,第770-778页,2016年[14] 亚历山大·赫尔曼斯、卢卡斯·拜尔和巴斯蒂安·莱布。为三胞胎丢失的人重新鉴定辩护。arXiv预印本arXiv:1703.077737,2017。[15] Martin Hirzer,Csaba Beleznai,Peter M Roth,and HorstBischof.通过描述性分类和区分性分类进行人员再识别。在SCIA,第91-102页[16] 侯瑞兵、常红、马冰鹏、Shiguang Shan和Xilin Chen。基于时间互补学习的视频人物再识别。在ECCV,第388-405页,2020中。[17] Ruibing Hou , Bingpeng Ma , Hong Chang , XinqianGu,Shiguang Shan,and Xilin Chen. VRSTC:无遮挡视频人重新识别。在CVPR中,第7183[18] 杰虎,李申,孙刚。挤压和激励网络。在CVPR中,第7132-7141页[19] Sergey Ioffe和Christian Szegedy。批次归一化:通过减少内部协变量偏移来加速深度网络训练。在ICML,第448-456页[20] 邓佳、董伟、索赫尔·理查德、李立佳、李凯、李飞飞 。 ImageNe
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 李兴华Java基础教程:从入门到精通
- U盘与硬盘启动安装教程:从菜鸟到专家
- C++面试宝典:动态内存管理与继承解析
- C++ STL源码深度解析:专家级剖析与关键技术
- C/C++调用DOS命令实战指南
- 神经网络补偿的多传感器航迹融合技术
- GIS中的大地坐标系与椭球体解析
- 海思Hi3515 H.264编解码处理器用户手册
- Oracle基础练习题与解答
- 谷歌地球3D建筑筛选新流程详解
- CFO与CIO携手:数据管理与企业增值的战略
- Eclipse IDE基础教程:从入门到精通
- Shell脚本专家宝典:全面学习与资源指南
- Tomcat安装指南:附带JDK配置步骤
- NA3003A电子水准仪数据格式解析与转换研究
- 自动化专业英语词汇精华:必备术语集锦
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功