没有合适的资源?快使用搜索试试~ 我知道了~
视频人物重识别中的全局-局部时间表示方法(GLTR)及其效果分析
3958用于视频人物重识别的李佳宁1、王敬东1、田琦2、高文1、张世良11北京大学2华为诺亚方舟实验室摘要本文提出了全局-局部时间表示(GLTR)方法,利用视频序列中的多尺度时间线索进行视频人物再识别(ReI-D)。GLTR是通过首先对相邻帧之间的短期时间线索进行建模,然后捕获不连续帧之间的长期关系来构建的。具体地说,短期时间线索是由具有不同时间膨胀的parallel-dilated卷积电话:+86-0512 - 8888888传真:+86-0512 - 88888888时间/秒速率来表示行人的运动和外观。通过时间自注意模型来捕捉视频序列中的长期关系,以减轻视频序列中的遮挡和噪声。通过简单的单流CNN将短期和长期时间线索聚合为最终的GLTRGLTR显示出实质性的优越性,现有的功能与身体部位线索或度量学习四个广泛使用的视频ReID数据集。例如,它在MARS数据集上实现了87.02%的Rank-1准确度,而无需重新排名,优于当前的最新技术水平。1. 介绍人员再识别是通过匹配被探测者的图像或视频序列来识别摄像头网络中的被探测者,具有许多实际应用,包括智能监控和刑事调查。Image person ReI-D在解决方案[38,20,24]和大型基准数据集验证[23,57,44]方面都取得了重大进展。最近,视频人ReID,本文的兴趣,已经吸引了很多关注,因为视频数据的可用性比以前更容易,视频数据提供了比图像数据更丰富的信息。视频人ReID能够探索大量的空间和时间线索,有潜力解决图像人ReID中的一些挑战,例如区分不同的人穿着视觉上相似的衣服。现有的视频人ReID研究的重点在于利用时间线索。现有的工作可以分为三类,根据他们的时间特征学习的方式:(i)提取动态图1.来自两个不同的视频序列的图示在MARS数据集上具有相似外观的行人(出于隐私目的,我们覆盖面部)。相邻帧之间的局部时间线索,例如运动模式或速度有助于区分这两个行人。相邻帧之间的全局上下文线索可以被应用于点遮挡和噪声,例如:被遮挡的帧与其他帧的相似性较小。来自额外CNN输入的特征,例如,通过光流[30,5];(ii)通过将视频视为三维数据来提取空间-时间特征,例如,,通过3D C- NN [27,19]。(iii)通过在时间上聚合帧级特征来学习鲁棒的人物表示,例如,,通过递归神经网络(RNN)[50,30,5],和tempo-ral pooling或weight learning [26,59,22];第三类,我们的工作属于,目前在视频人ReID中占主导地位。第三类具有两个优点:(i)与第一类相比,可以容易地探索为图像ReID开发的人物表示技术;(ii)它避免了光流的估计,由于相邻帧之间的未对准误差,光流的估计仍然不够可靠。目前的研究在已有的数据集上取得了显著的效果,但在速度线索建模的效率和能力方面仍存在一定的局限性。例如,RNN模型被复杂化以训练长序列视频。特征时间池不能模拟视频帧的顺序,这也传达了关键的时间线索。通过端到端的CNN学习,探索更高效、更有效的时空特征获取方法具有重要意义。这项工作的目标是学习一个有区别的全局-局部3959时间表示(GLTR)从一系列的帧特征,通过嵌入短期和长期的时间线索。如图1,相邻帧中的短期时间线索有助于区分视觉上相似的行人。长时间的时间线索有助于减轻视频序列中的遮挡和噪声。扩张空间金字塔卷积[4,51]通常用于图像分割任务,以利用空间上下文。受其强大而有效的空间上下文建模能力的启发,这项工作将扩展空间金字塔卷积推广到扩展时间金字塔(DTP)卷积,用于局部时间上下文学习。为了捕捉全局时间线索,引入时间自我注意(TSA)模型来利用非连续帧之间的上下文关系。DTP和TSA应用于帧级特征,以通过端到端CNN训练来学习GLTR。如在我们的实验和可视化中所示,GLTR呈现出强大的区分能力和鲁棒性。我们在新提出的用于人ReID的大规模视频数据集(LS-VID)和四个广泛使用的视频ReID数据集上测试我们的方法,包括PRID [14],iLIDS-VID [43],MARS[56]和DukeMTMC-VideoReID [47,[34]分别。实验结果表明,GLTR在这些数据集上取得了一致的性能优势。一阶精度87。02%在火星没有重新排名,比最近的PBR高2%[39]其使用用于视频特征学习的额外身体部位提示。一阶精度达到94。48%在PRID和96。29%的DukeMTMC-VideoReID,这也击败了目前最先进的技术。GLTR表示是通过简单的DTP和T-SA模型发布在一系列帧特征上来提取的尽管计算简单且高效,但该解决方案优于许多使用复杂设计(如身体部位检测和多流CNN)的近期工作。据我们所知,这是联合利用扩张卷积和自我注意力进行视频人ReID中的多尺度时间特征学习的早期努力。2. 相关工作现有的人ReID作品可以概括为基于图像的ReID[43,38,31,49,55]和基于视频的ReI。D [56,35,39,19]。这一部分简要回顾了与本文工作密切相关的视频人ReID中的四类时间特征学习时间池被广泛用于聚合所有时间戳上的特征。Zheng等[56]应用最大和平均池化来获得视频特征。Li等[22]提取部分线索并学习加权策略以融合从视频帧提取的特征。Suh等人[39]提出了一种两流结构来联合学习外观特征和零件特征,并通过池化策略融合图像级特征。平均池也被用于最近-t works [21 , 47], 它 将 无 监 督 学 习 应 用 于 视 频 人ReID。时间池算法具有很好的效率,但独立提取帧特征,忽略了相邻帧之间的时间顺序。光流对广告帧之间的短期运动进行编码。许多作品利用光流来学习时间特征[36,8,5]。Simonyan等人[36]引入双流网络从叠加光流中学习空间特征和时间特征。Feichtenhofer等[7]利用光流来学习时空特征,并评估两个流之间的不同类型的运动交互。Chung等人[5]介绍了一种用于外观和光流的双流体系结构,并研究了这两种流的加权策略。Mclaughlin等[30]引入光流和RNN来利用长期和短期的时间线索。光流的一个潜在问题是其对空间未对准误差敏感,空间未对准误差通常存在于相邻的人边界框之间。在视频人ReID中,还采用递归神经网络(RNN)进行视频特征学习。Mclaughlin等[30]首先提取图像级特征,然后引入RNN对跨帧的时间线索进行建模。然后,RNN的输出通过时间池合并为最终的视频特征。Liu等[29]提出一种递归架构来聚合帧级表示并产生序列级人体特征表示。RNN引入了一定数量的全连接层和门用于时间线索建模,使其复杂且难以训练。3D卷积通过端到端CNN训练直接提取时空特征。最近,深度3D CNN被引入用于视频表示学习。Tran等人[41]提出了用于时空特征学习的C3D网络。Qiu等[32]将3D卷积滤波器分解为空间和时间分量,这产生性能增益。Li等[19]构建紧凑的多尺度3D(M3D)卷积网络以学习多尺度时间线索。虽然3D CNN已经表现出了良好的性能,但它仍然对空间错位敏感,并且需要堆叠一定数量的3D卷积k-核,从而导致较大的参数开销,并增加了CNN优化的难度。本文通过在帧特征上张贴DTP和TSA模块来学习GLTR。与现有的时间池策略相比它比RNN更容易优化,并且比光流更好地鲁棒性失调误差。与3D CNN相比,我们的模型具有更简单的体系结构,并且可以很容易地利用为图像人ReID开发的表示。如我们的实验所示,我们的方法优于最近的3D CNN模型M3D [19]和递归模型STMP [29]。3960ぬ穴 抜劇转置Bぬ穴 抜劇ぬ穴 抜なconvsoftmaxMconvconvC池化conv軸博げ不不不不不tt不1 2Tt1 2T穴 抜劇穴 抜劇帧特征軸軸旺扩展颞金字塔(DTP)N=3的卷积时间自我注意(TSA)軸旺旺GLTR:f图2.说明我们的帧特征聚合子网络的GLTR提取,其中包括扩张的时间金字塔(DTP)卷积的局部时间上下文学习和时间自我注意力(TSA)模型,以利用全球的时间线索。3. 提出方法3.1. 制剂视频人ReID旨在从包含K个视频的图库集中识别与查询视频有关的图库视频。图库视频表示为Gk={Ik,Ik,...,Ikk},其中k∈ {1,2,.,K},且将F′作为输入并输出时间特征F′′={f ′′,f ′′,. . . ,f ′}。 每个f ′′∈ F′′是通过考虑F′内部特征之间的上下文关系来计算的,即,、f′′=MTSA(F′,f ′),(3)其中MTSA是TSA模型。每一个f"都聚集了局部和全局的时间线索。1 2Tq q qkt查询视频由Q ={I1,I2,...,ITq},其中T(Tq)表示序列中的帧的数量,并且Ik(Iq)是第t帧。图库视频G将被标识为最后,我们在F ′′上应用平均池化来生成视频人ReID的固定长度GLTR f,即、∑Ttrue positive,如果它与查询的距离最近在视频表示上,即、f=1不 t=1f′′。(四)G=arg min dist(fGk,fQ),(1)K其中fGk和fQ分别是图库视频Gk和查询视频Q我们的方法由两个子网络组成,用于学习一个离散的神经网络。犯罪视频表示f,即、图像特征提取子网和帧特征聚合子网。 第一个子网络提取T帧的特征,即T帧。,F={f1,f2,. . . ,fT},其中ft∈ Rd. 的第二子网络将所述T帧特征聚合成单个视频表示向量。我们说明了第二个子网络,这是图中这项工作的重点。2.我们在下面的段落中简要地演示了DTP和TSA的计算DTP被设计为捕获相邻帧之间的局部时间如图2、DTP将F中的帧特征作为输入,输出更新后的帧特征F′={f ′,f ′,. . . ,f ′}。计算每个f′∈F′平均池化也通常应用于RNN [30]和3DCNN [19]中,以生成固定长度的视频特征。每个f′ ′中嵌入的全局和局部时间线索保证了f ′的强鉴别能力和鲁棒性。接下来介绍了DTP和TSA的设计。3.2. 扩展时间金字塔卷积扩展时间卷积:扩张空间卷积因其有效的空间上下文建模能力而广泛用于图像分割[52]。受扩展空间卷积的启发假设W∈ Rd×w是一个卷积核,宽度w. 对于输入帧特征F ={f1,f2,. . . ,fT},扩张率为r扩张卷积的输出F(r)可以定义为,F(r)={f(r),f(r),., f(r)},∑w1 2Ttf(r)=f×W(r),f(r)∈Rd,(5)通过聚集其相邻的帧特征,即,、f′= MDTP(ft− i,.,f(t+1), (2)不i=1[t+r·i][i]t不其中,MDTP表示DTP模型,并且f ′是从2 × i个相邻帧计算的。TSA模型利用了因康-连续帧以捕获全局时间线索。它扩张率=1concat扩张率=2扩张率=43961其中F(r)是包含f(r)的输出特征的集合。 W(r)表示具有扩张率r的扩张卷积。膨胀率r指示用于采样帧特征的时间步幅。它决定了扩张时间卷积所覆盖的时间尺度。例如与3962t=1不軸軸旺 軸旺旺係係茅T帧Mm时间自我关注:TSA的基本思想是计算一个T× T大小的注意掩模M来存储所有帧特征之间的上下文关系。如示于图2,给定输入F′∈RNd× T,TSA首先应用两个卷积层,然后进行批归一化和ReLU,以生成具有大小的特征图B和C(Nd/α)×T。然后,它在C和B的转置之间执行矩阵乘法,得到T×T大小的时间注意掩模M。图3.在具有遮挡的轨迹上计算的F、F′、F′′、M和f的可视化。通过主成分分析将F、F′、F′′的离散性降为1×T 很明显,闭塞-影响基线特征F,即当发生遮挡时,特征基本上改变。 DTP和TSA逐渐减轻了Oc-结论,即F′和F′′中的遮挡帧的特征与其他帧相似。在手动移除被遮挡的帧之后生成帧f与f*非常接近,表明GLTR对遮挡具有很强的鲁棒性。r=2,w=3,每个输出特征对应于五个相邻帧的时间范围。标准卷积可以被视为r=1的特殊情况,它覆盖了三个相邻的帧。与标准卷积相比,r≥2的扩展时间卷积具有相同的学习参数,但在不降低时间分辨率的情况下扩大了神经元的感受野。这一特性使得扩张时间卷积成为多尺度时间特征学习的有效策略。扩展时间金字塔卷积:具有不同扩张率的扩张时间卷积在不同尺度上模拟时间线索。因此,我们使用并行扩张卷积来构建DTP卷积,以增强其局部M被应用于更新F’以嵌入额外的全局时间线索。F′被送入卷积层以生成大小为(Nd/α)×T的新特征图F′。因此,F′乘以M并被馈送到卷积层以将其大小重新覆盖为Nd × T。通过残差连接将得到的特征图与原始F’融合,得到更新的时间特征F’’。TSA的计算可以表示为:F′′=W* ( F′·M ) +F′ , F′′∈RNd×T ,(七)其中W表示最后一个卷积核。为了简化剩余连接的优化,将W初始化为0。 α控制TSA中的参数大小。我们体验-把α设为2。用平均池化处理F""以生成最终的GLTRf∈RNd。我们将在a上计算的F、F′、F′′、M和f图中具有遮挡的tracklet。3. DTP合理缓解通过将卷积应用于相邻特征来遮挡。T-SA主要通过计算注意力来掩码M,其存储如图1所示的全局上下文关系。3.利用M,F′′上的平均池化可以在概念上表示为:时间线索建模能力。如示于图2、DTP卷积由N个膨胀率递增的平行膨胀卷积∑Tt=1”。F(:,t)=∑Tt=1F′(:,t)×m(t)+∑Tt=1F′(:,t),(8)逐步覆盖各种时间范围。对于第n次扩张的时间卷积,我们将其扩张率rn设置为其中m = ΣTM(:,t)是T-dim加权向量。rn=2n-1,以有效地扩大时间感受野。 我们将来自N个分支的输出连接为更新的时间特征F’,即,我们计算f′∈F′为f′= concat(f(r1),f(r2),., f(rN)),f ′∈RNd,(6)请注意,Eq。(8)省略前后的卷积F′简化表达式。 m在图中可视化。3,其中被遮挡帧呈现较低权重,指示它们的特征在平均汇集期间被抑制。GLTR结合了DTP和TSA,具有较强的鲁棒性.t t t t t t其中ri是第i个3.3. 时间自我注意自我关注:自我注意模块最近用于学习图像分割[10,15,53],动作识别[42]和图像人ReID [16,1]中的远程空间依赖性。受其在空间上下文建模中的良好表现的启发,我们将自我注意推广到捕获解释框架之间的上下文时间关系。4. 实验4.1. 数据集我们在四个广泛使用的视频ReID数据集和一个新的大规模数据集上测试了我们的方法。示例图像如图所示。5,统计数据见表1。PRID-2011 [14]。有400个序列的200个行人被两个摄像机捕获。每个序列具有5到675帧之间的长度。iLIDS-VID[43].存在来自两个相机的300个行人的600个序列。每个序列的长度3963表1.我们的LS-VID数据集和其他视频人物ReID数据集的统计数据数据集#identity #序列包装盒数量#帧#室内摄像头。#户外摄像头。检测器Val. 设置评价DukeMTMC 1,4044,832815,42016808手×CMC + mAP火星1,26120,7151,067,5165806DPM×CMC + mAPPRID20040040,03310002手×CMCiLIDS-VID30060042,4607320手×CMCLS-VID3,77214,9432,982,685200312Faster R-CNNCCMC + mAP8k64650~100~200~300~400~500>500序列长度(#帧)(一)12008004007996555453525(b)第(1)款照明变化01 5 9 1317211248163264 128256序列长度[29]第二十九话(c)第(1)款M3D[19](d)其他事项GLTR场景变化图4. LS-VID数据集的一些统计数据:(a)具有不同长度的序列的数目;(b)15部摄影机中每部的序列数目;(c)具有不同序列号的身份的数量;(d)具有不同测试序列长度的ReID性能。在23到192帧之间。在以前的作品[43,22]中实现之后,我们将这两个数据集随机分为训练/测试身份。该过程重复10次以计算平均精度。MARS[56].该数据集由6个摄像头捕获。它由17,503个序列组成,有1,261个相同序列和3,248个差异序列.它被分成625个用于训练的身份和636个用于测试的身份。用DPM检测器[9]检测边界框,并使用GMM-CP跟踪器[6]跟踪我们遵循MARS协议并报告Rank1准确度和平均平均精密度(mAP)。DukeMTMC-VideoReID[47,34]。存在用于训练的702个标识、用于测试的702个标识以及作为干扰物的408个标识。训练集包含369,656帧2,196个tracklet,测试集包含445,764帧2,636个tracklet。LS-VID。 除了上述四个数据集,我们收集了一个新的大规模视频数据集的人ReID(LS-VID)。原始视频拍摄:我们使用15个摄像头的网络,并选择4天进行数据记录。每天3小时6k36424k26782k127437736774159196927818175161492225414881729700240502359#序列行人数目杜克火星iLlDSPRlD等级1准确度LS−VlD3964背景变化图5.从人物轨迹片段均匀采样的帧。每行显示同一个人在不同相机下的两个序列。与现有的数据集相比,LS-VID提供了更多的光照、场景和背景等的实质性变化。我们把脸遮住是为了隐私。分别在上午、中午和下午拍摄视频。我们最终的原始视频包含180小时的视频,12个室外摄像机,3个室内摄像机和12个时隙。检测和跟踪:更快的RCNN [33]用于行人检测。在此基础上,设计了一种特征匹配策略,对每个摄像机检测到的行人进行跟踪.在丢弃了一些长度过短的序列后,我们最终收集到了3,772个行人的14,943个序列,平均序列长度为200帧。产品特点:LS-VID中的示例序列如图1B所示。5,统计数据见表1和图2。4. LS-VID显示了以下新功能:(1)更长的序列。(2)更准确的行人跟踪-让。(3)目前最大的视频ReID数据集。(4)定义一个更现实和更具挑战性的ReID任务。评价方案:由于昂贵的数据符号,我们将数据集以1:3的比例随机分为训练集和测试集,以鼓励更有效的训练。39659085807512345(a) LS−VID9085807512345(b) 火星10095908512345(c) DukeMTMC表2.GLTR中单个组件的性能数据集LS-VID火星DukeMTMCPRIDiLIDS方法地图rank1地图rank1地图rank1rank1rank1基线30.7246.1865.4578.4382.0886.4783.1562.67DTPTSA41.7840.0159.9258.7375.9075.6285.7485.4089.9889.2693.0292.7493.2692.1484.0083.33GLTR44.3263.0778.4787.0293.7496.2995.5086.00基线金字塔时间转换金字塔池DTP图6. DTP和两个竞争对手在具有不同分支数量的三个数据集上的Rank1准确度,即、参数N。战略。我们进一步划分一个小的验证集。最后,训练集包含842个身份的550,419个边界框,验证集包含200个身份的155,191个与现有视频ReID数据集[56,47]类似,LS-VID利用累积匹配特征(CMC)曲线和平均平均精度(mAP)作为评估指标。4.2. 实现细节我们采用标准ResNet50 [12]作为帧特征提取的主干。所有模型都是用PyTorch训练和微调的。随机梯度下降(SGD)用于优化我们的模型。输入图像的大小调整为256 ×128。从每个(B、G和R)通道中减去平均值。对于2D CNN训练,每个批次包含128个图像。初始学习率被设置为0.01,并且在10个epoch之后降低10倍。训练结束了在20个纪元之后。对于DTP和TSA训练,我们从每个序列中采样16个相邻帧作为每个训练时期的输入。批量大小设置为10。初始学习速率被设置为0.01,并且在120个时期之后降低十倍。训练在400个epoch后完成。所有模型都是用softmax损失训练的。在测试期间,我们使用2D CNN从每个视频帧中提取d =128-dim特征,然后使用图1所示的网络将帧特征融合到GLTR中。2.视频特征最终用于具有欧几里德距离的人ReID。我们所有的实验都是在GTX TITAN XGPU、Intel i7 CPU和128GB内存下实现的。4.3. 消融研究DTP和其他局部时间线索学习策略的比较:除了DTP之外,我们还实现了以下策略来学习相邻帧之间的时间线索:(i)无膨胀的金字塔时间卷积,以及(ii)时间金字塔池化[54]。正如在第二节中所解释的。3.2,DTP中第i个金字塔分支的扩张率为ri=2i−1。为了进行公平的比较,我们设置三个方法具有相同的分支数,其中每个方法具有相同的感受野的大小例如,我们将金字塔速度的第3个分支的卷积核大小设置为d×9表3.具有不同主干的GLTR在LS- VID测试集上的性能。方法骨干地图rank1rank5排名10排名20基线Alexnet [17][第40话]ResNet50 [12]15.9824.2343.5253.4562.1322.7735.7055.8864.8973.1230.7246.1867.4174.7182.33GLTRAlexnet [17][第40话]ResNet50 [12]22.5735.4556.5966.0175.0635.7551.8371.6679.1984.7944.4363.0777.2283.8188.41左回旋无扩张。MARS、DukeMTMC-VideoReID和LS-VID的验证集上的实验结果总结在图中。六、图6还比较了作为基线的平均池化。很明显,三种方法的表现比基线好得多,表明平均池化在以下方面无效:捕获帧特征中的时间线索。当N=1时,三种方法的性能相同,即,,将d×3大小的卷积核应用于帧特征F。随着N的增加,三种算法的性能都得到了提高。这这意味着引入多个卷积尺度有利于学习的时间特征。同样清楚的是,DTP在三个数据集上始终优于其他两种策略。原因可能是因为时间金字塔池化在其对时间分辨率进行下采样时丢失了某些时间线索。传统的时域卷积引入了太多的参数,导致优化困难DTP中的扩张卷积有效地扩大了时间各自的字段,因此对于局部时间特征学习表现得更好ing.当N≥3时,DTP的性能提升会减慢。进一步引入更多的分支会增加参数的变化,导致更难优化。在下面的实验中,我们选择N=3DTP和TSA结合的有效性:这部分继续以评估组合DTP和TSA产生最佳视频特征。我们比较了我们的方法的几个变体,并在表2中总结了四个数据集和LS-VID测试集的结果。在表中,分别仅与DTP或TSA聚合帧特征。“GLTR” combinesDTP and表2显示,DTP或TSA的性能明显优于基线,表明对额外局部和全局时间线索进行建模会产生更好的视频特征。DTP模型在MARS3966表4.与LS-VID测试集的近期工作的比较方法地图rank1rank5排名10排名20ResNet50 [12]30.7246.1867.4174.7182.33GLAD [45]33.9849.3470.1577.1483.59[第24话]36.6553.9372.4180.8885.27PBR [39]37.5855.3474.6881.5686.16DRSA [22]37.7755.7874.3781.0686.81双流[36]32.1248.2368.6675.0683.56LSTM [50]35.9252.1172.5778.9185.50I3D [2]33.8651.0370.0878.0883.65P3D [32]34.9653.3771.1578.0883.65STMP [29]39.1456.7876.1882.0287.12M3D [19]40.0757.6876.0983.3588.18GLTR44.3263.0777.2283.8188.41数据集,大幅优于基线。同样,TSA的表现也明显优于基线。通过结合DTP和TSA,GLTR在五个数据集上始终实现最佳性能。因此,我们得出结论,共同学习本地和全球的时间线索的结果在最好的视频功能。不同的主链:我们进一步评估了GLTR与不同骨干网络的 有 效 性 , 包 括 Alexnet [17] , Inception [40] 和ResNet50 [12]。表3总结了LS-VID测试集的实验结果。表3显示,在不同的骨干上实现,GLTR始终优于基线,表明我们的方法在不同的帧特征提取器上工作得很好因此,GLTR可以利用强大的图像表示,并作为视频人ReI的通用解决方案D.由于ResNet50在表3中实现了最佳性能,因此我们在以下实验中采用ResNet50。4.4. 与近期作品的比较LS-VID:本节将几种最近的方法与我们在LS-VID测试集上的方法进行比较。为了对LS-VID进行比较,我们实现了几项最近的工作-s,其代码由其作者提供,包括Person Reid的时间特征学习方法:M3 D [19]和STMP [29],其他时间特征学习方法:具有外观和光流的双流CNN [36],LST-表5.与最近关于火星的工作进行比较方法地图rank1rank5排名20[56]第五十六话15.5030.6046.2059.20IDE+XQDA [56]47.6065.3082.0089.00[59]第五十九话50.7070.6090.0097.60QAN [28]51.7073.7084.9091.60[第18话]56.0571.7786.5793.08TriNet [13]67.7079.8091.36-马华[37]71.1777.17--DRSA [22]65.8082.30--DuATM [35]67.7381.1692.47-MGCAM [37]71.1777.17--PBR [39]75.9084.7092.8095.00CSA [3]76.1086.3094.7098.20STMP [29]72.7084.4093.2096.30M3D [19]74.0684.3993.8497.74[第11话80.8086.3095.7098.10GLTR78.4787.0295.7698.23最新的M3D实现了最佳性能。在表4中,所提出的GLTR实现了最佳性能。它在最近的视频人ReID工作STMP [29]和M3D [19]中表现出色,例如。,6。29%和5。1级准确率分别为39%MARS:表5报告了与最近关于MARS的工作的比较。GLTR的1级准确率为87.02%,mAP为78.47%,优于大多数最近的不起作用,[2019 - 02 - 19][2019 - 02 -01][2019 - 01][20191级准确率分别为2.63%和0.72%。请注意,STMP [29]引入了一个复杂的递归网络,并使用了部分线索和三重丢失。M3D [19]使用3D CNN来学习时间线索,因此需要更高的计算复杂度。STA [11]在MARS数据集上实现了有竞争力的性能,在mAP上优于GLTR。需要注意的是,STA引入多分支用于零件特征学习,并使用三元组损失来提高性能。与已有的方法相比,本文的方法设计简单,具有较好的性能 例如我们使用基本骨干提取全局特征,并仅使用softmax损失进行训练GLTR可以进一步与重新排序策略[58]结合,这进一步将其mAP提高到85.54%。PRID和iLIDS-VID:PRID和iLIDS-VID数据集的比较总结见表6。它显示M [50],3D卷积:I3D [2]和P3D [32],以及最近的人ReID作品:[25][26][27][28][29] GLAD [45]和HACNN[24]的视频特征是通过平均池化提取的。我们在这里重复PBR [39]和DRSA [22],参考他们在MARS上的声明。表4总结了比较。表4显示,GLAD [45]和HACNN [24]在图像人ReID中获得了有希望的性能,但性能低于时间特征学习策略,例如,[19]第29话,这表明学习视频人ReID中的时间线索在那些比较的时间特征学习方法中,即, 我们的方法在以下方面具有竞争力的性能:1级精度。M3D [19]在这两个数据集上也具有竞争力。原因可能是因为M3D联合学习来自视频序列的多尺度时间线索,并且引入双流架构来分别学习空间和时间表示。通过单一的特征提取流设计,我们的方法在两个数据集上的性能仍然优于M3D表6还比较了几种时间特征学习方法,RFA-Net [50]、SeeForest [59]、T-CN[48]、CSA [3]”[29]《明史》:我们的方法优于这些作品的大利润率在rank1的准确性。DukeMTMC-VideoReID:此数据集的比较包括3967真匹配(a)LS−VID(b)MARS(c)DukeMTMC−VideoReID图7. LS-VID、MARS和DukeMTMC-VideoReID数据集上的人员ReID结果的图示。每个示例分别显示了通过基线方法(第一丝束)和GLTR(第二丝束)检索到的前5个序列。真正的匹配由红点注释。我们出于隐私的目的遮住了脸。表6.与PRID和iLIDS-VID的近期工作的比较。表7.比较DukeMTMC-VideoReID。方法地图rank1rank5排名20[第47话][第11话78.3494.9083.6296.2094.5999.3097.5899.60GLTR93.7496.2999.3099.71见表7。因为DukeMTMC-VideoReID是一个尽管LS-VID收集更长的序列以提供更丰富的空间和视觉线索,但它仍然呈现出更具挑战性的个人ReID任务。我们在 图中显示 了GLTR和 ResNet 50 基线在LS-VID,MARS [56]和DukeMTMCVideoReID [47,34]上实现的一些人ReID结果。7.对于每个查询,我们显示返回的前5个视频序列,由那些t-两种方法。可以观察到,所提出的GLTR对于识别具有相似外观的人实质上更具区分性。最近提出的视频ReID数据集,数量有限,工作人员报告了它的性能。我们在本节中比较了ETAP-Net [47]和STA [11]。表7中报告的ETAP-Net [47]的性能是通过监督基线实现的。如表7所示,GLTR实现了93.74%的mAP和96.29%的rank 1准确度,大大优于ETAP-Net [47]。STA [11]也在该数据集上实现了有竞争力的性能GLTR在等级1、等级5和等级20的准确性方面仍然优于STA [11]。请注意,STA [11]利用了额外的身体部位线索和三重丢失。总结:上述五个数据集的比较可以表明GLTR在人ReID的视频表示学习中的优势,即模型设计简洁,精度高。我们还观察到,LS-VID上的ReID准确度显著低于其他数据集上的准确度。例如,LS-VID上的最佳等级1准确率为63.07%,显著低于MARS上的87.02%。这表明,即使5. 结论提出了一种视频人物ReID的全局局部时间表示(GLTR)我们提出的网络由DTP卷积和TSA模型组成,重新定义。DTP由并行扩张时间卷积组成,以模拟相邻帧之间的短期时间线索。TSA利用不连续帧之间的关系在五个基准数据集上的实验结果表明,所提出的GLTR优于当前最先进的方法。本工作得到了北京市鹏程实验室的部分资助,北京市自然科学基金项目批准号:JQ18012,国家自然科学基金项目,批准号:61620106009、61572050、91538111。GLTR基线查询数据集PRIDiLIDS-VID方法rank1rank5rank1rank5BoW+XQDA [56]31.8058.5014.0032.20IDE+XQDA [56]77.3093.5053.0081.40[25]第二十五话51.6083.1034.3063.30Amoc [26]83.7098.3068.7094.30QAN [28]90.3098.2068.0086.80DRSA [22]93.20-80.20-RCN [30]70.0090.0058.0084.00DRCN [46]69.0088.4046.1076.80[50]第五十话58.2085.8049.3076.80[59]第五十九话79.4094.4055.2086.50T-CN [48]81.1085.0060.6083.80CSA [3]93.0099.3085.4096.70STMP [29]92.7098.8084.3096.80M3D [19]94.40100.0074.0094.33GLTR95.50100.0086.0098.003968引用[1] Jean-Paul Ainam,Ke Qin,and Guisong Liu.用于人员重新 识 别 的 自 我 注 意 网 格 。 arXiv 预 印 本 arX- iv :1809.08556,2018。[2] Joao Carreira和Andrew Zisserman。你好,动作识别?新模型和动力学数据集。在CVPR,2017年。[3] 陈大鹏,李洪生,肖彤,易帅,王晓刚.利用竞争性片段相似性聚合和共同关注片段嵌入的视频人重新识别。在CVPR,2018年。[4] Liang-ChiehChen , GeorgePapandreou , IasonasKokkinos,Kevin Murphy,and Alan L Yuille. Deeplab:使用深度卷积网络、无纹理卷积和全连接crf进行语义图像分割。IEEE Trans. PAMI,40(4):834[5] Dahjung Chung,Khalid Tahboub,and Edward J Delp.一种用于人员再识别的双流连体卷积神经网络InICCV,2017.[6] Afshin Dehghan , Shayan Modiri Assari , and MubarakShah.Gmmcp跟踪器:多目标跟踪的全局最优广义最大多团问题。CVPR,2015。[7] Christoph Feichtenhofer , Axel Pinz , and Richard PWildes. 用 于 视 频 动 作 识 别 的 时 空 倍 增 器 网 络 。 在CVPR,2017年。[8] ChristophFeichtenhofer、AxelPinz和AndrewZisserman 。 卷 积 双 流 网 络 融 合 视 频 动 作 识 别 。 在CVPR,2016年。[9] Pedro F Felzenszwalb 、 Ross B Girshick 、 DavidMcAllester和Deva Ramanan。使用区分性训练的基于部分的模型进行对象检测。IEEE Trans.PAMI,32(9),2010年。[10] Jun Fu , Jing Liu , Haijie Tian , Yong Li , YongjunBao,Zhivei Fang,and Hanqing Lu.用于场景分割的双注意网络。在CVPR,2019年。[11] Yang Fu,Xiaoyang Wang,Yunchao Wei,and ThomasHuang. Sta:用于大规模基于视频的人重新识别的时空注意力在AAAI。2019年。[12] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在CVPR,2016年。[13] 亚历山大·赫尔曼斯、卢卡斯·拜尔和巴斯蒂安·莱布。为了防止三重丢失,进行人员重新鉴定。arXiv预印本arXiv:1703.07737,2017。[14] Martin H
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索AVL树算法:以Faculdade Senac Porto Alegre实践为例
- 小学语文教学新工具:创新黑板设计解析
- Minecraft服务器管理新插件ServerForms发布
- MATLAB基因网络模型代码实现及开源分享
- 全方位技术项目源码合集:***报名系统
- Phalcon框架实战案例分析
- MATLAB与Python结合实现短期电力负荷预测的DAT300项目解析
- 市场营销教学专用查询装置设计方案
- 随身WiFi高通210 MS8909设备的Root引导文件破解攻略
- 实现服务器端级联:modella与leveldb适配器的应用
- Oracle Linux安装必备依赖包清单与步骤
- Shyer项目:寻找喜欢的聊天伙伴
- MEAN堆栈入门项目: postings-app
- 在线WPS办公功能全接触及应用示例
- 新型带储订盒订书机设计文档
- VB多媒体教学演示系统源代码及技术项目资源大全
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功