没有合适的资源?快使用搜索试试~ 我知道了~
9647TKP……基于时态知识传播的图像到视频人物再识别顾新谦1、2,马炳鹏2,常红1、2,石光山1、2、3,陈西林1、21中国科学院智能信息处理重点实验室,中国科学院计算技术研究所,北京,1001902中国科学院大学,北京,1000493中国科学院脑科学与智能技术示范中心,上海,200031xinqian.gu @ vipl.ict.ac.cn example.com,wwwbpma@ucas.ac.cn,{changhong,sgshan,xlchen}@wwwict.ac.cn摘要在许多人再识别(Re-ID)的场景中,图库集合由大量的监控视频组成,并且查询仅仅是图像,因此必须在图像和视频之间进行Re-ID。与视频相比,静态人物图像缺乏时间信息。此外,图像和视频特征之间的信息不对称增加了图像和视频匹配的难度为了解决这个问题,我们提出了一种新的时间知识传播(TKP)方法,传播时间知识查询画廊样品特征图将由视频表示网络学习到的信息传输到图像表示网络。具体来说,给定输入视频,我们强制图像表示网络在共享特征空间中拟合视频表示网络的输出。利用反向传播技术,可以通过传递时间知识来增强图像特征,从而缓解信息不对称问题通过额外的分类和集成的三重损失,我们的模型可以学习表达性和区分性的图像和视频特征,用于图像到视频的重新识别。大量的实验证明了我们的方法的有效性和两个广泛使用的数据集上的整体结果超过了国家的最先进的方法由一个很大的保证金。1. 介绍人员再识别(Re-ID)的目的是在图库集合中找到与给定查询具有相同身份的通常,Re-ID问题分为两类:基于图像的Re-ID [1,36,12,8]和基于视频的Re-ID [34,32,13]。主要区别在于基于图像的Re-ID中的查询和图库都是图像,而基于视频的Re-ID中的查询和图库都是视频。然而,在许多现实场景中,图库集通常由许多监控视频构成,而查询仅由一个图像组成,因此Re-ID必须图1:特征图的可视化。与视频特征相比,由于缺乏时间信息,查询图像特征只关注局部区域。该方法通过引入时态知识来增强图像特征,使学习后的图像特征集中在人物图像的前景上。在图像和视频之间进行。一个实例是根据犯罪嫌疑人的一张照片(例如,波士顿马拉松爆炸事件)。由于其在视频监控系统中的关键作用,图像到视频(I2V)Re-ID [44,45]近年来引起了越来越多的关注。在I2 V Re-ID中,查询是静态图像,而视频库包含额外的时间信息。一些研究[37,44]表明,对视频帧之间的时间然而,这些方法忽略了I2 V Re-ID的查询仅由一个静止图像组成并且缺乏时间信息。结果,一方面,图像特征不能从建模时间关系的优点中获益(参见图1)。另一方面,图像和视频特征之间的信息不对称性因此,有必要和期望开发一种方法来补充时间信息,以改善9648年龄特征表征针对I2 V Re-ID中被忽略的图像时间表示和信息不对称问题,提出了一种新的时间知识传播(TKP)方法。这受到了知识传播的启发[11],它将黑暗知识从一个庞大而强大的教师网络转移到一个更小、更快的学生网络。在我们的TKP方法中,由视频表示网络学习的时间知识被传播到图像表示网络。在训练过程中,给定相同的输入视频,我们强制图像表示网络提取的帧特征在共享特征空间中匹配视频表示网络的输出经过反向传播训练,时间知识可以自然地从视频表示网络转移到图像表示网络。在测试阶段,我们使用训练好的图像表示网络来提取查询图像的特征。由于传输的时间知识,提取的图像特征表现出对干扰条件的鲁棒性,就像视频帧特征一样(见图1)。同时,该算法解决了图像和视频特征之间的信息不对称问题,使得图像和视频之间的相似性度量变得更加容易大量的实验验证了该方法的有效性。例如,在MARS数据集上,我们的方法将性能从67.1%提高到75.6%(+8.5%)w.r.t.顶尖的准确性,大大超过了最先进的方法。2. 相关工作最近,针对I2 V Re-ID任务提出了几种相关方法[31,37,44,45]。其中,Zhuet al. [44首先研究了这个问题,并提出了一个异构字典对学习框架,将图像特征和视频特征映射到一个共享的特征空间。Wang等人[31]尝试使用基于深度学习的方法来解决这个问题。[37]使用LSTM对图库视频的时间信息进行然而,这些方法[44,45,37]忽略了查询图像特征中相比之下,我们提出的TKP方法将视频表示网络学习到的时态知识转移到图像表示网络,可以有效地减少图像和视频特征之间的信息不对称。时间关系建模。处理视频帧之间的时间关系是视频特征提取的核心重要性。一个自然的解决方案是将回流神经网络(RNN)应用于模型序列[5,23,24]。还有一些方法[7,15,6]使用3D卷积(C3D)来处理时间邻域。然 而,RNN 和 C3D 每 次都 只处 理一 个局 部 最近 ,Wanget al. [33]提出使用非局部操作来捕获长范围依赖性,从而在视频分类任务中获得更高的结果。在本文中,我们还试图利用非本地操作来模拟人视频中的时间关系。知识蒸馏。知识蒸馏[2,11,25,4]是一种广泛使用的技术,用于将知识从教师网络转移到学生网络。通常,它用于从强大的大型网络转移到更快的小型网络。相比之下,我们的TKP方法是第一次将时间知识从视频表示网络转移到图像表示网络。此外,而不是使用训练有素的教师,我们的图像到视频表示学习和时间知识转移同时训练。至于蒸馏形式,Hintonet al. [11最小化教师网络和学生网络的最终分类概率的Kullback-Leibler散度相比之下,Bengioet al. [25]直接最小化这两个网络的中间输出 的 均 方 误 差 。 对 于 深 度 度 量 学 习 任 务 , Chenetal.[4,39]通过交叉样本相似性传递知识在本文中,我们通过在共享特征空间中最小化图像特征和相应视频帧特征的MSE来传递时间知识,这与[25]中的损失设计相似,但在模型上不同。此外,我们还制定了TKP损失的基础上,在共享特征空间的交叉样本距离。3. 该方法在本节中,我们首先介绍了所提出的TKP方法的整体网络其次,详细介绍了图像表示网络和视频表示网络.然后,我们的TKP方法,其次是最终的目标函数和采样策略。最后,这两个学习网络用于执行I2 V Re-ID测试。我们提出的TKP方法在I2 V Re-ID训练中的框架给定输入视频片段,图像表示网络提取单帧图像的视觉信息,视频表示网络提取视觉信息的同时处理视频帧间的时间关系。通过构造TKP损失,给出了从视频表示网络到图像表示网络的时间知识传播通过最小化TKP损失,以及分类和三元组损失,图像特征和视频特征被映射到一个共享的特征空间。所提出的方法的细节给出如下。9649距离矩阵欧氏距离基于特征TKP损失基于距离TKP损失分类损失���&三重态损失欧氏距离距离矩阵…n=1图像特征图像表示网络SAP输入视频剪辑...SAP视频表示网络抽头框架特点视频专题图2:I2 V Re-ID训练中TKP方法的框架。SAP和TAP分别表示空间平均池化和时间平均池化。分类损失和三元组损失用于指导图像到视频表示学习。蓝色箭头表示通过特征进行TKP的过程,而绿色箭头表示通过交叉样本距离进行TKP的过程。红色箭头表示TKP损失的反向传播过程。同时训练表示学习和时态知识转移。最好用彩色观看。3.1. 图像表示网络我们使用ResNet-50 [9],没有最终的全连接层作为视觉特征学习的图像表示网络。为了丰富图像特征的粒度,我们删除了ResNet-50的最后一次下采样操作[30]。表1:视频表示网络的架构。每个输入视频剪辑包含4帧,每帧具有256×128像素。给定N个人视频剪辑V={Vn}N,每个Vncon-得到T个框架V n={F n1,F n2,.,F nT}(除非指定,我们设置T=4)。如果我们丢弃视频帧之间的时间关系,则这些视频剪辑V可以被认为是一个集合的单个图像{FntN、Tn=1,t=1. 因此,我们可以使用图像表示网络Fimg(·)提取图像的特征这些图像,对于所有的n,t,int=Fimg(Fnt),(1)其中,是视频帧F_nt的对应图像特征。对于ResNet-50,D是2048。3.2. 视频表示网络为了同时对视频序列的视觉和时间信息进行建模,我们将CNN与非局部神经网络[33]结合起来作为视频表示网络。非局部块将某个位置处的响应计算为输入特征图中所有位置处的特征的加权和。它可以自然地处理视频帧之间的时间关系。表1显示了ResNet-50主干上的视频表示网络的模型结构具体来说,我们向res3添加两个非本地块,向res3添加三个非本地块块到RES4,并去除RES5中的最后一个下采样操作以丰富粒度。给定输入视频剪辑V n={F n1,F n2,.,在具有T个帧的情况下,视频表示网络Fvid(·)被定义为:{f n1,f n2,… f nT}= Fvid(F n1,F n2,. FnT)、(2)其中f nt∈RD,t=1,.,T是Fnt的视频帧特征。利用时间平均池化,视频剪辑的多个视频帧特征可以被集成为视频特征vn∈R_D。3.3. 时态知识传播一般来说,Re-ID的性能高度依赖于特征表示的鲁棒性。已经证明,建模视频帧之间的时间关系使人的外观表示鲁棒……ResNet-50非本地ResNet-50}层输出大小转换器17×7,步幅2,24× 128× 64× 64池最大3×3,步幅2,24× 64× 32× 64Res2Σ残差块×3Σ4× 64× 32× 256Res3剩余块×2非局部块×1×2Σ Σ4× 32× 16× 512第4区剩余块×2非局部块×1×34× 16× 8× 1024res5剩余块×34× 16× 8× 2048空间平均池4 ×2048时间平均池20489650FTKPTKP2n=1,t=1n=1,t=1大的变化[35]然而,图像表示网络只接收静止图像,不能处理时间关系,因此输出的图像特征不能利用时间知识。为了解决这个问题,我们提出了TKP方法,该方法在共享特征空间中强制图像表示网络的输出通过反向传播,欧氏距离矩阵为D vid∈RNT×NT。为了估计嵌入空间中的图像表示,我们约束交叉图像距离D img∈RNT×NT与交叉视频帧距离D vid一致。以这种方式,时间信息以及样本分布被传播到图像表示网络。TKP损失公式如下:算法,图像表示网络可以从视频帧特征中学习时间知识。结论DTKP1=NT Dimg-Dvid 第二章(四)最后,利用图像表示网络提取的特征,虽然不是直接地,但是工作被分配了一些视频时间信息。具体地,给定输入视频剪辑V,我们可以使用等式(1)和方程(2)对于所有n=1,.,N,t=1,…T.由于Fvid(·)提取视觉信息并同时处理视频帧之间的时间关系,因此Ft不不仅包含视频帧Fnt的视觉信息,而且还涉及与其它帧的时间关系为了使用视频帧特征fnt将时间知识传播到图像表示网络,我们从以下两个方面将TKP方法表示为优化问题。通过特征传播。第一种方法是在一个共享的特征空间中使用图像表示网络来拟合鲁棒的视频帧在这种情况下, TKP方法 可以 被公式 化以 最小化 图像 之间的MSE。其中·F表示Frobenius范数。该公式类似于多维缩放[17],除了我们使用深度网络来建模嵌入函数Fimg(·),而不是直接通过特征分解当量(3)和等式(4)从不同层次传递知识,相互补充。两种方法的实证比较见第4.3节。请注意,图像和视频网络都使用ResNet- 50作为主干。唯一不同的是,视频网络添加额外的非局部块来建模时间信息。给定相同的输入,TKP损失强制这两个网络输出相似的特征。显然,附加非局部块的权重为0是最小化TKP损失的最优解。在这种情况下,非局部块不能捕获任何时间信息。因此,通过TKP更新视频网络会使建模时间变知识除非另有规定,在我们的实验中,特征和相应的视频帧特征:LF不会通过视频代表反向传播FTKP1ΣN ΣT=NT(3)第一章:第一章在模型训练过程中的表达网络。3.4. 目标函数n=1t =1其中·2表示l2距离。当量(3)可以被认为是简化的移动最小二乘法[19,27],它能够从一组标记的样本中重建连续函数。 在这里, 我们 目标 是 到 重建 的 图像表示来自视频帧表示的函数Fimg(·)( Fnt , fnt ) N , T.这 种 方 法 类 似 于 Fit 。Nets[25],除了[25]中的教师网络和学生网络的输出通过额外的卷积回归器映射到相同的维度。相比之下,在我们的框架中,图像和视频表示网络的输出具有相同的维度,并且网络结构相似,因此我们不需要额外的卷积回归器。通过交叉采样距离传播。 另一将时间知识从视频表示传播到图像表示的方式可以求助于神经网络嵌入。目标嵌入空间的结构由交叉样本距离表征对于所有视频除了TKP损失之外,还需要额外的识别损失在本文中,我们利用广泛使用的分类损失和集成的三重态损失。事实上,其他识别损失也适用。分类损失。考虑到人的身份类别级的注释,我们建立了两个共享的权重分类映射到一个共享的身份空间的图像特征和视频特征分类器被实现为线性层,随后是softmax操作,输出通道是训练集的标识数班级-可以将量化损失LC预测恒等式与正确标签之间的交叉熵误差综合三重态损失。我们还使用三元组损失与硬样本挖掘[10]来约束共享特征空间中的相对样本距离。具体来 说 , 我 们 整 合 了 四 种 三 重 损 失 , 图 像 到 视 频(I2V),视频到图像(V2I),图像到图像(I2I)和视频到视频(V2V)三重损失。最终的三重态损失LT被定义为:帧特征{fnt}N,T,我们计算交叉样本LT=LI2V+LV2I+LI2I+LV2V,(5)LL9651非本地ResNet-50TKP哪里LI2V=Σm+maxd(ia,vp)−minΣd(ia,vn)、(6)查询图像表示网络查询特征v∈S+v∈S−+SAP帕纳 纳Σ ΣLV2I=m+maxd(va,ip)−mind(va,in)、(7)i∈S+i∈S−+距离计算帕纳 纳Σ Σ&检索LI2I=m+maxd(ia,ip)−mind(ia,in)、 (8)i∈S+i∈S−+帕纳纳Σ ΣLV2V=m+maxd(va,vp)−mind(va,vn).(九)…SAP TAPv∈S+v∈S−+帕纳 纳这里,m是预定义的矩阵,d(·,·)表示Eu。Clidean距离,并且[·]+=max(0,·)。S+和S−是画廊集视频表示网络画廊特色a a图3:I2 V Re-ID测试的流水线。锚样本(ia或va)。在这四个损失中,Eq。(6)和等式(7)约束图像特征与视频特征之间的距离,提高模态间特征的区分度。相反,Eq. (8)和等式(9)约束模态内的相对距离,这使得我们的模型区分同一模态内不同身份之间的细粒度差异。模态间损失和模态内损失是互补的,它们的整合可以改善图像到视频表示学习。目标函数图像到视频的表示学习和时间知识转移是模拟训练的最终的目标函数被公式化为分类损失、综合三重损失和建议的TKP损失的组合4. 实验4.1. 数据集和评价方案数据集。我们在MARS [41],DukeMTMC-VideoReID(Duke)[34]和iLIDS-VID [32]数据集上评估了我们的方 法 。 其 中 , MARS 和 Duke 是 多 相 机 数 据 集 , 而iLIDS-VID仅由两个相机捕获。MARS、Duke和iLIDS-VID上的人物视频数量分别为20478、5534和600,这三个数据集上的人物视频平均长度分别为58、168和71评价方案。以上三个数据集都是视频Re-ID数据集。对于多摄像机数据集(MARS和Duke),我们仅使用每个查询视频的第一帧作为查询图像来执行I2 V Re-ID测试[31]。对于iLIDS-VID,我们使用所有人视频的第一帧L=LC+LT+LF3.5. 采样策略DTKP .(十)由第一相机捕获用于训练和测试两者,以便与[44,31,37]一致。我们使用累积匹配特征(CMC)为了更好地训练具有多个损失的模型,我们设计了一个特定的采样策略。每批随机抽取P人。对于每个人,我们随机选择K个视频片段,每个片段都有T帧。所有P×K=N个视频片段被馈送到视频表示网络。同时,所有N×T帧形成一个图像批,并送入图像表示网络。通过这种方式,小批量中的所有样本都可以重新用于计算公式中的这三个损失。(10),可以降低计算成本。3.6. 图像到视频Re ID测试在测试阶段,每个查询是一个静止的图像和图库集由大量的人的视频。图像到视频Re-ID测试的过程如图3所示。具体地说,我们使用TKP后学习的图像表示网络来提取查询的图像特征,并通过视频表示网络来提取图库视频特征。在特征提取之后,我们计算查询特征与每个图库视频特征之间的距离,然后根据距离进行图像到视频检索评估每种方法的性能。对于iLIDS-VID,重复实验10次,并给出平均结果。对于多相机数据集,我们还报告了平均精度(mAP)[42],作为对CMC的补充。比较实验主要在MARS和Duke上进行,因为这两个数据集具有固定的训练/测试分割,便于广泛的评估。我们还提出了iLIDS-VID以及MARS的最终结果,以与最先进的方法进行比较。4.2. 实现细节我们在ImageNet [26]上预训练ResNet-50,并采用[33]中的方法来初始化非局部块。在训练过程中,我们从原始全长视频中以8帧的步幅随机采样4帧,以形成输入视频剪辑。对于小于32帧的原始视频,我们复制它以满足长度。第3.5节中的参数P和K均设置为4。输入视频帧是大小为256×128像素。仅水平翻转用于数据扩充。采用自适应矩估计ResNet-50+L965265.6表2:MARS和Duke数据集上的I2 V、I2 I和V2 V Re-ID结果。在I2I设置中,仅使用查询和图库样本的第一帧。在V2V设置中,使用全长查询视频和图库视频。通过学习的图像表示网络提取I2 I和I2 V Re-ID中的所有图像特征I2 V和V2 V Re-ID中的所有视频特征由学习的视频表示网络提取模型损失火星公爵LCLTLFTKPLDTKPI2v Re-IDI2I Re-IDV2V Re-IDI2v Re-IDI2I Re-IDV2v Re-IDtop-1地图top-1地图top-1地图top-1地图top-1地图top-1地图基线CC67.155.565.949.283.472.667.565.660.452.893.291.3TKP-FCCC75.064.271.054.783.272.676.874.263.054.593.691.5TKP-DCCC75.063.170.355.084.172.976.574.962.053.593.391.4TKPCCCC75.665.171.055.084.073.377.975.963.454.894.091.7(Adam)[16],其中权重衰减0.0005以优化参数。该模 型 总 共 训 练 了 150 个 epoch。 学 习 率 被 初 始 化 为0.0003,并在每60个时期之后除以10。对于iLIDS-VID,我们首先在大规模数据集上预训练模型,然后在iLIDS-VID上微调[31]。在测试阶段,通过图像表示模型提取查询图像特征。对于每个图库视频,我们首先将其拆分为几个32帧的剪辑。对于每个片段,我们利用视频表示模型来提取视频表示,100908070605040火星公爵100908070605040火星公爵位置。最后的视频特征是所有剪辑的平均4.3. I2V Re ID为了验证所提出的TKP方法对I2 V Re-ID的有效性,我们实现并测试了我们模型的基线和几个变体。这些方法的配置如表2所示。其中,Baseline仅采用分类损失和三元组损失进行图像到视频表示学习。TKP-F和TKP-D额外使用Eq.(3)和方程(4)分别传递时间TKP在训练过程中结合了这两种迁移方式MARS和Duke数据集的I2 V Re-ID结果见表2。与基线相比,TKP-F和TKP-D的性能有较大幅度的提高。具体而言,TKP-F使MARS和Duke的mAP分别增加8.7%和8.6%。对于TKP-D,MARS的mAP改善为7.6%,Duke为9.3%。这种比较表明,时间知识转移是必不可少的图像到视频表示学习。我们还比较了组合方法TKP与TKP-F和TKP-D。可以看出,实现了进一步的改进。这一结果表明,这两种传递方式从不同的角度传递时态知识,是相辅相成的。4.4. TKP是如何工作的?为了研究TKP的工作原理,我们额外使用在第4.3节中训练的图像表示网络来进行图像到图像(I2 I)Re-ID测试,其中仅使用原始查询和图库视频的第一帧。I2I重新识别I2V重新识别V2V重新识别TKP改进图4:MARS和Duke数据集上I2 I、I2 V和V2 V Re-ID之间的比较。与建议的TKP方法,性能差距可以显着减少。此外,我们还使用经过训练的视频表示网络来执行视频到视频(V2 V)Re-ID实验,其中使用原始的全长查询和图库视频。实验结果也列于表2中。与基线相比,不同的传输方法一致地改善了MARS和Duke数据集上的I2 I Re-ID性能特别是,TKP将MARS数据集上的mAP此外,不同传输方法的V2 V Re-ID性能接近基线。 实验结果表明,该方法在不降低视频特征区分度的前提下,提高了学习图像特征此外,通过传递时间知识,还可以缓解图像和视频特征之间的信息不对称,I2 V Re-ID性能得到更多改善。4.5. I2I、I2V和V2V Re ID之间的比较I2 I(基于图像)Re-ID是查询和每个图库都是图像的任务,而V2 V(基于视频)Re-ID中的查询和每个图库都是视频。在I2V设置中,查询是图像,而每个图库是视频。我们比较了相同配置下的三个不同任务,MARS和Duke数据集的比较由于缺乏额外的视觉和时间信息,I2 V Re-ID的性能低于V2 V Re-ID的性能,并且I2 I Re-ID是83.471.063.475.677.993.254.855.065.172.675.991.3Top-1地图9653表3:在iLIDS-VID数据集上与现有技术的I2 V Re-ID方法的比较。模型top-1top-5前10前20PSDML [43]13.533.845.656.3LERM [14]15.337.149.762.0XQDA [21]16.838.652.363.6KISSME [18]17.641.755.368.7PHDL [44]28.250.465.980.4[37]第三十七话39.566.979.686.6P2SNet [31]40.068.578.190.0TKP54.679.486.993.5表4:与MARS数据集上最先进的I2 V Re-ID方法的比较。图像之前(一)后图像之前(b)第(1)款后表5:与MARS数据集上最先进的V2 V Re-ID方法的比较模型top-1top-5前10地图[第38话]71.285.791.8-MGCAM [29]77.2--71.2DuATM [28]78.790.9-62.3多片段[3]81.292.1-69.4DRSA [20]82.3--65.8TKP84.093.795.773.3低于I2 V Re-ID。特别是,杜克大学的性能差距要大得多。其原因可以归结为杜克大学的视频的平均长度比火星上的长。当我们只使用原始视频的一帧来进行I2I和I2V测试时,信息损失更严重。但是我们提出的TKP方法可以将时间知识转移到图像特征上,从而可以大大减少这两个数据集上的性能差距。4.6. 与现有技术方法的我们将所提出的方法与iLIDS-VID和MARS数据集上最先进的I2 V Re-ID方法进行了结果分别见表3和表4。其 中 , PSDML[43] , LERM[14] , XQDA[21] ,KISSME[18]和PHDL[44]是基于手工特征的方法,而ResNet-50[9]+XQDA[21],TMSL[37]和P2 SNet[31]是基于深度学习的方法。可以看出,基于深度学习的方法显著优于具有手工特征的传统方法,而我们的方法进一步大大超过现有的基于深度学习的方法。由于Duke是新发布的数据集,现有方法尚未对其进行I2 V Re-ID实验。因此,我们不与该数据集上的最新方法进行比较。无论如何,我们的方法的结果可以在表2中看到。注意,V2 V Re-ID性能决定I2 V Re-ID性能的上限我们也比较的图5:TKP开启之前/之后的特征图可视化(a)MARS和(b)Duke数据集。最好用彩色观看。之前后图6:MARS数据集上TKP之前/之后的特征分布可视化。圆圈表示视频特征,十字表示图像特征。不同的颜色表示不同的身份。最好用彩色观看。在MARS数据集上使用最先进的V2 V Re-ID方法提出的方法。为了公平地进行比较,对于多片段[3],我们使用没有光流的结果。如表5所示,我们的TKP始终优于这些方法。至于iLIDS-VID数据集,由于我们没有使用所有训练集(仅使用第一个摄像头捕获的所有视频的第一帧),因此我们没有将V2 V Re-ID结果与这些方法在该数据集上进行比较。4.7. 可视化特征图的可视化。我们在图5中可视化TKP之前/之后的图像特征的特征图。可以看出,原始图像特征只关注一些局部判别区域。在TKP传输时间知识之后,学习的图像表示可以专注于更多的前景,并表现出对遮挡和模糊的鲁棒性,就像图1中的视频特征一样,这有利于I2V匹配。因此,最终的I2V性能可以显著提高。特征分布的可视化。我们还使用t-SNE [22]可视化了TKP之前/之后学习特征的分布,如图6所示在时间知识传递之前,具有相同标识的图像特征和视频特征是松散的。TKP后模型top-1top-5前10地图P2SNet [31]55.372.978.7-ResNet-50 [9]+XQDA [21]67.281.986.154.9TKP75.687.690.965.19654表6:MARS数据集上存在/不存在非局部组织块的I2 V Re-ID结果。w/ NL?表示模型是否包含非局部块。性能改进在括号中提供。767574732 3 4 5 6不66656463622 3 4 5 6不表7:在MARS数据集上具有/不具有TKP损失传播梯度到视频表示网络的结果BP2v?表示TKP损失的梯度是否传播到视频表示网络。模型BP2v?I2I Re-IDI2V Re-IDV2V Re-IDtop-1 地图 top-1 地图 top-1 地图基线65.949.267.155.583.472.6TKP-FC-66.671.051.054.772.775.060.364.278.583.266.672.6TKP-DC-66.370.350.355.074.275.061.763.179.384.166.172.9表8:与在MARS数据集上使用预训练视频模型的方法的比较。模型基线预训练TKPtop-167.173.275.6地图55.561.565.1表9:在MARS数据集上比较具有不同识别损失的方法。模型I2V tri.综合三。基线top-154.459.167.1地图42.647.355.5通过传递时间知识,这两种模态的特征分布变得更加一致。因此,它是比较容易衡量的图像和视频特征之间的相似性。4.8. 消融研究图7:MARS数据集上不同T代表网络?如第3.3节中所讨论的,强制TKP损失将梯度传播到视频表示网络将使视频表示相对于视频表示退化。时间知识为了验证这一点,我们增加了两个额外的实验,结果报告在表7中。可以看出,当TKP损失的梯度传播到视频网络时,TKP-F和TKP-D仍然可以将I2 I和I2 V Re-ID的性能提高相当大的幅度。但这两种方法始终获得较低的V2V性能。如果禁止向视频网络的反向传播,则可以进一步改善所有I2I、I2V和V2V结果。使用预训练的视频模型是否有利于网络的融合?我们的方法旨在解决I2V匹配,但由V2V损失函数监督的预训练视频模型可能对于I2V匹配不是最佳的。为了验证这一点,我们添加了一个实验,该实验使用预训练的视频模型来执行知识传播。如表8所示,尽管预训练的方法优于基线,但它不如同时学习两个网络的TKP不同三重态损失的影响。为了探索这一点,我们进行了不同类型的三重态损失的实验。如表9中所示,方法整合三. 使用集成三重态损耗超过I2V三重态。 其仅使用I2V三重态损耗。在额外的分类损失下,基线优于这两种方法。视频剪辑大小T. 通过改变T,我们在图7中示出了实验结果。可以看出,当是否需要非本地块?在我们的框架中,我们使用非局部块来建模视频帧之间的时间关系。为了验证是否需要非局部块,我们从方法基线和TKP-F中移除非局部块。以及等式(1)中的视频帧特征 fnt。(3)在时间平均池化之后被视频特征vn替换如表6所示,当去除非局部块时,TKP-F仍以合理的裕度超过基线但无非局部块的性能和改善均低于有非局部块的性能和改善。我们认为,与简单的时间平均池相比,非局部块可以更好地建模时间信息,这使得时间知识传播更有效。TKP丢失是否应将梯度传播到视频T是4。5. 结论在本文中,我们提出了一种新的TKP方法I2 V Re-ID。TKP可以将时间知识从视频表示网络转移到图像表示网络。利用传递的时间知识,可以提高图像特征的鲁棒性,并且还可以减轻图像和视频特征之间的信息不对称。大量的实验表明,我们的方法和两个广泛使用的数据集上的结果显着超过了最先进的性能的有效性。鸣谢本工作部分得到国家自然科学基金委国家重点&研发项目(No.2017YFA0700800)资助:61876171和61572465。Top-1模型w/NL?top-1地图基线-66.151.8TKP-F-68.9(+2.8)57.8(+6.0)基线C67.155.5地图9655引用[1] 宋白、项白、齐天。监督平滑流形上可扩展的人物再识别。在CVPR,2017年。[2] 克里斯蒂安·布西卢、里奇·卡鲁阿纳和亚历山德鲁·尼古列斯库-米兹尔。模型压缩。在KDD,2006年。[3] 陈大鹏,李洪生,肖彤,易帅,王晓刚.利用竞争性片段相似性聚合和共同关注片段嵌入的视频人重新识别。在CVPR,2018年。[4] Yuntao Chen , Naiyan Wang , and Zhaoxiang Zhang.Dark- rank:通过交叉样本相似性转移加速深度度量学习。在AAAI,2018。[5] Dahjung Chung,Khalid Tahboub和Edward J.德尔普一种用于人员再识别的双流连体卷积神经网络InICCV,2017.[6] Tran Du , Lubomir Bourdev , Rob Fergus , LorenzoTorresani,and Manohar Paluri.用3d卷积网络学习时空特征。在ICCV,2015年。[7] Christoph Feichtenhofer、Axel Pinz和Richard P.王尔德用于视频动作识别的时空倍增器网络。在CVPR,2017年。[8] Yongxin Ge , Xinqian Gu , Min Chen , HongxingWang,and Dan Yang.深度多度量学习用于人员重新识别。在ICME,2018。[9] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在CVPR,2016年。[10] 亚历山大·赫尔曼斯、卢卡斯·拜尔和巴斯蒂安·莱布。为三胞胎的丢失辩护,进行人员重新鉴定。ArXiv:1703.07737,2017年。[11] Geoffrey Hinton Oriol Vinyals和Jeff Dean。在神经网络中提取知识。2014年NIPS研讨会[12] Ruibing Hou , Bingpeng Ma , Hong Chang , XinqianGu,Shiguang Shan,and Xilin Chen.用于人员重新识别的交互和聚合网络。在CVPR,2019年。[13] Ruibing Hou , Bingpeng Ma , Hong Chang , XinqianGu,Shiguang Shan,and Xilin Chen.Vrstc:无遮挡视频人物重新识别。在CVPR,2019年。[14] 黄志武,王瑞平,Shiguang Shan,陈西林。学习点到集分类的欧几里德到黎曼度量。CVPR,2014。[15] 水忘机、魏旭、明阳、开宇。用于人体动作识别的3D卷积神经网络。ICML,2010年。[16] Diederik P Kingma和Jimmy Ba。Adam:随机最佳化的方法。2015年,国际会议[17] Joseph B.克鲁斯卡尔通过优化非度量假设的拟合优度的多维标度。心理测量学,1964年。[18] Martin Kstinger,Martin Hirzer,Paul Wohlhart,Peter MRoth,and Horst Bischof.基于等价约束的大规模度量学习。CVPR,2012。[19] 大卫·莱文移动最小二乘的逼近能力。计算数学,1998年。[20] Shuang Li, Slawomir Bak , Peter Carr, and XiaogangWang.基于视频的人再识别的多样性正则化时空注意。在CVPR,2018年。[21] Shengcai Liao,Yang Hu,Xiangyu Zhu,and Stan Z.李通过局部最大发生表示和度量学习进行个体再识别。CVPR,2015。[22] Laurens van der Maaten和Geoffrey Hinton使用t-sne可视化数据。JMLR,2008年。[23] 尼尔·麦克劳克林,耶稣·马丁内斯·德尔·林孔,保罗·米勒。用于基于视频的个人重新识别的递归卷积网络在CVPR,2016年。[24] Yue Hei Ng,Matthew Hausknecht,Sudheendra Vijaya-narasimhan,Oriol Vinyals,Rajat Monga,and GeorgeToderici.除了简短的片段:用于视频分类的深度网络。CVPR,2015。[25] Adriana Romero 、 Nicolas Ballas 、 Samira EbrahimiKahou 、 Antoine Chassang 、 Carlo Gatta 和 YoshuaBengio。Fitnets:薄而深的网的提示。2015年,国际会议[26] Olga Russakovsky , Jia Deng , Hao Su , JonathanKrause,San-jeev Satheesh,Sean Ma,Zhiheng Huang,Andrej Karpathy,Aditya Khosla,and Michael Bernstein.图像网大规模视觉识别挑战。IJCV,2015年。[27] 斯科特·谢弗特拉维斯·麦克菲尔乔·沃伦基于移动最小二乘法的图像变形。SIGGRAPH,2006。[28] [1] Jianlou Si,Honggang Zhang,Chun-Guang Li,JasonKuen,Xiangfei Kong,Alex C.Kot和Gang Wang。基于上下文感知特征序列的双重在CVPR,2018年。[29] 宋春风、黄燕、欧阳万里、王良。面具引导的对比注意模型用于人的再识别。在CVPR,2018年。[30] 孙一凡、郑良、杨毅、齐天、王胜金。超越零件模型:使用改进的部分池(和强大的卷积基线)的人员检索。在ECCV,2018。[31] 王光聪,赖建煌,谢小华。P2snet:图像能否匹配视频,以端到端的方式进行人员重新识别?TCSVT,2017年。[32] 王太清、龚少刚、朱夏天、王胜金。通过视频排名重新识别人员。2014年,在EC
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Android圆角进度条控件的设计与应用
- mui框架实现带侧边栏的响应式布局
- Android仿知乎横线直线进度条实现教程
- SSM选课系统实现:Spring+SpringMVC+MyBatis源码剖析
- 使用JavaScript开发的流星待办事项应用
- Google Code Jam 2015竞赛回顾与Java编程实践
- Angular 2与NW.js集成:通过Webpack和Gulp构建环境详解
- OneDayTripPlanner:数字化城市旅游活动规划助手
- TinySTM 轻量级原子操作库的详细介绍与安装指南
- 模拟PHP序列化:JavaScript实现序列化与反序列化技术
- ***进销存系统全面功能介绍与开发指南
- 掌握Clojure命名空间的正确重新加载技巧
- 免费获取VMD模态分解Matlab源代码与案例数据
- BuglyEasyToUnity最新更新优化:简化Unity开发者接入流程
- Android学生俱乐部项目任务2解析与实践
- 掌握Elixir语言构建高效分布式网络爬虫
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功