没有合适的资源?快使用搜索试试~ 我知道了~
7183VRSTC:无遮挡视频人物再识别侯瑞兵1,2,马炳鹏2,常洪1,2,顾新谦1,2,单世光1,2,3,陈西林1,21中国科学院智能信息处理重点实验室,中国科学院计算技术研究所,北京,1001902中国科学院大学,北京,1000493中国科学院脑科学与智能技术示范中心,上海,200031{ruibing.hou,xinqian.gu}@ vipl.ict.ac.cn,bpma@ucas.ac.cn,{changhong,sgshan,xlchen}@ict.ac.cn摘要视频人物再识别在监控视频分析中具有重要作用。然而,在部分遮挡情况下,视频重建识别性能严重退化。在本文中,我们提出了一种新的网络,称为时空完成网络(STCnet),显式地处理部分遮挡问题。与以往的大多数作品,丢弃被遮挡的帧不同,STCnet可以恢复被遮挡部分的外观。首先,行人帧的空间结构可以用于从该帧的未被遮挡的身体部位预测被遮挡的身体部位。另一方面,行人序列的时间模式为生成遮挡部分的内容提供了重要线索。利用时空信息,STCnet可以恢复被遮挡部分的外观,这可以与那些未被遮挡的部分一起利用,以实现更准确的视频重新识别。将re-ID网络与STCnet相结合,提出了一种对部分遮挡鲁棒的视频re-ID框架(VRSTC)。三个具有挑战性的视频re-ID数据库上的实验表明,所提出的方法优于最先进的。1. 介绍视频人物再识别(re-ID)旨在通过多个非重叠摄像机匹配同一个人,近年来受到越来越多的关注。然而,它仍然是一个非常具有挑战性的问题,由于相机的观点,背景杂波,特别是部分遮挡造成的外观变化很大。在部分遮挡的情况下,视频重建的性能会严重下降。这个问题很难解决,因为人的任何部分都可能被其他行人和环境物体(例如,自行车和指示器)。典型的视频re-ID方法[21,30,32]不考虑部分遮挡的影响。它们代表了每一个视频的帧作为特征向量,并计算具有平均或最大池化的跨时间的聚集表示。在存在部分遮挡的情况下,由于对所有帧的平等处理,视频特征通常被破坏,导致严重的性能退化。最近,注意力机制已被引入到视频re-ID中,以处理部分遮挡[18,43,33,15,3]。它们从视频序列中选择有区别的帧,并生成信息丰富的视频表示。虽然这些方法对部分遮挡具有一定的容忍度,但是丢弃被遮挡的帧并不理想。一方面,被丢弃帧的剩余可见部分可以为re-ID提供强线索。因此,这些方法在视频特征中丢失了太多的外观信息,使得它们难以识别人。另一方面,丢弃的帧中断了视频的时间信息。文献[21,30,32]已经证实了视频的时间信息可以帮助识别人。例如,如果不同的人有相似的外表,我们可以从他们的步态中消除歧义。因此,当发生部分闭塞时,这些方法仍然可能失败。在这项工作中,我们提出了空间-时间完成网络(STCnet),以明确地解决部分遮挡的问题,通过恢复被遮挡部分的外观。首先,根据人体框架的空间结构,可以利用人体的可见(未遮挡)部位来预测人体的缺失(遮挡)部位。另一方面,由于行人序列的时间模式,来自相邻帧的信息有助于恢复当前帧的外观。基于这两点,我们设计了STCnet中的空间结构生成器和时间注意力生成器。空间结构生成器利用帧的空间信息来预测被遮挡部分的外观。时间注意力生成器利用具有新颖的时间注意力层的视频的时间信息来细化由空间生成器生成的部分。与7184空间和时间发生器,STCnet能够恢复被遮挡的部分。此外,我们提出了一个无遮挡的视频re-ID框架,通过结合一个re-ID网络与STCnet(VRSTC),其中未遮挡的帧用于训练和测试re-ID网络。由于STCnet的优越的完成能力,视频re-ID框架VRSTC实现了对部分遮挡的鲁棒性。我们证明了所提出的框架的有效性在三个chal-challening视频re-ID数据集,我们的方法优于国家的最先进的方法在多个评价指标。2. 相关作品人员重新识别。已经广泛研究了静止图像的人重新ID [41,20,16,37,14,38,28]。最近,研究人员开始关注视频重新识别[17,21,30,32,43,15,33,18,27]。McLaughlin等人[21日]和Wuet al. [30]提出了一种用于深度视频re-ID的基本流水线。首先,利用卷积神经网络提取帧特征。然后,应用递归层将时间上下文信息合并到每个帧中。最后,采用时间平均池化来获得视频表示。Wu等[32]进一步提出了一种用于提取局部运动信息的时间卷积子网。 这些方法验证了视频的时间信息可以帮助识别人。然而,由于这些方法平等地对待视频的每一帧,具有部分遮挡的帧将使视频表示失真为了处理部分遮挡,基于注意力的方法越来越受欢迎。Zhou等[43]提出了一种RNN时间注意机制来从视频中选择最具区分力的帧。Liu等[18]使用卷积子网来预测每帧的质量分数视频。Xu等[33]提出了一种时空注意力池网络,其中空间注意力池层从每个帧中选择有区别的区域,时间注意力池层从序列中选择有信息的帧。类似地,Liet al. [15]使用多个空间注意模块来定位人的不同身体部位,并将这些提取的局部特征与时间注意进行合并。总的来说,上述方法通过丢弃被遮挡的部分来处理部分遮挡问题,这导致视频的空间和时间信息的丢失。与现有的方法不同,我们明确地通过恢复被遮挡的部分来解决部分遮挡问题。然后将恢复的部分与未被遮挡的部分一起利用,以用于部分遮挡下的鲁棒视频reID。图像完成。图像补全的目的是用合适大小的内容填充图像中丢失或被掩盖的区域。它在照片编辑、文本合成和计算摄影中有许多应用。早期的作品[8,1]试图通过匹配来解决这个问题以及将背景补丁复制到缺失区域中。最近,基于生成对抗网络(GAN)[7]的深度学习方法已经成为图像完成的一种有前途的范例。Pathak等人[23]提出的上下文编码器,产生的内容的任意图像区域的条件下,其周围环境。它使用逐像素重建和adversar损失进行训练,这比仅使用重建损失训练模型产生更清晰的结果。Iizuka等人[11]通过使用扩张卷积[35]来处理任意分辨率来改进[23]。在[11]中,引入了全局和局部判别器作为对抗损失。全局判别器追求输入图像的全局一致性,而局部判别器鼓励生成的部分是有效的。我们提出的STCnet建立在[11]的基础上,并通过提出的时间注意力模块对其进行扩展以利用视频的时间信息。 此外,STCnet采用一个引导子网络赋予一个re-ID交叉熵损失,以保持所生成的图像的身份。3. 时空完备网络在本节中,我们将首先说明拟议的STCnet的概述。然后,我们将详细介绍STCnet的各个模块.最后,将给出优化STCnet的目标函数。3.1. 网络概述STCnet的核心思想是通过利用视频的时空信息显式地恢复被遮挡的部分,从而减轻遮挡对行人检索特征提取的干扰。 网络架构 图1显示了STCnet的。STCnet由空间结构生成器、时间注意生成器、两个鉴别器和一个ID引导子网络组成。空间结构生成器利用行人帧的空间结构,并对该帧的可见部分上的遮挡部分的内容进行初始粗略预测。时间注意力生成器利用视频的时间模式,并利用来自相邻帧的信息来细化被遮挡部分的内容。我们引入了一个局部的遮挡区域,以产生更真实的结果,和一个全局的遮挡整个帧追求全局一致性。此外,采用ID引导子网络来保存完成后的帧的ID标签。3.2. 空间结构生成器由于行人视频中帧的空间结构,可以用帧的可见部分来预测遮挡部分的内容。最后,我们设计了空间结构生成器来模拟遮挡和可见部分之间的相关性。7185提取物补丁RSa,b,aF,bF相邻帧特征softmaxOABraFbF提取物补丁′ ′S′′利用框架的空间结构利用视频的时间注意力使用身份信息全局鉴别器真/假?空间结构生成器Gs时间注意力发生器GtDGID引导器谁是吗RDl真/假?局部鉴别器图1. STCnet概况。空间结构生成器将掩蔽帧作为输入并输出所生成的帧。时间注意力生成器用相邻帧来细化所生成的帧两个鉴别器分别鉴别掩码和整个生成帧中的合成内容的真假。ID引导器网络用于确保所生成的帧的身份当前帧特征SAB输出注意力功能闭塞部分的内容物。因此,我们引入了一种新的时间注意层,它学习在哪里参加相邻帧的特征,以生成包含部分的内容。它是可微分的,可以集成到时间注意力发生器。时间注意层能够对空间生成器生成的帧与相邻帧之间的关系进行建模。为了简单起见,我们将空间生成器生成的帧表示为当前帧。如图所示图2.时间注意力层(Temporal AttentionLayer)为了简单起见,我们只描述了一个输出特征块(oa,b)的生成过程其他补丁的生成过程类似。在图2中,我们首先提取当前帧特征(F)和相邻帧特征(R)中的补丁(3×3)。 然后,我们测量F的补丁和R的补丁之间的归一化内积(余弦相似性):空间结构发生器被设计为一个自动编码器。编码器获取在被遮挡部分中填充有白色像素的帧(被遮挡区域中的所有像素都被填充)。sa,b,a′,b′=fa,b、||2 ||2ra′,b′||ra′,b′||2(1)设置为0)作为输入,其被表示为掩蔽帧,并且产生该帧的潜在特征表示。解码器采用特征表示并生成被遮挡部分的内容。此外,我们采用[35]在编码器中扩大卷积,以扩大接收场的大小,这可以帮助传播输入。其中,fa,b表示当前帧中以位置(a,b)为中心的块,ra′, b′表示相邻帧中以位置(a,b)为中心的块,sa,b,a′,b′指示fa,b与ra′,b′之间的相似性。然后我们用softmax函数对相似度进行归一化从远处可见部分到被遮挡部分的形成空间结构生成器的体系结构源自完备网络[11]。在层IM-∗a,b,a,b=exp(sa,b,a′,b′)c′d′exp(sa,b,c′,d′).(二)在实现中,我们使用具有3×3内核和ELU的卷积[4]作为激活函数。编码器由五个卷积层组成,并堆叠其中四个膨胀的卷积层,这将分辨率降低到输入帧原始大小的四分之一。解码器由两个反卷积层[19]组成,以恢复帧的原始分辨率3.3. 时间注意力发生器鉴于视频的时间模式,也可以利用来自相邻帧的信息来预测最后,对于当前帧的每个补丁,通过对相邻帧的所有块进行加权求和,其中权重由对应的两个块之间的相似度决定:Σ∗′ ′oa,b=sa,b,a′,b′r(a, b).(三)a′b ′为了集成时间注意层,我们在时间注意生成器中引入了三个并行编码器。一个用于遮挡帧的编码器专注于幻觉内容,而另外两个编码器分别用于precious和next拉法余弦相似度F7186接收相邻未遮挡帧。两个时间atten- tion层附加在顶部的编码器参加相邻帧的功能感兴趣。输出要素框架:Lr=||x−x1||1个以上||x−x2||1(4)然后,三个编码器被级联并被馈送到解码器中以获得最终输出。时间发生器的编码器和解码器的结构与空间发生器中的相同。3.4. 鉴别器我们采用了一个本地和一个全球的鉴别器,以提高质量的生成内容的遮挡部分。局部神经网络以被遮挡部分为输入,判断被遮挡部分合成的内容是否真实。它有助于生成详细的外观,并鼓励生成的零件是有效的。全局鉴别器将整个帧作为输入,并且正则化帧的全局结构。这两个鉴别器协同工作,以确保性别-x<$1=M<$Gs((1−M)<$x) +(1−M)<$x(5)x<$2=M<$Gt(x<$1,xp,xn) +(1−M)<$x(6)其中,x是空间生成器的输入,x p和xn是前一个,并且x的n ∈ xt个相邻帧相对于v iv i y,x∈1和x∈2分别是空间生成器和时间生成器的预测,M是与丢弃帧区域相对应的二进制掩码,其中,在像素被丢弃的地方,值为1,在其他地方,值为0,并且m是逐元素乘积运算。通过全局adversarialloss和局部adversarialloss,我们定义了全局adversariallossLa1和局部 adversariallossLa2,全局adversariallossL a1 反 映 了 整 个 帧 的 忠 实 性 , 局 部adversariallossLa2反映了被遮挡部分中生成内容的有效性被遮挡部分的内容不仅真实,La=最小值最大值Ex最大值[logDg(x)也与周围的环境相一致。这两个鉴别器的架构类似于[25],它由六个卷积层和一个正弦函数组成1Gs,G tDgdata(x)+logDg(1−x<$2)](七)角全连接层所有卷积层都使用La2=minmaxExp(x)[logDl(M/x)]3×3内核和2×2像素的步幅以减少帧分辨率全连接层使用sigmoid作为激活函数,输出输入Gs,GtDl数据+logDl(1−Mx2)](八)是真的3.5. ID引导器为了使完整的(无遮挡)帧提高人的重新识别性能,我们引入了一个ID引导子网,以指导更适合于重新识别问题的生成器。ID引导器子网络接收完成的帧并输出分类结果,这些分类结果被强制为真实类别。通过这种方式,在完成过程中保留了人的身份线索。我们使用ResNet-50 [9]作为骨干网络,并将分类层的输出维度修改为训练身份的数量。在[28]之后,我们删除了ResNet-50中的最后一个空间下采样操作,以提高检索精度,同时增加了非常少的计算成本。3.6. 目标函数STCnet使用三个损失函数联合训练:用于捕获整体结构的重建损失、用于提高真实性的对抗性损失、以及用于保持所生成的帧的ID的引导器损失。值得注意的是,我们用原始像素替换生成帧的非掩模(未遮挡)区域中的像素。我们首先引入空间生成元Gs和时间生成元Gt的重构损失LR,它是网络输出与原始生成元之间的L1其中,P_data(x)表示实际帧x的分布。对于ID导引器网络R,导引器损失Lc是简单的交叉熵损失,其表示为:ΣKLc=−qklogR(x<$2)k(9)k=1其中K是类别的数量,q是输入帧的真实分布。最后,总损失函数定义为:L=Lr+λ1(La1+La2) +λ2Lc(10)其中λ1和λ2是平衡不同损失影响的权重4. 无遮挡视频人员重新识别通过将STCnet与re-ID网络相结合,我们提出了一个视频re-ID框架VRSTC,该框架对部分遮挡具有鲁棒性。VRSTC的框架如图3所示。首先,提出了一种相似性评分机制来定位帧的遮挡部分。然后,采用STCnet恢复被遮挡部分的外观。最后,利用恢复的区域与那些未被遮挡的区域来训练re-ID网络。在不设计复杂模型和损失函数的情况下,该框架可以获得很大的性能提升.7187选择遮挡区域(0.89)Re-ID网络STCnet相似性评分t=1不不不不t tt0.92 0.90 0.91 0.91 0.900.91 0.90 0.91 0.91 0.910.94 0.85 0.84 0.85 0.93图3.VRSTC的管道4.1. 相似性评分文献[18,43,33,3]使用注意机制来定位被遮挡的帧。这些方法通常构造一个子网络来预测视频中每一帧的权重。然而,子网络很难自动为被遮挡帧分配低权重,因为没有对权重的直接监督。考虑到上述问题,我们提出了一个相似性评分机制来产生的关注度分数的帧的每个区域由于遮挡通常发生在几个连续的帧中,并且遮挡物具有与原始身体部位不同的语义特征,因此我们使用帧区域特征与视频区域特征之间的余弦相似度作为评分。 例如,我们将输入视频表示为I={I t}T,其中T表示视频的长度框架是垂直的平均分为三个固定区域I t={I u,I m,I l},其中u、m和l分别表示帧的上部、中部和下部。每个区域{v,k} 的特 征表 示|k ∈ {u,m,l}}用卷积神经网络提取。然后通过根据时域的平均池化来获得视频区域特征1ΣT具有平均时间池化和交叉熵损失的re-ID网络。我们采用修改后的ResNet-50作为骨干网络。为了捕获时间依赖性,我们将非局部块[29]嵌入到re-ID网络中。与以往只在最后建立时间依赖性的工作不同,非局部块可以插入到深度神经网络的早期部分。这使我们能够建立一个更丰富的层次时间依赖,结合非本地和本地信息。5. 实验5.1. 数据集和评价方案iLIDS-VID数据集由600个视频序列组成,其中300个不同的身份被两个摄像机捕获每个视频序列包含23到192帧。MARS数据集是最大的视频识别基准,包含1261个身份和大约20000个来自6个摄像头的视频序列边界框是由边界检测器[6]和GMMCP跟踪器[5]产生DukeMTMC-VideoReID数据集是用于视频人员re-ID的跟踪数据集DuKeMTMC [26]的子集。行人图像每秒从视频中裁剪12帧以生成轨迹。评价方案:我们采用平均精度(mAP)[40]和累积匹配特征(CMC)[2]作为评估指标。5.2. 实现细节在本小节中,我们给出了我们的方法的实现细节。我们使用PyTorch [22]进行所有实验。预训练重新识别网络。 我们训练ResNet-50vk= 不 t=1vk, 其中k∈ {u,m,l}(11)用交叉熵损失作为STCNet的ID引导器。在训练阶段,对输入的四帧轨迹进行裁剪接下来,计算每个帧区域的分数,下面的等式:从一个输入序列。利用ResNet-50提取帧特征,然后采用平均时间池化uk=.VK不、||2 ||2VKΣ||2 ||2(十二)以获得序列特征。 调整输入图像的大小256×128批量大小设置为32。对于数据扩充,我们仅使用随机水平镜像最后,我们将得分低于阈值τ(0. 89在我们的工作)作为闭塞区。我们用STCnet生成的区域替换被遮挡的区域,形成一个新的数据集,并用新的数据集训练一个re-ID网络。4.2. Re-ID网络大多数re-ID网络和损失函数可以与STCnet结合。请注意,STCnet可以与最先进的re-ID模型相结合,以进一步提高整体性能。 为了验证STCnet的有效性,作为一种数据增强方法,我们使用一个简单的训练我们采用自适应矩估计(Adam)[12],权重衰减为0。0005 网络总共训练了150个epoch,初始学习率为0。0003并以衰减率0减少它。每50个epoch1个。定位遮挡区域。使用预训练的re-ID网络作为特征提取器,我们使用相似性评分机制为每个帧区域生成分数。我们将分数低于τ的区域视为被遮挡区域,将没有被遮挡区域的帧定义为未被遮挡帧。在我们的实验中,τ被设置为0。89岁。7188培训STCnet。为了训练STCnet,我们需要构建一个由输入遮挡帧和目标去遮挡帧组成的训练集。然而,对于被遮挡的帧没有地面实况。因此,我们只使用目标re-ID数据集的训练集中的未被遮挡的帧来训练STCnet。特别地,我们随机地掩蔽未被包含的帧的区域作为输入。输入和目标帧的大小调整为128×64,并线性缩放为[−1,1]。在训练STCnet时,ID引导器的参数是固定的。我们用交替的Adam优化器优化空间和时间生成器以及两个判别器,并将学习率设置为0。0001 λ1和λ2被设置为0。001和0。1分别。一旦训练结束,STCnet可以恢复被遮挡区域的外观。使用去遮挡帧改进re-ID网络。 用STCnet生成的区域替换原始re-ID数据集中帧的遮挡区域,以形成新的数据集。然后用新的数据集训练和测试re-ID网络。我们在re-ID网络中嵌入非局部块[29]以捕获输入序列的时间依赖性。根据[29]中的实验,在一个阶段的最后一个残差块之前插入五个非局部块。三个块被插入到res4中,两个块被插入到res3中,每隔一个残差块。其他设置与预训练re-ID网络的实验中的设置相同。在测试过程中,给定一个完整的视频输入,使用训练的re-ID网络提取视频特征,用于余弦距离下的检索。5.3. 消融研究5.3.1STCnet组件分析我们调查的效果,每个组成部分的STCnet进行几个分析实验。表1报告了STCnet每个组成部分的结果。基线对应于在原始目标数据集上训练的ResNet-50。NL算法将非局部块嵌入到基线模型中,并对结果进行了改进,表明非局部块能够有效地融合视频的时间信息。在本部分的其他实验中,我们用不同的完成模型生成的区域替换被遮挡的区域,形成一个新的数据集,并在新的数据集上训练和测试NL。空间结构生成器。Spa表示仅用空间反射损失训练的空间结构生成器。与NL相比,SPA使秩1精度提高了1. 3%、0. 9%和1。iLIDS-VID、MARS和DukeMTMC-VideoReID分别为1%。实验结果表明,利用帧的空间信息恢复出目标的空间结构,包含的区域对于提高re-ID性能是有用的暂时注意力发生器。Spa+Tem由空间和时间生成器组成,它在空间和时间重建损失的情况下进行训练。通过比较Spa和Spa+Tem,我们可以看到,所提出的时间生成器,表 1.STCnet 的 比 较 分 析 在 括 号 中 报 告 了 MARS 和DukeMTMC-VideoReID的1级CMC准确度和mAP方法iLIDS火星DukeMTMC基线79.884.4(77.2)91.4(90.0)NL80.186.1(79.9)91.8(91.2)Spa81.487.0(81.0)92.9(92.0)水疗+AE81.387.0(80.8)92.9(91.9)水疗+TAE81.987.3(81.0)93.2(92.2)水疗+水疗82.587.8(81.6)93.8(92.7)Spa+Tem+LD82.787.9(81.7)94.1(92.8)Spa+Tem+LD+GD82.987.9(81.9)94.4(93.0)STCnet83.488.5(82.3)95.0(93.5)放大器进一步提高了精度。我们认为时间注意层可以注意到相邻帧的信息,这使得生成的帧与视频序列在语义上更加一致。然后,re-ID网络(NL)可以提取所得到的序列的更好的时间信息,从而产生更具区分性的视频特征表示。值得注意的是,时间生成器的改进并不来自于通过天真地向空间生成器添加额外的层来增加深度。为了看到这一点,我们还尝试了两种时态生成器的变体:自动编码器(AE)和时间自动编码器(TAE)。AE是一个标准的自动编码器,仅将空间生成器的预测作为输入。它具有相同的编码器和解码器,具有时间生成器,只是编码器中的滤波器数量增加了两倍。与时间发生器相比,这控制AE中的参数总数。TAE是没有时间注意层的时间生成器。如表1所示,与Spa相比,Spa+AE不会增加准确度。这说明时间发生器的改进并不是因为它在空间发生器上增加了额外的层。此外,时间发生器的性能优于TAE。这一改进表明,所提出的时间注意力层更好地利用时间信息来生成更具鉴别力的帧。鉴别器。Spa+Tem+LD由两个发电机和当地发电机组成。Spa+Tem+LD+GD进一步整合了全球业务。两人都受过重建和对抗性损失的训练。从结果中,我们可以看到,鉴别器只是稍微提高了性能。我们认为,判别器的目的是生成更逼真的视觉帧,而不会带来太多额外的判别信息的重新识别。身份向导网络。最终模型STCnet使用重建,对抗和引导损失进行训练。使用ID引导器生成的样本具有更好的性能,这表明ID引导器有利于生成用于训练re-ID网络的合适样本。这种改善可以归因于保存的能力7189图像图4. DukeMTMC-VideoReID上的秩1和mAP(a)不同的λ1和固定的λ2=0.1,(b)不同的λ2和固定的λ1=0.001。表2.相似性评分机制中不同阈值τ的比较。在括号中报告了MARS 和 DukeMTMC-VideoReID 的 1 级 CMC 准 确 度 和mAP。阈值(τ)iLIDS火星DukeMTMC0(基线)79.884.4(77.2)91.4(90.0)0.8880.084.8(77.2)91.5(90.3)0.8980.384.9(77.4)91.7(90.5)0.9178.884.2(77.0)91.4(90.6)0.9378.383.6(76.6)91.4(90.5)上部0.9610.9540.9660.9630.9670.9580.956 0.959中间部分 0.9710.9700.9740.9680.9720.9710.965 0.969低部 0.8620.8730.8810.8870.9010.9110.924 0.928图5.一个序列的相似性评分机制的得分。红色代表小分数。与ID标签相关联的底层视觉提示5.3.2参数λ1和λ2的影响λ1和λ2分别是平衡对抗损失和引导损失我们分析了λ1和λ2对DukeMTMC-VideoReID的影响,结果如图4(a)和(b)分别我们观察到,当λ1设置为0.001且λ2设置为0.1. 请注意,当λ1或λ2太大时。其主要原因是当对抗损失或引导损失占主导地位时,STC-网变得难以收敛5.3.3阈值τ我们还进行了实验,以研究在相似性评分机制中改变阈值τ表3.与MARS相关方法的比较。* 表示需要光脉冲作为输入的那些。方法秩-1秩-5十阶地图火星[39]68.382.689.449.3[43]第四十三话70.690.097.650.7[36]第三十六话71.285.791.8-[14]第十四话71.886.693.056.1QAN [18]73.784.991.651.7K-reciprocal [42]73.9--68.5RQEN [27]77.888.894.371.7TriNet [10]79.891.4-67.7欧洲联盟[31]80.892.196.167.4斯坦[15]82.3--65.8剪[3]81.292.1-69.4[3]第三届中国国际汽车工业展览会86.394.798.276.1VRSTC88.596.597.482.3实验设置如下。给定一个输入视频序列,我们首先丢弃分数低于τ的具有遮挡区域的帧。然后使用平均时间池化利用剩余帧获得视频特征。最后,我们使用得到的视频特征来计算余弦距离下视频之间的相似度。值得注意的是,当τ=0时,我们保留视频的所有帧,这与基线模型相同。如表2所示,当τ增加时,性能有所改善,这意味着丢弃的帧将破坏视频的表示。这一结果隐含地表明,通过相似性评分获得的分数可以定位遮挡帧。然而,随着τ进一步增加,精度逐渐下降。其主要原因是阈值过大会导致未被遮挡的帧被丢弃。当τ = 0时,网络的性能最好.89岁。所以我们把τ设为0。89在我们的实验中。值得注意的是,引入STCnet完成的帧可以进一步提高性能(见表1),这表明STCnet恢复的内容可以帮助识别人。为了更直观地展示相似性评分机制,DukeMTMC-VideoReID的一个序列的评分在图5中可视化。由于另一个人的遮挡,前四帧的下部得分相对较小。该结果进一步证明了所提出的相似度评分机制所获得的分数能够反映每个区域的可见性。5.4. 与现有技术的比较表3、4和5分别报告了我们的方法和其他最先进方法在MARS、DukeMTMC-VideoReID和iLIDS-VID上的性能。在MARS和DukeMTMC-VideoReID上,我们的方法优于现有的最佳方法。我们将这些改进归功于7190iLIDS-VID火星表4.与DukeMTMC-VideoReID上的方法进行比较方法秩-1秩-5十阶地图欧洲联盟[31]83.694.697.678.3VRSTC95.099.199.493.5表5.与iLIDS-VID相关方法的比较(一)(b)第(1)款(c)第(1)款(d)其他事项DukeMTMC图6. STCnet的可视化示例。从上到下:(a)原始图像,(b)STCnet的输出,(c)原始图像的激活图,(d)完成图像的激活图。更温暖的颜色,更高的价值闭塞部分的回收内容物。与STCnet的有效结合使我们的方法优于只使用原始数据集的方法。值得注意的是,DukeMTMC-VideoReID最近由[31]提出,我们的基线模型比[31]高出7。8%和11。rank-1和mAP分别为7%。我们希望它能成为DukeMTMC-VideoReID的新基准。在iLIDS-VID上,我们的方法实现了比SniLIDS-OF [3]略低的性能。请注意,Sniper +OF使用额外的光学光流作为输入来提供运动特征,这在我们的框架中没有使用。此外,我们的方法明显优于Sniffy(无光学滤波器),这是一个更公平的比较。5.5.可视化STCnet我们将生成的STCnet帧可视化,以进行直观的探索。选择部分遮挡图像进行评价。图6生动地说明了STCnet如何恢复被遮挡部分的内容并改进提取的特征。具体来说,当一个人被其他行人的身体部位遮挡时,为这个人提取的特征表示通常会被其他行人的视觉外观所破坏。如图6(c)的第六列所示,其他行人的部分被re-ID网络激活,这损害了目标人的特征表示。 另外,当人被环境对象遮挡时,指示器和自行车,在从人提取的特征中将存在身体信息的严重损失(例如,图6(c)的第二列)。相反,一旦STC网络恢复被遮挡区域的内容,重新ID模型将考虑更多的有效区域,并从中发现新的判别线索,以更正确地识别人。6. 结论在这项工作中,我们提出了一个新的框架结合了一个重新ID网络与完成网络STCnet视频重新ID下部分遮挡。为了明确地解决部分遮挡问题,我们设计了STCnet来重新覆盖遮挡区域的外观,并利用恢复的区域与未遮挡区域来训练re-ID网络。在三个数据集上的实验表明,该方法优于最先进的视频re-ID方法。在未来,我们将探索其他类型的深度生成架构,以恢复具有极其严重遮挡的帧的外观。鸣谢本工作部分得到&国家自然科学基金委国家重点研发 项 目 ( No.2017YFA0700800 ) 资 助 : 61876171 和61572465,以及北京市科技计划:Z181100003918012。方法秩-1秩-5十阶20级LFDA [24]32.968.582.292.6KISSME [13]36.567.878.887.1LADF [16]39.076.889.096.8STFV3D [17]44.371.783.791.7TDL [34]56.387.695.698.3火星[39]53.081.4-95.1[43]第四十三话55.286.5-97.0CNN+RNN*[21]58.084.091.096.0[36]第三十六话60.284.791.795.2ASTPN*[33]62.086.094.098.0QAN [18]68.086.895.497.4RQEN [27]77.193.297.799.4斯坦[15]80.2---[3]79.891.8--[3]第三届中国国际汽车工业展览会85.496.798.899.57191引用[1] C. Barnes,E. Shechtman,A. Finkelstein和D. B.黄金人 。 Patchmatch : Arandomizedcorrespondencealgorithm for structure image editing.ACM Transactionson Graphics(TOG),28(3):24,2009。[2] R. M. Bolle,J.H. Connell,S.Pankanti,N.K. Ratha,以及A. W.前辈roc曲线与cmc的关系。在AUTOID,第15-20页[3] D. Chen,H. Li,T. Xiao,S. Yi和X.王.通过竞争性片段相似性聚合和共同关注片段嵌入进行视频在CVPR中,第1169-1178页[4] D. A. Clevert,T. Unterthiner和S. Hochreiter。通过指数线性单元进行快速准确的深度网络学习。arXiv预印本arXiv:1511.07289,2015。[5] A. 德汉,S.Modiri Assari和M.Shah. GMMCP跟踪器:多目标跟踪的全局最优广义最大多团问题。在CVPR,第4091- 4099页[6] P. F.费尔岑斯瓦尔布河B. Girshick,D. McAllester和D.Ramanan使用区分性训练的基于部分的模型进行对象检测。 IEEE Trans. 模式分析马赫内特尔,32(9):1627[7] I. Goodfellowa,J.普热-阿巴迪米尔扎湾,澳-地Xu,L.沃德-法利,S。奥扎尔A.Courville和Y.本吉奥。生成对抗网络。在NIPS,第2672[8] J. Hays和A. A.埃夫罗斯使用数百万张照片完成场景。ACM Transactions on Graphics(TOG),26(3):4,2007.[9] K. 他,X。Zhang,S.Ren和J.太阳用于图像识别的深度残差CVPR,第770-778页,2016年[10] A.赫尔曼斯湖Beyer和B. Leibe为三胞胎的损失辩护,以 便 重 新 鉴 定 。 arXiv 预 印 本 arXiv : 1703.07737 ,2017。[11] S. Iizuka、E. Simo-Serra和H.石川全局和局部一致的图像完成。ACM Transactions on Graphics(TOG),36(4):107,2017。[12] D. P. Kingma 和J. BA. Adam:随机最佳化的方法。arXiv预印本arXiv:1412.6980,2014。[13] M. Koestinger,M.作者:Hirzer,P. M. Roth和H.比肖夫等价约束下的大规模度量学习在CVPR,第2288-2295页[14] D. Li,X. Chen,Z. Zhang和K.煌学习身体和潜在部位的深度上下文感知特征,以进行人员重新识别。在CVPR,第384-393页[15] S. Li , S. Bak , P. Carr , C. 荷 塘 、 X. 王 . Diversityregularizedspatiotemporalattentionforvideobasedperson reidentification.在CVPR,第369-378页[16] Z. Li,S.昌角,澳-地Liang,T. S.黄湖,澳-地Cao和J.R.史密斯学习局部自适应决策函数进行个人验证。在CVPR,第3610-3617页[17] K.刘湾,澳-地马,W。Zhang和R.煌基于视频的行人重新识别的时空外观表示在ICCV,第3810-3818页[18] Y. Liu,J. Yan,and W.欧阳。用于集对集识别的质量感知网络。在CVPR中,第4694[19] J.朗,E. Shelhamer和T.达雷尔。用于语义分段的全卷积网络在CVPR,第3431[20] L.妈,X。Yang和D.涛.使用多任务距离度量学习的摄像机网络上的人员重新识别。IEEE Transactions onImage Processing,23(4):3656[21] N. McLaughlin,J. M. del Rincon和P. C.米勒用于基于视频的人员重新识别的回流卷积网络。在CVPR,第1325-1334页[22] A. Paszke,S.格罗斯,S。钦塔拉湾Chanan、E.杨,Z.DeVito,Z.Lin,L.德迈松湖Antiga和A.Lerer Pytorch中的自动微分在NIPS研讨会上,2017年。[23] D. Pathak,P.Krahenbuhl,J.多纳休,T.Darrell和A.A.埃夫罗斯上下文编码器:通过图像修复进行特征学习。在CVPR,第2536-2544页[24] S. Pedagadi,J.Orwell,S.Velastin和B.博格森行人再识别的局部滤波器判别分析在CVPR,第3318-3325页[25] A.拉德福德湖,澳-地Metz和S.钦塔拉使用深度卷积生成对抗网络进行无监督表示学习arXiv预印本arXiv:1511.06434,2015。[26] E. Ristani,F.索莱拉河邹河,巴西-地Cucchiara和C. 托马西多目标、多摄像机跟踪的性能测量和数据集2016年ECCV研讨会[27] G.松湾,澳-地冷氏Y. Liu,C.荷塘、S.菜用于大规模人员再识别的基于区域的质量估计网络。arXiv预印本arXiv:1711.08766,2017。[28] Y.孙湖,澳-地Zheng,Y.郑氏,中国科学院植物研究所所长。扬角,澳-
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- StarModAPI: StarMade 模组开发的Java API工具包
- PHP疫情上报管理系统开发与数据库实现详解
- 中秋节特献:明月祝福Flash动画素材
- Java GUI界面RPi-kee_Pilot:RPi-kee专用控制工具
- 电脑端APK信息提取工具APK Messenger功能介绍
- 探索矩阵连乘算法在C++中的应用
- Airflow教程:入门到工作流程创建
- MIP在Matlab中实现黑白图像处理的开源解决方案
- 图像切割感知分组框架:Matlab中的PG-framework实现
- 计算机科学中的经典算法与应用场景解析
- MiniZinc 编译器:高效解决离散优化问题
- MATLAB工具用于测量静态接触角的开源代码解析
- Python网络服务器项目合作指南
- 使用Matlab实现基础水族馆鱼类跟踪的代码解析
- vagga:基于Rust的用户空间容器化开发工具
- PPAP: 多语言支持的PHP邮政地址解析器项目
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功