基于时空记忆网络：视频人重新识别任务中的空间和时间干扰因素建模

112 浏览量更新于2023-10-14 收藏 1.4MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

12036基于时空记忆网络Chanho Eom Geon Lee Junghyup LeeBumsub Ham * 延世大学电气电子工程学院https://cvlab-yonsei.github.io/projects/STMN摘要基于视频的人重新识别（reID）旨在跨多个相机重新检索与查询人具有相同身份的人视频。个人视频中的空间和时间干扰因素，例如背景杂波和帧上的部分遮挡，分别使这项任务比基于图像的个人reID更具挑战性。我们观察到，空间干扰物在特定位置一致地出现，并且时间干扰物显示出几种模式，例如，部分遮挡发生在前几个帧中，其中这样的模式提供用于预测要聚焦在哪些帧上的信息线索（即，时间注意力）。在此基础上，我们介绍了一种新的时空记忆网络（STMN）。空间存储器存储跨视频帧频繁出现的空间干扰物的特征，而时间存储器保存针对个人视频中的典型时间模式优化的注意力。我们利用空间和时间记忆来细化帧级人物表示，并将细化的帧级特征聚合成序列级人物表示，分别有效地处理每个视频中的空间和时间干扰因素我们还引入了内存扩散损失，防止我们的模型只在内存中处理特定的项目。在标准基准点（包括MARS、DukeMTMC-VideoReID和LS-VID）上的实验结果证明了该方法的有效性。1. 介绍人员重新识别（reID）旨在从来自非重叠相机的已定位图像/视频记录中检索个人信息。卷积神经网络（CNN）在过去十年中在基于图像的人reID [44，29，21，19，4，46]方面取得了显着进展。基于视频的人reID最近已经根据视频捕获系统的流行而吸引了越来越多的关注视频帧提供了丰富的信息来指定特定的人，但它们通常是确定的。*通讯作者。图1.示例（a）在监控视频中频繁出现的空间干扰物和（b）为预测时间注意力提供重要线索的时间模式原型。捕捉空间干扰物，树木自行车和混凝土铺路机特别地，通常由现成的对象检测器从整个序列中裁剪的人物视频也具有时间干扰项视频帧上未对准的人或序列内的部分遮挡。最近的视频reID方法[18，5]试图通过利用空间和时间注意力模块来解决这些问题，这对于提取对噪声区域鲁棒的人物表示（例如，背景杂波）和时间变化（例如，部分闭塞）。然而，它们不考虑序列中的全局视图[43，11]，这表明这些方法可能专注于较少区分的部分或视频帧。一些作品[17，16，20，30，40，41]提出使用非局部[36]或图卷积网络[13]来捕获共同注意力12037在框架上。他们专注于跨多个帧的共享信息，以从视频中获得一个人的表示然而，共同注意力可能集中在分散注意力的场景细节或部分遮挡上，这通常在连续的视频帧中共享，从而产生不正确的视频表示。在本文中，我们提出了空间和时间记忆网络（STMN）提取的人表示强大的空间和时间的干扰，基于视频的人reID。1）由于视频序列是由固定摄像机捕获的，因此它们可能不断地包含背景杂波，例如运动场、街灯或特定位置的混凝土铺路机（图1B）。1（a））; 2）时间模式，例如，一个人的利益消失在序列的结束（图。 1（b）中心）或部分遮挡发生在前几帧（图。1（b）右），提供了决定我们必须关注哪些帧的关键线索（即，临时注意事项）。基于观察，我们建议利用两个外部记忆称为空间和时间的记忆。空间记忆被训练以存储频繁出现在视频帧上的空间干扰物，而时间记忆被训练以记忆针对人物视频中的典型时间模式优化的注意力在测试时，我们利用记忆作为查找表，并减轻处理来自不可见身份的视频的空间和时间干扰的难度具体地，我们利用空间存储器来抑制用于分散来自每个帧级人物表示的场景细节的特征，并且利用时间存储器来聚合帧级人物表示，其更多地集中在有区别的帧上。我们还提出了一个记忆扩散损失，鼓励我们的模型在训练过程中访问记忆中的所有项目我们证明了我们的方法在MARS [45]，DukeMTMC-VideoReID [38]和LS-VID [16]数据集上的有效性。据我们所知，这是联合利用多种类型记忆的早期努力。我们工作的主要贡献可以总结如下：我们介绍了一个简单而有效的方法，基于视频的人reID，被称为STMN，提取鲁棒的视频表示的空间和时间distrac-tors使用空间和时间的记忆。我们提出了一个记忆扩散损失，防止我们的模型重复访问一些项目，鼓励所有项目的记忆中使用。我们在标准视频reID基准上达到了最先进的水平。消融研究进一步验证了我们的方法的有效性。2. 相关工作在这里，我们简要介绍与我们密切相关的代表作品，并澄清他们与我们的差异基于视频的人reID。基于视频的reID的关键是提取对空间和时间干扰具有鲁棒性的人表示。许多方法[22，18，5]提出将注意力模块用于基于视频的人reID。 QAN[22]使用时间注意力来聚合帧级特征，专注于区分帧。DRSA[18]和STA [5]还使用空间注意力来抑制空间干扰项的特征。然而，他们将注意力分配给每个帧，而不考虑序列中的整个帧，这表明他们可能会聚合序列中的较少区分的部分或帧[43，11]。最近的方法[17，16，20，30，40]提出通过采用非局部[36]或图卷积网络[13]在帧之间使用共同注意模块。具体来说，GLTR [16]在骨干CNN的末尾添加了一个共同关注模块，而M3 D [17]，STE-NVAN [20]和COSAM [30]将多个共同关注模块插入到不同级别的骨干CNN中，以细化帧级人物表示，考虑帧之间的上下文时间关系。 [40，41]的工作引入了分层共同关注模块，将帧划分为多个粒度，以从不同语义级别捕获有区别的空间和时间特征。这些方法突出了帧之间的共享信息，抑制了来自分散注意力的场景细节和遮挡的特征，这仅在这种干扰物出现在几个帧中时才有用。当跨帧共享相似的背景和/或遮挡时，来自这些干扰物的特征被传播，这相当干扰检索人。 [24，39，49]的工作提出使用递归神经网络（RNN）来聚合对时间干扰物鲁棒的帧级人物表示。RNN的隐藏状态存储先前帧中的时间上下文，并且允许基于上下文选择性地聚合人表示。我们还在STMN中利用RNN，但我们不直接使用它们来聚集帧级表示，这可能是次优的，因为RNN不考虑整个帧中的时间上下文（除了在最后一个时间步长处）。相反，我们利用RNN来编码序列的时间模式以用于访问时间记忆。以前的工作忽略了这样一个事实，即一些场景细节和时间模式重复出现在监控视频中，这可能提供重要的线索，以处理空间和时间的干扰。 STMN分别在空间和时间记忆中存储时间模式的场景细节和注意力，提供对空间和时间干扰物鲁棒的人表示。记忆网络。[37]的工作首先引入了记忆网络来处理长期依赖关系···12038我我∈∈i，kDsi，kD×× ×i，ki，k∈nn我我i，k！i，kni，k，ni，k，n“=an我我我∈∈联系我们∈∈∈问答然而，它们需要额外的超能力信号来访问存储器，并且不能被端到端地训练软寻址技术[32]通过使用注意力图来访问存储器来解决这些问题。键值记忆网络[25]建议采用不同的编码来访问和读取操作，其中它们通过键来寻址相关的记忆项，并且随后返回它们对应的值。近来，许多计算机视觉方法利用存储器网络，单次学习[1]、视频对象分割[26]、域自适应[48]、图像着色[42]和异常检测[6，27]。我们的工作还利用记忆网络，但记录分散注意力的场景细节和时间的注意力的功能。通过使用记忆网络，我们能够提取对空间和时间干扰物鲁棒的人表示。此外，我们提出了一个内存扩散损失惩罚我们的模型，当它保持访问特定的项目，而其他项目仍然未使用。图2.空间记忆器以第i帧的人表示和查询映射qsRD×K作为输入。我们基于查询特征qs∈R与键k之间的匹配概率来访问存储器，并且使用输出来细化输入表示fo∈R。（最好是彩色的）。级别个人表示fo和查询映射qs和qt，分别用于访问空间和时间存储器。每个特征图的大小为D H W，其中D、H和W是通道数、高度和宽度。分别我们用foSi，k ，qt个人3. 方法在本节中，我们简要概述了我们利用空间和时间存储器进行基于视频的reID的方法（Sec. 第3.1节）。然后，我们提出了一个详细的描述网络架构（第二节）。 3.2）和训练损失（第3.3）。3.1. 概述STMN主要由三部分组成：编码器、空间存储器（图1）。2），和时间记忆（图。（3）第三章。对于每一帧，编码器提取一个人表示和两个查询映射，其中每个查询用于访问空间或时间存储器。空间存储器存储场景细节的特征，其频繁地出现在视频帧中，诸如路灯、树和混凝土铺路机。我们使用相应的查询映射从空间存储器中提取这些特征，并使用它们来改进人的表示，去除与识别人有关的信息。临时记忆保存针对典型的时间模式进行了优化位置k处的大小为D的特征，其中k∈ {1，2，...，K}K=H×W。空间记忆。由编码器提取的帧级人物表示可以包含用于分散场景细节的特征（例如：树木、混凝土铺路机、自行车或汽车），这可能妨碍在相似场景中区分不同行人。为了处理这个问题，我们使用空间存储器来细化帧级人物表示（图1B）。2）的情况。空间记忆具有键值结构，并且包含M个项目。值vsRD×M对视频序列上的分散场景细节进行编码，而密钥ks RD×M用于访问相应的值。我们分别用ksRD和vsRD表示存储器中的每个键和值，其中n为1，2，…，M. 空间存储器将帧Fi的人表示f 〇RD×K和查询映射qsRD×K作为输入。由于输入帧的不同部分可能包含不同的场景细节，因此我们使用输入查询映射的各个组成部分访问存储器，qs∈RD。具体地说，我们计算查询Q和Q之间的余弦相似度。在真人视频中也会出现。我们进入了时空内存中的查询映射，并使用所有键ksi，k在存储器中，产生输出以将经细化的帧级特征聚合成序列级人物表示。我们使用记忆扩散、三元组和交叉熵尺寸1×M。然后我们将其归一化如下：exp（（qs）Tks）as=i，kn.（一）届i，k，nMn′=1 exp（（qs ）Tks′）3.2. 网络架构编码器。编码器将视频序列Fi|L作为匹配概率表示记录在第n个存储器项目中的场景细节存在于第n个存储器项目中的可能性。输入，其中i=1Fi是序列的第i帧，并且第i帧的第k位置存储器输出使用相应L是帧的总数。我们利用在conv4层裁剪的ResNet[7]作为我们的骨干网络，其中网络参数是为ImageNet类预先训练的。概率n如下所示：M[14]. 我们在主干网络的顶部添加三个头，以提取每个帧的特征图：框架-Si，kSi，k，nn=1vs，（2），qO12039i i=1i i=1i，k∈S！nnnnN∈我我Li=1nvi i=1ni i=1n我我i′=1i′输入视频序列Fi的个人表示|Ltnn||联系我们∈∈图3.临时存储器采用查询映射qt的序列|L以及人称表示F s|L这些都是由空间记忆作为输入。我们通过使用全局平均池和LSTM模块来聚合查询映射，并使用输出来寻址内存。存储器输出时间注意力，并且注意力用于将帧级表示聚合成序列级表示。(Best以颜色查看）。其中空间存储器的输出，包含unin-短期记忆（LSTM）[10]如下：形成性特征，干扰识别人，tt t t用于第i帧的第k位置我们使用空间记忆的输出来细化人物表示，如下所示：q= LSTM（[GAP（q1），GAP（q2），…GAP（qL）]），⑷其中qt_RD是最后一个时间步的输出，表示序列的时间上下文。然后我们使用Si，kOi，k-BN（01，k）的。（三）时间上下文Qt以与空间存储器类似的方式访问时间存储器，如下所示：受[36]的启发，我们使用批量归一化（BN）层以调整来自en的输出之间的分布间隙。exp（（qt）Tkt）a=，（5）编码器和空间存储器。请注意，我们的空间记忆与非局部网络类似[36]，因为它们都可以细化nNn′=1 exp（（qt）Tkt′）以残差方式输入特征然而，我们的显然其中t表示编码的时间与非本地网络不同在我们的方法中，键和值是存储在存储器中的外部参数，并且它们在训练期间通过反向传播进行更新，以便记住场景细节。相反，钥匙，上下文Qt属于存储在第n个存储器项Kt中的时间模式。我们通过对具有相应概率at的值进行加权来合成特定于给定序列的时间注意力，查询，并且从输入特征计算非局部网络中的值，类似于自注意方法[33]。暂时记忆。使用如下所示：ot=“atvt，（6）n=1空间存储器独立地对每个帧进行操作其不能捕获视频序列中的时间上下文。这可能导致我们的框架容易受到帧之间的遮挡或未对准的影响为了解决这个问题，我们建议使用一个额外的时间记忆其中，R_L的存储器输出表示时间attention，以及输出的第i个元素〇t指示序列中第i个然后，我们应用softmax函数的时间注意力，并使用它来聚合细化帧级特征网络（图）（3）第三章。临时存储器还具有键值结构，∈如下所示ft=“otGAP（f s），（7）并且包含N个项，其中密钥ktRD×N 恩-代码原型的时间模式，可重复地出现在人的视频，和值vt∈RL×N备忘录-我我i=1weot=exp（ot）/！Lexp（ot），anddftisourfinal响应时间模式。我们用ktRD表示，并且其中n为1，2，…，N.时间存储器将一系列查询映射qtL和由空间存储器fsL细化的人表示作为输入。我们首先编码给定序列的时间上下文，例如使用查询映射，在中间帧中产生阻塞。具体地，我们通过全局平均池化（GAP）在空间上聚合输入查询映射，并且将它们馈送到长的注意以前的方法，例如，[第四十九、十八、五、十七、十六、二十、30、40]，基于人表示来决定在时间融合期间聚焦于哪些帧这可以强制表示对时间上下文以及与身份相关的线索进行编码，防止表示是有区别的，特别是当不同身份的视频序列包含类似的时间上下文时。相反，在我们的框架中，人表示与编码时间上下文解耦，其中查询F=f对时间的关注度进行了优化，.12040··ni i=1∈∈LLnSnnnn我|∈∈小批量 min（）和max（）返回输入向量的最小值和最大值。记忆蔓延损失强制执行s和的最小值和最大值t相差至少预定义的裕度α。这个预-图4.当我们的模型只处理特定的记忆项目时（左）和当它使用记忆中的所有项目时（右），匹配概率图的例子（最好是彩色的）。映射qt和时间存储器kt中的密钥，编码这样的背景。这鼓励我们的模型提取人的表征，重点是对区分不同身份有用的信息，从而提高reID任务的性能。3.3. 训练损失我们使用两个术语来训练我们的模型，如下所示：L总计=LS+LID，（8）其中我们分别用S和ID表示存储器扩展和识别损失。记忆扩散项per-nalizes我们的模型，当它只访问一个特定的内存项目，而识别项允许从视频序列中提取区分的人表示。下文对每项损失作了详细说明。内存扩展项。我们用As表示RLKB×M 和AtRB×N匹配概率图，其中B是小批量中序列的个数。注意，我们分别为每个小批量寻址空间和时间存储器LKB和B次由于除了标识标签之外我们没有额外的监督信号，所以我们不知道哪个键应该与输入查询匹配在这种情况下，我们的模型可以不断地处理特定的密钥，而其他密钥则不被使用（图2）。4左）。这使得存储器产生类似的输出，不考虑输入帧或序列。为了解决这个问题，我们提出了如下的存储器扩散损失：M当我们的模型不断地寻址一个特定的内存项时，会出现这种情况（图2）。 4左），同时鼓励它在训练过程中访问所有的记忆项目（图4）。4右）。标识术语。遵循其他人的reID方法[40，43，11，3]，我们利用交叉熵和批处理难三重态[8]项的组合，其中识别标签作为监督信号。前者鼓励我们的模型通过关注与身份相关的线索来学习人的表示，而后者则强制相同身份的表示比嵌入空间中不同身份的表示更接近彼此。受深度监督技术[15，34]的激励，我们还使用帧级表示来计算交叉熵和三元组损失，其中全局和时间平均池化用于将帧级表示聚合成序列级表示。4. 实验在本节中，我们提供STMN的实现细节（第 4.1），并显示对空间和时间记忆的消融研究和视觉分析，以验证STMN的有效性（第4.1节）。4.2）。最后，我们将我们的方法与最先进的方法进行比较（Sec. 4.3）。4.1. 实现细节数据集和评估指标。我们在MARS [45]，DukeMTMC-VideoReID [28，38]（简称为“DukeV”）和LS-VID[16]上评估我们的模型，遵循每个数据集的标准协议。注意，我们不使用PRID [9]和iLIDS-VID [35]进行评估，因为它们仅包含用两个相机捕获的几个序列我们报告了秩-1和平均平均精度（mAP）的定量比较的累积匹配特性。训练我们使用A d a m [ 12 ]优化器对我们的模型进行了200个epoch的端到端训练，其中β1和β2分别为0的情况。九比零。999，分别。初始设置为1 e-4的学习率每50个时期降低10倍。为了训练我们的模型，我们随机选择8个身份，并为每个身份采样4个序列。遵循受限随机采样（RRS）策略[18]，然后我们将每个序列划分为L个块，并从每个块中随机选择一个我们将输入帧的大小调整为，并通过水平翻转和L=“[min（as）−max（as）+α]n=1256 ×128（九）+[min（at）−max（at）+α]+，超参数设定空间和节奏的大小-n个ral存储器M和N中的预定义余量α其中a是R_LKB且a是tRB分别是A s和A t的第n列向量，表示每个内存中第n个关键字与中所有查询的匹配概率。记忆扩散损失和输入序列的长度L，我们将MARS [45]的训练集分为两个子集。具体来说，我们在训练中随机划分身份一+随机擦除[47]。12041联系我们联系我们©版权所有i，k联系我们i，kR-1 mAP联系我们+SM+ T M89.9 八十三点七九十六点七九十四点六 80.6六十六点六表1.我们的模型在MARS [45]，DukeV [38]和LS-VID [16]上的变体的定量比较。粗体数字表示最佳性能，下划线数字表示第二佳性能。SM：空间记忆; TM：时间记忆。图6.前5个检索帧图7。与MARS [45]的图库集的幅度差异，其查询特征在匹配概率之前和之后具有较高的等级，其中使用空间的空间记忆。记忆图5. 匹配概率地图的空间和时间的记忆，当他们训练（a）没有和（b）与记忆扩散损失。我们从MARS的图库集合中随机选择10个查询特征[45]。我们可以看到，记忆扩散损失鼓励我们的模型访问记忆中的所有项目（最好是彩色的）。设置成大小为 500/125 的两个子集，并使用相应的7075/1223序列作为序列/视频数据集。对于查询序列，我们从验证分割中随机选择200个序列。对于存储器的大小，我们在（M，N）对上执行网格搜索，其中M，N为5，10，20。我们选择一对M= 10和N= 5作为我们的最终模型，这在五次试验的秩-1准确度和mAP的平均值和标准差方面显示了最佳结果。对于边缘α和序列长度L，我们也可以在α ∈ {0}上使用网格搜索。1，0。3，0。5，0。七，一。0}和空间和时间存储器是彼此互补请注意，LS-VID为人物视频提供了比其他数据集更多样化的空间和时间干扰因素。它包含的视频比MARS和DukeV多三倍，这些视频是在两倍多的摄像机下拍摄的。我们的记忆帮助基线模型处理这些干扰因素，从而在LS-VID上获得显着的性能增益。存储器的性能增益在DukeV上相对较小，因为它包含由人类手动注释的人视频，即，具有较少的干扰物，其中简单基线已经给出95%的等级-1准确度。通过比较2到3，4到5和6到7，我们可以看到，通过记忆扩散损失在训练期间强制执行我们的模型来解决所有记忆项，从而始终如一地提高了性能。为了进一步验证记忆扩散损失的有效性，我们将MARS上的空间和时间记忆的匹配概率图可视化，当记忆在没有训练的情况下进行训练时（图1）。5（a）和（b）。（五）损失。我们从MARS的图库集合中随机选择帧或序列，并从中提取查询特征qs和qt。L分别为4、6、8、10，设置α= 0。3，L= 6。我们修复所有超参数，并在MARS [45]，DukeV [38]和LS-VID[16]的训练分裂上训练我们的模型。详见补充资料。4.2. 讨论消融研究。我们在表1中显示了我们的模型在MARS[45]，DukeV [38]和LS-VID [16]上的消融研究，其精度为1级（%）和mAP（%）。对于基线，我们使用与编码器相同的网络架构，同时去除查询映射的两个头，并利用全局和时间平均池来聚合人员表示。然后，我们计算匹配概率的空间和时间的记忆使用Eq。（1）和方程（5）分别。我们可以看到，记忆扩散损失鼓励我们的模型利用记忆中的所有项目，同时防止它仅访问特定项目。这使得我们的空间和时间的记忆，以产生不同的输出，这取决于帧级的场景细节和序列级的时间上下文。空间记忆。在图6中，我们可视化其查询特征qs具有与来自空间存储器的随机选择的键的高匹配概率的视频帧（参见等式（1））。①①）。我们可以观察到每个键检索tions.From ©1 and ©3 , we can clearly see that the fea-the video frames that share similar scene details such as a使用空间记忆的真实细化过程增强了运动场（第一排）、街灯（第二排）或混凝土ReIDperformnce，其中1和5个Demonstrateth a t hatugavers（第3行）。这意味着我们需要改进的访问权限- 用于聚集帧级表示的时间存储器;-取决于每个帧级表示的场景细节的空间存储器;Tations给出了更好的结果。©3、©5和©7进一步显示视频帧空间存储器聚合要素方法MARSDukeVR-1 mAPLS-VIDR-1 mAP©1Baseline87.3 七十九点一95.092.771.655.9版权所有2 +SM（w/oLS）88.7 八十一点六95.493.678.864.7联系我们+SM89.3 八十二点五96.294.279.665.8联系我们+TM（w/oLS）88.5 八十一点九95.293.377.863.012042我我#fi，k我我×× ×图8.使用原始帧级特征fo（顶部）和改进的特征fs（底部）对MARS [45]的测试分割进行前10个检索结果的比较带有绿框的结果与查询具有相同的标识，而带有红框的结果则不具有相同的标识。为了可视化的目的，我们示出了序列的第一帧（最好是彩色的）。图9. 来自MARS [45]的图库集合的序列的示例，其查询特征显示出与时间记忆中的特定键的高匹配概率。我们还可视化存储在相应值的内存中的时间注意力（最好是彩色的）。对于场景细节，并且我们使用它们来细化帧级每个子表示（参见等式（1））。（三））。为了看到细化的效果，我们在图中可视化。7在细化之前和之后，使用双线性插值，叠加在输入图像上的人物表示的幅度差，即，图10.MARS测试拆分时由时间记忆产生的时间注意力示例[45]。注意，第3行右侧的序列是通过对左侧的序列进行（最好是彩色的）。能力（见等式（5）从时间记忆中随机选择密钥。我们还在下面可视化存储器的相应值。我们可以观察到每个键检索具有相似节奏模式的序列，人在序列的末尾消失（左），或者以相似的外观出现在所有帧中（右），并且值突出显示每个序列中的区别性帧。这验证了密钥对个人视频中的时间模式的原型进行编码，并且存储器的值存储针对对应的时间模式优化的时间注意力。请注意，我们将记忆的各个值与键和输入查询特征之间的匹配概率聚合，以合成特定于输入人序列的时间注意力（参见等式（1））。（6））。图10示出了Ag-100的示例Si，k2−2$k∈H×W%。我们可以在这里找到集中的时间注意力。当时间记忆差异主要来自于分散注意力的场景细节，例如，混凝土铺路石、操场或街灯，这意味着记忆抑制了它们的特征注意，图1的第一行中的视频帧是在图1的第二行中的。 7共享相同的背景，而行人出现在不同的位置。然而，不管人的位置如何，存储器从背景杂波中移除特征。图8比较了当我们使用初始人物表示fo（顶部）和细化的人物表示fs（底部）时的检索结果。请注意，我们使用全局和时间平均池化来获得人员表示，而不是利用时间记忆，以查看空间记忆的细化效果我们可以看到，初始表示从查询中检索不同身份但具有相似场景细节的人序列（例如，游戏场）。另一方面，精炼的检索人序列具有相同的identity的查询正确，无论在每帧的背景杂波。这也表明使用空间记忆的细化过程抑制了人表示中的场景细节的信息。暂时记忆。我们在图中可视化。9个查询特征qt显示高匹配概率的人序列将具有较少时间干扰项的序列作为输入，存储器对所有帧（第一行）产生类似的关注。即，存储器类似于时间平均池化工作，其以相等的概率融合视频帧。另一方面，在具有严重时间干扰的序列的情况下，由于帧（第二行）之间的不对准或遮挡（第三行），记忆降低了对发生这种变化的帧的注意力，这表明时间记忆允许我们的模型提取对时间变化鲁棒的人表示。注意，我们可以通过直接从编码的上下文q t回归注意力来用多层感知器（MLP）替换时间记忆[18]。为了与我们的方法进行比较，我们使用两层感知器，其大小分别为2048N和N L，这使得参数的数量与我们的相同。我们发现，MLP通常会产生更多关注少数特定帧的注意力，而忽略其他帧的特征（见图3的最后一行） 10），并且这导致大的性能下降，M A RS为1.3/1.5（R-1/mAP）。因此，即使MLP的大小增加（例如，2048x512和512x6）。这些显示了我们预测方法的有效性12043通过在数据集中发现重复的时间模式并搜索与输入视频的上下文最相关的模式，可以提高用户的注意力。4.3. 与最新技术水平的比较我们在表2中比较了STMN与现有技术在MARS[45] 、 DukeV [38] 和 LS-VID [16]上的 1 级准确度和mAP我们发现，以前的方法使用不同的测试策略来比较它们的性能。为了公平的比较，我们将它们分为两组，这取决于它们是否遵循RRS或全帧策略进行评估。所述方法，例如，[18，20]，其遵循RRS策略[18]，将输入视频划分为等长的L然后，它们对每个块的第一帧进行采样，以获得L帧的序列，而不考虑帧的总数。另一方面，若干作品通过将输入视频中的所有帧分组为长度L的多个序列来使用它们。它们独立地从每个序列中提取人的表示，并对所有表示进行平均以表示输入视频。请注意，我们重现了TCLNet [11]和MGH [40]，以评估这两种策略。使用给定视频中的所有帧来提取人物表示确实为TCLNet、MGH和STMN带来了性能提升。然而，这与实际使用相去甚远，因为它运行，例如，比LS-VID上的RRS策略慢35倍，使用Titan RTX 2080 Ti GPU进行评估需要三个多小时。此外，用于搜索人的时间随着视频帧的数量增加而线性从表2中，我们有以下观察结果：1）在RRS设置上，STMN在三个基准上设置了新的技术状态使用RRS 的STMN 的结果甚至超过了以前的方法，例如，[30 ][31][32][33][34][35][36][37][38][39] 这表明STMN已经提取了用于仅用采样帧识别人的基本信息，显示了其比先前方法的效率。这一特性对于需要在很短时间内从大量视频中搜索感兴趣的人的大规模监控系统至关重要; 2）DRSA[18]利用注意力模块来处理视频中的空间和时间干扰物，而STMN则利用空间和时间记忆。这两种方法之间的性能差距证明了我们的框架优于基于注意力的方法; 3）当多个帧共享共同的背景杂波或遮挡时，基于共同注意力的方法[20，16，40]可以跨帧传播非区分特征。因此，这些方法与LS-VID上的STMN之间存在很大的性能差距，LS-VID是最具挑战性的数据集，其包含序列 cap-tured_undederv_aru_s_c〇n_i t itins（e. G. ，在不需要进行任何操作的情况下，将数据存储在存储器中;[11][12][13][14][15][16][17][18][19]方法MARS DukeV LS-VID秩-1mAP秩-1 mAP秩-1 mAP欧盟[38] 62.742.572.8 63.2SeeForest [49] 70.6 50.7-QAN [22] 73.7 51.7-DRSA [18] 82.3 65.8-CSA [2] 86.3 76.1[20]第二十话 88.981.295.293.5（72.1）（56.6）TCLNet [11]（88.5）（80.9）（95.0）（92.8）（75.0）（60.2）MGH [40]（89.2）（83.4）（95.3）（93.4）（75.3）（58.9）STMN89.983.796.794.680.6六十六点六COSAM [30] 83.777.294.4 94.0STMP [23] 84.472.7--56.8 39.1M3D [17] 84.474.1--57.7 40.1部分对齐[31] 84.7 75.9-STA [5] 86.380.896.0 95.0GLTR [16] 87.078.596.393.763.1 44.3TCLNet [11]（89.1）（83.4）（96.7）（95.6）（81.0）（67.2）MGH [40]（89.4）（85.3）（95.0）（94.6）（79.6）（61.8）STMN90.584.597.0 九十五点九 82.1 六十九点二表2.与MARS[45]、DukeV [38]和LS-VID [16]的最新技术水平在等级-1准确度（%）和mAP（%）方面的比较。粗体数字表示最佳性能，下划线数字表示第二佳性能。括号中的结果是用作者提供的源代码得到的。介绍了视频识别方法。它们分别使用时间显著性擦除模块和多粒度超图来提高reID性能。然而，它们在RRS设置上给出的结果比STMN差。通过使用所有帧，它们可以示出与STMN相当的结果，然而注意，人表示的大小比 STMN 的大小大得多（ TCLNet ： 4 ， 096 ，MGH：5，120对STMN：2，048）。5. 结论我们已经提出了一种新的基于视频的人reID方法，称为STMN，提取强大的人表示，sentations对空间和时间的干扰视频。为此，我们提出了利用两个外部的记忆网络，空间和时间的记忆，细化帧级表示，并将它们聚合成一个序列，专注于歧视帧。我们还提出了一个内存扩散损失，防止某些内存项目保持冗余。我们已经证明，STMN在标准的基于视频的reID基准上实现了最先进的性能，并通过广泛的消融研究证明了我们方法的每个组成部分的有效性。本研究部分得到了韩国政府（MSIP）资助的韩国国家研究基金会（ NRF ）资助（ NRF-2019 R1 A2C2084816 ）和 2021 年延世大学研究基金（ 2021-22-0001）的支持。所有帧RRS12044引用[1] 齐彩，潘英伟，姚婷，严成刚，梅涛。用于单次图像识别的记忆匹配网络。在CVPR，2018年。三个[2] 陈大鹏，李洪生，肖彤，易帅，王晓刚.利用竞争性片段相似性聚合和共同关注片段嵌入的视频人重新识别。在CVPR，2018年。八个[3] Guangyi Chen，Yongming Rao，Jiwen Lu，and JieZhou.时间相干性或时间运动：对于基于视频的人员重新识别，哪一个更关键？在ECCV，2020年。五个[4] 千湖严和范燮咸。学习解纠缠表示，用于鲁棒的人重新识别。 NeurIPS，2019。一个[5] Yang Fu ， Xiaoyang Wang ， Yunchao Wei ， andThomas Huang. STA ： Spatial-temporal attentionforlarge-scale video-based person re-identification 。在AAAI，2019年。一、二、四、八[6] DongGong，Lingqiao Liu，Vuong Le，BudhadityaSaha，Moussa Reda Mansour，Svetha Venkatesh，and Anton van den Hengel. 记忆正常以检测异常：用于无监督异常检测的记忆增强深度自动编码器。在ICCV，2019年。三个[7] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习在CVPR，2016年。三个[8] 亚历山大·赫尔曼斯、卢卡斯·拜尔和巴斯蒂安·莱布。为三胞胎的丢失辩护，进行人员重新鉴定。arXiv：1703.07737，2017。五个[9] MartinHirzer，Csaba Beleznai，Peter M Roth，andHorst Bischof.通过描述性和区分性分类进行人员重新识别。在SCIA，2011年。五个[10] SeppHochreiteranddJürgenSchmidhuber. 长时间存储器。神经计算。四个[11] 侯瑞兵、常红、马冰鹏、Shiguang Shan和Xilin Chen。基于时间互补学习的视频人物再识别。在ECCV，2020年。一、二、五、八[12] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法2015年，国际会议。5[13] Thomas N Kipf和Max Welling图卷积网络的半监督分类在ICLR，2017。一、二[14] Alex Krizhevsky ， Ilya Sutskever ， and Geoffrey EHinton. 使用深度卷积神经网络的ImageNet分类。NIPS，2012年。三个[15] Chen-Yu Lee ， Saining Xie ， Patrick Gallagher ，Zhengyou Zhang，and Zhuowen Tu.深度监督网络。人工智能和统计，2015年。五个[16] JianingLi，Jingdong Wang，Qi Tian，Wen Gao，andShiliangZhang.用于视频个人重新识别的全局-局部时间表示。在ICCV，2019年。一二四五六八[17] 李佳宁，张世良，黄铁军。多尺度三维卷积网络用于基于视频的人物再识别。在AAAI，2019年。一、二、四、八[18] Shuang Li，Slawomir Bak，Peter Carr，and XiaogangWang.基于视频的人再识别的多样性正则化时空注意。在CVPR，2018年。一、二、四、五、七、八[19] Wei Li，Xiatian Zhu，and Shaogang Gong.和谐的关注网络，人的再认同。在CVPR，2018年。1[20] 刘智婷、吴智伟、王玉强、钱绍毅。时空有效的非局部注意力网络用于基于视频的人物再识别。在BMVC，2019。一、二、四、八[21] Xihui Liu ，Haiyu Zhao，Maoqing Tian，Lu Sheng，Jing Shao ， Shuai Yi ， Junjie Yan ， and XiaogangWang.Hydraplus-net ：用于行人分析的细心的深度特征。In ICCV，2017. 一个[22] Yu Liu，Junjie Yan，Wanli Ouyang. 质量感知网络用于集对集识别。在CVPR，2017年。二、八[23] Yiheng Liu ， Zhenxun Yuan ， Wengang Zhou ， andHouqiangLi. 基于视频的人再识别的时空相互促进。在AAAI，2019年。八个[24] NiallMcLaughlin ， Jesus Martinez del Rincon ， andPaul Miller. 用于基于视频的个人重新识别的递归卷积网络。在CVPR，2016年。二个[25] Ale

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

基于时空记忆网络：视频人重新识别任务中的空间和时间干扰因素建模

基于时空双流神经网络

基于时空注意力机制的多元时间序列异常检测

时空特征融合行为识别模型有哪些

基于智能视频分析和深度学习神经网络技术，通过对不同时间段的视频对比准确识别视频监控区域的画面的烟雾和火焰的具体实施过程模型

基于CNN-LSTM的人体行为识别算法研究

推荐几个人体动作识别的算法

基于RNN的人体动作识别实验

基于matlab的人体行为识别

基于ST-GCN的动作识别

基于卷积神经网络的语音识别tensorflow

基于gmm的说话人识别

基于图神经网络的行人重识别

基于图卷积-长短期记忆神经网络的情感识别的代码

transformer替代bilstm用于视频动作识别

机器人与数字人:基于matlab的建模与控制

数学建模国赛神经网络

双流时空图卷积神经网络

时空tranaformer

基于深度学习的人体行为识别

基于卷积神经网络的语音识别

最新资源