基于视频的可视红外身份识别及数据集研究

96 浏览量更新于2023-10-26 收藏 2.37MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

20973基于视频的可视红外身份再识别林新宇1，李金星1，马泽宇1，李华峰2，李双2，徐凯雄2，卢光明1，张大卫31哈尔滨工业大学，深圳，2昆明理工大学，3香港中文大学，深圳。{linxinyu0327，lijinxing158gmail.com @zeyu.ma stu.hit.edu.cn，hfchina99@163.com，{shuangli936，xukaixiong99} @ gmail.com，luguangm@hit.edu.cn，davidzhang@cuhk.edu.cn摘要由于交叉模态检索技术，可见光-红外（RGB-IR）人员重新识别（Re-ID）是通过将他们投射到一个共同的空间，允许人Re-ID在24小时监控系统中实现的。然而，关于探针到图库，几乎所有基于前RGB-IR的跨模态人员Re-ID方法都集中在图像到图像匹配上，而包含更丰富的空间和时间信息的视频到视频匹配仍然未被开发。在本页中-类似判别本文主要研究了基于视频的跨模态个体识别方法。为了实现这一任务，构建了基于视频的RGB-IR数据集，其中收集了由12个RGB/IR相机捕获的具有463，259帧和21，863轨迹的927个有效身份。基于我们构建的数据集，我们证明了随着tracklet中帧的增加，性能确实得到了更大的增强，证明了视频到视频匹配在RGB-IR人Re-ID中的重要性。此外，进一步提出了一种新的方法，该方法不仅将两个模态投影到模态不变子空间，而且还提取了运动不变的时间记忆。由于这两种策略，我们基于视频的跨模态人Re-ID获得了更好的结果。代码和数据集发布在：https://github.com/VCM-project233/MITML。1. 介绍人员重新识别（Re-ID）[17，25，43，54]侧重于将探头行人图像与图库集进行匹配。由于多个视图是不重叠的，人体姿势，光照和背景都有很大的变化，这给Re-ID带来了很大的挑战。由于深度学习的快速发展，李金星为通讯作者。图1.基于视频的跨模态人Re-ID的优点。如果两个人享有相似的外观，则视频数据还可以提供图像数据不可用的有区别的时间信息。具体来说，在红外摄像机下，穿黑色T恤的人与穿蓝色T恤的人非常相似（如红色框所示），而他们在运动中的特定手臂姿势给出了区别性特征（如绿色框所示）。已经研究了深度端到端方法[3，22-尽管实现了上述方法，但它们中的大多数严重依赖于RGB图像，因此相机的照明是必不可少的。然而，这种约束过于严格，特别是在夜间，使得收集的RGB数据没有信息，无法实现人的Re-ID。幸运的是，如果照明不可用，大多数监控摄像机可以自动从RGB切换到红外（IR）模式。与RGB图像相比，IR图像能够在不可见光下保留信息，并清楚地显示行人。因此，为了在24小时监控系统中实现人员Re-ID，基于RGB-IR的可见-红外（交叉模态）个人Re-ID [6，25，39]提供了一种有前途的策略。例如，Wu et al. [39]首先收集了RGB-IR数据集，并证明了这两种模式匹配的可行性。受这项工作的启发，20974然后研究。虽然跨模态人Re-ID方法填补了RGB图像和IR图像之间的空白，但它们只是基于单个图像的任务。在数据收集中，行人最初出现在视频数据库中，每个轨迹片段中包含多个帧。直观地说，基于视频的数据包含比单个图像更丰富的视觉信息[53]。在某些特定情况下，如果只给出一个图像，确实很难识别两个具有相似外观的人。这种情况对于红外模态来说更加困难，甚至人类也不能保证正确性。与静止图像相比，视频是包含空间和时间信息的图像序列，使得可以利用有益的运动信息进行区分性识别。例如，如图所示1、从两个人捕获的两个图像在IR相机下具有相似性然而，与穿蓝色T恤的人相比，穿黑色T恤的人在运动中具有特定的手臂姿势。由于这样的运动特征，为我们提供了更多的判别信息，以实现更鲁棒和准确的识别模型。因此，在跨模态人Re-ID中用视频代替静态图像是非常有意义的。针对这一问题，本文对基于视频的跨模态Re-ID进行了研究。与基于图像的跨模态Re-ID相比，基于视频的跨模态Re-ID进一步旨在利用时间信息进行鲁棒特征提取。与现有的基于视频的RGB Re-ID方法相比，我们的重点工作还提取了RGB和IR模态之间的一致性。为了实现基于视频的跨模态Re-ID，关联数据库是不可避免的。尽管Wu et al.[39]提出了一个RGB-IR数据集，它只关注基于图像的检索，与我们基于视频的需求相距甚远。为了实现我们的任务，我们主要构建了一个基于视频的RGB-IR数据库 HITSZ视频跨模态（HITSZ-VCM ） Re-ID数据集。我们收集的数据集和现有的Re- ID数据集之间的比较列于选项卡中1.一、与SYSU-MM 01不同[39] 该系统仅通过4个RGB摄像头和2个红外摄像头采集RGB图像和红外图像，我们设置了12个摄像头来采集RGB和红外视频，并收集了更多的有效身份。总共获得了927个有效身份，包括11，785/10，078个轨迹和251，452/211，807个图像，分别用于RGB和IR模态。对于基于视频的跨模态Re-ID，每个轨迹片段之间的空间和时间信息有助于性能的提高。在本文中，基线方法首先应用于我们构建的数据集，证明了基于视频的跨模态Re-ID的意义。’s [行基于图像的跨模态Re-ID，并添加一个模块来利用时间信息。此外，我们还提出了一种新的方法称为模态不变和时间记忆学习（MITML）。通过对抗策略将两种模态参考轨迹片段中的运动信息，我们还提出了一个时间序列细化模块来提取时间信息。由于这两种策略，我们数据集上的Re-ID性能得到了进一步提高。总体而言，本文的主要贡献是：• 我们构建了一个基于视频的RGB-IR数据库，用于研究基于视频的跨模态人的Re-ID。与现有的Re-ID工作不同，据我们所知，这是第一个将跨模态和视频结合起来的工作，定义了一个具有挑战性的任务。• 我们引入了一个基线来证明基于视频的跨模态人Re-ID的重要性。具体地说，通过嵌入时间信息开发模块，跨模态人Re-ID性能随着tracklet中图像数量的增加而不断增加。• 提出了一种基于模态不变和时间记忆的运动估计方法 MITML （ Modal-Invariant and Temporal-Memory Learning）。实验结果证实了我们提出的方法的优越性。2. 相关作品2.1. 可见-红外人员Re-ID可见-红外人Re-ID处理不同模态之间的人检索，其通过设置RGB相机和IR相机来实现。考虑到在某些情况下，特别是在夜间，照明条件差，这种跨模态任务具有实际意义。由于Wu等人构建的基于图像的RGB-IR人员Re-ID数据集。[39]，已经研究了许多跨模态Re-ID技术，其中大多数基于度量学习[9，13，18，26，45-真实学习[31，44[4、4、6、28、28、33、36、38]等。至于度量学习和特征学习，Ye et al.[46]在特征学习阶段提取多模态可共享特征，之后将异质特征投影到公共空间中并通过度量学习来测量。Hao等人。 [13]将提取的特征映射到超球面流形上，其中的差异是-20975×基于角度计算两个样本之间的差值。与[13]中的角度测量不同，Feng等人 [9]利用欧几里得约束来缩小交叉模态间隙。在[51]中，首先考虑模态间和模态内变化，然后通过排名最高的损失来学习区分性Ye等人。[47]然后通过引入双向中心约束的顶级损失来扩展[51]，进一步提高了基于图像的人Re-ID性能。生成对抗网络（GAN）[11]也被广泛应用于跨模态Re-ID任务。Dai等人。 [6]在网络中嵌入了一个鉴别器，以对抗的方式强制两种模态的特征不被分类。在[36]中，通过引入CycleGAN[55]，将RGB图像转换为IR版本，同时保留其id信息。IR图像也是如此。此外，一些研究者[4，28]还以对抗和去纠缠学习的方式实现了特征学习。特别地，Choi等人 [4]从交叉模态图像中分解出id-判别特征和id-排除特征，然后将其组合以生成模态不同但id-一致的图像。然而，该策略遇到了大的计算复杂度和一些生成的图像质量差确实给较差的性能影响。除了上述方法外，Ye等人 [48]还关注RGB/ IR图像的图像属性。例如，提出了一种新的通道增强和模拟随机遮挡的联合学习策略。此外，还利用图像对齐[31]和图案对齐[40]来减轻差异。2.2. 基于视频的人员重新识别与基于图像的人Re-ID不同，基于视频的人Re-ID通过图像序列表示人，提供时间信息和更丰富的外观[50]。通常，现有方法主要采用RNN [27，29，42，52]，时间池（平均或加权）[5，10，41，42]，光流[2，29，52]，和3D卷积。例如，Xu等人 [42]将原始人图像和相应的光流作为网络输入，从而保证了人在不同时期的运动一致性。然后，利用来自CNN-RNN模块的特征来计算注意力向量，在序列上选择信息帧。提出了一种新的时空记忆网络（STMN）[8]，其中存储了频繁出现在视频帧中的此外，Aich等人 [1]设计了一个灵活的特征处理模块，可用于Re-ID任务的任何3D卷积块由于此模块，互补的个人特定的外观和运动信息被很好地捕获。此外，还为基于视频的Re-ID引入了3D图卷积。Liu等人 [27]采用上下文增强拓扑来构建图，该图成功地编码了人体的上下文信息和物理信息。通过将3D图卷积层应用于它，时空依赖性和结构信息被有效地捕获。尽管事实上，已经做了一些工作的人ID，他们只是基于图像的跨模态的Re-ID或基于视频的RGB Re-ID。我们的HITSZ-VCM是第一个将跨模态数据和视频数据相结合的数据集，允许研究基于视频的跨模态人Re-ID，它不仅实现了24小时监控，而且获得了全面的信息，获得了更高的Re-ID准确率。3. 数据集3.1. 数据集描述在本文中，我们建立了HITSZ-VCM（HITSZ VideoCross-Modal）Re-ID数据集，用于基于视频的跨模态人员Re-ID任务。据我们所知，这是第一个基于视频的跨模态Re-ID数据集。 HITSZ-VCM数据集包含由12台分辨率为3840- 2160的得益于现代监控技术，所有摄像机都可以根据光照条件自动拍摄RGB和IR图像。因此，每个人都被RGB和IR相机捕获。请注意，所有tracklet都是由自动对象跟踪系统处理的，然后我们手动微调不准确的注释详细地说，我们的HITSZ-VCM数据集包含927个有效身份。相机每秒拍摄25帧，我们从每5帧中提取第一帧来构建最终数据集。根据该设置，每24个连续图像被视为同一时段期间的人物的轨迹片段，并且其数量可以小于24的最后帧总共有251，452个RGB图像和211，807个IR图像，它们分别可以分为11，785个和10，078个轨迹。当然，轨迹片段中的帧数也可以动态设置，这比许多现有的基于视频的数据集更灵活。更具体地说，12个摄像头用于我们的视频采集。通常，大多数身份由3个RGB摄像机和3个IR摄像机捕获，并且这些摄像机非重叠。我们的HITSZ-VCM数据集还涵盖了一系列不同的场景。首先，包括7个室外、3个室内和2个通道场景具体而言，一些常见的场所，如办公室，咖啡厅，通道，操场和花园都被考虑在内。此外，每个摄像头下的每个人都从多个角度捕捉，构建了更丰富的外观集合。20976表1. HITSZ-VCM与典型Re-ID数据集的比较。数据集类型标识数量#RGB摄像头。红外线摄像头#图像BBoxes#Tracklet评价[37]第三十七话视频3002042,495600CMCMARs [53]视频1,261601,067,51620,715CMC + mAP[41]第四十一话视频1,81280815,4204,832CMC + mAPLS-VID [20]视频3,7721502,982,68514,943CMC + mAPRegDB [30]图像412118,240-CMC + mAPSYSU-MM01 [39]图像49142303,420-CMC + mAPHITSZ-VCM视频9271212463,25921,863CMC + mAP图2.我们数据集中的一些具有挑战性的轨迹，包括照明变化，归属变化，遮挡和视点变化。此外，收集了一些具有挑战性的场景，例如照明变化（对于RGB图像）、归属变化、遮挡和视点变化，如图1A所示二、选项卡. 1列出了HITSZ-VCM和现有相关Re-ID数据集之间的比较。正如我们所看到的，尽管MAR [53]，Duke-Video [41]和LS-VID [20]也享有大量的有效身份，但它们无法覆盖IR图像或视频，无法进行24小时监视。与RegDB [30]和SYSU-MM 01 [39]相比，我们构建的HITSZ-VCM数据集将基于图像的版本扩展到基于视频的版本，这为人的Re-ID提供了更丰富和有价值的信息。然而，在我们的数据集中，从更多样化的场景中捕获了更多的身份，极大地促进了深度网络的训练。HITSZ-VCM具有以下特点：（1）构建了第一个基于视频的跨模态身份识别数据集;（2）在不同场景下收集了更多的有效身份信息（3）既有理论性又有实践性的案例。3.2. 评价方案在这里，我们像现有的作品一样进行跨相机和跨模态检索[20，30，39，53]。换句话说，查询和图库由不同的相机和模态捕获。同时，针对通常，我们使用两种检索模式HITSZ-VCM：另外，我们将一种模态中的所有tracklet作为查询集，将另一种模态中的所有tracklet作为图库集。在“红外可见”检索中，查询集和图库集中共有5,159个和5,643个tracklet。在“可见光到红外线”模式中反之亦然。请注意，在我们的实现中，我们丢弃了一些太短的tracklet（少于12个图像）。为了定量评估我们提出的数据集上的性能，采用累积匹配非线性曲线（CMC）和平均平均精度（mAP）作为评估指标。与许多方法类似，我们计算所有查询特征和图库特征的距离分数来进行排名工作。对于测试，使用余弦相似性作为距离度量。4. 基线我们遵循[49]中提出的基线。采用以ResNet50 [14]作为骨干[36，38，49]的双流网络来处理属于不同模态的异构数据。具体地，两个分支中的第一相应地，在剩余的四个块中，权重被共享以提取这两种模态的模态不变特征。由于网络的输入是多幅图像，因此使用平均池化层来融合从主干获得的帧级特征。因此，最终获得每个轨迹的序列级特征。通过遵循[49]，引入身份丢失来指导模态内Re-ID任务，而闭塞物品观点照明变化20977TMRTMRLL= L+LID三v1v1...Σ ΣΣΣ。F=afvv2v1 t=1v2 t=1联系我们图3.我们提出的方法的框架。RGB/IR图像序列被视为跨模态输入。时间记忆细化（TMR）模块将帧级特征聚合成序列级特征。Wid和Wm主导了身份和模态的分类。通过采用对抗性学习策略，模态相关信息被从跨模态数据中移除，并且仅保留与id相关的特征。利用三元组丢失来处理跨模态Re-ID任务。因此，目标函数基可以用公式表示如下：为了将帧级特征转换为序列级特征并有效地捕获多帧之间的时间上下文，受[8]的启发，我们提出了一种时间基地基地基地（一）内存优化（TMR）模块。TMR的结构其中，L为碱 L基地表示身份丢失，如图4所示。 [ 15] LSTM [15]层和SE atten，三重态损失。5. 该方法基于基线，进一步提出了一种新的方法，以更有效地学习RGB和IR模态的模态不变和时间记忆特征。我们的模型框架如图3所示。通过将骨干中的最后一个卷积块修改为两个分支卷积块（共享结构但不同权重），从序列中获得两组特征图，然后将其转发到时间记忆细化（TMR）模块，从而提取时间信息以满足身份的运动一致性。此外，为了填补两种模态之间的空白，本文引入了两个分类器，通过这两个分类器去除了模态相关的特征，同时增强了身份相关的特征，极大地促进了跨模态检索。5.1. 时间记忆精炼在这里，我们分别表示RGB序列和IR序列为V=。Vt. Vt∈RH×W<$T且I=t=1[16]共同促进了时间信息的开发以RGB数据V为例，骨干中的五个卷积块表示为Eres。我们将来自E_res的帧级特征的两个集合表示为fv1=ftT和fv2=ftT，其用于分别是注意权重生成和帧级功能fv1首先是为-分为两个LSTM层LSTM2，因此节奏-获得该tracklet的真实上下文通过将全连接层FC t应用于其来自LSTM2的关联输出并添加f t，通过遵循SE注意力模块获得注意力a t。at = SEtFCtLST M2（fv1）+ft/2，（2）其中SEt表示第t个SE注意模块。注意，t表示临时存储器，其给出轨迹片段中第t帧的换句话说，t充当第t帧级特征的注意力权重。基于上述分析，可以细化第t帧的人物表示，然后利用平均池化处理来聚合帧。. It.It∈RH×W<$T，其中H和W表示高度将一级特征转化为一级序列：不和图像的权重，t表示该序列的第t帧，序列，T是tracklet中的图像总数t tv2t=1+ft/T（3）相应地，ID标签被表示为pv和pi，而mv和mi表示模态标签。对具有共享权，通过该权得到其序列级Fi...TMR...RGB顺序骨干共享权重共享权重......TMRIR序列对抗性学习间隙间隙间隙间隙t=1ID三20978：：TMR模块：注意权重×·×切池IDIDIDLLRGBRGBRGBWM1/2WM1/2WMIRIRIRRGB模态IR模态RGB模态IR模态模态不变（一）（b）第（1）款（c）第（1）款图4. TMR模块的洞察力。多个图像从tracklet的细化和帧级的功能被聚合成一个序列级的。总的来说，时间信息由TMR模块捕获，使得人表示在单个模态内被在我们的训练阶段，该模块与Eres同时优化，这被视为Eres的补充。5.2. 模态不变学习在利用其中模态内特征被细化的TMR之后，我们然后引入模态不变的对抗学习来消除两个模态的间隙。参考对抗策略，[36]中提出的AlignGAN通过混淆模态变换将RGB/IR图像转换为像素级的IR/RGB版本然而，这种策略受到图像生成的限制，这不仅增加了计算复杂度，而且对生成图像的质量相当敏感。相比之下，受[19]的启发，这里我们仅基于特征级别实现对抗学习，更有效地获得模态不变特征。根据等式（3），RGB和IR轨迹片段的序列级特征分别为Fv和Fi从理论上讲，如果Fv和Fi具有与id相关的信息，但不具有模态相关的信息，则不能将它们归为mv或mi。为了实现这一任务，引入了分类器Wm，其输出是3 1个矢量。特别是该输出表示轨迹片段属于RGB模态、IR模态，或者两者都不。目标函数被公式化为：Ladv1（E）=CE（Wm（Fv），m3）+CE（Wm（Fi），m3）（4）其中，E是主干Eres和TMR的组合，CE（）表示交叉熵损失，并且m3表示既不属于RGB模态mv也不属于IR模态mi的第三类别。为了鼓励Fv和Fi享受身份的判别信息，我们还通过另一个分类器Wid将与id相关的交叉熵损失和三重损失应用于它们。因此，与id相关但模态不变的函数可以表示为：图5.对抗性学习中的不同策略[34];(b)[6];（c）我们的。其中Ce和Tri分别是ID相关的交叉熵损失和三重态损失。当然，Wm的分类能力对于模态不变特征学习起着关键作用。这里，类似于现有的基于GAN的方法，采用对抗学习策略来额外地更新Wm，如下所示：adv2（Wm）=CE（Wm（Fv），mv）+CE（Wm（Fi），mi）（六）在优化中，Eq.（5）和等式（6）以交替方式进行优化，使得Wm具有更强的能力，对模态不变特征的学习有贡献。请注意，[34]和[6]也可以通过特征级别的对抗学习来学习与id相关的特征然而，它们彼此不同。如图所示。5（a），[34]强制属于每个类别的概率相同，而包含RGB和IR信息的特征也可以具有相同的分类结果。显然，在这种情况下，我们不确定这两种方式是否一致。参照图在图5（b）中，RGB和IR特征被逆分类为IR和RGB模态。一个限制是，这两个输入被转换为仅获得彼此模态特定的信息，而模态间隙未被测量。相比之下，我们使用的策略直接将不同的特征分类到一个额外的类中，保证它们落入同一个潜在空间或域。6. 实验6.1. 实验环境数据集。在这里，我们将数据集分为两组进行训练和测试。训练集包含500个身份，232，496张图像和11，061个tracklet，而测试集包含427个身份，230，763张图像和10，802个tracklet。在训练阶段，所有图像的大小调整为288 144。与许多现有的方法类似，随机裁剪与零填充和水平翻转也用于数据增强。实验性实施。我们实施我们的模式Lid（E，Wid）=Ladv1+L+L（五）[32]并在NVIDIA TESLA A100上训练它AP..................LID20979××n =1n =2n =4n = 6查询一阶十阶图6.在不同设置下评估我们的基线，其中n表示一个tracklet中的图像数量。表2. TMR模块和对抗性学习模块的有效性。注意，M表示模态不变学习，T表示时间记忆细化（TMR），并且全方法S表示在TMR中具有混洗帧的全方法。红外到可见图7.不同设置下的可视化结果，其中n表示一个tracklet中的图像数量。显然，基于图像的方法（n= 1）在两个身份具有相似外观时不能报告令人满意的结果，而基于视频的方法随着时间信息的增强而显示出显著的性能。表3.我们的模态不变学习与不同对抗策略的比较见图5。为了公平比较，我们只在网络中用其他策略替换模态不变学习红外到可见CUDA版本11.2在ImageNet [7]上预训练的ResNet50 [14]是我们的基线和骨干。对于编码器E和id分类器Wid，它们通过优化器SGD进行优化，权重衰减为5 10−4，动量为0.9。我们对E和Wid采用学习率预热策略，其初始值设置为0.1。在35个和80个epoch之后，学习率分别降低到0.01和0.001。注意，第一非共享卷积块的学习速率总是其余模块的学习速率的十分之一。就模态分类器Wm而言，SGD优化器与0.01的学习率，5 10−4的权重衰减和0.9的动量。我们将epochs的最大数量设置为200。此外，批次大小被设置为16，具有8个不同的身份和每个身份的2个tracklet。此外，对于具有24个连续图像的每个轨迹片段，选择n个（可以动态选择）图像用于训练。具体地，将24个图像划分为具有24/n个图像的n个部分，其中随机选择24/n个图像中的1个以形成训练数据。6.2. 消融研究在本小节中，我们通过实验分析了我们的HITSZ-VCM数据集的意义，以及策略在所提出的方法MITML。基于视频的跨模态数据集的重要性。与图像数据相比，视频数据为人的再识别任务提供了更加丰富的信息。为了验证上述陈述，我们通过在基线上改变一个tracklet中的图像数量来进行实验，如图6所示。可以看出，随着tracklet中图像的增加，Re-ID性能不断提高，证明了我们构建的数据集的重要性。具体地，当仅利用一个图像时，如在现有的基于图像的跨模态Re-ID数据集中，mAP仅为23.09%，这远低于在tracklet中同时使用六个图像时的mAP。图7进一步说明了我们提出的方法MITML在数据集上具有不同设置的Top-10可视化结果，也证实了我们的HITSZ-VCM数据集的必要性。如图6所示，当n相对较大时，所有度量的值确实略微增加，即，7和8为了减少训练阶段的时间成本，我们在下面的实验中将n战略R1R5R10R20地图基线55.5870.7577.0182.1640.80基线+M59.7374.5080.0684.6942.80基线+T58.4472.3278.5183.5143.87全方法S60.8274.5478.6983.2543.94完整方法63.7476.8881.7286.2845.31战略R1R5R10R20地图cmGAN [6]57.9672.5878.3283.4243.14UCDA [34]59.5173.3479.1484.1845.06我们的方法63.7476.8881.7286.2845.3120980表4.我们的方法与我们的HITSZ-VCM数据集上最先进的交叉模态方法的比较。报告CMC（%）和mAP（%）。方法会场可见光至红外线R1R5 R10 R20地图R1R5R10R20地图LbA [31]ICCV'2146.3865.2972.2379.4130.6949.3069.2775.9082.2132.38MPANet [40]CVPR'2146.5163.0770.5177.7735.2650.3267.3173.5679.6637.80DDAG [49]ECCV'2054.6269.7976.0581.5039.2659.0374.6479.5384.0441.50VSD [35]CVPR'2154.5370.0176.2882.0141.1857.5273.6679.3883.6143.45CAJL [48]ICCV'2156.5973.4979.5284.0541.4960.1374.6279.8684.5342.81我们-63.7476.8881.7286.2845.3164.5478.9682.9887.1047.69时间信息开发的有效性。如Tab.所示。2.在我们的数据集上，我们评估了TMR在我们的方法中的性能。与“基线”相比，我们的TMR模块（“基线+ T”在Tab. 2）分别在rank-1和mAP上实现了显著的性能改善。主要原因是TMR提取的时间信息有助于建立一个优秀的外观模型，并获得人的独特特征，不能从基于图像的数据捕获。此外，我们在tracklet中随机播放帧2），结果较差，说明了时间信息的重要性。模态不变学习的有效性。MITML中使用的对抗性学习成功地从不同模态中去除了模态相关信息，但也保留了id相关特征。如表中所示2，通过将该模块添加到基线此外，如Tab. 3，我们评估了图5中讨论的其他两种对抗性学习策略。我们可以看到，MITML中的学习策略比[34]和[6]中的学习策略更有效。6.3. 与最先进方法的在本节中，我们进一步将我们提出的方法与现有的最先进的可见-红外交叉模态人员Re-ID方法进行比较，包括DDAG [49]，LbA [31]，MPANet [40]和VSD[35]和CAJL [48]。请注意，这些比较方法主要针对基于图像的数据集设计。为了进行公平的比较，我们对其生成的帧级特征进行平均池化层。对于那些主干是ResNet50的网络，包括[31，35，40，49]，我们在主干之后实现平均此外，我们在通道增强联合学习之前在AGW [50]上预训练CAJL [48]的模型在我们的数据集上通过所有这些方法获得的CMC和mAP列于表1中。4.第一章显然，我们的方法比这些最先进的基于图像的跨模态方法有明显的改进。具体地，对于红外到可见光检索模式，Rank-1和mAP in-比次优的CAJL法分别提高7.15%和3.82%。对于可见光到红外搜索模式，Rank-1和mAP也分别获得了4.41%和4.88%的显著增长，表明我们的TMR模块在时间信息开发方面的有效性。6.4. 限制在此基础上，证明了基于视频的跨模态人物识别的重要性，并证明了本文方法然而，我们的方法在训练和测试阶段需要在一个tracklet中有固定数量的图像，这降低了实际应用的灵活性在我们未来的工作中，我们的目标是设计一种新的网络，可以处理动态长度的轨迹。7. 结论基于视频数据能够提供时间信息，并能为身份识别提供更丰富的外观模型，本文研究了一个新的课题：基于视频的跨模态人Re-ID。存在927个有效身份，具有由12个HD RGB/IR相机捕获的11，785个轨迹的251，452个RGB图像和10，078个轨迹的211，807个IR图像，其中500个身份用于训练，427个身份用于测试。实验结果证明了我们构造的数据集的重要性此外，一种新的方法：模态不变和时间记忆学习（MITML）提出了我们的HITSZ-VCM数据集。具体而言，对抗性学习策略有助于提取高质量的模态不变特征并桥接模态异质性，而时间记忆细化模块有效地捕获运动一致性。虽然基于视频的跨模态的人的Re-ID是一个具有挑战性的任务，我们提出的方法取得了显着的性能，与现有的国家的最先进的跨模态的方法相比。确认本研究得到了深圳市科技计划（RCBS20200714114910193）和国家自然科学基金（61906162，61966021）的部分资助。20981引用[1] Abhishek Aich ， Meng Zheng ， Srikrishna Karanam ，Terrence Chen，Amit K Roy-Chowdhury，and Ziyan Wu.基于视频的人物再识别的时空表示分解在ICCV，第152-162页，2021年。3[2] 陈大鹏，李洪生，肖彤，易帅，王晓刚.利用竞争性片段相似性聚合和共同关注片段嵌入的视频人重新识别。在CVPR中，第1169-1178页，2018年。3[3] 陈燕北，朱夏天，龚少刚。通过深度学习多尺度表示进行人员重新识别在ICCV，第2590-2600页，2017年。1[4] Seokeon Choi、Sumin Lee、Youngeun Kim、TaekyungKim和Changick Kim。Hi-cmd：用于可见-红外人员重新识别的分层交叉模态解缠。在CVPR中，第10257-10266页，2020年。二、三[5] Dahjung Chung，Khalid Tahboub，and Edward J Delp.一种用于人员再识别的双流连体卷积神经网络在ICCV，第1983-1991页，2017年。3[6] Pingyang Dai，Rongrong Ji，Haibin Wang，Qiong Wu，and Yuyu Huang.跨模态的人重新识别与生成对抗训练。在IJCAI，第1卷，第2页，2018年。一二三六七八[7] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。在CVPR，第248-255页中。Ieee，2009年。7[8] Chanho Eom，Geon Lee，Junghyup Lee，and BumsubHam.利用空间和时间记忆网络进行基于视频的人物再识别在ICCV中，第12036-12045页，2021年。三、五[9] Zhanxiang Feng，Jianhuang Lai，and Xiaohua Xie. 学习模态特定表示用于可见 - 红外人再识别。 IEEETransactions on Image Processing ， 29 ： 579-590 ，2019。二、三[10] Jiyang Gao和Ram Nevatia。再论基于视频的人的时间建模。arXiv预印本arXiv：1805.02104，2018。3[11] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。NIPS，27，2014.3[12] Xinqian Gu ， Hong Chang ， Bingpeng Ma ， HongkaiZhang，and Xilin Chen.用于基于视频的人再识别的保留外观的3d卷积。在ECCV中，第228- 229243. Springer，2020年。3[13] Yi Hao，Nannan Wang，Jie Li，and Xinbo Gao.超球面流形嵌入的可见热人体再识别。在AAAI，第33卷，第8385-8392页二、三[14] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。CVPR，第770-778页，2016年。四、七[15] SeppHochreiter和JürgenSchmidhube r. 长短期记忆。神经计算，9（8）：1735-1780，1997。5[16] 杰虎，李申，孙刚。挤压-激发网络。在CVPR中，第7132-7141页，2018年。5[17] Martin Koestinger、Martin Hirzer、Paul Wohlhart、PeterM Roth和Horst Bischof。基于等价约束的大规模度量学习。在CVPR中，第2288-2295页。IEEE，2012。1[18] Diangang Li，Xing Wei，Xiaopeng Hong，and YihongGong.红外-可见交叉模态人与x模态的再识别在AAAI，第34卷，第4610-4617页，2020中。2[19] Huafeng Li，Kaixiong Xu，Jinxing Li，Guangming Lu，Yong Xu，Zhengtao Yu，and David Zhang.双流交互解纠缠学习领域适应人重新识别。arXiv预印本arXiv：2106.13929，2021。6[20] Jianing Li，Jingdong Wang，Qi Tian，Wen Gao，andShiliang Zhang.用于视频个人重新识别的全局-局部时间表示。在ICCV，第3958-3967页，2019年。4[21] 李佳宁，张世良，黄铁军。多尺度三维卷积网络用于基于视频的人物再识别。在AAAI，第33卷，第8618-8625页3[22] Minxian Li，Xiatian Zhu，and Shaogang Gong.通过深度学习轨迹关联的无监督人员重新识别在ECCV中，第737-753页，2018年。1[23] Wei Li，Xiatian Zhu，and Shaogang Gong.和谐的关注网络，人的再认同。在CVPR中，第2285-2294页1[24] Yu-Jhe Li，Yun-Chun Chen，Yen-Yu Lin，Xiaofei Du，and Yu-Chiang Frank Wang.Recover and Identify ： AGenerative Dual Model for Cross-Resolution Person Re-identification.在ICCV，第8090-8099页，2019年。1[25] Shengcai Liao，Yang Hu，Xiangyu Zhu，and Stan Z Li.通过局部最大发生表示和度量学习进行个体再识别。在CVPR，第2197-2206页，2015年。1[26] Yongguo Ling ， Zhun Zhong ， Zhiming Luo ， PaoloRota，Shaozi Li，and Nicu Sebe.类别感知模态混合和中心引导度量学习用于可见热人员重新识别。在ACM MM中，第889-897页[27] Yiheng Liu ， Zhenxun Yuan ， Wengang Zhou ， andHouqiang Li.基于视频的人再识别的时空相互促进。在AAAI，第33卷，第8786- 8793页，2019年。3[28] Yan Lu ， Yue Wu ， Bin Liu ， Tianzhu Zhang ， BaopuLi，Qi Chu，and Nenghai Yu.跨模态人员重新识别与共享特定特征转移。在CVPR中，第13379二、三[29] Niall McLaughlin，Jesus Martinez Del Rincon，and PaulMiller. 用于基于视频的个人重新识别的递归卷积网络在CVPR，第1325-1334页，2016年。3[30] Dat Tien Nguyen，Hyung G

下载后可阅读完整内容，剩余1页未读，立即下载