视频中识别和追踪同一人物

123 浏览量更新于2023-10-16 收藏 2.15MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1603最终嵌入ID：706 /Cam：1ID：192 /Cam：2(a)插入式最终特征凸轮：1编号：192凸轮：1编号：192编号：451I凸轮：2凸轮：1解开基于切换和聚合的视频人物再识别Minjung Kim1MyeongAh Cho1Sangyoun Lee1，21延世大学2韩国科学技术学院（KIST）{mjkima，maycho0305，syleee} @ yonsei.ac.kr摘要在视频人物再识别（Re-ID）中，网络必须从连续的帧中一致地提取目标人物的特征。现有的方法往往只关注如何使用时态信息，这往往导致网络被相似的外观和相同的背景所欺骗本文提出了一种基于摄像机特征的解纠缠、交换和聚合网络（DSANet），该网络将代表身份的特征和基于摄像机特征的特征进行分离，并更加关注身份信息。我们还介绍了一个辅助任务，利用一对新的功能，通过切换和聚合，以增加网络的能力，为各种相机的情况下创建此外，我们设计了一个目标本地化模块（TLM），根据帧流和帧权重生成（FWG），反映在最终表示的时间信息，提取鲁棒的功能对目标的位置变化设计了用于解纠缠学习的各种损失函数，ID：192 /Cam：1（b）与身份证有关的特征ID：451 / Cam：1（C）相机功能网络的每个组件可以在令人满意地执行其自身角色的同时进行合作。大量实验的定量和定性结果证明了DSANet在三个基准数据集上优于最先进的方法。1. 介绍人员重新识别（Re-ID）[32]旨在从不同的位置和角度在摄像机上匹配特定人员的身份。由于智能监控系统和各种多媒体应用的激增，对Re-ID的需求有所上升。大多数Re-ID方法[24，25，34]采用深度度量学习来映射与向量空间中彼此更接近的正样本和彼此更远离的负样本相对应的嵌入向量与通过各种数据增强组成阳性样本的自监督方法[2，28]不同，图1. 在视频Re-ID中输入连续帧的挑战。（a）最终特征与背景信息和目标人信息（特别是虚线框）交织在一起。我们提出的DSANet将特征分解为（b）ID相关特征和（c）相机特征。同心圆表示查询周围的向量空间中的距离嵌入向量的形状表示不同的嵌入空间。在Re-ID方法中，正样本包括具有相同ID但属于不同场景的图像。也就是说，根据拍摄的相机，背景和障碍物等特征存在差异，但如果ID相同，则嵌入向量之间的距离在向量空间中应该较低。从网络中提取的特征不可避免地不仅包括与ID相关的信息，而且还包括相机域/与ID无关的信息，因为背景和角度取决于场景而变化。这个问题与视频Re-ID更相关，它使用几个连续的帧作为输入。查询查询查询1604与图像Re-ID[10，11]相比，视频Re-ID提供了时间信息，这降低了外观的不确定性。然而，随着ID无关语义的增加，网络可能容易受到类内噪声的影响。大多数方法利用时间信息，例如在帧之间获得[21，29]，基于先前帧特征选择性地捕获细节[6，13]，以及提取不在过去序列中的特征[14]。然而，这些方法在很大程度上依赖于网络例如，由于帧之间的时间间隔很小，重复类似的背景，因此网络频繁地学习背景作为关键特征，如图1-（a）中的激活图中的，例如虚线框区域。如图1-（a）所示，最终的嵌入包括砖块和出租车的语义，因此检索到与查询具有相似外观和背景的案例。实际上，不必要的背景信息在序列中重复最终，如果网络迫使具有这种纠缠信息的最终嵌入向量更接近向量空间，则特征的表示能力会降低。在本文中，我们提出了一种学习方法，分解的功能，并利用它们来有效地利用网络的能力，而不损害的代表能力。如图1-（b，c）所示，当特征被分离时，网络完全专注于每个任务，并且一致的丰富信息起到枢纽作用，以找到正确的片段作为rank-1。我们提出的方法，解开损失和相机ID分类，迫使分离功能集中在身份的功能，具有重复的背景和闭塞模式，取决于相机的选择。此外，目标本地化模块（TLM）使ID相关的嵌入更强大的边界框错位，在视频任务中通过切换和聚合来利用解纠缠的我们提出的方法表明，它可以是非常有用的分离取决于视频Re-ID中的身份信息的存在或不存在。总之，我们的主要贡献有三方面：• 我们提出了一种新的DSANet，将特征分解为ID代表性特征和相机特征，并将这两者结合起来用于辅助任务。• 我们引入了ID表示学习，这使得最终的嵌入特征对边界框错位和时间流更具鲁棒性。• 大量的实验不仅定量地证明了我们的DSANet的优异性能和有竞争力的参数数量，而且定性地证明了解纠缠学习的性能符合我们的预期。2. 相关作品2.1. 基于视频的人员重新识别在视频Re-ID中，完全提取目标的特征是至关重要的，排除干扰。大多数方法通过利用给定信息来获得鲁棒的视频级表示：空间和时间。能够对局部时间关系和相对位置进行编码的3D CNN与非局部操作[8]或注意力机制[17]结合使用，该机制对齐每个部分以防止最终嵌入的恶化。一些研究[7，21]充分利用全局-局部时间线索来预测每个帧的权重Chen等人[1]专注于对象，一个时不变的特征，而不是提取运动矢量。该方法将特征分解为时间相关性和时间运动性，并通过多尺度噪声采样提取然而，区别性特征并不一定是不变的.例如，取决于视频序列，背景和障碍物可能不随时间维度而改变最流行的方法[6，13，15，29，33]利用丰富的时空线索。 Hou etal. [13]通过自适应地选择时间核尺度来考虑时间关系，然后提取对于多尺度而言鲁棒的空间特征。为了使最终的表示抵抗空间和时间干扰，Eom等人。[6]识别干扰物模式，将其存储在内存中，并通过障碍物处理细化视频级特征这些方法引导网络提取目标人物的丰富表示，但需要复杂的网络结构和繁重的计算。鉴于[6]与[1]通过计算平均值获得时间相干性特征不同，我们提出了一个辅助任务，可以补充解开过程，并通过特征增强来增强网络的区分度2.2. 特征解纠缠特征分解方法分离表示，使它们具有独立的和有意的特征，1605(a)功能分解(b)ID表示学习TLM FWG公司简介最大池化I输入数据SaoCELICAM3MaxP G卵蛋白ID3Cam2XID2(c)辅助任务关注伪标记图2.我们的DSANet视频Re-ID的总体框架在训练阶段，作为输入，小批量由基于ID的正样本（S2，S4）和负样本（S1，S2，S3）组成。（a）特征分解过程分离ID代表性特征FID和相机特性特征Fcam。在（b）ID表示学习中，TLM提取随时间变化的目标位置的一致特征，FWG在最终嵌入中反映时间信息。然后，SAO创建具有各种相机场景的特征，并通过（c）对ID进行分类的辅助任务来提高DSANet的容量。在测试阶段，我们只使用fID作为最终表示。灰色框中的白色文本表示损失函数。然后再利用它们。它被应用于不同领域的各种目的[4，16，19]，主要是在域适应领域[20，40]。Zheng等[36]在Re-ID字段中应用特征解纠缠。它有两个distinct编码器分离的基础上的外观和结构代码的功能。该网络通过切换代码生成高质量的交叉ID合成图像，并对生成的图像进行在线学习。这一系列过程是端到端进行的。该方法成功地重建了具有混合外观和结构特征的图像正如[39]中所提到的，赋予辨别力的细节是关键因素，但它仍然存在于结构代码中，可能会混淆网络学习。Zou等人[40]将嵌入分解为与ID相关/不相关的特征，并仅使用与ID相关的特征来减少巨大的域差距。它具有与上述方法不同，我们的方法可以令人满意地解开功能，而不需要另一个网络。此外，与解纠缠矢量的切换和聚合发生在特征级，而不需要重建图像。3. 该方法3.1. DSANet图 2 给出了我们的解纠缠、交换和聚合网络（DSANet）的简要概述。DSANet涉及三个过程：特征分解、ID表示学习和辅助任务。DSANet示例性地将功能分为两类：ID功能和相机功能。然后，通过目标定位模块（TLM）和帧权重生成（FWG），对提取的ID特征执行ID表示学习，以变得对目标位置的变化更有抵抗力最后，DSANet通过使用切换和聚合操作（SAO）来执行辅助任务，SAO增强特征以具有各种摄像机特征以提高网络这一系列过程是端到端学习的，每个组件都单独工作并协同工作，以实现Re-ID的首要目标：鲁棒性和差异化特征提取。以下各节详细描述了每个部件。3.2. 功能分解信道扩展层（CEL）现有方法[19，36，40]需要多个网络来解开特征。然而，DSANet将FID和Fcam从一个培训/测试阶段训练阶段摄像头感知左中权…1606IC∈公司简介×∈∈L∈∈∈∈PI��×�� ×�� ×��[最大值，平均值]图3.目标定位模块（TLM）通过分开脊骨的分支使之形成令人满意的网络划分分支的起点是在提取更具鉴别力的特征之前ResNet-50[9]的最后一层。从ResNet的第三层获得的相对粗糙的XR2×t×h×w通过CEL组成-图4.帧权重生成（FWG）和生成伪标签的说明移动的感兴趣的人为了实现上述目标，我们提出了一个TLM，进行空间注意，灵感来自SAM [30]。它被设计为专注于在一个完整的特征地图中的突出信息。然而，我们提出的TLM将特征图FID划分为1-1 卷积的计算和返回FcamRc×t×h×w卷积，设定指定所考虑的相机的语义。ZL，ZM，且ZR∈R2 在空间维度主干的最后一层返回仅包含身份信息的FIDRc×t×h×w。为了使Fcam可靠地分离，我们需要解缠损失dis和相机ID分类。解纠缠损失考虑到fIDRc ×1×1和fcamRc×1×1应该具有不同的信息，我们测量这两个向量的余弦相似性如下：L=max（fID·fcam，0），（1）dis如图3所示，并注意目标在每个区域中的位置。我们将最大池化和平均池化的结果连接在划分的特征图Z的通道维度中。然后，我们通过卷积层和softmax获得空间注意力图AA=Softmax（Conv（[Max（Z）;Avg（Z）]））（2）在许多情况下，根据经验，假设人位于中心[3，18]，我们添加与中间AM对应的信息，以使最终的注意力图Zattn。fIDZattn =[AL ;AR ]+AM（三）其中f_cam是特征图F_cam中的向量最大池化。TLM最终收购F作为Z当fID和fcam的余弦距离为0时，它在-不和FAttn表示两个向量之间的相异损失函数被赋予余量，因为恰好相反可能会损害表示能力。解开损失允许DSANet提取fID和fcam集中在每个任务上，而不受连续帧被输入的情况下的空间干扰。3.3. ID表示学习目标定位模块（TLM）为了即使在连续帧中也能从网络中一致地提取FID，它必须对边界框未对齐具有鲁棒性。Re-ID中的挑战之一是由于检测器性能的限制，目标在裁剪的视频剪辑中偏斜因此，在视频Re-ID中，表示必须根据位置遵循相应的信息。ID，使其能够灵活地应对包围盒错误，对齐Ft=ZattnFID+FID（4）TLM通过在连续帧中定位目标，采用以下损失来一致地提取LL/R=CE（P（ft/L））+CE（P（ft/R）），（5）其中CE表示交叉熵损失，表示线性分类器计算概率，ft/LRc×t×1×1和ft/RRc×t×1×1是对应于ft左右两侧的特征图中的向量maxpooling。帧权重生成（FWG）大多数方法[26，38]主要使用全局平均池化来将视频序列的表示合并到最终嵌入1 ×1ConvSoftmaxEURR[最大值，平均值]1 ×1ConvSoftmax[最大值，平均值]��×�� ×�� ×��1 ×1ConvSoftmaxEURR伪标签分类器F W GAttention层交叉熵损失1.21.7 1.3反向操作反向操作0.50 0.4SoftmaxPredi cted^伪标号加权和1607∈∈∈凸轮我Σ凸轮LICBKBKvector. 为了进一步利用时间信息，我们预测了R1×t，并对其进行反射，得到最终的嵌入向量. 为了使FWG做出合理的预测，我们从表示帧的重要性指数的值生成伪标签，并将其用于训练。从TLM中提取的FtRc×t×h×w在空间维度上进行最大池化，得到ftRc × t ×1×1。 ft包含每个帧的紧凑特征，其被输入到FWG并且还用于生成伪标签。我们在分类任务中计算交叉熵，将其定义为损失函数，并学习减少此值。换句话说，交叉熵值越小，任务的特征越正确我们可以使用这个事实来确定哪个帧包含更多的身份信息，并将该值表示为概率值。将ft除以帧后，分别计算与ID标签的交叉熵然后，在所获得的值中找到最大值，并且差d3.4. 辅助任务相机ID分类虽然通过CEL和去纠缠损失保证了FID和F cam的不相似性，但是需要一个指南来使Fcam根据相机自适应地掌握背景和遮挡模式。图5示出了场景和障碍物图案的特性取决于针对每个数据集拍摄考虑到上述事实，DSANet执行预测摄像机ID的辅助任务，其中fcam包含摄像机特征。由于捕获序列的摄像机ID已被标记，因此不需要额外的注释相反，在积极利用给定标签的同时，辅助任务引导fcam更多地关注背景，而不包括目标。用于相机ID分类的损失函数是如下计算的交叉熵损失eWifi根据这些数值计算我们表达了这一点-在图4中，将插补作为反向操作。Lcam=−ccam 1998年12月20日（CcameWjfj），（8）d=max（CE（P（ft）−CE（P（ft））（6）j=1其中W是全连接层的权重矩阵，我们使这些值我凸轮是摄像机ID标签，Ccam是总数重要性，然后将其用作伪标签w。FWG包括一个卷积层，将通道维度减少到1。通过总结帧特征来预测权重。通过与伪标签生成相同的操作过程来预测最终权重w我们通过对w t进行时间关注来获得最终表示fID。我们计算伪标签w和预测w之间的均方误差，并将其用作损失函数w以期望来自FWG的可靠权重。我们不使用KL-散度来减少w和w之间的差异，因为概率值越接近0，就越难以度量分布之间的相似性。我们还通过实验确定，均方误差更适合于合理的预测。为了减少小批量的正样本之间的类内噪声，我们将其定义如下：B摄像头ID切换和聚合操作（SAO）通过切换和聚合，可以使用新的嵌入向量来增强解具体地，当构成小批量的f_ID和f_cam被随机交换和重新组合时，生成各种f_ID和f_cam对。即使分配了新的f_cam，与f_ID的标签对应的ID也不会改变。因此，通过SAO获得的嵌入向量faug的ID由fID确定，因此我们使用faug进行预测ID的另一辅助任务。该任务不仅提高了网络对各种摄像机场景的鲁棒性，而且自适应地增强了解缠学习。总之，DSANet中使用的最终交叉熵损失如下：Lce= CE（P（fID））+ λ[CE（P（faug））+LL/R+ Lcam]。3.5. 训练和试验阶段L=（1（ffID∈Bk-1名妇女fID∈Bk（二）、（七）在训练阶段，我们使用三重损失[12]cal-用fID计算前所述的损失，其中Bk表示属于小批量中的标识k的特征集从各种序列中提取属于正样本的fID，但是与场景对应的语义已经被去除，因此仅ID相关的信息可用。类内损失函数允许fID更多地关注阳性样本中常见但独特的特征，并减少训练负担第定义了DSANet的总体目标函数如：其中λ是比例因子并且被设置为0.1。在测试阶段，我们只使用fID作为最终表示，并使C（九）IDID1608用余弦相似度计算最终嵌入向量之间的距离1609××表1.在MARS、Duke-V和LS-VID视频Re-ID数据集上与最先进的方法进行比较方法分为三组：基于3D CNN、基于时间线索、基于时空线索。最好的结果用粗体表示，第二好的用下划线表示。方法参数。火星[35]Duke-V[31]LS-VID[21]秩-1地图秩-1地图秩-1地图M3D[22]（AAAI2019）-84.474.1--57.740.1AP3D[8]（ECCV 2020）31.6百万90.785.697.296.1--SSN3D[17]（AAAI2021）-90.186.296.896.3--STA[7]（AAAI2019）-86.380.896.294.9--GLTR[21]（ICCV 2019）-8778.596.393.76344.3VRSTC[15]（CVPR 2019）-88.5 82.39593.5--MG-RAFA[33]（CVPR2020）-88.8 85.9----TCLNet[14]（ECCV2020）29.9百万89.8 85.196.996.28167.2AFA[1]（ECCV 2020）-90.2 82.997.295.4--BiCnet-TKS[13]（CVPR2021）29.2百万90.2 8696.196.384.675.1STMN[6]（ICCV 2021）-90.5 84.59795.982.169.2PSTA[29]（ICCV 2021）35.4百万91.585.898.397.4--DSANet（我们的）30.8百万91.186.697.296.685.175.5(a) 火星(b) 公爵五号14，943个轨迹，使用15个摄像头拍摄。有许多具有挑战性的元素，如照明和边界框未对齐，因此它可以被视为最接近现实生活的数据集。评价指标使用累积匹配特征（CMC）和平均精度（mAP）评价性能，这两个指标经常用作Re-ID中的评价指标。4.2.实现细节图5.由相机为每个数据集捕获的场景和障碍物图案的情况（例如，砖、楼梯、自行车）4. 实验4.1.数据集和评估指标如图5所示，场景和障碍物图案的特征是相似的，这取决于针对每个数据集选择的相机。此外，在Re-ID任务中，在训练和测试阶段，人们MARS[35]是视频Re-ID的大规模基准数据集它由1261个身份的大约20，000个tracklet和3248个tracklet的额外干扰项组成视频序列使用6个摄像机捕获。有大量的边界框不对齐的问题，使它更现实和具有挑战性。DukeMTMC-Video ReID[31]是另一个大规模的基准数据集，其中包含 1 ， 404 个身份的 4 ， 832 个tracklet。使用8个摄像机捕获视频序列。在下面的描述中，我们将DukeMTMC-VideoRe-ID命名为LS-VID[21]是视频Re-ID的最新大规模基准数据集。它由3,772个身份组成，我们采用在ImageNet[5]上预训练的ResNet-50[9]作为DSANet的骨干。为了保持特征图的空间维度，我们将ResNet-50的最后一层的步幅更改为1。我们随机选择8个身份样本，每个身份有4个剪辑来训练模型。我们还利用限制随机采样策略[23]来包含整个视频表示。输入帧的大小被调整为256×128，数据使用随机水平翻转和随机擦除[37]以0.5的概率增加。我们使用Adam优化器，权重衰减为5 10−4，其学习率从3开始。510−4，每40个历元衰变0.1次。所有实验进行了多达200个时期，以确保学习的充分收敛。在测试阶段，我们计算序列的所有帧，并通过av-平均池化由于LS-VID具有大量摄像机，因此我们将Lcam的lambda设置为0.5。4.3. 与最先进方法的在比较之前，由于相机ID分类器，我们的网络对每个数据集都有不同的模型大小。我们列出了LS-VID模型的大小，表1中的相机数量最多。DSANet的参数在MARS中为29.5M，在Duke-V中为30 M。表1总结了三个视频Re-ID基准数据集的我们凸轮4凸轮3凸轮1凸轮7凸轮4凸轮11610表2. 分析DSA网络的每个组件（TLM，FWG，SAO），包括LS-V ID上的损失函数（LL/R，Lw，Lic）。方法参数LS-VID1级mAP基线25.2M73.362.1+TLM w/oLL/R+TLM27.4M29.1M73.573.762.462.5+FWG w/oLw+FWG27.4M29.1M73.174.161.962.5+TLM +FWG w/oLic+TLM +FWG30.8M30.8M73.975.562.564.2+TLM +FWG +SAO30.8M75.864.2将方法分为三组：基于3D-CNN的，I基于时间线索的时空线索的首先，与基于3D-CNN的方法相比，我们的方法在MARS上表现出特别好的性能[8，17，22]。MARS算法存在频繁的边界框错位问题，在使用3D卷积时，容易使网络失去时间外观的一致性。我们提出的方法对时间外观破坏是鲁棒的，因为TLM对齐随着帧的流动而变化的目标的位置。与使用时间线索的方法相比 [7 ， 21] ，我们的DSANet对所有数据集都实现了更好的性能。虽然时间信息在视频中是至关重要的，但是同时利用空间信息的方法可以提取更多的区分特征。由于我们的方法通过TLM利用空间信息，并通过FWG反映时间信息来获得最终嵌入，DSANet提取了丰富的代表性特征。最后，我们的方法实现了优于或相当（考虑参数的数量）性能的时空线索为基础的方法[1，6，13，14，15，29，33]。DSANet不仅使用时空线索，还通过具有ID特征和相机特征的SAO进行特征级增强。它执行一项辅助任务，允许网络对各种情况下的ID进行分类。虽然PSTA对Duke-V的性能明显更高，但接近现实生活场景的MARS的 mAP比我们的方法低0.8%考虑到帧内和帧间关系，PSTA[29]我们的方法通过一个简单的特征切换和聚合机制，在没有额外参数的轻量级网络中获得了显着的性能通过组合其他模块可以进一步提高性能与相关方法的比较我们同意AFA [1]在视频Re-ID中分离特征以专注于目标本身的方法。然而，尽管AFA声称网络应该关注目标的时不变特性，但目标并不是唯一的目标，图6. MARS和Duke-V上解缠特征的热图：FID和F凸轮。较暖的颜色表示较高的激活。主随着时间的推移。取决于序列，背景可以随时间改变，并且随时间改变的ID相关此外，与网络设计相比，AFA试图解开最终从骨干网络提取的特征。然而，我们的方法从不同的分支提取每个特征，目标是在特征阶段具有不同的信息。此外，通过与我们的相机特征相对应的特征图的可视化，我们可以直观地看到每个解纠缠特征具有关于哪个部分的信息。在SAO中还利用了分解特征，使得网络可以提取鲁棒且丰富的表示。4.4. 讨论消融研究表2总结了DSANet组件（TLM、FWG和损耗函数）的消融研究由于整个瓣架的评价需要很长时间，我们根据RRS进行消融研究[23]。我们还在表1中列出了所有帧的评估结果。如果TLM或FWG单独应用，它应该与其损失函数一起使用，以帮助网络训练。由于TLM有助于提取目标的显著特征，因此它将rank-1提高了0.4%，将mAP提高了0.4%。FWG还提高了0.8%的等级-1和0.4%的mAP。这是因为FWG在最终嵌入中反映了时间信息，以避免由于时间障碍而导致的表示中断最后，我们可以得出结论，TLM和FWG在协同使用时是有效的，从基线起将 rank-1 提高了2.2%，将mAP提高了2.1%。此外，如果将从TLM和FWG获得的ID特征用于SAO，则网络获得覆盖多种情况的泛化能力。令人惊讶的是，尽管SAO是一种额外的无参数机制，但它将秩 1 提高了 0.3% 。总之，DSANet1611L查询一品二品三品内径凸轮图7.t-SNE[27]来自最终嵌入向量的可视化基线，fIDf凸轮从DSANet上下载的LS-VID分量互补地工作，因此它们在一起使用时是最有效的，并且在输入对应于该序列的所有帧时表现最佳。为了证明我们根据我们提出的方法DSANet创建和解开特征，我们在图6中可视化每个特征图的热图。在第一行对应的情况下，障碍物连续出现在帧中，DSANet获得的最终表示只包含有关目标的信息。在第二行和第三行中，他们表明DSANet可以提取一致的特征，这要归功于TLM，尽管目标的大小和位置会随着时间的推移而变化。如最后一行所示，即使当背景占据帧的大部分时，DSANet也试图通过清楚地分离背景信息Fcam来提取区别性身份信息Fid。最后，DSANet成功地获得了对背景杂乱和边界框未对齐问题鲁棒的最终嵌入，同时具有丰富的ID信息，这是视频Re-ID的主要目标。特征分布在图7中，我们使用t-SNE[27]可视化分离的特征，以证明每个特征包含身份或相机信息。我们将最终的嵌入向量从基线以及从DSANet的fid和fcam与基线相比，我们的DSANet可以通过ic进一步缩小类内距离。此外，SAO，TLM和FWG的互补学习允许DSANet提取fid的区别特征并扩大类间距离。最后，我们推断用于预测摄像机ID的辅助任务是有效的，基于根据fcam彼此分组的结果。检索结果图8显示了对MARS和Duke-V的检索结果。在MARS中，有许多样本的背景占据了比人类更多的图像。这可以被视为可以指定拍摄序列的相机的特征由于基线不能分离该相机特征，因此背景信息被包括在最终嵌入中，因此检索到与查询相似的背景。相比之下，DSANet可以完全专注于身份信息，因为捕获的摄像头的特征被完美地分解，查询查询图8.基线和DSANet在MARS和Duke-V上的检索结果。正确和不正确的匹配分别以绿色和红色为边界。纠结即使对于最后一行样本，基线也被背景所分散，因此可以指定身份的信息最后，DSANet显示了出色的检索结果，专注于精细的细节，而不受干扰。5. 结论我们提出DSANet，它解开相机的特征信息，并提取歧视性的ID相关的表示。TLM和FWG通过协同利用空间和时间信息获得对时间外观破坏鲁棒的特征。DSANet可以通过SAO和执行辅助任务来增强新对的特征，从而应对各种场景。实验结果表明，我们的方法是轻量级的。具体而言，它实现了最高性能的LS-VID。不同的可视化结果定性地说明了特征创建和解缠符合预期。我们希望我们的DSANet和SAO与辅助任务的解纠缠结构将在未来与其他方法和谐地使用。致谢这项工作得到了&&韩国政府（MSIT）资助的信息通信技术规划评估研究所（IITP）的支持（第100号）。2021-0-00172，基于闭路电视摄像机的人类重新识别和蒙面人脸识别的发展）、KIST机构计划（项目编号2 E31051 -21- 203）和延世大学2021年研究基金（2021-22-0001）。基线DSANet基线DSANet基线DSANet1612引用[1] Guangyi Chen，Yongming Rao，Jiwen Lu，and Jie Zhou.时间相干性或时间运动：哪一个对于基于视频的人重新识别更欧洲计算机视觉会议，第660-676页。Springer，2020年。[2] 陈婷，西蒙·科恩布里斯，穆罕默德·诺鲁齐，和葛offrey Hinton.视觉表征对比学习的一个简单框架国际机器学习会议，第1597-1607页。PMLR，2020年。[3] Cheng Chi，Shifeng Zhang，Junliang Xing，Zhen Lei，Stan Z Li，and Xudong Zou.Pedhunter：拥挤场景中的遮挡鲁棒行人检测器在AAAI人工智能会议论文集，第34卷，第10639- 10646页[4] Sanghyeok Chu，Dongwan Kim，and Bohyung Han.学习- ING去偏见和解开表示语义分割。神经信息处理系统进展，34：8355[5] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议，第248-255页。Ieee，2009年。[6] Chanho Eom，Geon Lee，Junghyup Lee，and BumsubHam.利用空间和时间记忆网络进行基于视频的人物再识别在 IEEE/CVF国际计算机视觉会议论文集，第12036- 12045页[7] Yang Fu，Xiaoyang Wang，Yunchao Wei，and ThomasHuang. Sta：用于大规模基于视频的人重新识别的时空注意力在AAAI人工智能集，第33卷，第8287[8] Xinqian Gu ， Hong Chang ， Bingpeng Ma ， HongkaiZhang，and Xilin Chen.用于基于视频的人再识别的保留外观的3d卷积。在欧洲计算机视觉会议上，第228-243页。Springer，2020年。[9] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页[10] 凌霄鹤和五柳。拥挤场景中用于人员重新识别的引导显著性特征学习。欧洲计算机视觉会议，第357-373页。Springer，2020年。[11] Lingxiao He ， Yinggang Wang ， Wu Liu ， He Zhao ，Zhenan Sun，and Jiashi Feng.前景感知金字塔重建，用于无对准的被遮挡人员重新识别。在IEEE/CVF计算机视觉国际会议论文集，第8450-8459页[12] 亚历山大·赫尔曼斯、卢卡斯·拜尔和巴斯蒂安·莱布。为了防止三重丢失，进行人员重新鉴定。arXiv预印本arXiv：1703.07737，2017。[13] 侯瑞兵，常洪，马冰鹏，黄锐，石光山。Bicnet-tks：学习有效的时空表示，用于视频人员重新识别。在IEEE/CVF计算机视觉和模式识别会议论文集，第2014-2023页，2021年。[14] 侯瑞兵、常红、马冰鹏、Shiguang Shan和Xilin Chen。基于时间互补学习的视频人物再识别。欧洲计算机视觉会议，第388-405页。Springer，2020年。[15] Ruibing Hou ， Bingpeng Ma ， Hong Chang ， XinqianGu，Shiguang Shan，and Xilin Chen.Vrstc：无遮挡视频人物重新识别。在IEEE/CVF计算机视觉和模式识别会议论文集，第7183-7192页[16] Xun Huang ， Ming-Yu Liu ， Serge Belongie ， and JanKautz.多模态无监督图像到图像翻译。在欧洲计算机视觉会议（ECCV）的会议记录中，第172-189页[17] Xiaoke Jiang ， Yu Qiao ， Junjie Yan ， Qichen Li ，Wanrong Zheng，and Dapeng Chen. Ssn3d：自分离网络，用于在视频人员重新识别中对齐3d卷积的部分。在AAAI人工智能会议论文集，第35卷，第1691-1699页[18] Minjung Kim，MyeongAh Cho，Heansung Lee，SuhwanCho，and Sangyoun Lee.通过关系自适应特征校正学习的被遮挡人重新识别。在ICASSP 2022-2022 IEEE声学、语音和信号处理国际会议（ICASSP）中，第2719-2723页。IEEE，2022年。[19] Jungsoo Lee ， Eungyeup Kim ， Juyoung Lee ， JihyeonLee，and Jaegul Choo.通过去纠缠特征增强学习去偏表示。神经信息处理系统的进展，34：25123[20] Seunghun Lee ， Sunghyun Cho ， and Sunghoon Im.Dranet：无监督跨域自适应的解纠缠表示和自适应网络。在IEEE/CVF计算机视觉和模式识别会议论文集，第15252-15261页[21] Jianing Li，Jingdong Wang，Qi Tian，Wen Gao，andShiliang Zhang.用于视频个人重新识别的全局-局部时间表示。在IEEE/CVF国际计算机视觉会议论文集，第3958-3967页[22] 李佳宁，张世良，黄铁军。多尺度三维卷积网络用于基于视频的人物再识别。在AAAI人工智能会议论文集，第33卷，第8618-8625页[23] Shuang Li， Slawomir Bak ， Peter Carr， and XiaogangWang.基于视频的人再识别的多样性正则化时空注意。在IEEE计算机视觉和模式识别会议论文集，第369-378页[24] Yulin Li ， Jianfeng He ，Tianzhu Zhang， Xiang Liu ，Yongdong Zhang，and Feng Wu.多样的零件发现：使用部件感知的 Transformer 重新识别闭塞人员。在IEEE/CVF计算机视觉和模式识别会议上，第2898-2907页，2021年[25] Hao Luo，Youzhi Gu，Xingyu Liao，Shenqi Lai，andWei Jiang.一袋技巧和一个强大的基线深度重新识别人。在IEEE/CVF会议记录中-1613计算机视觉和模式识别研讨会，0-0页[26] Niall McLaughlin，Jesus Martinez Del Rincon，and PaulMiller.用于基于视频的人员重新识别的递归卷积网络。在Proceedings of the IEEE conference on computer visionand pattern recognition，pages 1325[27] Laurens Van der Maaten和Geoffrey Hinton使用t-sne可视化数据。 Journal of Machine Learning Research ， 9（11），2008.[28] Yifei Wang ，Zhengyang Geng， Feng Jiang ，ChumingLi，Yisen Wang，Jiansheng Yang，and Zhouchen Lin.用于多视图表示学习的残差松弛。神经信息处理系统的进展，34：12104[29] 王英泉、张萍萍、尚高、夏庚、胡璐、王东。金字塔时空聚合用于基于视频的人物再识别。在IEEE/CVF计算机视觉国际会议论文集，第12026-12035页[30] Sanghyun Woo，Jongchan Park，Joon-Young Lee，andIn So Kweon.Cbam：卷积块注意模块。在欧洲计算机视觉会议（ECCV）会议录，第3-19页[31] 吴宇，林宇天，董宣义，燕燕，欧阳万里，杨毅。逐步探索未知：基于单步视频的逐步学习的人物再识别。在IEEE计算机视觉和模式识别会议论文集，第5177-5186页[32] Mang Ye，Jianbing Shen，Gaojie Lin，Tao Xiang，LingShao，and Steven CH Hoi.用于人员重新识别的深度学习：调查与展望。IEEE transactions on pattern analysisand machine intelligence，44（6）：2872[33] Zhizheng Zhang，Cuiling Lan，Wenjun Zeng，and ZhiboChen. 基于视频的多粒度参考辅助注意特征在IEEE/CVF计算机视觉和模式识别会议上，第10407-10416页[34] Zhizheng Zhang，Cuiling Lan，Wenjun Zeng，Xin Jin，and Zhibo Chen.关系意识的全球关注的人重新识别。IEEE/CVF计算机视觉和模式识别会议论文集，第3186-3195页，2020年[35] 梁铮、志别、孙一凡、

下载后可阅读完整内容，剩余1页未读，立即下载