多摄像机多目标关联方法的注意机制与Transformer编码器

72 浏览量更新于2023-10-14 收藏 1.26MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9834多摄像机多目标关联的视时注意卡内基梅隆大学卡内基梅隆大学{yujheli，xinshuow，yxu2，kkitani} @ cs.cmu.edu摘要我们解决了多目标多相机（MTMC）跟踪中的重新识别（Re-ID）任务，其中我们使用多个重叠的未校准（未知姿态）相机来跟踪多个行人。由于视频是时间同步的并且空间重叠，因此我们可以从多个视图看到一个人并且将他们的轨迹跨相机相关联。为了找到在同一时间窗口期间从多个视图可见的行人之间的正确关联，我们从轨迹小片段（行人图像序列）提取视觉特征，该特征编码其与所有其他候选轨迹小片段的相似性我们提出了一个跨轨迹（人对人）的注意机制，学习一个目标轨迹的表示，同时考虑到跨多个视图的其他轨迹。此外，为了对人的步态和运动进行编码，我们引入了具有位置嵌入的第二内轨迹片段（人特定的）注意力模块。该第二模块采用Transformer编码器来从一个轨迹片段上的特征序列中学习特征在WILDTRACK和我们的新数据集'ConstructSite'上的实验结果虽然我们的模型是为重叠相机设计的，但我们也在其他两个具有非重叠相机的基准数据集（MARS和DukeMTMC）上获得了最先进的结果。1. 介绍多目标多相机（MTMC）跟踪[22，37]深深依赖于在多个相机之间关联人以确定每个人随时间的位置的能力根据情况，相机可以是同步的、校准的（已知位置）或具有重叠的视图。在这项工作中，我们专注于相机与重叠视图同步，但校准信息不可用的情况。我们的目标是开发一种方法，可以执行关联的行人轨迹跨相机，而不使用任何校准信息。照相机1照相机2摄像机3相机4图1：具有重叠视图的多目标多相机跟踪。当从多个同步相机（视图）看到目标人时，通过找到跨多个视图的相似性和相异性来识别人是可行的注意，诸如每个相机的位置的几何信息可能是未知的。关于摄像机（如图1所示）。为了开发这样的方法，用于跨未校准的相机的数据关联，我们需要在图像块（tracklet）的序列上提取每个人的区分特征，并且跨不同相机中的tracklet执行特征匹配。我们所描述的这个过程是重新鉴定（Re-ID）问题的一种形式[71]。在时间同步的MTMC场景中，Re-ID问题被简化，因为我们只需要匹配在同一时间窗口期间出现在多个相机中的行人。在该时间窗口内，我们想要提取既有代表性又有区分性（与同一视图中的其他行人充分不同）的视觉特征，使得我们可以跨相机视图匹配人。为了学习用于跨视图的鲁棒人员关联的代表性和区分性视觉特征，我们提出了一种使用变换器的新型基于视频的Re-ID模型[50]。由于注意力模型[63]具有学习和嵌入来自重叠视图的不同同步轨迹片段之间的相似性和不相似性的能力，因此它可以用于学习代表性和区分性的视觉fea。9835真的。我们以两种方式使用注意力模型：（1）我们引入了小轨迹间注意力模型来学习跨摄像机的小轨迹之间的相关性，以及（2）我们引入了小轨迹内注意力模块（在小轨迹间注意力模型之前）来学习个人特定的运动和外观特征。为了评估我们用于MTMC跟踪的Re-ID方法数据集中的视频记录在具有未知相机位置的建筑工地中用四个同步相机记录，该数据集具有88个视频（3分钟长），其中每个同步相机具有22个视频。如上所述，我们的Re-ID方法被有意地设计用于重叠的、时间同步的、未校准的相机。我们还执行的形式实验上的其他两个公共基准数据集（MARS和DukeMTMC）与非重叠的相机。本文的贡献突出如下：1. 我们引入了一个基于变换器的小轨迹间注意力模块，该模块通过考虑所有相机视图中的所有其他时间同步的小轨迹来计算有区别的特征表示2. 为了学习特定于人的运动和外观特征，我们引入了基于变换器的轨迹内注意模块来学习每个轨迹的紧凑表示。3. 我们表现出优越的Re-ID性能的时间同步，未校准的设置。此外，我们将我们的方法的情况下，非重叠的相机。我们展示了我们的方法是如何能够推广到更难的sce- narios，同时也推进了最先进的。2. 相关作品重新鉴定（Re-ID）。Re-ID可以分为基于图像和基于视频的方法。基于图像的个人Re-ID [3、6、7、19、25、26、27、29、39、41、43、46、54、55]通常集中于匹配具有视点和姿态变化的图像，或者具有背景杂波或遮挡的图像。大多数基于视频的方法使用光流[5，9，32，64]、递归神经网络（RNN）、时间池[69]或时空注意力来对时间信息进行建模。另一方面，进一步提出了几种基于注意力的方法[25，41，43]，以专注于学习有区别的图像特征。与向所有帧分配相同权重的时间池化[ 69 ]相比，现有的基于注意力的方法[13，23，31，64，73]从静态角度学习不同帧或部分的权重，即分别考虑空间注意和时间注意。然而，与关于注意力模型的先前工作（主要是单头自我注意力）相比，我们使用变压器开发的模型能够学习更多的区分特征（人与人之间和人与人之间）。人特定的）具有一系列多头自我注意模块。这很好地适应于具有重叠相机视图的MTMC跟踪。多目标多摄像机跟踪。在MTMC跟踪方面，必须解决两个不同但密切相关的研究问题：1）单个相机内的目标的检测和跟踪，称为单相机跟踪（SCT）;也就是说，MTMC跟踪可以被认为是相机内的SCT和Re-ID与空间-时间信息的组合，以连接跨相机的目标轨迹。虽然以前的Re-ID工作取得了promising- ING性能，适应Re-ID到MTMC跟踪- ING流水线是一项具有挑战性的任务。随着最近Re-ID的发展，已经提出了采用Re-ID技术的许多MTMC跟踪方法[22，30，37，66，68]。在[37]中，Ristaniet al.使用卷积神经网络学习MTMC跟踪和Re-ID的特征。在[68]中，Zhanget al.通过简单的层次聚类和Re-ID特征获得有希望的结果。在[22]中，Li等人在Re-ID模型中利用遮挡和定向状态，这导致改进的MTMC跟踪性能。然而，最近的Re-ID工程应用MTMC跟踪重叠的相机。作为一个补充，我们的工作演示了使用Re-ID模型的MTMC跟踪重叠和非重叠的情况下。单摄像机多目标跟踪（SCT）。随着目标检测技术的发展，基于检测的跟踪框架被广泛应用于单摄像机多目标跟踪中，检测模块之后是跨帧的数据关联为了解决数据关联问题，现有的工作可以分为离线和在线方法。离线方法[1，10，38，40，47，48，49，51，56]试图通过访问整个序列的数据来采用全局优化另一方面，在线方法[2，8，14，15，42，45，53，57，58，59，60，62，67]将数据求解为-仅给定直到当前帧的数据的关联由于本文的重点是改进跨摄像机MTMC跟踪的Re-ID模型，因此我们使用基线SCT方法– DeepSort [但是，我们的流水线中使用的单相机跟踪方法可以用其他方法代替。3. 数据集3.1. 以前的数据集当前的人Re-ID数据集极大地推动了人Re-ID的研究如表1所示，MSMT 17 [55]、DukeMTMC-reID [35，72]、CUHK 03 [24]、和Market1501 [70]涉及大量的摄像头和身份。来自Market1501和9836表1：基于人图像签名的Re-ID、基于视频的MTMC跟踪和具有重叠相机的MTMC重叠数据集的公开可用基准我们只列出常用的数据集。数据集摄像机数量重叠视频几何#bboxesID编号目标DukeMTMC-reID [35，72]8✗✗✗36,4111,812行人[70]第70话6✗✗✗32,6681,501行人MSMT17 [55]15✗✗✗126,4414,101行人香港中文大学03[24]5✗✗✗14,0971,467行人MTMC-非重叠MARS [69]6✗✓✗1,191,0031,261行人DukeMTMC [35，61]8✗✓✗126,4411,812行人实验室[12]4✓✓✓4766行人别墅[12]4✓✓✓1,0239行人MTMC重叠通道[12]4✓✓✓22613行人校园[65]4✓✓✓24025行人高尔夫球场[4]7✓✓✓66,626313行人ConstructSite（我们的）4✓✓✗4,806,564440工人DukeMTMCreID也可用于基于视频的Re-ID和MTMC，分别是MARS [69]和DukeMTMC [35，61]。虽然在MARS中可以获得轨迹信息，但公众不知道原始视频和摄像机几何形状。相比之下，DukeMTMC提供摄像机网络拓扑，使得可以建立摄像机之间的相对不过，DukeMTMC和MARS中的摄像头是不重叠的。同样，作为“重叠”数据集，我们指的是相机的视场严格重叠的数据集。在EPFL校园[12]拍摄的三个序列：实验室，露台和通道，以及校园[65]是重叠的多相机数据集。这四个数据集具有少量的总身份，并且相对稀疏拥挤。从表1中我们可以看出，实验室、教学楼、走廊和校园的面积都很小. WILD- TRACK [4]改进了其他重叠数据集，因为它具有大量的注释标识，允许开发基于深度学习的MTMC方法。3.2. 施工现场为了在不同的场景中评估我们的模型（而不是像以前的数据集那样有行人行走的校园），我们开发了一个名为ConstructSite的新MTMC数据集。该数据集包含88个视频，每个视频长3分钟。ConstructSite由4台同步摄像机拍摄（每台摄像机有22个视频）。这些视频是在一个建筑工地上录制的，工人们穿着工作服而不是休闲服，除了走路外还做了各种动作，如蹲下，跪着，背着。数据集中的一些示例如图2所示。我们详细介绍了硬件和注释的信息如下。硬件. 使用4个静态定位的HD摄像机记录数据集。特别是，我们使用四个GoPro Hero7摄像头来记录视频，并将视频下采样为分辨率为1352×760像素，帧率为30图2：施工现场的工人示例。每个工人的动作类型包括行走、站立、下蹲、跪等。（FPS）。四个摄像机之间的同步精度约为100ms。注释。如前所述，数据集中共有88个视频，而每个摄像头有22个视频。也就是说，存在22个同步的视频集。每个视频集有大约15我们要注意的是，该数据集中的所有边界框都是手动标记的。这导致4，806，564个边界框，每个边界框具有相关联的ID。4. 方法为了实现MTMC跟踪重叠的情况下，我们提出了我们的基于视频的Re-ID模型相关联的tracklet跨摄像机在同一时间窗口。输入轨迹可以是每个凸轮中的地面实况轨迹9837×个×个i=1∈∈∈j=1}j=1--i=1联系我们--图3：我们提出的用于MTMC跟踪的基于视频的Re-ID模型。我们的模型由三个模块组成：特征编码器E、小轨迹内注意模块Hintr a和小轨迹间注意模块Hinte r。为了从每个具有T个采样图像的k个轨迹集提取视觉特征，我们应用特征编码器E以获得k个T个特征。通过使用轨迹片段内注意模块Hintra，我们确定了新的关注kT轨迹内的功能。最后，通过使用小轨迹间注意模块Hinter，我们能够在同一时间窗口期间跨这k个小轨迹导出k时代，但没有跨相机关联或来自真实世界的单相机跟踪方法的输出轨迹。给定行人的裁剪图像序列（轨迹片段），我们的目标是学习模型以提取代表性和区分性特征表示，其使得能够跨相机进行基于视频的个人Re-ID。具体来说，我们有一个tracklet，其采样帧集X=x iT以及相关标签y，其中x iRH×W×3和yN表示该tracklet的身份。有几种方式从窗口大小W的轨迹片段中采样这些T帧，以便处理长范围时间结构。为了平衡速度和准确性，我们采用了限制性随机抽样策略[23，52]。如图3所示，我们的模型由三个模块组成：（1）特征编码器E;（2）小轨迹内关注模块Hintra，以及（3）小轨迹间关注模块Hintr。首先，为了从轨迹集X中提取视觉特征，我们应用特征编码器E并获得特征集F=f iT对于一个tracklet，其中f是Rd（d表示视觉特征的尺寸）。第二，小轨迹内注意模块H_intra将具有T个顺序特征和T个可学习位置嵌入的F作为输入，并产生表示小轨迹的视觉特征u，其中uR_d（d表示特征的维度）。第三，小轨迹间注意模块Hinter-takes在下面的章节中的每个注意模块。为了在测试阶段中跨相机执行基于视频的Re-ID，我们的框架将每个轨迹片段编码成表示，该表示稍后被应用于经由Re-ID的最近邻搜索来匹配最近的轨迹片段。我们还使用匈牙利算法[20]在推理场景中进行MTMC跟踪。4.1. 初步在我们的注意力模块中使用的Transformer编码器（如图4所示）的灵感来自Trans- former [50]，其具有一系列相同结构的编码器和解码器。每个编码器具有多头自注意层（MHSA）和前馈网络层。标准的自我关注。为了完整起见，我们简要回顾了自我注意模块[63]。典型的自我关注层将输入特征转换为三个输入：通过与变换矩阵的矩阵乘法来查询Q、键K和值V。softmax层将取Q和K相乘的结果，并产生注意力权重。然后从softmax和V的最终矩阵乘法的结果产生目标注意力结果。多头自我关注。同时观察时间和U={ui}k从所有k个tracklet并产生更新的来自输入特征的概念信息Z={zmMm=1对于这些轨迹片段，特征V=v ik。 H帧内和H帧间两者的主干采用Transformer编码器。通过联合使用tracklet内和tracklet间atten对于每个tracklet模块，我们的模型在窗口大小W期间为每个tracklet产生代表性特征。我们将详细说明提出了多头自注意的思想。如图4所示，我们具有包括N个自注意模块的整个注意模块H头数等于N），并且它们中的每一个被开发以导出N个子空间中的注意特征。我们先把内部-��... ��...在时间窗口大小W期间从每个轨迹片段采样图像Intra-trackletattentionHInter-trackletattentionH×T特征Transformer编码器特点特点特征编码器（）共享权重Transformer编码器Transformer编码器Transformer编码器位嵌入......Re-ID丢失ℒidt$i...............9838j=1j=1∼←∈L∈m=1∈--ΣLi=1∈--Transformer编码器4.3. 小轨迹间注意此外，为了学习和嵌入来自重叠视图的所有这些同步轨迹片段之间的相似性和不相似性，我们进一步应用轨迹片段间属性。作用模H除其他并导出最终的表示对于每个tracklet。具体来说，就是tracklet间的注意力模块H_inter从所有k个轨迹片段取U={ui}k产生更新的特征V={vi}k.也就是说，图4：变压器编码器中多头注意力的图示。利用N个不同的单头注意力块（每个具有投影矩阵层），可以在不同的子空间（每个子空间的维度d）中执行自我注意力，以捕获不同的视觉概念。我们将来自所有注意力块的输出O1：N连接起来，并在最终线性变换层的输出处获得联合注意力结果。使用N个投影层Mn（Rdn）将W放入N个子空间中其中，η表示投影层数（η=IN），并且dη表示子空间维度。为了从所有N个子空间产生最终结果，引入了线性投影层MR以导出fi。V=Hinter（U）。（3）注意，引入的小轨迹间注意模块Hinter旨在在同一时间窗口期间从多个视图参与其他tracklet。也就是说，更新后的视觉特征将依赖于本地的其他轨迹，其结果是，有助于Re-ID和MTMC跟踪任务中的数据关联。针对每个轨迹片段产生的特征V将最终用于跨多个视图的匹配。4.4. 全目标为了更好地利用标签信息来更新我们的整个网络，我们首先通过计算预测标签y~y之间的负对数似然来对输出特征向量wRK和地面实况one-hot向量yNK.身份的丧失id可以表示为最终参与特征R={rm}M，其中rkRd（相同MK尺寸作为原始输入特征Z=z mm=1）。上述过程可以公式化为：述盖=−E （x，y）（X，Y）ykk=1log（y~k），（4）R=MR· concat（01：N），其中K 是标识（类）的数量为了进一步-其中concat意味着我们连接来自所有N个自注意块的输出O1：N4.2.小轨迹内注意为了在时间上捕获人的整个运动序列和外观的特征，我们使用Transformer编码器引入帧内轨迹片段注意模块H帧内以学习每个轨迹片段的代表性特征。在[11，34]之后，我们采用标准的可学习的1D位置嵌入，表示为：对于输入的T个视觉特征中的每一个，P = p i T。小轨迹内注意模块H_intra取F={f}T，具有T个顺序特征和T个学习。为了提高区分性，我们施加了三重损失tri，其目的是最大化类间差异，同时最小化类内差异。具体地，对于每个输入图像x，我们对具有相同身份标签的正图像x_pos和具有不同身份标签的负图像x_neg进行采样以形成三元组。距离为-Tweenx和xpos/xneg可以计算为：dpos=vx−vxpos2，（5）dneg=vx−vxneg2，（6）ii=1能够将位置嵌入作为输入，其可以表示为其中vx，v x位置，vx阴性表示的特征向量如：F′=F + P。（一）图像x、x正和x负。然后，我们将三重态损失L_tri定义为然后，它产生表示小轨迹的视觉特征u，其中uRd（d表示视觉特征的维度）：L×添加规范线性Concat前馈AAAABBBBLCCCKCK添加规范Attnti*o*n*NNbNl ockProLjLieinncneiaaarnrrN多头注意N9839j=1j=1u=Hintra（F′）。（2）由于我们在给定的时间窗口大小期间具有k个轨迹W，我们将k个特征设置为：U={u j}k从Ltri=E（x，y）（X，Y）max（0，m+dpos−dneg），（7）其中m >0是用于定义位置图像对的距离dpos与图像对的距离dneg之间的差的裕度。因此，用于训练我们提出的网络的总损失L特征集：{F j}k 。L总=Lid +Ltri。（八）9840×个×个表2：ConstructSite、WILDTRACK和DukeMTMC数据集上基于视频的Re-ID的比较。粗体数字代表最佳结果。*表示代码未发布或不可用。施工现场Wildtrack火星DukeMTMC方法来源Rank1Rank5地图Rank1Rank5地图Rank1Rank5地图Rank1Rank5地图ResNet-50 [18]CVPR1669.794.473.170.488.957.584.393.879.194.598.392.7ETAP-网络[61]CVPR1872.393.471.371.288.758.480.892.167.483.694.678.3STA [13]*AAAI19------86.395.780.896.299.394.9GLTR [21]ICCV1978.294.675.175.889.259.787.095.878.596.299.393.7TKP [17]ICCV1977.294.073.877.691.359.684.093.773.394.0-91.7COSAM [44]ICCV1976.394.473.177.591.259.384.995.579.995.499.394.1[28]第二十八话BMVC1985.095.478.080.492.666.390.0-82.896.3-94.9VKD [33]ECCV2085.696.080.179.992.566.189.496.883.195.298.693.5AP3D [16]ECCV2085.495.880.580.392.167.090.1-85.596.3-95.6我们的（L=1）94.299.190.885.196.571.690.296.583.295.799.194.9我们的（L=3）默认94.799.391.085.596.872.091.497.083.896.499.495.2我们的（L=5）94.599.291.185.496.971.790.597.284.296.599.495.3包括特征编码器E、小轨迹内注意力Hintra和小轨迹间注意力Hinter的整个框架使用该损失被端到端地训练和更新。5. 实验5.1. 数据集为了评估我们的Re-ID方法，我们对具有重叠相机的两个数据集进行实验：我们的 ConstructSite 和WILDTRACK [4]，以及两个具有非重叠相机的基准数据集： MARS [69] 和 DukeMTMC-VideoReID [35 ，61]。施工现场。ConstructSite的详细信息见第3.2节。此外，我们将22个视频集（88个视频）分成两半进行训练/测试，每个分割有11个视频集（44个视频）。为了训练和测试目的，我们为每个摄像机准备地面实况关联轨迹。WILDTRACK [4]. Wildtrack数据集包括来自7个相机的400个同步帧这7个摄像机捕获行人的图像，并且边界框被标注为每秒2帧（fps）。该数据集总共有313个行人的身份，我们将前250个用于训练，剩余的63个用于测试，之后我们相应地裁剪了人物图像。MARS [69]. MARS是一个大规模的基于视频的个人重新识别基准数据集，具有1，261个身份的17，503个序列和3，248个干扰项序列。训练集包含625个身份，测试集包含636个身份DukeMTMC-VideoReID [61]. DukeMTMC-VideoReID数据集是另一个大规模的基准数据集，具有用于基于视频的人Re-ID的1，812个身份的4，832个轨迹。它源自DukeMTMC数据集[35]。数据集被划分为408、702和702个身份，分别用于分散注意力、训练和测试5.2. 实现细节我们将每个裁剪的人物图像在MARS，DukeMTMC和WILDTRACK中调整为256128，而在ConstructSite中调整为224224（正方形）。这是由于ConstructSite中的人的图像具有若干其他动作，例如蹲下或盘腿坐。对于[23，52]之后的每个轨迹片段，采样数T被设置为8用于MTMC跟踪的窗口大小被设置为W = 30。我们使用在ImageNet上预训练的ResNet-50作为特征编码器E的主干。另外两个注意力模块由L层的Transformer编码器组成，而L被选择为3。对于Transformer编码器在H帧间和H帧内的多头注意，我们将头的数量N设置为12。每个头部的尺寸dn被设置为256。 E、H_inter和H_intra的输出维度为2048。这两个注意力模块是随机初始化的。在我们所有的实验中，使用Adam优化器将学习率设置为1e-4。批量大小与训练DukeMTMC和MARS的k相同，k设置为32，但对于ConstructSite（k≤20）和WILDTRACK（k≤30），分别随窗口大小变化。5.3. 评估设置我们在两个实验设置上评估我们的模型：基于视频的Re-ID和MTMC跟踪。由于我们只关注跟踪算法，因此我们使用地面实况检测边界框进行Re-ID和MTMC跟踪。更多细节呈现如下。基于视频的Re-ID在评估过程中，我们使用地面实况tracklets测试模型，而没有跨相机的ID作为输入。也就是说，在此设置中不需要定义窗口大小（W），因为我们测试每个tracklet的整个tracklet。同步重叠非同步非重叠9841方法Wildtrack表3：施工现场MTMC跟踪比较。DeepSort [59]的默认窗口大小设置为30。方法施工现场IDF1IDPIDRGT tracklets+ ResNet-5066.5065.4266.71[28]第二十八话84.7287.1582.63[33]第三十三话85.2084.7486.91GT tracklets+ AP3D84.4883.6485.34GT tracklets+我们的92.3891.3193.47DeepSort [59] + ResNet-50 [18]30.0521.8440.16[28]第28话49.1640.0156.58[33]第59话：我的世界47.3536.4851.31DeepSort [59] + AP3D [16]47.5638.0453.50[59]第59话62.6961.9763.44表4：基于视频的Re-ID的注意力模块的消融研究。实验在WILDTRACK上进行。Rank1Rank5地图我们85.596.872.0我们的w/o位置嵌入84.296.371.4我们的洗牌T采样图像83.996.571.5Oursw/oHintra82.794.169.4我们的，不含Hinter78.590.267.3每个摄像头的身份 k表示测试集或每个视频中的整个轨迹片段，即，625用于MRS，1110用于DukeMTMC-VideoReID。我们采用的标准指标，在大多数基于视频的人Re-ID文献，这是用于生成排名精度的累积匹配曲线（CMC），和平均平均精度（mAP）。我们报告秩-1，秩-5的准确性和平均平均精度（mAP）进行评估。MTMC跟踪。对于MTMC跟踪，我们首先使用单摄像机跟踪方法，在边界框上具有默认窗口大小，以导出每个摄像机的候选轨迹。给定时间窗口中的所有轨迹片段k的数量取决于W。然后，我们应用Re-ID模型来关联它们和跨相机。另一方面，没有W用于使用地面实况可以didate tracklet。我们使用性能的ID度量[36]，其指示跟踪器识别目标位置的程度IDP（IDR）是被正确识别的计算的（真实）检测的分数。IDF1是正确识别的检测与真实和计算的检测的平均数的比率。ID度量首先计算真实身份和计算身份之间的1-1映射，该映射最大化真阳性，然后计算ID分数。表5：对用于MTMC跟踪（GT小轨迹）的注意力模块的消融研究。实验在ConstructSite上进行。方法施工现场IDF1 IDP IDR我们92.38 91.31 93.47我们的w/o位置嵌入90.21 91.25 92.41我们的洗牌T采样图像90.37 91.12 91.53我们的，不含H内部88.77 88.12 89.35我们的（不含内部）80.49 80.26 80.255.4. 结果和比较Re-ID。我们将我们的Re-ID 模型与一种基线方法（ResNet-50 [18]）和九种最先进的基于视频的Re-ID方法进行比较，包括ETAP-Net [61]，STA [13]，GLTR[21]，TKP [17]，COSAM [44]，[28]，VKD [33]，AP3D [16].我们在四个数据集上评估了我们的模型和这些方法，结果如表2所示。然而，对于在ConstructSite和WILDTRACK上的评估从表中可以观察到几种现象，我们将其归纳为两个方面。首先，我们的模型在ConstructSite和WILDTRACK上实现了最佳的Re-ID性能，这表明我们引入的轨迹间和轨迹内注意力模块有助于重叠相机的Re-ID。其次，我们的模型表现出可比的性能与其他两个非重叠的数据集上的最先进的。MTMC跟踪。为了将我们的Re-ID模型应用于MTMC跟踪，我们将我们的Re-ID模型与常见的单相机跟踪方法，即DeepSort [2]集成。为了更好地分析Re-ID模型的性能，我们使用每个相机的地面实况（GT）轨迹来进行实验。这允许我们排除来自单相机跟踪的误差。我们还将我们的方法与单基线（ResNet-50）和三种最先进的Re-ID方法进行了比较，其中包括NVAN [28]，VKD [33]，AP 3D [16]。 MTMC跟踪的结果呈现在表3中。还可以观察到若干现象。首先，我们的模型在两种设置上都取得了最佳结果：使用 GT tracklets 和DeepSort [2] ，这也证实了我们的 Re-ID 模型用于MTMC跟踪的有效性。其次，使用DeepSort [2]的模型表现出较差的跟踪性能。这是由于单摄像机跟踪通常产生碎片或导致单个摄像机内的多个ID切换的原因。5.5. 消融研究注意模块。为了进一步分析每个引入的注意模块的重要性，其中包括H inter9842表6：基于视频的Re-ID的每个模块中股骨头数量的消融研究。表8：MTMC跟踪窗口大小的消融研究。请注意，W=30是默认超参数。方法施工现场H内：24，H内：2485.496.972.2IDF1 IDP IDRH帧内：12，H帧内：12（默认）85.596.872.0DeepSort [59]+我们的：W=1562.35 61.31H内：6，H内：1284.9 96.369.7DeepSort [59]+我们的：W=3062.69 61.97 63.44H帧内：12，H帧内：685.2 96.471.0DeepSort [59]+我们的：W=6052.49 54.63H帧内：6，H帧内：679.3 95.464.5DeepSort [59]+我们的：W=12026.20 25.83H帧内：1，H帧内：175.7 91.962.7DeepSort [59]+我们的：W=36018.65 23.44 17.73表7：基于视频的Re-ID的采样因子T的消融研究。实验在WILDTRACK上进行。注意，增加T将导致更多的计算成本。方法WildtrackRank1Rank5地图我们的：T=177.488.563.0我们的：T=484.794.270.5我们的：T=8（默认）85.596.872.0我们的：T=1285.197.271.5我们的：T=1685.297.071.4消融研究的位置嵌入和定时的采样的T图像为每个tracklet。当位置嵌入被移除时，我们可以观察到轻微的性能下降。这推断出每个轨迹片段中的相关定时位置的特征对模型是重要的。另外，混洗每个轨迹片段中的采样图像也将由于定时信息的擦除而导致类似的性能下降。超参数。现在我们进一步讨论我们模型的设计。首先，我们在表7中给出了关于采样因子T的消融研究。我们可以观察到，不同数量的采样帧T将对采样帧T具有影响。和H帧内，我们进行了Ta中所示的消融研究模型性能然而，为了平衡计算成本和性能（在[23，52]之后），我们选择T=8表4和表5分别用于Re-ID和MTMC跟踪。首先，intra-tracklet多头注意力模块H intra被证明对我们的模型至关重要，因为当该模块被排除时，我们在WILDTRACK上的排名1处观察到3%的下降，在我们的ConstructSite上的IDF 1处观察到4%的下降。这是由于没有模块来学习轨迹片段内的时间关系。因此，我们不能将时间位置模式嵌入到每个轨迹片段的最具代表性的特征中。其次，在没有小轨迹间多头注意力模块H_inter的情况下，我们的模型将无法学习区分性特征以执行跨相机关联。这导致了较大的性能下降（WILDTRACK上的Rank1约为7%， ConstructSite上的IDF1约为10%）。多头关注中的头数我们在表6中呈现了具有不同数量的头部的我们的多头注意力的性能。从这个表中，我们可以看到，虽然这些超参数需要提前确定，但结果对它们的选择并不敏感。换句话说，具有足够数量的头部，模型将能够具有令人满意的性能。另一方面，在每个多注意力模块中仅由一个自注意力组成的模型（如先前的注意力方法对于Re-ID所做的那样）不能学习多个不同的特征。位置嵌入和时间同步。如表4和表5所示，我们还进行了另一个作为我们的默认超参数。其次，我们提出了对单摄像头跟踪器的窗口大小 W 的消融研究（ DeepSort[59]）。在表8中的MTMC跟踪中。由于当在单个相机中跟踪多个对象时，跟踪器将表现出诸如碎片和ID切换之类的误差，因此较大的窗口尺寸将导致更多的此类误差。因此，MTMC跟踪使用Re-ID模型的性能将受到相应的影响。6. 结论在本文中，我们提出了一个基于视频的Re-ID模型，通过Transformer的MTMC跟踪重叠相机。我们引入了inter-tracklet（人对人）注意模块来学习跨多个视图的tracklet之间的相关性。此外，我们还引入了另一个轨迹内（人特定的）注意力模块，用于学习每个轨迹中的运动和外观序列的代表性特征。在我们的ConstructSite和WILDTRACK上的实验证实了我们的模型对于Re-ID和具有重叠相机的未校准MTMC跟踪的有效性此外，我们的模型还成功地处理了非重叠相机的通用Re-ID，这在两个基准数据集上的实验中得到了证实。鸣谢：我们感谢清水株式会社的赞助和数据收集。方法Wildtrack等级1等级5mAP9843引用[1] Maryam Babaee，Ali Athar，and Gerhard Rigoll. 使用分层深度轨迹片段重新识别的多人跟踪。arXiv预印本arXiv：1811.04091，2018。二个[2] Alex Bewley、Zongyuan Ge、Lionel Ott、Fabio Ramos以及本·厄普克罗夫特简单的在线和实时跟踪。在IEEE国际会议上图像处理。，2016年。二、七[3] Xiaobin Chang，Timothy M Hospedales，and Tao Xiang.用于人员重新识别的多级分解网络。在IEEE会议Comput. 目视模式识别，2018年。二个[4] TatjanaCha vdarov a ， Pi erreBaque´ ， Ste´phaneBouquet ， An-drii Maksai ， Cijo Jose ， TimurBagautdinov，Louis Lettry，PascalFua，LucVanGool，andFran coisFleuret. Wildtrack：用于密集无脚本行人检测的多摄像头高清数据集。在IEEE会议Comput. 目视模式识别，2018年。三、六[5] 陈大鹏、李洪生、肖彤、易帅、奚-王奥刚。利用竞争性片段相似性聚合和共同关注片段嵌入的视频人重新识别。在IEEE Conf. Comput.目视模式识别，2018年。二个[6] Dapeng Chen，Dan Xu，Hongsheng Li，Nicu Sebe，andXi-王奥刚。基于深度crf的群体一致性相似性学习方法。在IEEE Conf. Comput. 目视模式识别，2018年。二个[7] De Cheng ， Yihong Gong ， Sanping Zhou ， JinjunWang，and Nanning Zheng.基于改进三重丢失函数的多通道部件cnn的人员再识别。在IEEE Conf. Comput.目视模式识别，2016年。二个[8] Qi Chu ， Wanli Ouyang ， Hongsheng Li ， XiaogangWang，BinLiu，and Nenghai Yu.基于cnn的单目标跟踪器与时空注意机制的在线多目标跟踪。在国际会议计算中目视，2017年。二个[9] Dahjung Chung，Khalid Tahboub，and Edward J Delp.两流连体卷积神经网络用于人再识别在IEEE Conf. Comput.目视模式识别，2017年。二个[10] Afshin Dehghan ， Shayan Modiri Assari ， and MubarakShah.Gmmcp跟踪器：多目标跟踪的全局最优广义最大多团问题。在IEEE Conf. Comput.目视模式识别，2015年。二个[11] Jacob Devlin、Ming-Wei Chang、Kenton Lee和Kristina图坦诺娃Bert：为语言理解而进行的深度双向转换器的预训练。arXiv预印本arXiv：1810.04805，2018。五个[12] Francois Fleuret，Jerome Berclaz ， Richard Lengagne ，and帕斯卡·福阿使用概率占用图的多摄像机人员跟踪。IEEE T

下载后可阅读完整内容，剩余1页未读，立即下载