基于时空图卷积网络的视频人物再识别

143 浏览量更新于2023-10-23 收藏 1.24MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3289具有相似外观的身份。基于时空图卷积网络的视频人物再识别杨金瑞1，3，郑伟世1，2，3，杨启泽1，3，陈颖聪4，田琦51中山大学数据与计算机科学学院2鹏程实验室，深圳5180053机器智能与先进计算教育部重点实验室4香港中文大学，中国5华为诺亚{yangjr27，yangqz}@ mail2.sysu.edu.cn，wszheng@ieee.org，yingcong.ian. gmail.com电子邮箱：huawei.com摘要近年来，基于视频的人物再识别（Re-ID）得到了越来越多的关注并取得了很大的进展，但如何有效地克服视觉相似负样本的遮挡问题和视觉模糊问题仍然是一个非常具有挑战性的问题另一方面我们某些身体部位在某些帧中被遮挡，但在其他帧中重新出现。（一）为缺失的相同补丁提供补充信息对不同（b）第（1）款结构上的大间隙。观察到，视频的不同帧可以提供彼此的互补信息，并且行人的结构信息可以为外观特征提供额外的因此，对不同帧的时间关系和帧内的空间关系进行在这项工作中，我们提出了一种新的时空图卷积网络（STGCN）来解决这些问题。STGCN包括两个GCN分支，空间分支和时间分支。空间分支提取人体的结构信息。时间分支挖掘来自相邻帧的辨别性线索。通过联合优化这些分支，我们的模型提取了与外观信息互补的鲁棒时空信息。如实验所示，我们的模型在MARS和DukeMTMC-VideoReID数据集上获得了最先进的结果1. 介绍广泛部署的闭路电视摄像机每天产生大量的视觉监控数据。这就带来了对自动监控视频的必要性的认识。由于隐私或经济问题，总是有不重叠的区域。因此，对非系统进行跟踪或活动分析是一项*通讯作者提供互补其他修补程序大间隙外观.(c)（d）其他事项图1.来自MARS数据集上的四个不同行人的四个图像序列。在（a）中，很容易发现相同的身体部位在某些帧中被遮挡，但在其他帧中重新出现。很容易以区分（c）和（d）的行人，因为他们在外观上有很大的差距。然而，仅使用外观特征不足以区分（b）和（d），但它们的身体结构信息是不同的。利用序列中各部分的时空关系可以缓解这些问题.重叠摄像头网络在这方面，至关重要的是在非重叠的相机视图中重新识别行人，这被称为人员重新识别（Re-ID）。现有的Re-ID方法可以分为两类，即，基于图像[10，13，31，29，36，74，60，27，1，56，59，51，30，68，69，49]和基于视频的[8，4，61，11]。基于图像的Re-ID将一个或多个图像作为输入，而不考虑时间信息。通常，它严重依赖于与衣服的颜色/质地相关的外观特征。当边界框不完美，或者存在噪声或遮挡时，基于外观的特征可能不太有效，并且基于图像的Re-ID在这种情况下可能无法很好地工作相比之下，通过采取3290短视频片段作为输入，基于视频的Re-ID可以利用更丰富的信息，这对于减轻基于外观的特征的限制是潜在有益的。为此，大多数基于视频的方法采用3D-CNN[24，42，50]，RNN/LSTM [63，66，75]或注意力机制[11，75，61，33，26，23]，以利用来自视频的时间然而，这些方法仅对跨不同帧的时间关系进行建模，而忽略了帧内或跨帧的身体的不同部位的潜在关系，其可能包含针对人Re-ID的更多区分性和鲁棒性信息。如图1（a）所示，人的不同身体部位在不同帧中被遮挡或未对准，这通常导致人Re-ID的性能退化然而，我们也可以观察到行人的一些斑块在某些帧中被遮挡，但在其他帧中重新出现。如果我们显式地利用不同帧之间的块的时间关系，这些块可以相互提供互补的信息，从而减轻遮挡和错位问题。另一方面，区分图1（c）和图1（d）中的行人是毫不费力的，因为他们的外观显著不同。然而，图1（b）和图1（d）中的行人在视觉上非常相似，并且在这种情况下，应用程序可能不足以区分。但是它们的身体结构信息（例如，身体形状）有明显的不同，这可以看作是与外观特征的互补，有利于识别。因此，通过对每个帧的补丁的空间关系进行建模来捕获结构信息也是重要的。受图卷积网络（GCN）强大的自动关系建模能力[20]以及GCN在计算机视觉中的成功应用的启发，我们提出使用GCN来建模不同补丁的关系。具体而言，我们通过连接不同帧的所有补丁来构建图以模拟节奏关系，旨在提供不同补丁之间的互补信息，从而可以减轻遮挡和未对准问题。另一方面，我们也考虑到帧内的结构信息，通过为视频中的每一帧构建补丁图来提供外观的补充信息。最后，一个统一的框架，即时空图卷积网络（STGCN），提出了同时建模的空间和时间的补丁在视频中的关系。虽然图形建模已经在个人Re-ID中看到，但这些方法在图像级别上构建图形[64，45]或忽略图像中的结构信息[57]。总之，我们的贡献如下。（1）采用GCN模型对同一帧内和跨帧的身体不同部位之间的潜在关系进行建模，为人们重新鉴定。（2）我们提出了一个统一的框架，该框架共同考虑了时间和结构关系，并且能够执行端到端的训练。大量的实验表明，我们提出的方法优于现有的最先进的方法在两个大规模的基于视频的人的Re-ID数据集。2. 相关工作基于图像的人Re-ID。现有的基于图像的个人Re-ID主要集中在设计有区别的手工特征[10，13，31，29，36，74，60]，距离度量学习[13，29，60，55，41，21，72，38，40，28，35，39，6，73，65，67，54，3]或深度学习[27，1，56，59，51，30，68，69，49]。然而，视频包含许多帧，并且时间信息是重要的。基于图像的方法缺乏对视频的时间关系的建模，因此这些方法对于基于视频的人Re-ID是次优的。基于视频的人重新识别。大多数基于视频的方法使用光流[8，4，37，61]，递归神经网络（RNN），时间池[71]或时空注意力来建模时间信息。具体来说，在[8，4，37，61]中，作者通过计算相邻帧之间的光流来提取人Re-ID的时间特征。然而，计算光流的过程是耗时的，并且光流对于遮挡和噪声是不够鲁棒的。至于基于RNN的方法[8，37，66，4，61，75]，如[12]所述，RNN对Re-ID任务中的时间信息建模效果有限与为所有帧分配相同权重的时间池化[71]相比，许多基于注意力的方法[11，75，61，33，26]从静态角度学习不同帧或部分的权重，即，分别考虑空间注意和时间注意。因此，这些方法没有充分考虑跨不同帧的身体部位的时间关系，并且效果有限。图神经网络方法。近年来，图卷积网络（GCN）及其变体[20，5，14，18]已成功应用于计算机视觉中的一些任务，例如基于图像的动作识别[62]，视频分类[52]和多标签图像识别[7]，因为它具有强大的关系建模能力。类似地，许多作品[57，64，45]也将GCN应用于人的Re-ID。具体而言，Yan et al. [64] Shenet al. [45]建立图像级的图模型，即：图的每个节点代表一幅图像，以考虑图像之间然而，这些方法是基于图像的，不考虑时间关系。此外，它们忽略了帧内或帧间不同身体部位的关系。特别地，Wuet al. [57]引入图神经网络，通过利用姿态对齐连接和特征亲和连接来实现相关区域特征之间的上下文怎么-3291（（12时间图模块颞支水平隔板构建图表结构图模块BN层ConcatFCCNN骨干空间分支推理阶段全局分支×3 ××特征图平均池化时间平均池化（平均池化图2.我们提出的方法的整体架构。输入视频有T帧，我们使用CNN主干来提取每帧的特征图。然后，将模型分为三个分支。对于时间分支和空间分支，我们将特征图水平地划分为P块。这些片被用作图中的节点。时间分支由一个时间GCN模块组成，该模块为每个视频构建一个图，以对不同帧上不同补丁的时间关系进行空间分支由一个结构化GCN模块组成，该模块为视频中的每一帧构建图形，以对帧内的补丁的空间关系进行建模。在全局分支中，我们对每个特征图执行平均池化，然后使用时间平均池化来聚合不同帧的特征。姿态信息提取需要额外的计算，并且它没有被集成到整个网络中以执行端到端训练，这可能导致次优结果。此外，该方法将所有帧的不同部位的特征连接起来，并且不对每个帧的身体部位的空间关系进行建模，忽略了帧内结构信息。与这些方法相比，本文提出了一种统一的时空GCN框架，在视频层对整个图像块的关系进行建模，在帧层对单个帧的结构信息进行建模，从而学习图像块之间具有区分性和鲁棒性的时空关系，以便于基于视频的Re-ID。3. 该方法如图2所示，我们提出的模型的架构由三个分支组成。上面的分支是时间分支用于从相邻帧上的片提取时间线索。中间分支是用于通过对斑块的空间关系建模来提取人体的结构信息的空间分支。最底层分支为全局分支，用于提取行人的外观特征.在接下来的章节中，我们首先在3.2节中介绍了补丁图的构造。在此基础上，我们进一步开发了第3.3节中的时态GCN模块和第3.4节中的结构GCN模块。3.1. 初步给定视频，我们将其表示为V={I1，I2，. . .，IT}，其中T是从视频采样的帧的数量。对于视频的每一帧，我们表示由骨干模型提取的帧作为F，F={F1，F2，. - 是的- 是的，F T}，（1）其中Fi是视频中第i帧的特征图，Fi∈Rh×w×c，其中h，w，c分别表示高，宽和通道数.每个特征图Fi被水平分割成P个块。然后对每个块进行平均池化处理，并对每个块的特征进行复制。怨恨的xi.因此，对于具有T帧的视频，补丁的总数为N=T·P。我们将视频的补丁表示为p i= 1，. - 是的- 是的.，N，得到的斑块特征向量为xi ∈ Rc，i =1，. - 是的- 是的、N.3.2. 补丁图构造为了探索和利用斑块之间的关系，我们使用GCN来建模斑块之间的关系设G（V，E）是由N个结点构成的补丁图，其中结点vi∈ V，边eij=（vi，vj）∈ E.在这里，每个补丁被视为一个节点和E中的边用来表示补丁之间的关系 A ∈ RN× N是邻接矩阵，其中每个元素表示一个两两的补丁的关系受[52]的启发，我们将图中每两个补丁之间的成对关系表示为：e（xi，xi）=φ（xi）Tφ（xi），（2）其中φ表示原始片特征的对称变换。更具体地，φ可以表示为φ=wx。参数w是d×d维权重，可通过反向传播学习。通过添加这样的转换，它允许我们自适应地选择和学习帧内或跨不同帧的不同块的相关性。...CHW.........3292不如图3所示，每个视频有N个补丁，然后我们使用所有补丁来构建时间图Gt（Vt，E t），其中Vt={x1，x2，. - 是的- 是的..对于时间分支，在相邻矩阵A1中，我们应用GCN来捕获整个视频的补丁的时间关系。我们建立了M层图，在我们的实施中。具体地，对于第 m 层（1≤m≤M），图卷积通过以下方式实现：图3.颞叶GCN分支的图示。不同颜色的边框意味着不同的补丁。在这个分支中，我们将每个特征图水平分割成P个块，那么对于一个采样T帧的视频，我们总共可以得到T·P个这些补丁被用作图的节点。我们可以得到视频的图形表示，表示为Gt（Vt，Et）。然后，我们在图上执行图卷积运算。最后，我们对GCN的输出使用最大池化来获得最终特征。然后，可以构造与G相关联的邻接矩阵A∈RN×N，这是GCN的关键组成部分，因为每个元素Aij反映了节点xi和节点xj的关系。然而，考虑到以下两个点，1）对于亲和矩阵的每一行，所有边缘值（即，连接到面片i）的边应该是1; 2）邻接矩阵的每个元素应该是非负的，系数应该在（0，1）的范围内;我们通过以下方式对邻接矩阵A的每行执行归一化操作：Ae2（xi，xj）Xm=A^tXm−1Wm。（五）其中X（m）∈RN× dm是m层所有面片的隐藏特征，dm是特征维数;X0∈RN× d是CNN主干得到的初始斑块特征;W（m）∈Rdm× dm是要学习的参数矩阵。在每一层图卷积之后，一个层Nor-附加了malization [2]层和LeakyReLU（负输入斜率α=0.1）。此外，我们的实验发现，使用快捷连接会更有效和稳定，如[15]，Xm：=Xm+Xm−1，2≤m ≤ M。（六）在图卷积之后，对于每个视频，时间GCN模块的输出是XM∈ RN× dM。最后，我们在XM上使用最大池化操作。因此，对于每个视频，我们可以获得其时间GCN功能：ft ∈ R1× dM，其中d M在我们的实验中被设置为2048。3.4.结构GCN模块基于图像的最具挑战性的困难之一（i，j）=N.（三）e2（x，x）人的重新识别是如何区分视觉上相似的身份，j=1i j根据Kipf和Welling[20]的方法，设An=A+In表示自环邻接矩阵，In∈RN×N是单位矩阵，我们可以用一个重正规化技巧，近似graph-Laplacian：A^=D−1AD−1，（4）实体，并且大多数基于图像的方法只能依赖于提取细粒度的外观特征。然而，在基于视频的人Re-ID中，结构信息（例如，形状信息）将更加完整和精确，因为每个视频具有许多帧，这些帧可以覆盖更多的视图和姿态。因此，结构信息可以提供额外的辨别信息，2 2加强Re-ID系统。其中D（i，i）=jA（i，j）。最后，我们可以得到核心-图G（V，E）的相应邻接矩阵A^，以便我们可以进一步对斑块的结构和时间关系进行建模。3.3. 时间GCN模块正如我们在第1节中所提到的，视频中不同帧的补丁可以提供互补信息，以减轻由遮挡和噪声引起的问题。在我们提出的模型中，时间GCN模块（TGCN）如图4所示，结构化GCN模块（SGCN）与TGCN不同。在TGCN中，我们使用不同帧的所有块来构造图，并且其旨在捕获跨帧的块之间的互补信息。而在SGCN 中，我们首先使用 GCN 为视频中的每个帧（即，每个帧具有GCN）。然后对视频帧的GCN特征进行融合，得到视频的内在结构特征。具体地，给定具有T帧的视频，GCN第i帧的第i我我我旨在捕捉时间动态关系在不同的帧上的补丁之间。{xi，1，xi，2，. - 是的- 是的，xi，P}（注意，下标i表示第i帧并且每个帧被划分为P个片）。3293........三重我我我我我我我....对于softmax交叉熵损失函数L softmax，在我们的实验中，我们将三种类型的特征f global，ft，fs连接起来作为最终特征，可以写为f all=[f global，ft，fs]，其中[·]表示连接。最后，我们使用特征fall来计算softmax cross-熵损失因此，总损失Ltotal是这两个损失的组合，如下所示：（（，）1 2GCN GCN GCNLtotal=Lsoftmax+L′.（九）012 34时间/秒4. 实验4.1. 数据集和评价方案图4.空间GCN分支的插图我们自主利用每一帧图像的块之间的关系，从视频序列中提取结构信息我们聚集所有的GCN的输出特征，形成视频的结构特征类似于TGCN，我们使用等式（2）（3）（4）来获得每个Gs（Vs，Es）的对应的相邻矩阵A^s数据集。我们在两个大规模的基于视频的人Re-ID数据集上评估我们提出的模型：DukeMTMC- VideoReID[58，53]和MARS [71]。MARS是最大的基于视频的个人重新识别基准数据集，具有17，503个序列，包括1，261个身份和3，248个鉴别序列。训练集包含625个身份测试集包含636个身份。DukeMTMC然后我们为第i帧建立一个K层图卷积对于第k（1≤k≤K）个图卷积层，详细操作可以写为Xk=A^sXk−1Wk，（7）其中Wk∈Rdk×dk，dk是特征维数.为了降低每个子GCN特征的维数，GCN的最终输出为XK∈RP×256;然后，我们使用最大池化操作，使得每帧特征的维数为256最后，视频的特征被连接，并且最终特征被表示为fs。3.5. 我们的模型和损失函数概述如图2所示，我们提出的模型由一个全局分支、一个时间分支和一个空间分支组成。全局分支提取每个视频的全局外观特征。基于TGCN的时间分支建模了不同帧之间的时间关系，用于学习时间信息，为其他时间块提供了完整的时间信息。SGCN的空间分支用于对每个帧的空间关系进行建模，以提取结构信息。我们使用批处理硬三重损失函数[16]和softmax交叉熵损失函数来训练网络。如图2所示，两个损耗公式分别表示为L triplet和L softmax。具体来说，在我们的实验中，我们分别计算了三种类型特征的每个三重损失。因此，最终的三重态损失可以表示为：VideoReID数据集是另一个大规模的基准数据集，具有1，812个身份的4，832个tracklet，用于基于视频的每个Re-ID。它来自DukeMTMC数据集[43]。数据集被划分为408、702和702个身份，分别用于分散注意力、训练和测试。绑定框是手动注释的。评估方案。在实验中，我们采用累积匹配特征（CMC）曲线和平均精度（mAP）来评估我们提出的方法的性能。4.2. 实现细节我们使用ResNet50 [15]作为我们的骨干网络，它首先在ImageNet [9]上进行了预训练。ResNet50的最后一个步幅设置为1。我们采用限制随机采样策略[26]，从每个视频每个图像的大小调整为256×128，随机水平翻转[32]用于数据增强。我们训练我们的网络总共有800个时期，初始学习率为0.0003，每200个时期衰减10。Adam [19]被选中来优化网络。以下[16]，我们对16个身份进行采样，每个身份有4个tracklet，以形成一批大小为16×4×8= 512的图像。对于GCN模块的参数，TGCNM中的GCN层的数量是3，SGCNK中的GCN层的数量是2，并且补丁的数量P是4。4.3. 与现有技术方法的为了验证我们提出的方法在基于视频的人Re-ID问题上的有效性，我们将我们提出的方法与最近几种最先进的方法进行了比较。的结果L′=Lglobal+Lt+Ls.（八）比较结果列于表1和表2中。我们三重三重三重三重聚合特征3294表1.性能（%）与MARS相关工作的比较。方法地图rank1rank5排名20[71]第71话15.5030.6046.2059.20IDE+XQDA [71]47.6065.3082.0089.00[75]第七十五话50.7070.6090.0097.60QAN [33]51.7073.7084.9091.60[22]第二十二话56.0571.7786.5793.08TriNet [16]67.7079.8091.36-马华[47]71.1777.17--DRSA [26]65.8082.30--DuATM [46]67.7381.1692.47-MGCAM [47]71.1777.17--PBR [48]75.9084.7092.8095.00CSA [4]76.1086.3094.7098.20STMP [34]72.7084.4093.2096.30M3D [24]74.0684.3993.8497.74[第11话]80.8086.3095.7098.10GLTR [23]78.4787.0295.7698.23Wu等人[五十七]81.189.896.197.6VRSTC [17]82.388.596.597.4Zhao等人[70]78.287.095.498.7[32]第三十二话81.288.9--STGCN（我们的）83.7089.9596.4198.28表2.性能（%）与DukeMTMC-VideoReID上的相关作品比较。方法地图rank1rank5排名20欧洲联盟[58]78.383.694.697.6[第58话]78.3483.6294.5997.58[32]第三十二话93.595.2--VRSTC [17]93.595.099.1-[第11话]94.9096.2099.3099.60GLTR [23]93.7496.2999.3099.71Wu等人[五十七]94.296.799.299.7STGCN（我们的）95.7097.2999.2999.72可以看到，我们提出的方法在两个数据集上的rank-1精度和mAP上都取得了最好的结果。具体而言，现有的基于注意力的方法（包括STA[11]，GLTR [23]）独立地处理不同的区域和因此，他们可能会错过一些识别Re-ID的线索。Zhao等人[70]需要extra属性标签，这限制了它的应用。至于M3D[24]，3D卷积运算在计算上是昂贵的并且对空间未对准敏感特别是，与其他基于图的方法[57]相比，我们提出的方法在两个数据集上都取得了更好的结果。主要原因可以分为两个方面：1）[ 57 ]中的姿态估计与整个框架分离，这可能导致次优结果，并且姿态对齐对姿态估计的质量敏感; 2）它没有显式地对每个帧的身体部位的空间关系建模，忽略了帧内的结构信息。总之，与现有方法相比，我们的亲-表 3. 在我们提出的方法中，单个组件的性能（ % ）。“SGCN+global”意味着我们在训练和测试期间只使用空间和全局分支，“TGCN+global”也是如此。对于基线模型，我们删除了时间分支和空间分支。“Ensemble” means we combine“SGCN+global” and “TGCN+global” by using score数据集火星DukeMTMC方法地图rank1地图rank1基线（仅全局分支）80.7688.7494.0896.01TGCN+全球SGCN+全球81.9782.1789.7089.8095.1294.5596.8796.44合奏82.6789.5594.6496.15STGCN（SGCN+TGCN+global）83.7089.9595.7097.29所提出的方法联合考虑了一个帧内和不同帧之间身体不同部位的潜在关系，这可以提供更多有区别的和鲁棒的信息，并且能够执行端到端训练。这些实验结果验证了我们的方法的优越性。4.4. 消融研究4.4.1两个GCN模块为了分别验证空间分支和时间分支的影响，我们分别在 STGCN 的相同实验设置下训练基线模型“SGCN+global”和 “TGCN+global”。 “SGCN+global”意味着我们在训练和测试期间只使用空间和全局分支，“TGCN+global”也是如此。对于基线模型，我们删除了时间分支和空间分支。“包容”意味着我们通过使用得分总和将“SGCN+global”和“TGCN+global”结合起来。实验结果报告于表3中。在表3中，“SGCN+global”和“TGCN+global”的性能高于基线模型的性能，这验证了每个GCN模块的有效性。因为基线模型（即，仅全局分支）不对块之间的关系建模，其包含更多区分性和鲁棒性信息。可以看出，STGCN和此外，通过比较STGCN和4.4.2图卷积的影响为了验证图卷积的有效性，我们将GCN中的层替换为全连接层，然后在相同的实验设置下进行训练和测试。具体地，考虑到单层GCN，等式（5）或（7）可以写为Y=AXW，其中A是相邻矩阵，X是输入，W是相邻矩阵的参数矩阵。3295表4.我们提出的模型与图卷积网络或全连接网络的性能（%）。对于基线模型，我们删除了时间分支和空间分支。“SGCN+global”意味着我们在训练和测试期间只使用空间和全局分支。“TFCN+SGCN+global”意味着我们在训练和测试期间将全局、空间和时间分支结合起来。其他的都差不多。图像序列无图基于图文(a)（b）第（1）款图5.类激活图（CAM）的可视化。第一行是来自MARS的原始图像序列。第二行是基线模型的类激活图第三行是我们提出的模型的类激活图。GCN层。另一方面，全连接网络（FCN）的公式可以写成Y=XW，其中X是输入，W是FCN层的参数矩阵。与GCN相比，FCN可以看作是去除了相邻矩阵A。因此，为了评估图卷积的影响，我们通过移除等式（5）和（7）中的所有相邻矩阵，将每个GCN模块的GCN层替换为全连接层。我们的模型有以下变体，包括：（1）“TFCN”是指TGCN中的GCN层被全连接层取代;（2）“SFCN”表示SGCN中的GCN层被全连接层替换;以及（3）“TFCN + SFCN”表示TGCN和SGCN中的GCN层都被替换。实验结果如表4所示。如表4所示，具有GCN模块的模型的性能显著高于不具有GCN模块的模型，并且全连接层的效果有限或可能是有害的。这是因为全连接层不能对不同块之间的关系进行建模，这样的方法不能进一步挖掘视频中的因此，图卷积运算和建模的时间和结构关系是必要的。4.5. 可视化类激活图的可视化。我们通过使用Grad- CAM [44]可视化图5中的类激活图（CAM）。我们可以观察到，我们所提出的方法的不同帧的类激活图在相同的区分区域具有更高的同时，我们不难发现，我们所提出的方法可以专注于更多的歧视性线索，利用空间和时间的补丁关系。检索结果分析。如图6所示，我们可以-对同一个人的检索结果进行比较。我们可以看到，我们提出的方法的前5个结果都是匹配的。然而，基线模型的Rank-4和Rank-5结果受到具有相似外观或遮挡的其他身份的样本的因此，检索结果证明我们提出的方法确实缓解了不同身份的相似外观和遮挡问题。4.6. 进一步分析4.6.1GCN模块在我们提出的模型中，TGCN和SGCN中的GCN层的数量分别表示为M和K我们进行了实验，以调查的GCN层的数量的影响，通过改变GCN模块之一，而冻结的其他。TGCN中GCN层数的影响。在这个实验中，我们固定SGCN中GCN层的数量（即，K=2），然后评估我们的模型在M = 2，3，4，5，6时的性能。从图7（a）中，我们可以看到最好的秩1是90。当M = 4时，最佳mAP为83。70%，则M=3。无论M=3还是M=4，结果都大大优于最先进的方法和基线。SGCN中GCN层数的影响。类似地，我们固定SGCN中的GCN层的数量（即，M=4），然后评估我们的模型在K=1，2，3，4时的性能。如图7（b）所示当K=2时，模型达到最佳性能。如图 7 所示， STGCN 的性能大多高于基线模型（即，mAP/Rank-1中为80.76%/88.74%），尽管GCN层的数量会影响模型的性能。我们还可以观察到，如果两个GCN模块太浅或太深，GCN的效果会降低。GCN的图卷积可以简单地看作是Laplacian平滑的一种特殊形式，它混合了一个顶点及其邻近顶点的特征。浅GCN不能有效地将节点信息传播到整个数据图。但当GCN太深时，它也带来了潜在的担忧，数据集火星DukeMTMC方法地图rank1地图rank1基线（仅全局分支）80.7688.7494.0896.01TFCN+全球80.6288.2894.3496.15TGCN+全球81.9789.7095.1296.87SFCN+全球81.1089.3994.2895.30SGCN+全球82.1789.8094.5596.44TFCN+SGCN+全球81.5189.2495.6297.15TGCN+SFCN+全球82.6589.9095.2496.30TFCN+SFCN+全球82.2788.9495.0396.15SGCN+TGCN+global（STGCN）83.7089.9595.7097.293296查询等级-1秩-2Rank-3 Rank-4 Rank-5查询Rank-1秩-2Rank-3四品五品类似外观(a) 基线模型闭塞(b) 我们提出的方法图6. (a)和（b）分别是基线模型和我们提出的方法在MARS数据集中的前5个检索结果。查询和图库都是图像序列。最好用彩色观看。秩-19290888684地图8786858483828180秩-19290888684地图8786858483828180p s=4。从图8中，我们可以观察到，我们提出的模型在一定程度上对图中的节点数量具有鲁棒性，并且这些实验的性能显著优于基线模型。但是，如果数字23456TGCN中的GCN层数1 2 3 4SGCN中的GCN层数每个帧的补丁太大或太小，性能(a)（b）第（1）款图7. (a)TGCN中GCN层数的分析（b）SGCN中GCN层数的分析。我们在MARS数据集上进行了这些实验。mance会下降。因为当斑块数量增加时，斑块会变得更小，不能包含足够的信息。相反，当补丁的数量太少时，补丁可能会忽略微妙但有区别的线索。秩-1919089888786852 48地图858483828191.090.590.089.589.088.588.0秩-12 48地图83.883.583.282.982.65. 结论在本文中，我们证明了有效的杠杆斑块的时间关系，以减轻闭塞问题和斑块的空间关系的disclusion，TGCN分支中的补丁数SGCN分支(a)（b）第（1）款图8. (a)TGCN中斑块数量的分析。(b)SGCN中补丁数量的分析。我们在MARS数据集上进行了这些实验。过度平滑[25]。4.6.2GCN模型中斑块数的分析图中节点的数量（即，补丁的数量）是GCN的另一个关键参数为了方便起见，我们将TGCN和SGCN中的每个帧的补丁的数量分别表示为Pt和Ps。TGCN中补丁数量的影响。在这个实验中，我们固定Ps=4，并评估当Pt=2，4，8时的结果。从图8（a）中，我们可以看到，当Pt=4时，模型实现了最佳性能。SGCN中补丁数量的影响。类似地，当我们分析Ps的影响时，我们固定Pt=4。如图8（b）所示，当对具有相似外观的歧义样本进行着色具体来说，我们提出了一种新的时空图卷积网络（STGCN），它包含两个核心GCN分支。空间分支通过对每帧图像的面片关系建模来学习人体的结构信息。时间分支可以通过对不同帧之间的补丁的时间关系进行建模来缓解遮挡问题此外，我们将空间分支和时间分支整合到一个统一的框架中，共同优化模型。大量的实验验证了该方法的有效性。6. 确认这项工作得到了部分支持国家重点研发计划（ 2016YFB1001002 ），国家自然科学基金（U1911401，U1811461），广东省科技创新领军人才（2016TX03X157）、广东省国家自然科学基金项目（编号：2018B030312002）、广州研究项目（201902010037）、浙江省实验室研究项目（2018B030312002）。2019KD0AB03）。等级-1时间轴等级-1（%）最大平均接入最大平均等级-1（%）等级-1最大平均接入最大平均时间轴3297引用[1] Ejaz Ahmed，Michael Jones，and Tim K Marks.一种用于人员重新识别的改进的深度学习架构。在IEEE计算机视觉和模式识别会议论文集，第3908-3916页，2015年。一、二[2] 吉米·雷·巴，杰米·瑞安·基罗斯，杰弗里·E·辛顿.层归一化。arXiv预印本arXiv：1607.06450，2016。4[3] Slawomir Bak和Peter Carr。用于人员重新识别的一次性度量学习。在IEEE计算机视觉和模式识别会议论文集，第2990-2999页2[4] Dapeng Chen，Hongsheng Li，Tong Xiao，Shuai Yi，and Xiaogang Wang.利用竞争片段相似性聚合和共同关注片段嵌入的视频人重新识别。 In Proceedings of theIEEE Conference计算机视觉和模式识别，第1169-1178页，2018年。一、二、六[5] 陈杰、马腾飞、曹啸。Fastgcn：通过重要性采样使用图卷积网络进行 arXiv 预印本 arXiv ： 1801.10247 ，2018。2[6] Ying-Cong Chen，Wei-Shi Zheng，Jian-Huang Lai，andPong C Yuen.人物再识别中跨视特征映射的非对称距离模型。IEEE transactions on circuits and systems for videotechnology，27（8）：1661-1675，2016。2[7] Zhao-Min Chen ， Xi-Shen Wei ， Peng Wang ， andYanwen Guo.用图卷积网络进行多标记图像识别。在IEEE计算机视觉和模式识别会议论文集，第5177- 5186页，2019年。2[8] Dahjung Chung，Khalid Tahboub，and Edward J Delp.一种用于人员再识别的双流连体卷积神经网络在IEEE计算机视觉集，第1983一、二[9] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议，第248-255页。Ieee，2009年。5[10] Michela Farenzena、Loris Bazzani、Alessandro Perina、Vit torio Murino和Marco Cristani。通过对称驱动的局部特征累积的人再识别。2010年IEEE计算机协会计算机视觉和模式识别会议，第2360-2367页IEEE，2010。一、二[11] Yang Fu，Xiaoyang Wang，Yunchao Wei，and ThomasHuang. Sta：用于大规模基于视频的人重新识别的时空注意力在美国人工智能促进协会会议录中。2019年。一、二、六[12] Jiyang Gao和Ram Nevatia。再论基于视频的人的时间建模。arXiv预印本arXiv：1805.02104，2018。2[13] 道格拉斯·格雷和海涛。具有局部特征集合的视点不变性足识别。欧洲计算机视觉会议，第 262-275页。Springer，2008. 一、二[14] Will Hamilton，Zhitao Ying，and Jure Leskovec.大图上的归纳表示学习。在神经信息处理系统的进展，第1024-1034页，2017年。2[15] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页，2016中。四、五[16] 亚历山大·赫尔曼斯、卢卡斯·拜尔和巴斯蒂安·莱布。为了防止三重丢失，进行人员重新鉴定。arXiv预印本arXiv：1703.07737，2017。五、六[17] Ruibing Hou ， Bingpeng Ma ， Hong Chang ， XinqianGu，Shiguang Shan，and Xilin Chen.Vrstc：无遮挡视频人物重新识别。在IEEE计算机视觉和模式识别会议论文集，第7183-7192页6[18] 黄文兵，张彤，于蓉，黄俊洲自适应采样实现快速图形表示学习。神经信息处理系统，第4558-4567页，2018年。2[19] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。5[20] Thomas N Kipf和Max Welling使用图卷积网络的半监督分类。arXiv预印本arXiv：1609.02907，2016。二、四[21] Martin Koestinger、Martin Hirzer、Paul Wohlhart、PeterM Roth和Horst Bischof。基于等价约束的大规模度量学习。在2012年IEEE计算机视觉和模式识别会议上，第2288IEEE，2012。2[22] Dangwei Li，Xiaotang Chen，Zhang Zhang，and Ka

下载后可阅读完整内容，剩余1页未读，立即下载