无监督re-id深度学习方法中的Tracklet关联

158 浏览量更新于2023-10-13 收藏 1.5MB PDF 举报

无监督学习

监控视频

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

通过深度学习轨迹关联的岷县李1、 2、下田朱3、韶钢龚21南京理工大学minxianli@njust.edu.cn2伦敦大学玛丽女王学院s. qmul.ac.uk3视觉语义有限公司eddy@visionsemantics.com抽象。大多数现有的人重新识别（re-id）方法依赖于对每相机对手动标记的成对训练数据的监督模型学习。这导致在实际的re-id部署中的差的可扩展性，这是由于缺乏针对每个相机对的图像正和负对的详尽身份标记。在这项工作中，我们通过提出一种无监督的re-id深度学习方法来解决这个问题，该方法能够在端到端模型优化中从视频中自动生成的人物轨迹数据中逐步发现和利用底层的re-id判别信息我们制定了一个Tracklet关联无监督深度学习（TAUDL）框架，其特征是通过最大限度地发现跨相机视图的最可能的tracklet关系，联合学习每个相机（相机内）tracklet关联（标记）和跨相机tracklet相关性。广泛的实验表明，所提出的TAUDL模型的优越性，国家的最先进的无监督和领域自适应的re-id方法使用六人re-id基准测试数据集。关键词：人的再识别;无监督学习; Tracklet;监控视频。1介绍人员重新识别（re-id）旨在匹配从非重叠相机视图中检测到的人员边界框图像的潜在身份[15]。近年来，已经引起了广泛的研究关注[1，7，10，11，14，18，29- 2931，44，46，53，58]以解决re-id问题。大多数现有的re-id方法，特别是深度学习模型，采用监督学习方法。这些有监督的深度模型假设每个相机对的大量手动标记的交叉视图身份（ID）匹配图像对的可用性，以便引入仅针对该相机对优化的特征表示或距离度量函数。这个假设在概括一个2M. Li，X. zhu和S. 龚因此，RE-ID模型到许多不同的摄像机网络不能在实际部署中缩放。毫不奇怪，通过无监督学习重新识别人已经成为最近研究的焦点，其中模型学习中不需要每相机成对ID标记的训练数据[22，24，25，32，35，37，47，49，55，59]。然而，所有这些经典的无监督学习模型的re-id性能显着弱这是因为缺乏交叉视图对ID允许在特定时间段内实现从相机感知ID辨别信息中提取的能力，以便处理每个相机对之间的显著视觉外观变化，如由三元组验证损失函数所定义的。一种替代方法是联合地利用（1）来自目标域的未标记数据，其是免费可用的，例如：成千上万的人每天在公共场景中通过相机视图旅行的视频;以及（2）来自独立源域的成对ID标记的数据集[13，38，43，50，56]。首先，主要思想是“视图-变量”从ID标记的源数据中恢复，然后通过仅使用未标记的目标数据使模型适应目标域。这种方法隐含地假设源域和目标域共享一些共同的跨视图特性，并且可以估计视图不变表示，这并不总是正确的。在这项工作中，我们考虑了一个纯无监督的人re-id深度学习问题。也就是说，没有假设ID标记的训练数据，既没有跨视图ID标记，也没有视图内ID标记。虽然这个学习目标类似于两个域转移模型[13，50]，但这两个模型都需要合适的，即在视觉上类似于目标域的个人身份标记的源域训练数据。具体地，我们考虑通过联合优化相机视图内的未标记的人轨迹片段数据以使其更具区分性并且跨相机视图以端到端的方式更具关联性来进行无监督的re-id模型学习。我们的贡献是：我们制定了一种新的无监督的人re-id深度学习方法，使用人的轨迹，而不需要相机成对ID标记的训练数据，即。无监督的轨迹片段重新识别区别学习。具体地，我们提出了具有两个关键创新的Tracklet关联无监督深度学习（TAUDL）模型：（1）每相机跟踪标签区分（Per-Camera TrackletDicrimiminatintionLe），其具有用于在给定每相机独立创建的跟踪标签空间的情况下促进跨相机跟踪关联的“局部”的相机跟踪标签区分。（2）跨相机轨迹关联（Cross-Camera TrackletAssoci-ation）允许最大“全局”相机轨迹跟踪。这被公式化为在端到端深度学习框架中联合最大化跨相机轨迹片段相似性和相机内轨迹片段相异性对比实验表明，TAUDL的优势超过状态-最先进的无监督和领域适应的人re-id模型，使用六个基准，包括三个基于多拍摄图像和三个基于视频的re-id数据集：CUHK 03 [29]，Market-1501 [61]，DukeMTMC [41]，iLIDS-VID [51]，2019年10月19日，《易经》（卷19）：1针对每个相机对的人图像对的详尽的手动ID标记是极其昂贵的，因为在网络中存在二次数量的相机对通过深度学习Tracklet关联的无监督人员重新识别32相关工作大多数现有的re-id模型是通过在单独的一组每个相机对ID标记的训练数据上进行监督模型学习来构建的[1，7因此，它们的可扩展性和可用性对于真实世界的重新部署是差的，其中没有这样的大训练集可用于每个相机对。与基于监督学习的re-id模型相比，基于手工制作特征的经典无监督学习方法的re-id性能较差[14，22，24，25，32，35，37，47，49，55，59]虽然可以通过半监督学习[33，49]实现模型可扩展性和re-id准确性之间的平衡权衡，但这些模型仍然假设足够大的跨视图成对标记数据用于模型训练。最近，有一些关于领域自适应模型的非监督学习的尝试[13，38，43，50，56]。其主要思想是通过对未标记的目标域数据进行模型自适应，在一个“相关”的源域上对新的数据进行扩展虽然这些域自适应模型的性能优于经典的无监督学习方法（表2和表3），但它们需要标记的源域和未标记的目标域之间隐含相似的数据分布和查看条件。获取域名。这限制了它们的可扩展性，以任意多样的（和未知的）目标域。与所有这些现有的无监督学习re-id方法相比，所提出的基于tracklet关联的方法使得能够从头开始进行无监督re-id深度端到端学习，而无需对源域和目标域之间的场景特征相似性或处理模型优化中的身份标签空间（或缺乏）知识转移相反，我们的方法直接学习从使用公共深度学习网络架构从视频数据自动生成和注释的无监督tracklet标签数据中发现re-id判别知识。此外，该方法不假设人ID类跨相机视图的任何重叠，因此可扩展到任何相机网络，而无需关于相机空间-时间拓扑和/或人交叉视图出现模式的时间分析的任何知识[36]。与依赖额外手工特征的经典无监督方法相比据我们所知，这是第一次尝试基于无监督tracklet关联的person re-id深度学习模型，而不依赖于任何ID标记的训练数据（视频或图像）。3无监督深度学习Tracklet关联为了克服监督re-id模型训练的局限性，我们提出了一种新的Tracklet关联无监督深度学习（TAUDL）方法，通过独特地利用由无监督tracklet形成（采样）获得的每个tracklet标记来在4M. Li，X. zhu和S. 龚不SS2照相机1摄影机1…照相机2…11SSTT22CNN112共享1要素图层1n不2522米3摄像机2(a)（b）第（1）款稀疏时空Tracklet采样和注释摄像头中的Tracklet图像摄影机t中的轨迹片段标签相机中的交叉熵损失t交叉相机轨迹关联损失Fig. 1. Tracklet关联无监督深度学习（TAUDL）re-id模型的概述：（a）每相机无监督tracklet采样和标签分配;（b）在来自所有相机的tracklet的端到端全局深度学习中，相机内tracklet辨别和跨相机tracklet关联的联合学习在没有训练数据的任何ID标记（交叉视图或视图内）的情况下，使用机制2TAUDL以端到端的方式训练人员re-id模型，以便从深度学习的固有整体模型优化优势中受益在下文中，我们首先提出了一种用于无监督摄像机内轨迹标记的数据采样机制（第二节）。3.1)然后描述我们通过联合无监督深度学习进行跨摄像机轨迹关联的模型设计（Sec.3.2）。3.1无监督视图内轨迹标签给定来自多个不相交摄像机的大量视频数据，我们可以很容易地部署现有的行人检测和跟踪模型[26，42，57，62]，以提取人的轨迹。通常，由于不完美的跟踪和背景杂乱，来自公共场景的单相机视图中的人的时空轨迹可能被分割成任意数量的短轨迹考虑到每个摄像头有大量的人物tracklet，我们希望以无监督的方式对它们进行注释，以进行深度re-id模型学习，而无需对tracklet进行任何为此，我们需要一种自动tracklet标记方法来最小化人员ID重复（即多声道2虽然对象轨迹可以由当今广泛可用的任何独立的单摄像机视图多对象跟踪（MOT）模型生成，但是传统的MOT模型并没有针对跨摄像机轨迹关联进行端到端优化。SSTTSSSS…通过深度学习Tracklet关联的无监督人员重新识别5OTracklet #6Tracklet #3Tracklet #5Tracklet #2Tracklet #4Tracklet #1P+(a)时间采样时间（b）空间抽样图二.用于无监督轨迹标记的稀疏空间-时间轨迹采样和注释方法的说明实线框：采样轨迹;虚线框：未采样轨迹;每种颜色代表一个不同的人ID。（a）具有大于相机视图的共同渡越时间Q的时间间隙P的多个相机的两个时间间隔（Si和Si+1，由垂直渡越线确定）。(b)在给定的时间采样实例处形成三个空间稀疏轨迹。标签对应于相同的人ID标签）在这些标记的小轨道之间的比率为此，我们提出了一种稀疏空时轨迹（SSTT）采样和标签分配方法。我们的SSTT方法建立在监控视频中典型的三个观察结果上：（1）对于大多数人来说，在短时间内重新出现在相机视图中是罕见的因此，在自动生成的人物轨迹片段中导致人物轨迹片段重复（具有相同ID）的主要因素是轨迹碎片化，并且如果我们为每个轨迹片段分配不同的标签。为了解决这个问题，我们执行轨迹片段的稀疏时间采样（图1）。（i）在对应于时间点S1的第i个时间采样实例处，我们检索时间S1处的所有轨迹片段，并且用不同的标签注释每个轨迹片段这是基于以下因素：（2）在单个视图中同时但在不同空间位置处共同出现的人应当具有不同的ID标签。（ii）给定时间间隙P，重复下一个（第i+1个）时间采样和标签分配，其中P控制时间采样率的稀疏性。基于公共场景中的大多数人在公共时间段Qp中行进通过单个相机视图的观察（3）<，预期可以以这样的稀疏时间采样率对每个人至多一个轨迹片段进行采样（假设在同一相机视图之外没有重新出现一次）。因此，即使在具有更大程度的轨迹碎片的高度拥挤的场景中，我们也可以显着减少ID重复。为了进一步减轻在每个时间采样实例处的不准确的人检测和跟踪的负面影响，我们进一步施加稀疏空间采样约束-第2段（b）分段）。在这样做时，轨迹片段标签更可能是独立的个人身份，在每个第i个时间采样实例中具有最小ID重复。Tracklet #2Tracklet #3Tracklet #16M. Li，X. zhu和S. 龚照相机1…（一）2 3 4 5 6七八照相机2…照相机1…（b）第（1）款底层轨迹关联…照相机2通过在每个摄像机视图中部署该SSTT轨迹片段标记方法，我们可以在摄像机网络中获得每个摄像机的独立的标记轨迹片段集合{Si，yi} ，其中每个轨迹片段包含变化数量的人边界框，如 S={I1 ，I2，· · ·}。我们的目标是使用这些SSTT标记的轨迹来优化跨视图人员re-id深度学习模型，而无需任何跨视图ID标记的成对训练数据。3.2无监督Tracklet关联给定由SSTT生成的每个相机独立标记的轨迹{Si，yi}，我们在常规分类深度学习框架中执行轨迹标签re-id判别学习，而无需人员ID标签。为此，我们建立了一个Tracklet关联无监督深度学习（TAUDL）模型。我们的TAUDL架构的总体设计如图所示。1. TAUDL包含两个模型组件：（I）每摄像机轨迹片段鉴别，其具有用于在不同摄像机视图中给定独立创建的轨迹片段标签空间的情况下促进跨摄像机轨迹片段关联的“局部”（具有摄像机）轨迹片段鉴别。（II）交叉相机跟踪器集合A支持具有“全局”（交叉相机）轨迹片段标签关联的跟踪器。这两个组件作为一个整体集成在一个深度学习网络架构中，以增量的端到端方式联合学习并相互受益。图3.第三章。使用TAUDL比较（a）用于监督人re-id模型学习的细粒度显式实例级交叉视图ID标记图像对和（b）用于ID无标记（无监督）人re-id学习的粗粒度潜在组级(I) 对于准确的跨相机轨迹片段关联，重要的是制定用于描述每个轨迹片段的人外观的鲁棒图像特征表示，其有助于跨视图人重新识别关联。然而，仅使用具有“全局”缓存或恢复的全局缓存来实现“局部”缓存限制是次优的。We通过深度学习Tracklet关联的无监督人员重新识别7Kcece希望联合优化局部轨迹片段视图内辨别和全局轨迹片段跨视图关联。为此，我们设计了一个每摄像机轨迹识别（PCTD）学习算法。我们的关键思想是，而不是依赖于传统的细粒度显式实例级跨视图ID成对监督学习（图1）。3（a）），我们学习通过集合相关性来最大化粗粒度潜在组级跨相机轨迹关联（图3（a））。第3（b）段）。具体来说，我们对待每个单独的摄像机视图分别通过优化每个摄像机标记的tracklet歧视作为一个分类任务对tracklet标签每个摄像机（不是人ID标签）。因此，我们总共有T个不同的轨迹片段分类任务，每个任务对应于特定的相机视图。重要的是，我们进一步在多分支架构设计中制定这些T个分类任务，其中每个任务共享相同的特征表示，同时享有单独的分类分支（图1B）。（b）款。从概念上讲，这种模型设计符合多任务学习原则的精神[2，12]。形式上，给定从相机视图t ∈ {1，...，T}提取的无监督训练数据{I，y}，其中I指定轨迹片段帧，并且y ∈ {1，...，M t}是轨迹片段标签（如在第2节中获得）。3.1）在总共Mt个不同标签的情况下，我们采用softmax交叉熵（CE）损失函数来优化相应的分类任务（第t训练图像样本（I，y）上的CE损失被计算为：. e x p （W x）ΣLce=−log ΣMtk=1yexp（Wx）、（1）其中，X指定由任务共享特征表示组件提取的I的特征向量，并且Wy指定第y类预测函数参数。给定一个小批量，我们计算每个这样的训练样本的CE损失w.r.t.相应的轨迹片段标签空间，并利用它们的平均值来形成模型学习监督，如：Lpctd=1NBSΣTt=1Lt，（2）其中Lt表示来自第t个训练样本的CE损失总和。相机之间的总T和Nbs的批量大小。讨论：在PCTD中，深度学习目标损失函数（等式10）可以是：(1))旨在通过监督学习来优化每个相机视图内的人轨迹片段区分，而无需任何关于跨相机轨迹片段关联的知识。然而，当一起联合学习所有每相机轨迹片段辨别任务时，由于跨相机轨迹片段相关性的存在，所学习的表示模型在某种程度上以潜在方式隐含地和集体地跨视图轨迹片段辨别。换句话说，共享特征表示被同时优化为对于多个相机视图中的轨迹片段区分是有区别的，因此将模型区分学习从每相机传播到跨相机。我们将在实验中评估该模型设计的效果（表4）。8M. Li，X. zhu和S. 龚我我我我我我我我(II) 虽然上述PCTD算法隐式地实现了某种程度上的全局（所有相机视图）轨迹片段辨别，但是由于缺乏在细粒度实例级别显式地优化跨相机轨迹片段关联，所学习的模型表示保持次优。在没有相机成对ID标签的情况下，实施跨视图人重新识别判别模型学习要困难得多为了解决这个问题，我们引入了跨相机轨迹关联（CCTA）损失函数。CCTA损失是基于在共享的多任务学习特征空间中逐批增量对齐每个轨迹片段特征分布的交叉视图的思想来制定的。至关重要的是，CCTA与PCTD无缝集成，以在单个端到端批量学习过程中共同优化模型学习，发现用于人员re-id形式上，给定包括tracklet的子集{（St，yt）}的小批量，其中我我St指定第t个摄像机视图中的第i个轨迹片段，标签为yt。哪里小批量中的轨迹子来自所有摄像机视图，我们想要为每个批量中的轨迹子建立与来自不同摄像机视图的其他轨迹子的区别性关联。在没有人的身份成对标记作为学习约束的情况下，我们建议在每个小批量中对齐相似和不相似的轨迹更具体地说，对于每个轨迹片段St，我们首先在特征空间中检索K个跨视图最近轨迹片段Nt，其中将N〜 t个onided 如果我们有这么多的分歧-通过鼓励模型将Nt拉近St，同时我我topusawayyN〜 tfromSt. 事实上，这是一个非常好的访问记录-我我结构分布对齐。为了实现这一点，我们制定了CCTA深学习训练小批量中的每个轨迹片段St的目标损失为：Σexp（−1st−z）Lccta=−logΣzk∈NtΣi2σ2iK2、（3）TNJ exp（−1st−st′）t′=1j =12σ2ij2其中，nj表示来自第j个摄像机视图的批量轨迹片段的数量，T是摄像机视图数量，σ是缩放参数，St是轨迹片段St的最新特征表示。鉴于增量迭代深度学习的性质，我们通过在运行中或在运行中对它的访问进行动态访问来实现。因此，轨迹片段表示被保持为最新的，而不需要维护外部的每轨迹片段特征表示。讨论：在分布对齐方面，提出的CCTA损失公式在概念上类似于直方图损失[45]。然而，直方图损失是需要监督标签训练数据的监督损失，而CCTA纯粹是无监督的并且直接从特征相似性度量导出CCTA还与基于替代（人工构建）类的无监督深度学习损失公式[4，5]相关，因为在模型训练中不需要groundtruth类标记的数据与CCTA不需要创建代理类不同，基于代理的模型不仅需要额外的全局数据聚类，而且对聚类质量和初始特征通过深度学习Tracklet关联的无监督人员重新识别9（a））（一）d）、（（一）（b）第（1）款（c）第（1）款（d）其他事项（e）（f）第（1）款见图4。示例交叉视图匹配图像/tracklet对来自（a）CUHK 03，（b）Market-1501，（c）DukeMTMC，（d）PRID 2011，（e）iLIDS-VID，（f）MARS。选择. 此外，它们没有考虑跨相机和标签空间的标签分布对齐，CCTA损失被设计用于所述相机和标签空间。在合并CCTA和PCTD学习约束之后，我们得到最终的模型目标函数为：Ltaudl=（1−λ）Lpctd+λLccta，（4）其中λ是通过交叉验证估计的加权参数。请注意，Lpctd是轨迹片段个体图像级处的平均损失项，而tracklet组（集合）级别，两者同时从相同的训练批次导出。因此，整个TAUDL方法自然能够使用随机梯度下降优化算法进行端到端的深度模型学习。4实验数据集为了评估提出的 TAUDL 模型，我们测试了视频（MARS[60]，iLIDS-Video [51]，PRID 2011 [19]）和图像（CUHK 03[29]，Market-1501[61]，DukeMTMC [41，62]）基于人员重新识别基准数据集。在以前的研究中，这些数据集大多是单独评价的。我们认为，由于最近的基于大尺寸图像的re-id数据集通常是通过从视频中采样人物边界框来构建的我们在训练/测试ID分割和测试协议上采用了标准人员重新ID设置（表1）。对于所有六个数据集，由于没有关于空间和时间位置的可用信息，我们无法执行真实的SSTT轨迹采样和标签分配。原始视频数据。在我们的实验中，我们进行了模拟SSTT，以获得每个相机的轨迹/图像标签。对于所有数据集，我们假设每个相机没有重新出现的主题（在这些数据集中非常罕见）和稀疏的空间采样。由于iLIDS-VID和PRID 2011两者每摄像机每ID仅提供一个轨迹片段（即，没有碎片），因此不可能具有每个摄像机的ID复制。因此，每个轨迹片段都被指定了唯一的标签。MARS为每个ID每个摄像机提供多个tracklet10M. Li，X. zhu和S. 龚我表1.数据集统计和评估设置。数据集编号#火车测试次数图像数量#TrackletiLIDS-VID [51]30015015043,800600[19]第十九话178898938,466354火星[60]1,2616256361,191,00320,478香港中文大学03[29]1,46776770014,0970市场-1501 [61]1,50175175032,6680DukeMTMC [41]1,8127021,11036,4110基于SSTT，对于每个摄像机的每个ID，最多只能采样一个轨迹片段第3.1节）。因此，随机选择每个ID每个相机的MARS tracklet并分配标签。对于所有基于图像的数据集，我们假设每个摄像机每个ID的所有图像都是从单个tracklet绘制的，与iLIDS-VID和PRID 2011中相同采用与上述相同的轨迹片段标签分配过程性能指标我们使用常见的累积匹配特征（CMC）和平均精度（mAP）指标[61]。我们采用ImageNet预训练的ResNet-50 [17]作为评估所提出的TAUDL方法的骨干。我们将在ResNet- 50上导出的相机共享表示空间的特征维度设置为2，048。每个相机特定分支包含一个FC分类层。对于所有数据集，人物图像的大小调整为256×128为了确保每个批次都有能力包含来自所有相机的人物图像，我们将所有数据集的批次大小设置为384为了平衡不同相机的模型学习速度，我们在对每个小批次进行采样时，随机选择每个相机相同数量的训练帧图像我们采用了Adam优化器[23]，初始学习率为3。5×10−4。我们根据经验设定λ = 0。7为Eq。（4），对于等式（4），σ= 2。(3)，并且对于等式（1）中的交叉视图最近轨迹段Nt，K=T/ 2（T(3)所有的实验。(a)与最新技术水平的比较我们比较了两套不同的国家的最先进的方法对图像和视频re-id数据集，由于他们在文献中的独立研究。表2显示了所提出的TAUDL和10种最先进方法的无监督重新识别性能，包括3种基于手工特征的方法（Dic [25]，ISR [32]，RKSL [49]）和7种基于辅助知识（身份/属性）转移的模型（AE [27]，AML [54]，UsNCA [40]，CAMEL [56]）、JSTL [53]、PUL [13]、TJ-AIDL [50]）。这些结果表明：（1）在现有的方法中，基于知识转移的方法是优越的，例如在中大03，排名-1 39. 4%由CAMEL与Dic为36.5%;上市-1501，TJ-AIDL为 58.2%，而50.2%的Dic。为此，CAMEL受益于对不同领域的7个不同人员re-id数据集的学习（CUHK 03 [29]，CUHK 01 [28]，PRID [19]，VIPeR [16]，3DPeS [3]，i-LIDS[39]，Shinpuhkan [21]），包括总共44，685张图像和3，791个识别; TJ-AIDL使用标记为Market-1501（750个ID和27个属性类）通过深度学习Tracklet关联的无监督人员重新识别11表2.图像数据集上的无监督re-id。第一/第二最佳结果为红色/蓝色。数据集香港中文大学03 [29]市场-1501 [61]DukeMTMC [62]公制（%）秩-1地图秩-1地图秩-1地图迪科[25]ISR [32]RKSL [49]36.538.534.8---50.240.334.022.714.311.0------严重不良事件[27]30.5-42.416.2--JSTL [53]33.2-44.718.4--AML [54]31.4-44.718.4--美国国家计算机协会[40]29.6-45.218.9--骆驼[56]39.4-54.526.3--PUL [13]--44.720.130.416.4TJ-AIDL [50]--58.226.544.323.0陶德勒44.731.263.741.261.743.5GCS [6]（监督）88.897.293.581.684.969.5或DukeMTMC（702个ID和23个属性类）作为源训练数据。(2)我们的新型号TAUDL以显著的利润率胜过所有竞争对手。例如，在Market-1501和DukeMTMC上，TAUDL相对于TJ-AIDL的Rank-1利润率分别为5.5%此外，值得指出的是，与TJ-AIDL相比，TAUDL不受益于任何额外的标记源域训练数据。由于不需要考虑源域和目标域的相似性，TAUDL可能更具可扩展性。(3)与PUL所需的交替深度CNN训练和聚类以及TJ-AIDL的两阶段模型训练相比，我们的TAUDL更容易通过简单的端到端模型学习进行这些结果显示了所提出的TAUDL模型的性能优势和模型设计的优越性，超过了各种各样的最先进的re-id模型。表3.视频数据集上的无监督re-id。第一/第二最佳结果为红色/蓝色。数据集[19]第十九话iLIDS-VID [51]火星[60]公制（%）R1R5R20R1R5R20R1R5R20 地图[37]41.7 67.190.131.5 62.1 82.4----GRDL [24]41.6 76.489.925.7 49.9 77.619.3 33.2 46.59.56[22]第二十二话58.1 81.996.035.9 63.3 83.4 22.3 37.4 53.610.6SMP [35]80.9 95.6 99.4 41.7 66.3 80.723.9 35.8 44.910.5DGM+MLAPG [55]73.1 92.5 99.0 37.1 61.3 82.024.6 42.6 57.211.8DGM+IDE [55]56.4 81.396.436.2 62.8 82.7 36.8 54.0 68.5 21.3陶德勒49.4 78.798.926.7 51.3 82.0 43.8 59.9 72.8 29.1[34]第三十四话90.3 98.2 100.068.0 86.8 97.473.7 84.9 91.651.712M. Li，X. zhu和S. 龚我们将所提出的TAUDL与六个最先进的无监督视频人re-id模型进行了比较。与TAUDL不同，所有这些现有模型都不是端到端的深度学习方法，其具有手工制作或单独训练的深度特征作为模型输入。表3示出了TAUDL在大规模视频数据集MARS上优于所有现有的基于视频的人re-id模型，例如与最佳竞争产品DGM+IDE相比，Rank-1边际为7.0%（43.8-36.8）（其额外使用一个摄像机视图的ID标签信息进行模型初始化）。然而， TAUDL 在两个小的基准 iLIDS-VID （ 300 个训练tracklet）和PRID 2011（178个训练tracklet）上比一些现有模型差这表明TAUDL确实需要来自较大视频数据集的足够tracklet数据，以便具有其性能优势。由于所需的轨迹片段数据不是手动标记的，因此该要求不会妨碍其对大规模数据的可扩展性。恰恰相反，TAUDL在大规模未标记视频数据可用时工作得最好。模型将特别受益于使用TAUDL对来自类似相机观看条件的大型辅助未标记视频数据进行预训练。(b)成分分析与讨论通过比较基线来评估PCTD组件，所述基线通过级联每相机轨迹片段标签集并部署交叉熵损失来学习统一的分类任务而将所有相机我们称之为基线联合相机分类（JCC）。在该分析中，我们不考虑跨相机轨迹关联组件以进行清楚的评估。表4显示我们的PCTD设计明显优于 JCC 学习算法，例如：在 CUHK 03 、 Market-1501 、DukeMTMC和MARS上分别实现了4.0%、34.6%、36.3%和19.9%的一级这验证了所提出的每相机轨迹区分学习方案在诱导交叉视图重新识别区分特征学习中对无监督轨迹标签的建模优势表4.每相机轨迹识别（PCTD）学习的效果。数据集香港中文大学03 [29]市场-1501 [61]DukeMTMC [41]火星[60]公制（%）R1地图R1地图R1地图R1地图JCC29.812.517.57.914.93.518.113.1PCTD33.818.952.126.651.232.938.0 23.9跨相机轨迹关联的有效性CCTA学习组件通过测试消除它之后的性能下降来评估。表5显示了该模型组件的显著性能优势，例如，在 CUHK 03 、 Market- 1501 、 DukeMTMC 和 MARS 上分别有10.9%、11.6%、10.5%和5.8%的Rank-1提升。这证明了…的重要通过深度学习Tracklet关联的无监督人员重新识别13以端到端的方式对相机之间的相关性进行判别优化和此外，这也表明了PCTD模型组件通过以联合增量学习方式提供re-id敏感特征来促进跨视图身份辨别学习的有效性。表5.交叉相机轨迹关联（CCTA）的效果数据集香港中文大学03 [29]市场-1501 [61]DukeMTMC [62]火星[60]CCTAR1地图R1地图R1地图R1地图✗33.818.952.126.651.232.938.023.9✓44.731.263.741.261.743.543.8 29.1模型鲁棒性分析最后，我们对tracklet标记中的人物ID重复率进行了模型鲁棒性分析。我们对MARS进行了受控评估，其中每个ID每个摄像机的多个tracklet可用于设置模拟。回想一下，ID重复可能主要伴随着由于轨迹碎片而导致的不完美的时间采样，并且当一些人在比时间采样间隙更长的时间段内停留在同一相机视图中时。为了模拟这种情况，我们假设每个摄像机的不同百分比（10% 〜 50%）的ID具有两个随机的tracklet采样并使用不同的tracklet标签进行注释。每个摄像机的每个ID可能会采样更多的tracklet，这可能会使此分析更加复杂，因为重复的人员ID数量会造成干扰。表6显示我们的TAUDL模型对ID重复率是稳健的，例如在每个摄像机ID重复率高达50%的情况下，仅下降了3.1%的实际上，最小化tracklet之间的ID重复率并不太难（第12节）。3.1），例如在时间和空间上进行非常稀疏的采样请注意，我们不关心在给定时间段内对来自视频的所有tracklet的穷举采样模型学习受益于来自大量未标记视频数据的非常稀疏和多样化的轨迹采样我们的TAUDL的稳健性包含两个模型组件：（1）模型学习优化不仅受到单个每相机轨迹片段标签约束，而且还同时受到所有相机的约束。这促进了跨公共空间中的所有相机全局地优化跨相机轨迹片段关联，这归因于每相机轨迹片段辨别学习机制（等式2）。（2）译注。这提供了针对每个摄影机轨迹片段标签重复错误的模型学习容差。(2)跨相机轨迹片段关联学习被设计为一个简单的、可被视为一个或多个目标的轨迹片段（等式1）(3))，而不直接依赖于轨迹片段ID标签。因此ID重复率对此客观损失约束的影响很小14M. Li，X. zhu和S. 龚表6. MARS上不同ID重复率的模型稳健性分析[60]。ID重复率（%）秩-1秩-5十阶二十阶地图043.859.966.072.829.11042.859.765.571.628.32042.258.864.770.627.43041.657.964.569.726.75040.757.063.469.625.65结论在这项工作中，我们提出了一种新的Tracklet 关联无监督深度学习（TAUDL）模型，用于使用从视频中提取的无监督人物tracklet数据进行无监督人物重新识别，从而消除了所有基于监督学习的re-id模型学习所需的繁琐和详尽的手动标记。这使得TAUDL能够在大规模视频数据下对真实世界的重新部署更具可扩展性与大多数现有的re-id方法相比，这些方法要么需要针对每个相机对的详尽成对标记的训练数据，要么假设额外的标记源域训练数据可用于目标域自适应，所提出的TAUDL模型能够在完全未标记的轨迹数据上从头开始端到端地深度学习有区别的人re-id模型。这是通过在单个端到端深度学习框架中联合优化每摄像机轨迹片段辨别损失函数和跨摄像机轨迹片段关联损失函数来据我们所知，这是第一个完全基于无监督学习的re-id模型，没有任何身份标签用于模型学习，既没有成对的交叉视图图像对标签，也没有单视图图像身份类标签。在六个基于图像和视频的re-id基准上进行了广泛的比较评估我们还进行了深入的TAUDL模型组件评估和鲁棒性测试，以了解模型性能优势和模型学习稳定性。致谢本研究得到了国家留学基金委、视觉语义学有限公司、国家自然科学基金委员会的部分资助。61401212）、江苏省科技攻关项目（项目编号：江苏省科技支撑项目（项目编号：BE2015162）。BE 2014714），英国皇家学会牛顿高级奖学金计划（NA 150459），和创新英国工业挑战项目开发和商业化智能视频分析解决方案的公共安全（98111-571149）。通过深度学习Tracklet关联的无监督人员重新识别15引用1. 艾哈迈德、琼斯、马克斯：一种改进的用于人员重新识别的深度学习架构。参见：CVPR（2015）2. Ando，R.K.，张T：用于从多个问题和未列出的数据学习预测结构的框架。JMLR6，18173. Baltieri，D.韦扎尼河Cucchiara，R.：3dpes：用于监视和取证的3d人物数据集。In：J-HGBU（2011）4. Bautista，文学硕士，Sanakoyeu，A.，Ommer，B.：使用偏序集的深度无监督相似性学习。在：CVPR（2017）5. Bautista ，文学硕士，Sanakoyeu，A.，Tikhoncheva，E.，Ommer，B.：Cliquecnn：深度无监督范例学习。在：NIPS（2016）6. Chen，D.，中国农业科学院，徐，D.，Li，H.，塞贝，N.，Wang，X.：基于深度crf的群体一致性相似性学习方法。来源：CVPR（2018）7. 陈伟，陈旭，张杰，Huang，K.：除了三重态损失：一个深度的四元组网络用于人的重新识别。在：CVPR（2017）8. 陈玉，Zhu，X.，龚，S.：通过深度学习多尺度表示进行人员重新识别。在：ICCV研讨会（2017）9. Chen，Y.C.，Zhu，X.，Zheng，W.S.，Lai，J.H.：通过摄像机核心的人员重新识别将被参考。IEEETPAMI40（2），39210. 郑，D.，Gong，Y.，Zhou，S.，王杰，Zheng，N.：人员重新识别通过具有改进的三重损失函数的基于多通道部分的CNN。见：CVPR（2016）11. 周YJ Yoon，K.J.：通过姿态感知多镜头匹配改进人的重新识别。见：CVPR（2016）12. E vgeniou，T.， Pontil，M. ：Regularizedmulti- t a s k l e a rn i n g. 04TheDog（2004）13. Fan，H.，郑湖，Yang，Y.：无人监管人员重新识别：聚类和微调。arXiv预印本arXiv：1705.10444（2017）14. Farenzena，M.，巴扎尼湖Perina，A.，Murino，V.，Cristani，M.：个人重新识别由个人驱动的积累的地方特点。在：CVPR（2010）15. 龚，S.，Cristani，M.，Yan，S.，Loy，C.C.：人员重新识别。Spuringer（2014）16. Gray，D.，陶，H.：具有局部特征集合的视点不变行人识别。In：ECCV（2008）17. 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习。见：CVPR（2016）18. Hermans，A.拜尔湖莱贝B：在三胞胎丢失的辩护中重新进行了人的鉴定。arXiv预印本arXiv：1703.07737（2017）19. Hirzer，M.，贝莱兹奈角罗斯下午Bischof，H.：通过描述性和判别性分类进行人员重新识别。在

下载后可阅读完整内容，剩余1页未读，立即下载