无身份识别的人物相似性学习

6 浏览量更新于2023-10-25 收藏 1.15MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

14689无身份识别的人物相似性学习Bing Shuai，Xinyu Li，Kaustav Kundu，JosephTighe AWS AI Labs{bshuai，xxnl，kaustavk，tighej} @ amazon.com摘要学习统一的人员检测和重新识别模型是现代跟踪器的关键组成部分。然而，训练这样的模型通常依赖于训练图像/视频的可用性，这些图像/视频被手动标记为人物框及其身份。在这项工作中，我们探索只使用人框注释来训练这样的模型，从而消除了手动标记训练数据集的必要性，因为这些额外的人身份注释收集起来很昂贵。为此，我们提出了一个对比学习框架来学习人的相似性，而不使用手动标记的身份注释。首先，我们对公共人物检测数据集上的图像应用图像级增强，在此基础上，我们学习了一个用于一般人物检测和短期个人重新识别的强大为了学习能够长期重新识别的模型，我们利用视频中每个人的自然外观演变来作为对比损失公式中的实例级外观增强。在不访问目标数据集或人员身份注释的情况下，与现有的完全监督的最先进的方法相比，我们的模型在人员搜索和人员跟踪任务上都取得了有竞争力的结果我们的模型还显示了有前途的结果，节省注释成本，需要达到一定程度的perfor-曼斯的人搜索任务。1. 介绍检测和重新识别图像和视频中的人是许多人理解任务的基础[33，49，50，55，57、60]。最近的工作[42，47，50，55，60]已经集中在使用单个模型同时检测和重新识别人的概念上，因为其在推理期间具有更高的端到端这种模型的典型学习设置依赖于一组训练图像或视频，这些图像或视频用人物框及其身份进行了标注。不幸的是，管理这样一个训练集的成本非常高，尤其是因为为这两个任务采购正确的图像/视频更重要的是，图1.通过在CUHK-SYSU数据集上仅使用40%的id注释[49]，我们的相似性预训练模型优于在所有id注释上训练的标准最先进模型在相似性预训练中不使用手动标记的id注释。身份导致了显著的成本开销，因为注释者必须根据记忆检查一组已知的人因此，现有的用于联合人员检测和重新识别的训练数据集[33，49，57]在范围和大小上都受到限制。在这项工作中，我们通过使用人边界框作为我们唯一的监督来探索学习这样一个模型，这样我们就能够利用现有的大规模训练集进行人检测[30，41]。核心问题在于如何从仅用人物框注释的为此，我们采用了实例判别任务的概念[8，19，22，48]，该任务将同一个人框在不同图像变换下的身份嵌入拉在一起，同时将其他人框中的身份嵌入推开。这个公式使我们能够联合训练一个人检测和身份嵌入模型。虽然图像级变换能够捕获人的外观的许多预期变化，14690为了解决这个缺点，我们添加了未标记的视频，以提供姿势和视点的自然外观变化的示例。我们利用我们的图像训练模型提取人框及其嵌入，在此基础上，我们产生伪人身份标签。虽然视频开始和结束时的人的外观可能会有很大的不同，但它会随着时间的推移而平滑地变化。我们使用基于密度的聚类[17]来利用这种时间连续性，以便将同一个人的嵌入聚类在一起。因此，我们能够提取同一个人的不同观点，从中我们用我们的实例判别学习框架微调我们的模型我们对人员搜索任务进行了消融研究，特别是在CUHK-SYSU [49]。通过对仅用人物框注释的图像进行训练，我们的模型工作得很好（ 76 。 5%MAP/77.8%Top-1），即使是重新识别一个经历适度外观变化的简介-在训练期间引入未标记的视频带来了实质性的性能益处（+6。0% MAP /+6。6%Top-1），这表明外观多样性对相似性学习的重要性此外，如图1，通过仅使用从目标CUHK-SYSU数据集随机采样的40%的身份注释[49]，我们的模型能够实现最先进的结果。此外，我们将我们的模型应用于多人跟踪任务。我们采用与Fair- MOT [55]中相同的求解器[2]，将检测到的人物框及其嵌入作为输入在MOT17 [33]上，在训练过程中不使用任何手动身份注释或目标数据集的帧，我们的模型实现了与完全监督的FairMOT[55]相同的性能水平。2. 相关工作2.1. 人员检测和重新识别人员搜索首先检测然后查询人员在一组图库图像中感兴趣。查询图像和图库图像之间的相同个人可能看起来有很大的不同，因为它们可以在不同的时间/位置/相机处捕获。因此，人物嵌入的质量是实现准确人物搜索的关键。两步方法[14，21，44]分别采用两个单独的模型进行人员检测和人员重新识别，但最近的统一模型[5，13，34，49，50，58]越来越受欢迎，因为它们显着更快并实现最先进的性能。为了训练这些模型，手动标记的身份注释是必不可少的。在这项工作中，我们探索训练这样一个模型，而不依赖于昂贵的手动身份注释。重要的是，与现有的完全监督模型相比，它实现了相当有竞争力的结果。多人跟踪检测每个帧中的所有人，并将这些检测到的人在时间上联系起来，以生成每个人的儿子的轨迹。最近的端到端跟踪器[37，38，42，47，55，60]在统一的公式中联合建模人员检测和身份关联，并且它们将MOTChallenge [33]的性能推到新高。虽然一些方法[15，42，47，55]可以在图像数据集上进行技术训练，并且最近的一些工作开始利用未标记的视频来改善多对象跟踪[25，29，32]，但相比之下，我们的模型在MOT17 [33]上达到了最先进的水平，而无需对注释的视频序列进行微调。2.2. 无人监督的人员重新识别我们的工作也与无监督的人重新识别有关[6，7，18]，其中通常采用对比公式来学习人嵌入。在这个特殊的问题上，我们的工作有3个技术差异：1），我们正在优化多任务模型，其中相似性学习只是其中一项任务; 2），传统的人物re-id作品[6，7，18]处理人物作物，而我们处理的是具有多个人物的图像。因此，我们开发了密集对比公式，而不是使用对比公式的基本形式[8，22]; 3）我们从视频中挖掘人物轨迹从对比公式的角度来看，这种人轨迹挖掘可以被理解为一种新的增强方法。在不使用身份标注的情况下，我们在人员搜索和跟踪任务上都获得了具有竞争力或最先进的结果2.3. 自我监督学习自监督学习使用代理任务来指导模型为下游任务学习有意义的特征。这些代理任务不应该需要任何形式的人类标签，一些例子是预测旋转图像相对于原始图像的旋转[27]，灰度图像着色[53]，解决拼图[36]，预测补丁之间的相对位置[11]等。最近，基于实例识别的对比学习[4， 8 ，19 ，22 ，48]已经达到了与在ImageNet分类任务上完全监督训练的模型相当的性能水平[10]。此外，还有一些工作利用时间周期一致性来学习可用于一般对象跟踪的特征对应性[16，45，46]。虽然我们的模型可以应用于人员跟踪，但我们的工作更多地涉及基于实例判别的对比学习[4，8，19，22，48]。为了弥补图像级增强在我们的对比度损失公式中的局限性，我们利用视频中每个人的自然外观演变来作为实例级外观增强，这在改进人嵌入方面被证明是重要的，当他们的外观发生剧烈变化时，可以用来重新识别人。14691∪ID∈和重新识别。它是一个完全卷积的网络，包括一个身份特征编码器和一个检测头。跳过联系我们（一）IDN阳性ID∪n∈Ni把同一个身份的人放在一起，同时把不同身份的人分开。形式上，给定对应于个人身份i（即ID（x，y）=i）的点（x，y）及其特征向量v=f（x，y），我们如下计算点（x，y）的相似性损失。（x，y）1Σip∈Piexp（v·p/τ）图2. 我们使用一个单阶段模型进行联合人检测id=|P|−log（exp（v·p/τ）+）exp（v·n/τ）层将多尺度特征编码到基于点的嵌入中。3. 联合人检测和重新识别在这项工作中，我们使用了一个统一的人员检测和重新识别模型，该模型遵循类似于AlignPS [50]的设计，其中身份特征图是从单级检测器框架的中间层提取的如图2.网络包括身份特征编码器和检测头。身份特征编码器遵循UNet [31，35，40]设计，广泛用于密集预测任务。它包括跳过层，以将多尺度特征编码为基于单个点的嵌入。该嵌入直接用作身份特征，基于该身份特征，可以应用id loss（idloss）[24，49，52]来训练身份特征编码器。在FCOS [43]之后，我们的检测头是一个标准的4层全卷积头，它被添加到身份特征编码器的顶部。它是用与在其中Pi={ID（x，y）=i}f（x，y）是点fea的集合，对应于当前列车中的人i的真实向量ping批次，Ni={ID（x，y）i}f（x，y）是除i以外的人的点特征，τ是温度。注意，所有特征向量（即，v，p，n）进行L2归一化。一般来说，m（x，y）总结了在（x，y）处的点特征向量与也对应于人i的其余点特征向量之间的平均对比度损失。如图3中的示例所示，需要指出的是因此，对应于同一个人身份的每个点特征向量该特定的人，这提供了特征级别的自然抖动。这种非稀疏采样在最近的目标跟踪文献中也很重要[38]。接下来，我们通过将上述损失平均到对应于人实例的图像内的所有点特征向量来获得我们的密集相似性损失从数学上讲，FCOS [43]. 该模型与检测和身份证损失的形式如下：总得双曲正弦值.+λID =detℓ=1<$1（c（x，y））<$（x，y）x为oh（二）其中λ是ID损失的调制权重。为了便于参考，我们将此网络称为PointID。4. 无监督的人物相似性学习训练PointID最直接的方法是使用包含人物边界框和身份标注的大型图像或视频数据集。不幸的是，收集和注释这样的数据集是非常昂贵的，因此大多数作品在具有此类注释的较小数据集上训练他们的模型[33，49，57]。在这项工作中，我们专注于如何在没有手动标识注释的情况下训练我们的模型。首先，我们提出了我们的密集对比相似性损失（EQUID），我们用它来训练我们的身份特征编码器（第二节）。4.1）。这种丢失仍然需要个人身份信息，对此我们没有符号。接下来，我们将演示如何在仅标记有人物框的图像上训练模型（第二节）。4.2）和未标记的视频（第4.3）。4.1. 密集对比相似性损失我们建议使用对比损失进行人的相似性学习，这会推动人的嵌入其中，1（c（x，y））表示点（x，y）是否属于人框的中心区域，这与检测头[43]中用于监督分类图的点相同。在有注释的个人身份可用的理想情况下[49，50]，我们可以管理一个存储库mRd×M（M是个人id的数量，d是特征向量的通道），它存储每个个人身份的特征向量，每个特征向量在概念上总结了特定个人的所有视图。因此，Pi和Ni可以通过简单地检索相应的内存片来构造，例如， Pi= mi，Ni=. - 是的-是的mi−1，mi+1，. - 是的- 是的-是的在下面的部分中，我们将探索一个不同的、更具挑战性的设置，在这个设置中，在训练过程中不提供带注释的个人身份，并展示如何在这些情况下构建Pi和Ni。4.2. 自我监督的图像训练给定一个用人物边界框注释但没有身份信息的公共图像数据集，我们假设每个图像都是在野外独立来源的，因此14692图3.在对比相似性学习中，特征向量对应于同一个人（例如，所有蓝色点）将被拉到一起，而它们被推离其他人的特征向量（例如，黄点）。每张照片中的每个人都有一个独特的身份。[1]为了给第i个人生成有意义的Pi，我们可以使用与第2节相同的记忆策略。4.1，但是由于每个人i在每个训练时期仅出现一次，所以在训练期间再次看到人i时，记忆特征Mi将过时相反，我们采用了立场歧视的概念[8，19，22，48]来为每个人框构建积极和消极的特征集Pi，Ni。具体来说，我们应用图像级变换[8，19，22]来合成同一图像的两个视图，并从两个图像中对人i的所有正特征向量进行采样，从而产生Pi。一个例子如图所示3 .第三章。为了构造Ni，我们管理一个固定大小的队列Q，该队列使用最新遇到的人嵌入的特征向量进行更新，因此Q中的所有特征都是相对最新的。因此，我们可以通过检索Q中不属于身份i的特征向量来容易地获得人i的负特征集Ni。由于在训练过程中可以使用地面真实人物框，因此完整的PointID模型- id特征编码器和检测头-将与Biddet和Biddid联合优化。4.3. 无监督视频训练上述基于图像的训练生成同一个人的合理多样的视图集合（即，Pi），其能够引导模型专注于信息性视觉特征（即，衣服或不同的配件等）而不是诋毁者（即，闪电、鳞片等）。然而，快捷且重要的解决方案是将人这是由于图像级增强在其产生覆盖人的全部预期运动范围的实例级变换的能力方面受到限制为了解决这一问题，我们利用时间的con.1在这种假设下，几个用于人员检测的公共数据集不适合所提出的学习框架，例如CityPer- son [54]，Caltech Pedestrian [12]，仅举几例。视频的连续性，以自动生成同一个人的多个视图，这些视图具有大的姿势和视点变化，而这些变化在我们的图像级增强中不存在。我们通过将一个人跨时间联系起来来实现这一点，因为对于同一个人来说，连续帧之间的嵌入非常相似。这让人想起对象跟踪[1，20，28，42，55]。然而，如果它们是从遥远的时间戳中提取的，它们的嵌入可能会非常不同，因此它们可以自然地用作我们相似性学习公式中补充材料中提供了直观的类似于人实例区分任务的假设，我们假设同一个人不会出现在不同的视频中。2具体来说，我们通过使用在SEC中训练的PointID网络来提取人的边界框及其嵌入。四点二。我们通过使用基于密度的聚类方法DBSCAN [17]对所有检测到的人身份嵌入进行聚类，从而对视频中的所有检测到的人进行聚类。As DBSCAN is able to identify outliers inthe embedding space, each de- tected person instancewould be assigned to either a unique identity or an invalididentity that would not be used during training.该视频级嵌入聚类用作离线求解器以在视频中产生人的轨迹，在该轨迹内，人的外观可以实质上改变。这种生成伪标签的方法类似于图像分类[3]和人员重新识别[6，18]中的其他无监督学习方法。为了计算id loss_id，我们从视频中采样两个不同的帧I1、I2。对于一个特定的人i，我们通过在其出现的两个帧上对人i的所有特征向量进行采样来构建其正特征集Pi我们使用在第二节中提出的相同的队列策略来构造负特征集Ni四点二。由于地面真实人物框不可用，我们仅微调具有id丢失的identity特征编码器的权重，并冻结检测头的权重这确保了检测框中的噪声不会破坏模型训练。最后，我们冻结了身份特征编码器，并在第二节中的图像数据集提供的地面真实人物框上使用Roundet微调了检测头。四点二。5. 实验基于图像的人物检测数据集。我们使用COCO [30]和CrowdHuman [41]数据集，这些数据集已广泛用于一般对象和人员检测。我们丢弃所有没有标注人物边界框的图像。总共有64115张图片[2]一般来说，对于两个随机的野外视频，这是一个公平的假设然而，这种假设在多摄像机监控场景中不成立，其中同一个人可以出现在不同的视频中。 We would like to come back to this issue duringdiscussion and explore this specificsitu- ation in the future.14693--257，249人箱COCO和15，000图像与339，563人的包厢。未标记的视频数据集。我们使用主要用于动作识别的Kinetics-700数据集[26]。我们预计，由于摄像机运动和人们执行不同的动作，这些视频中的人在我们的研究中，我们随机抽取了150，000个视频，其中45，108个（大约30%）视频被识别为包含至少一个有效的人物轨迹。总的来说，这包括57，200个唯一的个人身份和超过100万个个人盒子。具体来说，我们将这个数据集命名为Kinetics-150 K。个人搜索数据集。我们验证了我们的人检测和重新识别模型对人搜索的性能。为此，我们在研究中采用了CUHK-SYSU [49]和PRW [57]。具体而言，中大中山大学包括 18 ， 184 个图像（ 11 ， 206 个序列 /6 ，978val），具有8，432个唯一id（5，532个序列/2，900val），PRW包括11，816个图像（5，704个序列/6 ， 112val ），具有 932 个唯一 id （ 482 个序列/450val）。根据其他文献[13，34，49，50，58]，我们使用默认图库大小100报告MAP和Top-1指标网络配置和培训。除非另有说明，否则我们将ResNet-50 [23]作为id特征编码器的主干。如图2，我们对来自先前层的特征图进行上采样，并将其与相应跳过层的输出连接起来，该输出被参数化为具有256个输出通道的单个可变形卷积核[9]。在Eq. 1被设置为0。并且ID损失调制因子λ根据经验被设置为0。2（研究了λ的影响补充材料）。我们首先在 COCO 和CrowdHuman上训练模型，每次迭代使用32个唯一图像对（由于增强，实际使用64个图像）。我们使用基于动量的SGD优化模型，初始学习率为0.01，0.1在模型完成所有迭代的60%和80%（总共25，000最新遇到的人池Q的大小被设置为32，768，除非另有指定。接下来，我们对Kinetics-150 K上的身份特征编码器进行微调，总共迭代20，000次。最后，我们在COCO和CrowdHuman上微调了探测头，进行了另外10000次迭代.在训练过程中，每个图像都被调整大小，以具有从480，560，640，720，800中随机抽取的较短尺寸，同时将其限制为小于1024像素的较大尺寸。在推理过程中，图像的大小被调整为640×1024像素。图像级增强。我们在图像训练中应用以下图像级变换：旋转，遮挡（随机补丁擦除[59]），视频抖动（例如运动模糊，JPEG压缩），图像列车数据人物Id损失地图Top-1中大✓阿托代特+阿托里德92.7%百分之九十三点七n/aCOCO+CH××n/a拉施德28.0%17.0%百分之二十七点八百分之十五点八COCO+CH×双氯联苯14.3% 12.5%COCO+CH×咪达唑啉+咪达唑啉76.5% 78.0%COCO+CH+动力学×双氯酚+双氯酚82.5% 84.6%表1.在CUHK-SYSU数据集上的结果。灰色结果表明模型在推理过程中使用了oracle盒。CH是CrowdHuman数据集。镜像放大运动变换在柔软的材料中，我们定义了这些转换，并显示了这些转换效果的具体视觉示例。5.1. 主要结果我们首先在CUHK-SYSU上训练PointID，并进行全面监控。我们在Eq中采用id损失。1，并管理所有id的内存，如第2节所述4.1. 实施细节见补充材料。在选项卡中。1和Tab。3，我们表明，我们的模型达到了92.7%的MAP和93.7%的Top-1准确率，与最先进的基于ResNet-50的模型相比表现出色[13，34，49，50，58]。该模型运行在29。在单个V100 GPU上实现7 FPS我们为了理解无监督人相似性学习的困难，我们建立了两个基线模型：第一个是其权重从ImageNet预训练模型[ 10 ]初始化的模型;第二个是其权重针对COCO [30]和CrowdHuman [41]上的人员检测进行优化的模型。由于检测头在第一个模型中没有经过训练，因此我们引入了基于Oracle检测的推理，其中对应于地面真值框中心点的特征向量用于匹配。在这种情况下，该模型的结果将优于默认推理下的相同模型。我们在Tab中报告了他们的结果。1，这表明这两种模型的表现都很糟糕。有趣的是，为人员检测任务训练的特征甚至更差，这表明用于人员检测和重新识别任务的特征并不自然兼容。在选项卡中。1，我们进一步报告了在COCO和Crowd-Human的人物边界框上训练的相同模型的结果，但具有提出的对比相似性损失，以及在Kinetics-150 K的未标记视频上进一步微调的模型[26]。他们的利益超过基线是实质性的.即使没有在目标数据集上训练我们的模型，它也不会明显落后于完全-14694| |损失数据MAP Top-1交叉熵部分54.4% 55.7%对比部分75.5% 77.8%对比完整76.5% 78.0%帧采样MAP Top-1扩充数据MAPTop-1(a) 在COCO（CO）和CrowdHuman（CH）上使用不同损失训练的模型的结果比较。(b) 在Kinetics-100 K上使用不同帧采样策略训练的模型的结果比较。(c) 在Kinetics-100 K（K）上使用不同增强训练的模型的结果比较。表2.中大中山大学的烧蚀实验[49]。灰色的结果表示在推理过程中使用了真实人物框。图4.使用CUHK-SYSU数据集上的成对组合变换训练的模型的结果（MAP）[49]。监督模型我们将这些模型与补充材料中的定性视觉示例进行比较。在下文中，我们进行了仔细的烧蚀实验，以了解该模型如何实现这一性能水平5.2. 图像训练在本节中，所有模型都是使用Rolldet和Rollid训练的在COCO [30]和CrowdHuman [41]数据集上。图像级增强如何影响相似性学习？为了回答这个问题，我们列举了所有成对变换的组合，并在图中总结了它们的结果。4.第一章如图所示，放大运动变换和镜像是严重影响模型结果的两个最重要的增强，因为使用这两个变换训练的模型仅落后于完整模型1.8%。这并不奇怪，因为放大运动变换引入了大尺度变化，并且图像镜像增强打破了简单地记忆人的姿势的捷径解决方案交叉熵损失与对比损失。我们将所提出的对比相似性损失与交叉熵损失进行了比较，交叉熵损失广泛用于相似性学习[52，55]。然而，交叉熵损失不能扩展到大量的个人身份，其中模型需要学习一个巨大的投影矩阵（例如，R256×N，N是唯一个人身份的数量），然后对特征向量进行优化以进行重新识别。我们发现，该模型很难在包含大约N=600，000个盒子的完整COCO和CrowdHuman数据集上收敛Q的大小。图5. CUHK-SYSU数据集上的消融研究[49]。（ids）。为了使训练可行，我们对大约50000个盒子（8。3%），这是一项特殊的研究。结果总结见表。第2段（a）分段。如图所示，使用对比相似性损失训练的模型大大优于使用交叉熵损失训练的模型，并且当在训练期间使用所有人框时，其结果继续改善最近遇到的人嵌入的大小Q。我们进一步展示了Q的大小如何影响图中的模型训练。5b.我们观察到，当更多的个人身份被缓存到Q中时，模型这是预期的，因为可以从Q中检索到更多的硬示例，这有利于我们的相似性损失公式中的嵌入学习（等式10）。1）。我们确定Q=32，768是内存消耗和性能优化之间的良好折衷。5.3. 视频微调在本节中，所有的模型都是单独使用EQUID进行微调的，因此我们在推理过程中使用了地面真值框。帧采样会影响模型训练吗？如图4，很明显，对同一个人有不同的为了测试帧采样如何影响模型训练，我们比较了使用以下策略训练的两个模型：1）从视频中采样两个随机帧;以及2）从第一半中采样一个随机帧(a)培训视频数量（×1，000）。不适用（内存）84.3%百分之八十六点二随机百分之八十四点四85.4%图像CO+CH78.9%百分之七十九点八图像CO+CH+K百分之七十三点二74.4%14695一个来自第二个，我们称之为有偏采样。在后一种情况下，同一个人的外观更可能是不同的，这被期望为该特定的人产生更硬的正特征集P1如Tab.所示2（b），用偏置采样训练的模型确实比用随机采样训练的模型具有明显的边缘此外，我们还与使用基于记忆的对比度损失训练的模型进行了比较，因为记忆在概念上聚集了来自完整视频的特定人的特征在选项卡中。 2（b），我们还发现它优于使用非记忆对比损失训练的模型。如前所述，这主要是由于难以保持最新的内存。在实践中，记忆退化为仅概括视频中的人的随机视图。训练人员身份的数量是否影响模型的性能？为了回答这个问题，我们从Kinetics-150 K中随机抽取了一部分视频。例如，Kinetics-10 K是Kinetics-150 K的一个子集，它包括10，000个视频，其中有3，060个视频包括至少一个有效的人物轨迹。我们将不同亚类的统计纳入了文献资料中。我们使用相同的训练配置在这些子集上训练模型，其结果总结在图中。5a.总的来说，我们观察到一个明显的上升趋势时，更多的视频（或个人身份），在训练过程中使用。例如，将来自Kinetics-25 K子集的9594个独特的个人实例添加到模型训练中，将产生4个。平均动脉压改善27%该结果表明，视频引入了在图像训练中可能缺失的实例级外观好处饱和超过动力学-100 K子集，其中包括38266个独特的人的身份，并涵盖多达765000人的边界框。该数据量足以使模型利用实例级外观多样性进行鲁棒的相似性学习。这些好处真的来自实例级多样性吗？当在模型微调期间使用视频时，这个问题自然会出现，因为遇到额外的视频帧可能是提高模型性能的主要原因为此，我们通过采用与Sec中相同的技术来微调模型。4.2：首先对每个视频采样帧I，然后通过对I应用图像级变换来生成另一帧I′。我们在Tab中比较了不同模型的结果第2段（c）分段。如图所示，仅在视频帧上微调模型实际上会损害模型这可能是由于在训练过程中排除了难以检测的人，因此学习相对简单，可以在简单的背景中区分一组突出的人。在这种情况下，很方法香港中文大学公共关系学院MAP Top-1MAP Top-1QEEPS [34]88.9%百分之八十九点一37.1%76.7%APNet [58]88.9%89.3%41.2%81.4%BiNet [13]百分之九十百分之九十点七百分之四十五点三81.7%NAE [5]91.5%92.4%百分之四十三点三80.9%AlignPS [50]93.1%百分之九十三点四百分之四十五点九百分之八十一点九我们的（基线）92.7%百分之九十三点七41.3%81.1%检测预训练（DetectionPretrain）百分之九十三点二94.1%42.4%百分之八十三点一相似性预训练（Similarity Pretrain）百分之九十四点八百分之九十五点五47.4%84.1%表3.个人搜索数据集的结果比较。5.4. 相似性预训练在本节中，我们将进一步研究使用所提出的学习框架作为预训练步骤的好处。它有助于降低注释成本。我们首先研究相似性预训练如何帮助减少手动身份标注的需要。出于这个目的，我们随机抽取了一部分注释的个人身份，并屏蔽了其余的，就然后我们比较两个模型，一个是正常训练的（ImageNet预训练），另一个是用我们提出的id损失进行预训练的。他们的结果总结在图中。1.一、如图所示：1)相似性预训练模型始终优于其对应模型，特别是当标识符的数量有限时，以及2）仅具有40%的标识符时，相似性预训练模型实现了与在完整数据集上训练的标准模型相同的性能水平。这些结果表明，相似性预训练有可能降低标注成本，以达到一定程度的重新识别性能。它改善了模型的性能。接下来，我们在完整的目标数据集上训练上述两个模型。选项卡. 3列出了中大-中山大学[49]和PRW的结果[57]数据集。如图所示，我们的相似性预训练模型取得了比基线更好的结果，并且好处更明显（+6。1%MAP ）。我们还比较了在 COCO [30] 和CrowdHuman [41]上使用Adjudet预训练的模型。虽然德-检测预训练提高了模型的性能，但它明显落后于相似预训练的模型。这一结果表明，正是所提出的相似性损失造成了差异。146966. 多人跟踪为了验证我们模型的更大潜力，我们进一步将其应用于多人跟踪，特别是MOT17 [33]。我们发现，人的重新识别是在人跟踪相比，在人搜索的挑战性较小。这是由于人14697[60]第六十话CH×58.1 53.3[42]第四十二话FairMOT [55]CHCH××60.8 61662.9 63.2我们CH×66.970.9 372表4.完整MOT17训练集的结果比较，CH用于CrowdHuman数据集[41]。方法列车数据Person Id MOTA ↑ IDF1 ↑ MT ↑ ML↓IDsw↓与最新技术水平的比较。我们通过将模型的输出提交给评估服务器来生成MOT17测试序列[33]的结果。如Tab.所示。5，我们的模型优于最近的最先进的方法，即使它没有在目标数据集或个人身份注释上进行训练。这一有希望的结果表明，我们能够开发一个通用的和性能良好的个人跟踪模型，而无需首先为训练目的管理多人跟踪数据集，其成本在现实中非常高。TubeTK [37][39]第三十九话QuasiDense [38][60]第六十话[60]第六十话SOTMOT [56]MOT1763.058.631.219.9 4137MOT1766.657.432.224.4 5529MOT1768.766.340.621.9 3378CH+MOT1767.359.934.924.8 2898CH+MOT1767.867.134.624.6 2583MIX71.070.942.715.3 51847. 讨论和结论在这项工作中，我们的目标是学习一个广义模型，FairMOT [55]CH +MIX73.772.344.715.9 3303我们CH×74.272.446.612.22748表5. MOT17测试集与“私有检测”协议的结果比较MIX [47，55]是一个组合数据集，包括MOT17和其他5个数据集，所有这些数据集都是手动标注的个人身份。人的很少长的闭塞（例如，超过10秒），这会引起较大的外观变化。因此，我们只在CrowdHuman [41]（非模态边界框注释）上训练我们的模型，并使用第二节中详细介绍的技术四点二。我们采用Fair- MOT [55]实现的在线求解器来生成每个人的时间轨迹，其将检测到的人框及其每帧的嵌入作为输入。根据通用标准，我们报告以下指标： MOTA、 IDF1 、IDsw （ ID开关）、MT（大部分被跟踪）、ML（大部分丢失）。与其他自监督跟踪模型的比较有一些跟踪模型也可以在没有个人身份标注的情况下进行训练。例如，Center- Track [60]和SiamMOT [42]使用从同一图像生成的图像对训练人运动模型与我们类似，FairMOT [55]学习了一个人的重新识别模型，但具有交叉熵损失。我们在Tab中的完整MOT17列车集上4.第一章如图所示，我们的模型在每个关键指标上都比所有其他模型具有令人印象深刻的性能优势。请注意，所有模型都使用标准DLA-34 [51]作为特征主干，因此它们的结果是可比的。3特别是，我们的模型相对于FairMOT的实质性性能优势在很大程度上可以归因于更好的人员重新识别模型，这与Tab中的观察结果一致。第2段（a）分段。3我们通过使用上述方法的官方实现和使用在CrowdHuman数据集上预训练的模型权重然后我们使用相同的评估代码来生成它们相应的评估指标。联合人员检测和重新识别。不幸的是，可用于训练这种模型的现有数据集在范围和规模上都是有限的。为此，我们开发了一个对比相似性学习框架，使得人嵌入模型可以与没有人工ID注释的图像/视频上的人检测模型我们表明，我们的模型可以推广到人员搜索和人员跟踪数据集，与完全监督的最先进方法相比，它取得了令人鼓舞的结果。在下文中，我们首先讨论我们的假设的局限性学习框架，我们进一步讨论我们的工作，以减少注释成本在更大程度上的潜力。限制. 我们的对比相似性学习框架的基本假设是每个图像/视频是独立的，这意味着相同的person不会出现在不同的图像或视频中。在同一个人被多个不同的图像或视频捕获的情况下，所提出的学习框架将不能正常工作。为了利用这些珍贵的图像/视频进行训练，我们可以采用类似的技术用于无监督的人员重新识别工作[6，18]。我们希望在未来探索使用更广泛的图像/视频进行无身份证的人相似性学习。注释成本降低。正如我们在Tab中所示。3和Tab。5.我们的模型可以在人员搜索和人员跟踪任务上取得非常有竞争力的结果，即使它不是在目标数据集上训练的。也如图所示。1，添加少至10%的个人身份注释显著提升了模型在目标数据集上的性能。本着主动学习的精神，我们有兴趣探索如何使用我们的模型自动识别一些人工注释所需的硬训练示例这是实现注释成本和性能最大化之间的最佳权衡的重要一步。谢谢。作者要感谢Uta Buechler和Andrew Berneshawi的想法集思广益和论文校对。方法训练数据PersonId MOTA↑ IDF1↑ IDsw↓14698引用[1] Luca Bertinetto 、 Jack Valmadre 、 Joao F Henriques 、Andrea Vedaldi和Philip HS Torr。用于对象跟踪的全卷积连体网络。欧洲计算机视觉会议，第850-865页。施普林格，2016年。4[2] Alex Bewley、Zongyuan Ge、Lionel Ott、Fabio Ramos和Ben Upcroft。简单的在线和实时跟踪。在2016年IEEE图像处理国际会议（ICIP）上，第3464-3468页。IEEE，2016. 2[3] Mathilde Caron，Piotr Bojanowski，Armand Joulin，andMatthijs Douze.用于视觉特征的无监督学习的深度聚类。在欧洲计算机视觉会议论文集（ECCV）中，第132-149页，2018年。4[4] Mathilde Caron ， Ishan Misra ， Julien Mairal ， PriyaGoyal，Piotr Bojanowski，and Armand Joulin.无监督学习视觉特征对比聚类分配。 arXiv 预印本 arXiv ：2006.09882，2020。2[5] 帝尘，张珊珊，杨健，Bernt Schiele。Norm-aware嵌入用于高效的人员搜索。在IEEE/CVF计算机视觉和模式识别会议上，第12615-12624页，2020年。二、七[6] Hao Chen ， Benoit Lagadec ， and Francois Bremond.ICE：用于无监督人员重新识别的实例间对比编码。ICCV，2021年。二四八[7] Hao Chen ， Yaohui Wang ， Benoit Lagadec ， AntitzaDantcheva，and Francois Bremond.联合生成和对比学习，用于无监督的人员重新识别。在IEEE/CVF计算机视觉和模式识别会议论文集，第2004-2013页，2021年。2[8] 陈婷，西蒙·科恩布里斯，穆罕默德·诺鲁齐，和葛offrey Hinton.视觉表征对比学习的一个简单框架国际机器学习会议，第1597-1607页。PMLR，2020年。一、二、四[9] Jifeng Dai，Haozhi Qi，Yuwen Xiong，Yi Li，GuodongZhang，Han Hu，and Yichen Wei.可变形卷积网络。在Proceedings of the IEEE international conference oncomputer vision，第764-773页，2017年。5[10] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议，第248-255页。Ieee，2009年。二、五[

下载后可阅读完整内容，剩余1页未读，立即下载