长视频中的人物搜索：时间与视觉链接

94 浏览量更新于2023-10-13 收藏 2.51MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

通过视觉和时间链接在具有一个肖像的视频中进行人物搜索黄清秋1[0000 - 0002 - 6467 - 1634]、刘文涛2、3[0000 - 0001 - 6587 - 9878]、林大华1[0000 - 0002 - 8865 - 7896]1香港中文大学-商汤科技联合实验室{hq016，dhlin}@ ie.cuhk.edu.hk2清华大学3商汤科技研究liuwtwinter@gmail.com抽象。在现实世界的应用中，例如执法和视频检索，人们经常需要在长视频中仅用一个肖像来搜索某个人。这比用于人员重新识别的常规设置更具挑战性，因为可能需要在与拍摄肖像的环境不同的环境中执行搜索。在本文中，我们的目标是解决这一挑战，并提出了一个新的框架，它考虑到身份不变性沿轨迹，从而使人的身份传播通过视觉和时间的链接。我们还开发了一种新的方案，称为渐进传播，通过竞争性共识，显着提高了传播过程的可靠性。为了促进对人物搜索的研究，我们构建了一个大规模的基准测试，其中包含127K手动标注的 tracklets从192部电影。实验表明，我们的方法显着优于主流的人re-id方法，提高了mAP从42。16%至62。百分之二十七1关键词：人物搜索，肖像，视觉和时间，渐进传播，竞争共识1介绍在现实世界场景中经常需要搜索视频中的人为了抓住一个通缉犯，警方可能要通过从多个监控摄像头收集的数千小时的视频，很可能只有一张肖像。为了找到一个受欢迎的明星的电影镜头，检索系统必须检查许多长达一小时的电影，只有少数面部照片作为参考。在类似这些的应用中，参考照片通常在与进行搜索的目标环境非常不同如图1所示，这种设置非常具有挑战性。即使是最先进的识别技术也会发现，面对姿势、化妆、服装和照明的巨大变化，很难可靠地识别一个人的所有出现。1代码https://github.com/hqqasw/person-search-PPCC2Q.黄，W. Liu，L. 林图1：人员re-id与人员搜索任务显著不同。第一行显示了来自MARS数据集[44]的人re-id的典型示例，其中参考和目标在类似条件下捕获。第二行显示了来自我们的人物搜索数据集CSM的示例，其中参考肖像与在姿势、服装和照明方面显著不同的目标值得注意的是，两个相关的问题，即人的重新识别（re-id）和相册中的人识别，引起了越来越多的关注，从研究界。然而，它们与Prob有很大的不同。一个人的肖像搜索，我们的目标是解决这项工作的LEM。具体地，在人物re-id [44，22，38，45，13，8，16]的典型设置中，图库集合中的查询和引用通常在类似条件下被捕获，例如，从沿着街道的不同相机，并且在短的持续时间内被捕获。尽管某些查询可能会受到遮挡和姿势变化等问题的影响，但它们仍然可以通过其他视觉线索（例如服装）进行识别。对于相册中的人识别[43]，通常给出不同的图库样本集合，其可以覆盖广泛的条件并且因此可以被区分。直接匹配到各种查询。因此，对于这两个问题，图库中的参考文献通常是目标的良好代表，因此基于视觉线索的方法可以表现得相当好[22，1，4，3，39，44，43，15，14]。相反，我们的任务是将单一的肖像与高度多样化的布景联系起来这更具挑战性，需要超越视觉匹配的为了解决这个问题，我们提出了一个新的框架，通过视觉和时间的链接传播标签。基本的想法是利用- 沿着人轨迹的身份不变性，即，沿着视频中的连续轨迹的所有人实例应当属于相同的身份。由tracklet引起的连接，我们称之为时间链接，是基于特征相似性的视觉链接的补充。例如，轨迹有时可以覆盖不能基于视觉相似性容易地相关联既有视觉上的也有时间上的联系通过视觉和时间链接的人员搜索3结合，我们的框架可以形成一个大的连接图，从而允许身份信息在非常多样化的实例集合上传播。虽然视觉和时间链接的结合为身份传播提供了广泛的基础，但它仍然是一个非常具有挑战性的问题在大型真实世界数据集上可靠地传播。由于我们仅从单个肖像开始，因此在传播期间的一些错误标记可导致下游的catastrophic错误。实际上，我们的实证研究表明，传统的方案，如线性扩散[47，46]，甚至导致实质上更差的结果。为了解决这个问题，我们开发了一种称为通过竞争共识的渐进传播的新方案，其谨慎地执行传播。只有在确定性高时才传播一条身份信息。为了便于研究这个问题的设置，我们构建了一个数据集名为演员搜索电影（CSM），其中包含127K tracklets的1218演员身份从192部电影。所有tracklet的标识都是手动标注的。每个演员的身份也都有一个参考肖像。基准测试非常具有挑战性，每个身份的人员实例在化妆，姿势，服装，照明甚至年龄方面都有很大差异。在这个基准上，我们的方法得到63 。 49% 和 62 。 27% 的 mAP 在两种设置下，相比的 53 。 33% 和 42 。16%mAP的传统视觉匹配方法，它表明，只有视觉线索匹配不能很好地解决这个问题，我们提出的框架-渐进传播通过竞争共识可以显着提高性能。综上所述，本工作的主要贡献在于四个方面：（1）系统地研究了视频中的人物搜索问题，这是现实世界中经常出现的问题，但在研究中仍然存在广泛的开放性。(2)我们提出了一个框架，它结合了视觉相似性和身份的invari- ance沿轨迹，从而使搜索进行得更远。(3) 我们开发了渐进传播通过竞争的共识计划，这显着提高了传播的可靠性。(4)我们构建了一个数据集Cast Search in Movies（CSM），其中包含120K手动注释的tracklets，以促进对该问题的研究。2相关工作人员Re-id Person re-id [41，6，7]旨在短时间内匹配来自不同相机的行人图像（或轨迹），在研究界引起了很大的关注。许多数据集[44，22，38，45，13，8，16]已经被提出来促进re-id的研究然而，这些视频仅由附近位置的几个摄像头在短时间内捕获。例如，Airport [16]数据集从上午8点开始在机场捕获。到晚上八点因此，相同身份的实例通常足够相似以通过视觉外观来识别，尽管具有遮挡和姿势变化。基于数据的这种特性，大多数re-id方法关注于如何通过视觉线索来匹配查询和图库实例在早期的工作中，匹配过程分为特征设计[11，9，26，27]和度量学习[28，17，23]。再-4Q.黄，W. Liu，L. 林目前，已经提出了许多基于深度学习的方法来联合处理匹配问题。 Li等人 [22] Ahmed et al. [1]设计了基于siamese的网络，该网络采用二进制验证损失来训练参数。Ding等人 [4] Cheng et al. [3]利用三重损失训练更有鉴别力的特征。 Xiao等 [39]和Zheng et al. [44]提出了通过对身份进行分类来学习特征。虽然re-id的特征学习方法可以用于具有一个肖像的人物搜索问题，但它们有很大的不同，因为查询和图库在人物搜索中会有巨大的视觉外观差距，这将使一对一匹配失败。相册中的人物识别。人物识别[24，43，15，19，14]是另一个相关的问题，它通常集中在相册中的人物它的目的是识别身份的查询给定的一组标记的人在画廊。 Zhang等人 [43]提出了一种姿势不变的人识别方法（PIPER），它结合了三种基于ConvNets的视觉识别器，分别基于面部，全身和poselet级别的线索。[43]中发布的PIPA数据集已被广泛采用作为评估人员识别方法的标准基准。 Oh等人 [15]评估了不同身体区域的有效性，并使用从不同区域获得的分数的加权组合进行识别。 Li等人 [19]提出了一个多层次的上下文模型，它集成了人级，照片级和组级上下文。但是，人的识别也有很大的不同，从人的搜索问题，我们的目的是解决在本文中，因为相同的身份在查询和画廊的样本仍然是相似的视觉外观和方法主要集中在识别的视觉线索和上下文。人员搜索。有一些工作，集中在人的搜索问题。Xiao等 [40]提出了一个人物搜索任务，其目的是在图库的图像中搜索相应的实例，而无需边界框注释。关联数据与re-id中的数据类似。关键的区别是边界框在此任务中不可用。实际上，它可以被看作是一个任务，结合行人检测和人re-id。还有一些其他的工作试图搜索具有不同数据形式的人，例如基于语言的[21]和基于属性的[35，5]，这些工作专注于与我们旨在解决的基于肖像的问题不同的应用场景。标签传播。标签传播（LP）[47，46]，也称为图转换[37，30，32]，被广泛用作半监督学习方法。它依赖于构建图的思想，其中节点是数据点（标记的和未标记的），并且边缘表示点之间的相似性，使得标记可以从标记的点传播到未标记的点。在计算机视觉领域，已经提出了不同种类的基于LP的方法用于人脸识别[18，48]，语义分割[33]，对象检测[36]，显着性检测[20]在本文中，我们开发了一种新的LP为基础的方法，称为渐进传播通过竞争共识，它不同于传统的LP在两个折叠：（1）传播的竞争共识，而不是线性扩散，（2）迭代的渐进方式。通过视觉和时间链接的人员搜索5表1：CSM与相关数据集的数据集CSM火星[44]iLIDS[38] PRID[13]市场[45] 私营部门司[40]PIPA[43]任务搜索re-idre-idre-idre-id检测+ re-id识别类型视频视频视频视频图像图像图像身份1,2181,2613002001,5018,4322,356轨迹片段127K20K600400---实例11M1M44K40K32K96K63K图2：CSM数据集的示例在每一行中，左边的照片是查询肖像，并且下面的tracklet是它们在图库中的ground-truth tracklet。3电影数据集中然而，已经存在用于人re-id的多个公共数据集[44，22，38，45，13，8，16]和基于相册的人识别[43]。但是，我们的任务，即个人搜索与一个单一的肖像，仍然缺乏数据集。在这项工作中，我们构建了一个大规模的数据集演员搜索电影（CSM）的这项任务。CSM包括包含1218个演员（男演员和女演员）的肖像的查询集和包含从192部电影提取的127K轨迹片段（具有11M个人实例）的图库集我们将CSM与表1中的人员re-id和人员识别的其他数据集进行比较。我们可以看到CSM明显更大，tracklets的6倍和MARS的11倍多的实例[44]，这是我们所知的最大的人re-id数据集。此外，CSM具有更宽范围的轨迹片段持续时间（从1到4686帧）和实例大小（在帧中从23到557像素）。6Q.黄，W. Liu，L. 林#tracklet16003014002512002010001580060010400520000 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17# tracklets（*100）（一）30025020015010050012000100008000600040002000电影索引（b）第（1）款800060004000200000 100 200300#tracklet（c）第（1）款00100200 300 400500#帧（d）其他事项00 100 200 300 400 500 600高度（px）（e）图3：CSM数据集的统计数据。(a)：电影上的tracklet数量分布。(b)：每部电影的轨迹片段编号，包括记入的演员和“其他”。(c)：tracklet数量在铸件上的分布。(d)：轨迹片段上的长度（帧）分布。(e)：轨迹片段上的高度（px）分布。高度）。图2显示了几个示例tracklet及其相应的可见，任务非常具有挑战性。查询集。对于CSM中的每一部电影，我们都从IMDB中获得了演员名单。对于演员阵容超过10人的电影，我们只按照IMDB的顺序保留前10名，这可以覆盖大部分电影的主要角色。我们总共得到了1218个演员表，我们称之为演员表。对于每个演员，我们从其IMDB或TMDB主页下载肖像，这将作为CSM中的查询肖像。画廊设置。我们通过五个步骤获得了gallery set中的tracklet1. 侦测枪声。电影是由一系列镜头组成的。给定一部电影，我们首先使用快速镜头分割技术[2，34]检测电影的镜头边界，从而为所有电影产生总共200K的对于每个镜头，我们选择3帧作为关键帧。2. 注释关键帧上的边界框然后，我们手动注释关键帧上的人物边界框，并获得约700 K的边界框。3. 训练一个人探测器。我们用带注释的边界框训练了一个人检测器。具体地，将所有关键帧划分为训练帧。贷记别人> 300> 500#电影#cast#tracklet#tracklet通过视觉和时间链接的人员搜索7可视链接时间链接图图4：图中的视觉链接和时间链接。我们只为每对tracklet保留一个最强链接我们可以看到这两种联系是互补的。前者允许身份信息在外观相似的那些实例之间传播，而后者允许沿着连续轨迹片段传播，其中实例可以看起来显著不同。通过合并这两种类型的链接，我们可以构建一个更连通的图，这允许身份被传播得更远。组和测试组的比例为7：3.然后，我们在训练集上对MSCOCO [25]预训练的 Faster-RCNN[29在测试集上，检测器获得大约 91% 的mAP，这对于轨迹生成来说足够好了4. 生成轨迹片段。利用如上所述的人检测器，我们在所有帧上执行每帧人检测。通过跨IoU > 0的帧连接边界框。7在每个镜头，我们从192部电影中获得了127K5. 注释标识。最后，我们手动注释所有tracklet的标识。特别地，每个轨迹片段被注释为一个记入贷方的演员或注意，每个电影中的轨迹片段的标识被独立地注释，以确保具有合理的芽的高注释质量。因此，被称为“其他人”意味着这些演员不4方法在这项工作中，我们的目标是开发一种方法来找到一个人在长视频中的所有出现，例如一部电影，只有一个单一的肖像。这项任务的挑战在于画像（查询）和图库中的候选人之间的视觉外观的巨大差距。我们解决这个问题的基本思路是利用人轨迹片段的固有身份不变性，并通过视觉和时间链接在实例之间传播身份。视觉和时间的联系是互补的。使用这两种类型的链接允许身份比单独使用任何一种类型传播得更远。然而，如何在大的、多样的和有噪声的数据集上可靠地传播仍然是一个非常具有挑战性的问题，考虑到8Q.黄，W. Liu，L. 林M我我们只从少量的标记样本（肖像）开始。克服这一困难的关键是要谨慎，只传播我们确定的信息。为此，我们提出了一个新的传播框架，称为渐进传播通过竞争性共识，它可以有效地识别有信心的标签在一个有竞争力的方式。4.1图形公式化传播在人实例之间的图上执行具体地，传播图被构造如下。假设查询集中有C个cast，图库集中有M个tracklet，并且第k个tracklet的长度（用τk表示）为nk，即它包含Nk个实例。演员肖像和所有的实例alonggΣthetra ckletsareetreatedasgraphnodes. 因此，该图的构成为N=C+k=1nk个节点。特别是C投肖像的身份是已知，并且对应的节点被称为标记节点，而其他节点称为未标记节点。传播框架的目的是通过它们之间的视觉和时间链接将标识从标记节点传播到未标记节点。视觉链接基于特征相似性。对于每个实例（比如第i个），我们可以提取一个特征向量，表示为vi。每个视觉链接与亲和度值相关联，两个实例vi和v j之间的亲和度被定义为将该亲和度的余弦简化为w i j = v T v j /（v i j·v j）。一般而言，高亲和力值与所述身份识别符更像是来自相同身份。时间链接捕获沿着轨迹片段的身份不变性，即沿着轨迹片段的所有实例应当共享相同的身份。在这个框架中，我们把身份不变性作为硬约束，这是通过一个竞争性的共识机制。对于长度为nk和nl的两个tracklet，在它们之间可以存在nk·nl个链路。他们的节点。在所有这些链接中，最强的链接，即最相似的对之间的链接，最能反映视觉相似性。因此，我们只为每对tracklet保留一个最强链接，如图4所示，这使得传播更加可靠和高效。此外，由于时间链接，这种减少不会损害整个图的连通性。如图4所示，视觉和时间链接是互补的。前者允许身份信息在外观相似的那些实例之间传播，而后者允许沿着连续轨迹传播，其中实例可以看起来明显不同。只有视觉链接，我们可以在特征空间中获得聚类。只有时间链接，我们只有孤立的tracklet。然而，通过合并这两种类型的链接，我们可以构建一个更连通的图，这允许身份被传播得更远。4.2通过竞争对手共识进行图的每个节点与概率向量pi∈RC相关联，其将随着传播进行而迭代地更新首先，我们设置通过视觉和时间链接的人员搜索9P=J0.4*线性扩散0.3*0.3*0.80.2？？竞争共识0.4*0.3*0.3*图图5：一个例子来展示竞争共识和线性扩散之间的区别。这里有四个节点，它们的概率向量由它们的侧面示出。我们将把标签从左节点传播到右节点。然而，它的两个邻居节点是噪声。右侧显示了线性扩散和竞争共识的计算过程。我们可以看到，在一个有很多噪音的图中，我们的竞争共识，旨在传播最有信心的信息，更强大。将每个标记节点的概率向量初始化为指示其标记的独热向量由于沿着轨迹线的恒等不变性，我们强制沿着轨迹线τk的所有节点共享相同的概率向量，由pτk表示。在每次迭代中，我们遍历所有轨迹，并逐个更新其相关的概率向量。线性扩散线性扩散是最广泛使用的传播方案，其中节点将通过采用来自邻居的概率向量的线性组合来更新其概率向量在我们的具有恒等不变性的设置中，线性扩散方案可以表示如下：Σ（t+1）τkαkjp（t），withαkj=′w~kjw~kj′.（一）j∈N（τk）j∈N（τk）这里，N（τk）=∪i∈τkNi是τ k中这些实例的所有可见邻居的集合。此外，w~k是一个节点对该节点的约束。由于两个tracklet之间只有一个可视链接的限制（参见第4.1），则节点b或j将被连接到邻居j中的一个节点，并且w~kj表示邻居j与该节点之间的亲和性然而，我们发现，在我们的实验中，线性扩散方案产生的性能不佳性能不佳的一个重要原因是错误将被混合到更新的概率向量中，然后传播到其他节点。这可能会在下游导致灾难性的错误，特别是在充满噪音和挑战性案例的真实数据集中。0.40.30.30.10.90.70.30.10.90.80.20.10.90.80.20.3concat0.36 0.06 0.09是说0.50.70.04 0.24 0.210.50.3concat0.36 0.06 0.09 Max0.36 softmax0.80.70.04 0.24 0.210.240.210Q.黄，W. Liu，L. 林JτkτkKJ竞争共识。为了解决这个问题，关键是要提高可靠性和传播最有信心的信息。特别是，我们应该只相信那些提供强有力证据的邻居，而不是简单地采取所有邻居的加权平均值根据这种直觉，我们开发了一种新的方案，称为竞争性共识。当更新轨迹片段τk的概率向量pτk时，我们首先从N（τk）中的所有邻居收集支持每个身份c的最强证据ηk（c）= maxj∈N（τk） αkj·p（t）（c），（2）其中，归一化系数αkj在等式（1）中定义。（一）.直观地说，如果τk的一个邻居赋予它一个高概率，则它强烈支持一个恒等式。接下来，我们通过tempered softmax函数将个体身份的证据转换为概率向量，如下所示p（t+1）（c）=exp（ηk（c）/T）/ΣCc′=1exp(ηk(c′)/T).（三）这里，T是温度，它控制概率集中在最强同一性上的程度。在该方案中，所有的恒等式通过从相邻恒等式中收集最强支持来竞争p（t+1）中的高概率值.这使得最强的身份脱颖而出。竞争共识可以被认为是一种坐标上升方法溶液Eq. 4，其中，新的路由器将随机可变的z（c）路由到第j个邻居是第k个轨迹片段的类c的可信源的位置。这里，H是熵。约束意味着为每个类c和轨迹片段k选择一个可信源。Max ΣCp（c）公司简介αkjz（c）p（c）+H（p（c））s。t.Σz（c）=1。（四）c=1τkj∈N（τk）kjjτkc=1KJj∈N（τk）图5展示了线性扩散和竞争共识是如何工作的。CSM上的实验也表明，竞争的共识显着改善的人搜索问题的性能4.3渐进式传播在传统的标签传播中，所有节点的标签将被更新，直到收敛。当图包含大量节点时，这种方式可能非常昂贵。然而，对于人员搜索问题，这是不必要的--当我们对某个实例的身份非常有信心时，我们不必在i n g i t处进行检查。基于上述分析，我们提出了一种渐进的传播方案来加速传播过程。在每次迭代中，我们将固定具有最高置信度的节点的特定部分的标签，其中置信度通过视觉和时间链接的人员搜索11表2：CSM表3：查询/图库大小设置查询画廊在(per电影）6.4560.5横33217,927定义为pi中的最大概率值。我们经验地发现，一个简单的冷冻时间表，例如。将10%的实例添加到标签冻结集合已经可以为传播过程带来显著的益处。注意，渐进方案不仅降低了计算成本，而且提高了传播精度。原因是，如果不冻结，噪声和不确定节点将继续影响所有其他节点，这有时会导致额外的错误。5.3中的实验将显示更多细节。5实验5.1CSM的评估协议和指标CSM中的192部电影被划分为训练（train），验证（val）和测试（test）集。这些组的统计数据如表2所示。请注意，我们确保不同集合的转换之间没有重叠即测试集中的转换不会出现在训练和验证中。这保证了测试结果的可靠性。在Person Search with One Portrait设置下，应该对给定查询的图库中的所有tracklet进行排名。对于这项任务，我们使用平均平均精度（mAP）作为评估指标。我们还报告了在我们的实验中的R@k方面的tracklet识别结果的召回。在这里，我们根据它们的概率对每个轨迹片段的身份进行排名。R@k表示正确标识在前k个结果中列出的tracklet我们考虑CSM基准中的两个测试设置，其被命名为“移动中的搜索投射”（IN）和“访问所有移动”（ACROSS）。设置“IN”意味着图库仅由来自一部电影的tracklet组成，包括所创建的影片的片段和“其他”的片段。当在“A C R O SS”设置中时，图库包括在测试集中被记入角色的所有轨迹片段。这里，我们在“A C R O SS”集合中计算“其他”的记录仅意味着它不属于特定电影的任何一个演员表，而不是我们在第2节中提到的数据集中的所有电影。3 .第三章。表3显示了每个设置的查询/图库大小。5.2实现细节我们在实验中使用了两种视觉特征第一个是IDE特性[44]，广泛用于person re-id。IDE描述符是的CNN功能电影铸造轨迹片段推荐曲目火车11573979K47KVal1914715K8K测试5833232K18K12Q.黄，W. Liu，L. 林整个人的实例，由Resnet-50 [12]提取，它在ImageNet [31]上进行了预训练，并在CSM的训练集上进行了微调。第二个是面部特征，由Resnet-101提取，该特征在MS-Celeb-1 M上训练[10]。对于每个实例，我们提取其IDE特征和面部区域的面部特征，由面部检测器检测到[42]。实验中所有的视觉相似度都是通过视觉特征之间的余弦相似度来计算的表4：两种测试设置在跨地图R@1R@3R@5地图R@1R@3R@5脸53.3376.1991.1196.3442.1653.1561.1264.33IDE17.1735.8972.0588.051.671.684.466.85FACE+IDE53.7174.9990.3096.0840.4349.0458.1662.10LP8.1939.7070.1187.340.370.411.605.04PPCC-v62.3784.3194.8998.0359.5863.2674.8978.88PPCC-vt63.4983.4494.4097.9262.2762.5473.8677.445.3CSM结果我们设置了四个基线进行比较：（1）人脸：通过人脸特征相似度将人像与图库中的tracklet进行匹配。这里我们使用tracklet中所有实例的均值特征来表示它。（2）IDE：类似于FACE，只是使用IDE功能而不是Face功能。(3) IDE+FACE：将人脸相似度和IDE相似度结合起来进行匹配，权重分别为0。8和0。2. （4）LP：具有视觉和时间链接两者的线性扩散的常规标签具体来说，我们使用人脸相似度作为肖像和候选人之间的视觉联系，IDE相似度作为不同候选人之间的视觉联系我们还考虑了两个设置的建议通过竞争性共识方法的渐进传播(5)PPCC-v：仅使用可视链接。(6)PPCC-vt：具有视觉和时间链接的完整配置。从表4中的结果，我们可以看出：（1）即使使用在大规模数据集上训练的非常强大的CNN，由于肖像和候选人之间的视觉外观的大差距，通过视觉线索匹配肖像和候选人也不能很好地解决人搜索问题。虽然面部特征通常比IDE特征更稳定，但当面部不可见时，它们会失败，这在电影等现实世界的视频中非常常见。（2）利用线性扩散的标签传播得到非常差的结果，甚至比基于匹配的方法更差。（3）我们的方法以可观的幅度提高了性能特别地，性能增益在更高的“A CR O SS”设置上尤其显著（62. 27个小时的比赛。 4 2. 16使用视觉匹配方法）。通过视觉和时间链接的人员搜索1364626360625861566054590.0 1.1 1.62.33.03.94.65.36.2六点九log（k）(a) U和520.0 1.1 1.62.33.03.94.65.36.26.9log（k）(b) 使用图6：竞争性共有序列的不同设置的mAP。softmax的不同温度（T）和不同k设置（在top-k平均值中）之间的比较。表5：不同更新方案的结果在跨地图R@1R@3R@5地图R@1R@3R@5常规60.5476.6491.6396.7057.4254.6063.3166.41阈值62.5181.0493.6197.4861.2061.5472.3176.01步骤63.4983.4494.4097.9262.2762.5473.8677.44竞争共识分析。为了显示竞争共识的有效性，我们在两个方面研究了竞争共识方案的不同设置：（1）等式中的最大值（3）可以放宽到top-k平均。这里k表示从其接收信息的邻居的数量。当k= 1时，它简化为只取最大值，这就是我们在PPCC中使用的。不同k值下的性能如图所示。六、(2)本文还研究了t_max在E_q中的性质。（3）并对它的性能进行了比较，结果见图1。六、显然，使用softmax的较小温度可以显着提高性能。这项研究支持了我们在设计竞争共识时所声称的：我们应该在这项任务中只传播最有信心的信息。渐进传播分析在这里，我们展示了我们的渐进式更新方案和传统的计划，在每次迭代更新所有的节点之间对于渐进传播，我们尝试了两种冻结机制：（1）分步方案，即设定每次迭代的冻结率，并逐步提高冻结率更具体地，将冷冻率r设定为r = 0。5+ 0。1×iter。（2）阈值方案是指我们设置一个阈值，每次冻结的节点的最大概率为一个特定的身份大于阈值。在我们的实验中，阈值设置为0。5. 结果如表5所示，从中我们可以看出进步方案的有效性T=0.03T=0.1T=0.3T=1T=0.05 T=0.1T=1地图地图14Q.黄，W. Liu，L. 林Iter1 Iter3 Iter5图7：在不同迭代中正确搜索的一些样本。案例研究。我们在图中示出了在不同迭代中正确搜索的一些样本。7.第一次会议。我们可以看到，简单的情况下，通常是明确的正面，可以在一开始就确定。并且在迭代传播之后，信息可以被传播到较硬的样本。在传播结束时，甚至一些非常硬的样本，即非正面的、模糊的、遮挡的和在极端照明下的样本，也可以被传播为正确的身份。6结论在本文中，我们研究了一个新的问题命名为一个人的搜索视频与一个肖像，这是具有挑战性的，但在现实世界中的实用性。为了促进这一问题的研究，我们构建了一个大规模的数据集CSM，它包含了来自192部电影的127K个tracklet，共1218个演员。为了解决这个问题，我们提出了一个新的框架，结合了视觉和时间的身份传播的链接，与一个新的渐进式传播与竞争性共识计划。定量和定性研究都显示了问题的挑战和我们的方法的有效性7确认这项工作部分由商汤科技集团的大数据协作研究资助（香港中文大学协议编号：TS1610626）、香港政府一般研究基金（第14236516）。通过视觉和时间链接的人员搜索15引用1. Ahmed，E.，琼斯，M.，马克，T.K.：一种用于人员重新识别的改进的深度学习架构。在： ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition中。pp. 39082. Apostolidis，E.，Mezaris，V.：全局与局部相视觉描述符在： Acoustics ， Speech and Signal Processing （ ICASSP ），2014IEEEInternatalConFerenceon. pp. 6583-6587 IEEE（2014）63. 郑，D.，Gong，Y.，Zhou，S.，王杰，Zheng，N.：人员重新识别具有改进的三重损失函数的基于多通道部分的CNN。在：ProceedingsoftheIEEEConFeRénCeonCon PuterVis isonandPater nReg gnition中。pp. 13354. 丁，S.，林，L.，Wang，G.，Chao，H.：基于相对距离的深度特征学习用于重新标识的组件。第48（10），29935. 费里斯河博比特河布朗湖Pankanti，S.：基于属性的人员搜索：从实际监测系统中吸取的经验教训。在：多媒体检索国际会议论文集。第153页。ACM（2014）46. Gheissari，N.，塞巴斯蒂安，TB，哈特利，R.：利用空间物体重新识别身份多孔的外观。In：Computer Vision and Pattern Recognition，2006IEEEComputerSocietyC〇nferenceon. vol. 第2页。 1528- 1535年。03TheDog（2006）7. 龚，S.，Cristani，M.，Yan，S.，Loy，C.C.：人员重新识别。Spuringer（2014）38. Gou，M.，Karanam，S.，刘伟，坎普斯岛Radke，R.J.：Dukemtmc4reid：大规模多相机人再识别数据集。在：IEEE计算机视觉和模式识别研讨会会议（2017）2，3，59. Gray，D.，陶，H.：基于集成的ofl o calizedfeaturs. In：Europeanconferenceoncommputtervision. pp. 262-275 03The Dog（2008）10. Guo，Y.，中国科学院，张，L.，Hu，Y.，他，X.，高杰：Ms-celeb-1 m：识别的挑战在该区域中存在百万个细菌。电子技术杂志2016（11），111. Hamdoun，O.，Moutarde，F.，Stanciulescu，B.，Steux，B.：人员重新识别通过基于在短视频序列上收集的兴趣点描述符的签名的多相机系统在：分布式智能相机，2008。ICDSC 2008年。第二ACM/IEEEInter na t in atinalConfencen。pp. 1-6 IEEE（2008）312. 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习于：IEEE计算机视觉与模式识别会议论文集。pp. 第77013. Hirzer，M.，贝莱兹奈角罗斯下午Bischof，H.：通过以下方式重新识别人员脚本和判别分类。In：Scandinavian conference on Imageanalysis. pp. 91-102Springger（2011）2，3，514. 黄，Q，Xiong，Y.，Lin，D.：统一识别和上下文学习人的识别。In：Proceedings of the IEEE Conference on ComputerVisionandPatternRecognition. pp. 221715. 吴俊SBenenson河Fritz，M.，Schiele，B.：个人识别照片收藏In：Proceedings of the IEEE International ConferenceonComputterVision. pp. 386216. Karanam，S.，Gou，M.，吴志，Rates-Borras，A.，坎普斯岛Radke，R.J.：一个系统人员重新鉴定的温度评估和基准：功能、指标和数据集。arXiv预印本arXiv：1605.09653（2016）2，3，516Q.黄，W. Liu，L. 林17. Koestinger，M.，Hirzer，M.，Wohlhart，P.，罗斯下午Bischof，H.：基于等价约束的大规模度量学习。在：Computer Vision and Pattern Regi ti ti n ition（CVPR），2012IEEEConferenceon. pp. 2288-2295 IEEE（2012）318. Kumar，V.，南布迪里上午Jawahar，C.：基于标签传播的视频人脸识别。在：模式识别（ICPR），2014年第22届国际会议。pp.303-308 IEEE（2014）419. Li，H.，Brandt，J.，林芝，沈，X.，Hua，G.：一种用于相册中人物识别的多层次上下文模型。 In ： Proceedings of the IEEE Conference onC 〇mputerVis i sinandPater nRec 〇 gnit i tin. pp. 129720. Li，H.，吕，H.，林芝，沈，X.，价格，B.：标签内和标签间传播：网络中的突出问题。IEEETransacti o nso nImageProcessi ng24（10），317621. Li，S.，Xiao，T.，Li，H.，Zhou，B.，（1991年），中国地质大学，Yue，D.，Wang，X.：使用自然语言描述的人员搜索。In：Proc. CVPR（2017）422. 李伟，赵，R.，Xiao，T.，Wang，X.：Deepreid：深度过滤配对神经网络，用于人员重新识别。在： Proceedings of the IEEE Conference onComputerVisionandPatternRecognition中。pp. 15223. Liao，S.，Hu，Y.，Zhu，X.，李S.Z.：基于局部最大发生表示和度量学习的人员再识别。在： Proceedings of the IEEE ConferenceonC 〇mputerVisisinandPattermRec 〇 gnitin中。pp. 219724. Lin，D. Kapoor，A.，Hua，G.，贝克，S.：使用跨域上下文在个人照片集合中联合识别人物、事件和位置。 In ： European Con-fe-renceonComputerVisin. pp. 243-25 第四季第4集25. 林，T. 是的，我是M Belongie，S.，嗨，J.， Perona，P.， Ramanan，D. ，Dolla'r，P.，Zitnick，C.L.：微软coco：上下文中的公用对象。在：欧洲会议上的竞争对手。pp. 740-755 03TheDog（2014）26

下载后可阅读完整内容，剩余1页未读，立即下载