鲁棒锚点嵌入：无监督视频人物识别中的应用

15 浏览量更新于2023-10-13 收藏 1.03MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

鲁棒锚点嵌入在野外无监督视频人物识别中的应用Mang Ye，Xiangyuan Lan，and Pong C. 袁*香港浸会大学计算机科学系{mangye，pcyuen}@ comp.hkbu.edu.hk，xiangyuanlan@life.hkbu.edu.hk抽象。本文讨论了可扩展性和鲁棒性问题，估计标签不平衡的未标记的数据，无监督的基于视频的人重新识别（重新ID）。为了实现这一目标，我们提出了一种新的鲁棒AnChor嵌入（RACE）框架，通过深度特征表示学习进行大规模无监督视频重新识别。在该框架内，首先选择表示不同人的锚序列以制定锚图，该锚图还初始化CNN模型以获得用于稍后的标签估计的有区别的特征表示。为了准确地估计未标记序列与噪声帧的标签，鲁棒锚嵌入的基础上正则化仿射壳。在流形假设下，使用k个NN锚点嵌入而不是整个锚点集来确保效率。在此基础上，提出了一种鲁棒、高效的top-k计数标签预测策略来预测未标记图像序列的标签利用新估计的标记序列，统一的锚嵌入框架使得特征学习过程能够被进一步促进。在大规模数据集上的实验结果表明，该方法优于现有的无监督视频识别方法。关键词：无监督人re-id·鲁棒锚点嵌入1介绍人员重新识别（re-ID）解决了在不相交的摄像机视图中搜索特定人员的问题[54，55]。近年来，基于视频的re-ID由于其实用性而获得了越来越多的关注[53]，其中在实际应用中可以通过有效的行人检测和跟踪算法来简单地获得视频序列[17，18]。先进的深度学习方法已经取得了令人印象深刻的进展[22，34，51]。然而，注释困难限制了监督方法在大规模相机网络中的适用性，这促使我们研究使用深度神经网络进行视频重新识别的无监督解决方案。我们遵循跨相机标签估计方法从未标记的图像序列中挖掘标签[27，29，47]，其中现有的监督方法随后可以用于学习判别性re-ID模型。因此，该方法具有很好的灵活性和适用性[47]。然而，以前大多数无监督的2叶芒，兰香媛，庞C. 袁凸轮1凸轮2出现在两个摄像头中仅出现在一个摄像头中图1：用于无监督训练的re-ID任务中的实际不平衡未标记数据。学习方法采用与监督方法相同的训练集，其中所有人都出现在两个摄像机中[16，27，29]。在实际的无监督设置中，由于不平衡的未标记数据，仅一小部分人出现在两个相机中，即，，大多数人只出现在一个相机中，如图所示。1.一、结果，将引入大量的假阳性，并且显著的性能下降是不可避免的。因此，它们的性能对于实际的野外环境有些高估。此外，这些方法中的大多数遭受可扩展性问题，因此不能应用于大规模应用[9，43，53]。在本文中，我们提出了一种可扩展的解决方案，使用深度神经网络在野生环境下进行无监督视频re-ID。所提出的方法被设计在视频re-ID中存在的特定于应用的特性之上。具体地，我们假设表示不同人的若干训练视频序列可以被收集作为锚定序列以供选择。在相同时间间隔的非重叠相机中的应用程序上的可识别的人可以被视为不同的因此，在实际应用中可以容易地收集锚定序列而无需手动标记努力。此外，可以粗略地假设每个视频序列内的图像帧表示相同的个人身份，这通过将每个序列视为一个类（个人身份）来提供丰富的弱标记图像。因此，容易收集的锚序列提供了丰富的训练样本来初始化CNN模型以获得有区别的特征表示，这确保了来自未标记序列的后续标记估计性能。与学习的特征表示，我们提出了一种新的鲁棒AnChor嵌入（RACE）框架估计标签从未标记的序列大规模无监督视频重新ID。RACE通过嵌入过程来度量未标记序列和锚序列之间的潜在关系。为了解决可扩展性和效率问题，我们建议在流形假设下使用k-最近邻而不是整个锚点集来为了处理序列中的噪声帧，并实现更强大的标签估计在无监督的设置下，一种新的约束的基础上正则仿射全被纳入抑制噪声帧的负面影响。利用学习到的嵌入权值，提出了一种鲁棒、高效的top-k计数标签预测它不需要强制的标记分配并减少了假阳性，鲁棒的锚点嵌入在野外无监督视频Re-ID中3保证了在任意设置下的鲁棒性。其主要思想是，如果两个视频序列共享相同的标签，它们应该在不同的测量维度下非常相似利用新估计的标记序列，进一步促进了特征学习过程。与现有的无监督re-ID方法相比，所提出的方法是强大的和有效的大规模视频re-ID在野外。主要贡献概述如下：– 我们提出了一个无监督的深度特征表示学习框架，用于在野生环境下进行大规模视频重新识别它是建立在视频re-ID任务中存在的特定于应用的特性– 我们提出了一种新的鲁棒的锚嵌入方法来衡量潜在的相似性之间的关系的未标记的序列和锚更好的标签估计。对离群点不敏感的仿射壳正则化被集成来处理序列中的噪声帧以增强鲁棒性。– 我们引入了一个强大的和有效的前k计数标签预测策略，以减少误报。它同时考虑了视觉和内在相似性，实现了更高的标签估计精度和略好的效率。2相关工作无监督Re-ID。近年来，已经开发了几种无监督的re-ID方法。无监督迁移学习方法在具有标记源数据集的未标记目标数据集上学习re-ID模型[28，32]。显着性学习也在早年进行了研究[36，52]。除此之外，其他尝试采用具有图正则化约束的字典学习来学习共享特征表示[16，32]。此外，Yu et al. [49]介绍了一种跨视图非对称度量学习方法来学习距离度量。同时，Ye等人。 [47]和Liu等人。 [27]通过手工特征表示估计标签来解决无监督视频re-ID问题，然后采用现有的监督学习方法来学习re-ID模型。大多数先前的方法遭受可扩展性问题，并且它们难以应用于大规模应用[13，15，21]。无监督深度学习无监督深度学习在一般图像识别任务中得到了广泛的研究[3，20，50]。一些方法试图设计自我监督信号[50]，但它们并不明确旨在学习区分性特征，由于类内变化较大，这些特征不适合重新识别任务其他一些方法采用基于排名[19]或检索[4]的标签分配策略，但它们很容易遭受崩溃问题，即大多数未标记的样本可能被分配到同一个类[3]。此外，针对re-ID引入了几种基于聚类的无监督深度学习方法[9]。然而，他们很难被应用在大规模的人重新ID应用程序，由于耗时的聚类过程。其他方法利用图论来利用不同样本之间的关系[3，20]。然而，人re-ID中的大的跨相机变化可能引入大量误报，这降低了这些方法的有效性4叶芒，兰香媛，庞C. 袁用于CNN初始化的几个锚序列锚1锚2锚3锚4锚5a b c d e1锚点初始化锚6F3模型更新结合31初始化3更新锚？Top-k：相似性评分B一DF一22B一Df0.20222e一D什么？0.38一FBDBF0.17Top-k：嵌入权重CNN3学习表示未标记序列未标记0.25？一k个NN锚点锚钉嵌入2标签估算标记预测标记序列图2：所提出的RACE框架。它包含三个主要步骤：（2）标签估计，通过鲁棒锚嵌入和前k计数标签预测对未标记序列进行标签估计;（3）模型更新，用新标记的序列和锚序列更新深度特征表示。深度学习Re-ID现有的深度学习re-ID方法可以根据学习对象大致分为三类：三重丢失[5，11，48]，对比/验证丢失[6，35，45]和分类/身份丢失[33，56]。此外，一些作品将它们结合在一起以提高性能[42，48]。此外，一些CNN-RNN相关的网络结构也被设计用于视频重新识别任务[26，30，44]。所有这些方法都可以在我们的框架中配置，以学习有区别的re-ID模型。半监督学习。所提出的方法还与基于锚点图的半监督学习方法[25，37，38]相关，因为我们随机选择用于锚点初始化的序列类似地，它们还包含锚嵌入过程以测量锚和未标记样本之间的关系。与以往方法不同的是，他们利用图正则化来估计标签，而我们引入了一种新的top-k计数s-策略来估计标签，这是更强大和有效的。此外，我们修改锚嵌入过程中考虑到实际野生场景下的视频re-ID任务的特点。3该方法3.1概述我们的目标是准确地估计标签与大量的未标记的跟踪序列收集从不同的相机，其中歧视性的重新识别模型可以随后学习。所提出的框架包含三个主要步骤，如图所示。2：（1）锚初始化，随机选择几个锚序列用于CNN初始化，以获得区分性特征表示，用于更好的标签估计（第3节）。2）的情况。同时，所选择的锚序列因此用于未标记图像鲁棒的锚点嵌入在野外无监督视频Re-ID中5序列的（2）标签估计，利用学习的表示，引入了通过鲁棒锚嵌入和前k计数标签预测的未标记序列的标签估计（第3节）。（3）第三章。具体地，引入鲁棒的锚嵌入以用其最近的锚序列重建任何未标记的序列，以确保效率。同时，每个图像序列表示其正则化仿射壳，以减少离群帧的影响。在此基础上，利用学习的嵌入权值，采用top-k计数标签预测策略对未标记序列进行标签预测（3）模型更新，使用新估计的序列和锚序列，我们用更多的训练样本更新深度特征表示学习（第3节）。4）.3.2锚钉众所周知，良好的模型初始化对于深度特征表示学习系统至关重要。本文针对视频重识别任务的特点，设计了一种有效的模型初始化策略我们首先随机选择m个锚序列（A）来微调预训练的ImageNet模型[10]，其中假设m个锚序列表示不同的个体1。该假设是合理的，因为同一个人不能在不同的非重叠相机下在同一时刻呈现[27，28]。在该假设下，锚定序列可以在实际应用中不需要人标记注释努力的情况下因此，假设每个序列内的图像帧属于同一个人身份，这可以通过有效的跟踪算法来确保[7]。以这种方式，视频序列通过将不同的人身份视为不同的类别来为每个人提供丰富的训练样本。因此，可以采用这些选择的锚序列来初始化深度神经网络，以学习用于标签估计的区分性特征表示。在本文中，我们采用分类损失（IDE [54]）作为基线结构，因为它对训练有效并且表现出良好的收敛性[53]。相应地，为这些初始化的锚序列构建锚集合A。表示为A={A1|l = l，2，···，m}（1）每个节点A1表示来自第1个锚序列的帧级特征向量的集合。1表示分配给锚点A1的对应的初始化伪标签。然后利用这些锚点从未标记的序列进行标记估计3.3标签估计稳固的锚钉嵌入。利用初始化的CNN表示，我们可以提取未标记序列X ={X i}的特征表示。|i = 1，2，...，n}和用于标签估计的锚序列A。在视频重新识别中，1.一个锚点被假设为代表不同的人，但如何不受这个假设的影响（两个锚点可能属于同一个人），如图1所示。六、6叶芒，兰香媛，庞C. 袁我我我我我（i）每个序列包含几个不同的帧级特征向量，表示序列的典型方式是采用均值池化或最大池化来将多个帧向量转换成单个特征向量[30，53]。然而，它可能会恶化的标签估计的性能，通过引入噪声帧内的序列，这通常是由跟踪或检测错误。事实上，存在尝试学习更好的视频序列表示的一些方法[6，44]，但是它们没有明确地考虑序列内存在的离群帧或效率问题。因此，我们采用有效的正则化仿射外壳（RAH）[58]来减少测量序列与序列相似性时离群帧的影响。它可以处理任意长度的序列，具有很好的灵活性。对于序列Xi，其RAH表示为ΣxH ={αjx..i，j.αj= 1，αlp ≤δ}（2）其中，通过抑制最终视频序列表示的不必要分量，可以使表示对离群帧具有鲁棒RAH将每个序列的帧级特征向量的原始集合变换为具有学习系数的单个特征向量[58]。为了简化，图像序列i的RAH在下文中由d维特征向量表示，称为带有上标H的xH.对于未标记序列标签预测，我们首先旨在学习嵌入向量wi，其测量未标记序列xH和用RAH表示的锚集AH为了确保效率，我们学习了未标记序列i的嵌入权重，其最近的（k）个锚而不是所有锚。合理的是，在多种假设下，远距离序列很可能具有不同的标签，而连续序列可能具有相似的标签[25，40，41]。这种策略大大减少了不必要的计算成本，因为km。因此，一个未标记序列xH∈Rd×1被表示为它的k个最近锚的凸组合H（i）∈Rd×k）。我们将系数学习问题表述为鲁棒AnChor包埋（RACE）代表：¨¨2¨ ¨2H Hminwi∈Rk f（wi）= ¨xi− A（i∠wi¨+λd（iwi（三）S.T.1T wi= 1， wi≥ 0其中向量wi的k个条目表示对应的嵌入未标记序列xH到其k个最接近锚AH的权重。d（i）是一个向量i（i其表示未标记序列xH和锚AH之间的视觉相似性。⊙表示逐元素乘法。λ是平衡两项的折衷因子。RACE包含两个独立的项，第一个嵌入项旨在用其最近邻锚重建未标记序列。第二平滑项约束学习的系数，使得较大的权重应当被分配给具有较小距离的锚。RACE将高维CNN表示转换为低维嵌入权重向量，以降低计算成本。Σ（A鲁棒的锚点嵌入在野外无监督视频Re-ID中7图3：MARS数据集上图像序列内的噪声帧。平滑项。由于[25]中的原始LAE在嵌入权重和序列到锚点距离之间没有任何约束从流形假设的角度来看，附近的序列倾向于具有相似的标签是合理的。也就是说，附近的锚点应该具有较大的重建权重，而远处的锚点应该分配有较小的权重。相应地，我们定义d（i）为xH−AH（k）d（i）我（k）=exp（−（i）σ）（4）其中σ是平衡参数，并且通常由平均距离定义到它最近的锚点AH。i（i优化. 在将多个帧级特征向量变换为每个序列到RAH具有[58]中的近似解，方程中的优化问题。3成为标准的二次规划问题。为了加速优化并确保学习权重的稀疏性，我们采用投影梯度法[8，25]来优化方程。3. 更新规则表示为：w（t+1） =PS（w（t）−ηtf（w（t）我我我PS（w）=argmin w′−w（5）wi∈S其中t表示迭代步骤，Ps是用于确保等式中的非负归一化约束3.第三章。 η t是正步长，f（w）表示f在w处的梯度。详情见[8，58]。嵌入权重测量未标记序列和锚之间的内在相似性，其随后用于标签估计。使用前k个计数的标签预测。标签估计的直接解决方案是设计图拉普拉斯算子并进行图正则化，如在许多基于锚图的半监督学习方法中所做的那样[25，31，37]。但是，由于以下原因，它不适合我们的场景– 在半监督环境下，他们通常假设每个未标记的样本必须根据锚标签分配一个标签。然而，对于视频re-ID，锚集合的标识通常仅是所有可能标识的子集。强制标签分配可能会产生大量的假阳性，特别是对于野生设置，这将恶化后期的特征表示学习。8叶芒，兰香媛，庞C. 袁′H′R（A）– 据我们所知，大多数基于图的学习方法都存在计算复杂度高的问题。具体地，图拉普拉斯步骤是O（m2n），并且图正则化过程是O（m2n+n3）。在大规模摄像机网络应用中，m和n都可能非常大，这使得这些方法无法使用。为了解决上述鲁棒性和效率问题，我们设计了一个简单但有效的top-k计数策略用于标签预测。其主要思想是，如果两个图像序列属于同一个人的身份，他们应该是非常接近的，在不同的测量维度[14]。具体地说，如果给未标记序列xi分配Al的标记l，则它应满足两个原则：（1）Al应在xi的最近（k≤k）个锚点内，表示为N（i，k′>。这意味着序列X1应该与锚点A1极其视觉相似。该原则保证了只有视觉相似的样本可以共享相同的标签，它度量了视觉相似性。（2）wi，l的嵌入权重应该足够大，因为嵌入过程测量未标记序列和锚之间的内在潜在关系，它充当内在相似性。在数学上，我们将标签预测公式化为0，如果A（i，k′>∩N（i，k′> = øi=最大参数l∈AH（i，k）wi，l，其他（6）L其中R（Al）表示Al在N（i，k′>中根据视觉相似性的排序顺序，其联合考虑嵌入权重和视觉相似性得分。我们的标签预测策略有两个主要优势：（1）我们可以避免不确定序列的强制标记分配，从而可以减少在野生设置下的大量假阳性。较小的k′意味着更严格的约束。(2)它是相当有效的。第一个标准可以通过与或运算有效地完成，并且第二个标签预测步骤仅需要对每个未标记序列计算少于k′（k′≤k≤m）次标签预测阶段的计算复杂度为O（kn+k′lgk′n）（交集运算+排序运算），远低于O（m2n+n3）的图模型[25，37]实验结果表明，该方法具有较高的标签估计性能，且在视频重识别中的效率略高。3.4模型修正利用新估计的序列连同锚序列，我们可以采用现有的监督方法（例如，基于锚序列的方法）。IDE [53]，QAN [26]，ASTPN [44]）以更新深度特征表示学习。通过更多的训练样本来改进学习的特征表示此外，还可以采用自训练策略来改进标签估计过程和特征表示学习。此外，通过RACE与锚集一起新估计的标签，我们可以学习改进的相似性度量。因此，可以更新锚嵌入以获得更准确的标签预测结果和训练样本。通过迭代更新，可以实现更好的标签估计性能和特征表示。鲁棒的锚点嵌入在野外无监督视频Re-ID中94实验结果4.1实验设置数据集。选择三个公开可用的视频re-ID数据集进行评估：两个小规模数据集，PRID-2011数据集[12]，iLIDS-VID数据集[39]和一个大规模MARS数据集[53]。PRID-2011数据集收集自两个不相交的监视摄像机，具有显着的颜色不一致性。它在摄像机视图A中包含385个人物视频序列，在摄像机视图B中包含749个人物序列在所有人中，在两个摄像机视图中记录了200人iLIDS-VID数据集由位于机场到达大厅的两个非重叠摄像机捕获，每个摄像机中采样300个人的视频序列。MARS数据集是一个大规模的数据集，它包含1,261个不同的人，这些人被至少2个摄像机捕获，总共20,715个图像序列，这些图像序列是由DPM检测器和GMCCP跟踪器自动获得的。评价方案。与PRID-2011和iLIDS-VID数据集上的先前无监督设置不同[27，47]，它们采用与监督方法相同的训练集，这对于实际应用来说是不切实际的我们修改训练设置以进行野生评估。对于PRID-2011数据集，共有来自两个相机的600个人序列（每个相机中有300个序列对于锚初始化，从两个相机随机选择表示不同人的300个图像序列。对于iLIDS-VID数据集，总共有来自两个相机的300个人序列（每个相机中100个序列）用于训练，两个相机中仅对于锚初始化，从两个相机随机选择表示不同人的100个图像序列。对于MARS数据集，随机选择来自625个人的625个序列作为用于初始化的组合。锚被假定为表示不同的人，但是如图1B所示，锚如何被重新定义为相同的人（两个锚可能属于同一个人）。6.在测试过程中，采用了两个序列的欧氏距离。秩-k匹配率和mAP值均在测试阶段报告。实作详细数据。我们使用在ImageNet上预训练的ResNet-50 [10]作为我们的基本CNN模型。具体来说，我们在pooling-5层之后插入一个具有512个单元的全连接层，然后进行批量归一化，ReLU和Dropout[33]。所有数据集的丢弃概率均设置为0.5所有图像的大小都调整为128× 256。采用标准数据扩充方法。MARS数据集的批量大小设置为256， PRID-2011和iLIDS-VID数据集的批量大小设置为64我们使用随机梯度下降来优化神经网络。我们采用MxNet的默认Normal函数进行变量初始化。对于MARS数据集，初始学习率被设置为0.003，对于PRID-2011和iLIDS-VID数据集，初始学习率被设置为0.01，在20个epoch之后，初始学习率降低0.1除非另有说明，否则所有数据集的总训练时期设置为30等式中的k个NN图构造k。3被设置为15，并且标签预测k’被设置为1。平滑参数λ被设置为0.1。用[58]优化RAH。默认实验结果是1轮标签估计。10叶芒，兰香媛，庞C. 袁方法召回精密度F评分1NN41.7641.7641.76AGR [25]43.3043.3043.30副总经理[47]42.4059.6449.57种族40.8766.2250.54设置召回精密度F评分不带Top-k47.8447.8447.84无RAH37.2068.1848.14不带光面42.7559.2249.65种族40.8766.2250.54表1：MARS数据集上标签估计性能（%）的评价。DGM [47]的标签估计时间约为2小时，RACE仅为183s。表2：所提出的RACE中不同组分的评价。MARS 数据集的标签估计性能（%）。4.2仔细的分析标签估计的评价。我们采用一般的准确率，召回率和F-得分作为评价标准的标签估计性能。MARS数据集的结果见表1。1）有效性。结果表明，与1NN（最近邻）和AGR [25]基线相比，所提出的方法可以大幅提高精度和F分数。具体来说，我们可以达到66.22%的标签估计准确率在大规模的MARS数据集，F-得分约为50.54%。2)效率与ICCV17中在大规模MARS数据集上的最先进的DGM方法相比，所提出的方法在标签估计时间方面比DGM更有效（我们的：183s，DGM [47]：同时，也取得了更好的标签估计性能。与具有185s的 AGR [25]相比，所提出的RACE在标签估计过程方面也更有效。此外，考虑到两种方法都包含约157s的嵌入过程，我们的前k计数标签预测的优势更加明显。对每个组件进行评估。我们通过删除相应的组件来评估所提出的方法的每个组件。表2所示的实验结果可以验证每个组件的有效性结果表明，top-k计数标签预测将标签估计精度从48%提高到66%.此外，RAH主要有利于召回标准，因为RAH比简单池化方法对序列内的离群帧更鲁棒。此外，平滑项还进一步提高了标签估计性能，在嵌入过程中的平滑相似性约束。总的来说，通过整合三个主要成分来增加F分数参数分析三个重要参数：（1）k，为RACE选择的最近锚点的数量，（2）k’，前k个计数的参数，等式（1）中的标签预测。λ，折衷参数平衡等式6中的嵌入项和平滑项3，在图中进行评估4.第一章（1）对于k NN锚点图构造，较大的k通常可以带来更好的性能，如图4（a）所示。然而，这也增加了后续步骤中的计算时间此外，我们可以看到，当k达到15时，性能变得稳定因此，我们认为，鲁棒的锚点嵌入在野外无监督视频Re-ID中11召回精度基线F评分召回精度基线F评分7070706565656060605555555050 504545 4540 404035 353530123456789101112131415301 2 3 453000的情况。10的情况。20的情况。30的情况。40的情况。50的情况。60的情况。70的情况。80的情况。91(a)knn图（k）（b）标签预测（k’）（c）图4：MARS数据集的参数分析。（a）最近锚的数量（k）′选择种族;（b）等式（1）中的标签预测的参数k。6;（c）λ，权衡parameter inEq.3 .第三章。数据集PRID-2011iLIDS-VID火星在r1 5 10 201 5 10 201 5 10 20地图监督64.7 91.2 94.6 98.7 45.6 69.9 78.4 87.5 69.3 85.8 89.4 92.8 49.8基线45.3 72.5 86.6 90.4 13.6 33.7 44.3 58.1 33.2 47.7 54.7 62.0 15.5种族50.6 79.4 88.6 91.8 19.3 39.3 53.3 68.7 41.0 55.6 62.2 67.2 22.3表3：与基线系统（IDE [53]+Resnet50 [10]）的比较。在三个数据集上在等级-1、5、10、20和mAP处的人重新识别性能（%）。“B a s e l i n e”是指信息化功能描述的一种形式。我们在实验中选择k= 15（2）对于k′，k′越小，说明视觉相似度和内在相似度之间的约束越严格，召回率越小由于更大的召回值意味着在特征表示学习过程中会遇到更多的噪声标签，因此我们更喜欢更好的标签精度性能，因此在我们的实验中将k′(3)对于λ的敏感性，它也可以说明平滑项的改进。此外，较大的λ意味着对两个嵌入锚之间的相似性得分的更严格的约束显然，如果λ足够大，所提出的RACE将退化为最近邻方法。总的来说，λ的适当选择将改善整体性能，如图1B所示。第4（c）段。重新鉴定的评价。我们使用三个数据集上的估计标签评估了re-ID性能，如表3所示。注意，我们的评估方案模拟野生设置，其与PRID-2011和iLIDS-VID数据集上的标准监督设置略有不同。表3示出了所提出的RACE在具有一轮标签估计和特征学习的所有三个数据集上一致地改进了基线特征表示学习方法。具体来说，我们将PRID-2011数据集上的秩1匹配率从45.32%提高到50.64%，iLDIS-VID数据集上的秩1匹配率从13.6%提高到19.33%，MARS数据集上的秩1匹配率从33.2%提高到41.0%。我们假设，性能将进一步提高迭代更新。请注意，特征学习过程的性能可能会通过其他高级深度学习[26，44]或重新排序方法[1，2，46，57]得到改善。召回F-score精度基线12叶芒，兰香媛，庞C. 袁数据集PRID-2011iLIDS-VID参考文献在r151020151020显著性[52]25.843.652.662.010.224.835.552.9CVPR13LOMO [23]40.666.779.492.39.220.027.946.9CVPR15STFV3D [24]42.171.984.491.6 37.0 64.3 77.0 86.9ICCV15GRDL [16]41.676.484.689.921.742.956.271.6ECCV16SMP [27]38.768.179.690.016.031.843.856.8ICCV17副总经理[47]48.278.383.9 92.423.146.758.371.2ICCV17赛事（第一轮）50.6 79.4 84.891.819.339.353.368.7-表4：在野生设置下，在小规模PRID- 2011和iLIDS-VID数据集上与最先进的无监督方法的比较。秩-k匹配率（%）。在r151020地图参考文献LOMO [23]14.927.433.740.85.5ICCV15GRDL [16]19.333.241.646.59.6ECCV16SMP [27]41.255.6-66.819.7ICCV17副总经理[47]36.854.061.6 68.521.3ICCV17赛事（第一轮）41.055.661.967.222.3-赛事（第二轮）43.2 57.1 62.167.6 24.5-表5：在大规模上与最先进的无监督方法的比较MARS数据集。秩-k匹配率（%）和mAP（%）。4.3与现有技术的本小节展示了与其他最先进的无监督re-ID方法的比较，包括显着性[52] ， LOMO [23] ， STFV 3D [24] ， GRDL [16] ， DGM [47] 和 SMP2[27]。请注意，我们对PRID-2011和iLIDS-VID数据集的评估设置与原始DGM [47]和SMP [27]不同，其中它们假设所有人都出现在两个摄像机中。三个数据集的比较如表4和表5所示。实验结果表明，在PRID-2011数据集和大规模MARS数据集上，该算法在任意设置下均能获得最佳性能具体地，如表4所示，在野生设置下，PRID-2011数据集上的秩-1准确度为约50.6%。对于大规模的MARS数据集，625人随机出现在6个摄像机中，因此它与实际的多摄像机网络更相关。相应地，我们可以实现最先进的性能，秩1匹配率为43.2%，mAP为24.5%，2轮训练，如表5所示。然而，表4显示我们在iLIDS-VID数据集上的结果低于最先进的无监督方法，这可以归因于用于深度特征表示学习的有限训练数据。我们假设所提出的方法可以应用于实际应用中，其中可以收集大量未标记的跟踪序列用于无监督的深度特征表示初始化和学习。2GRDL、DGM和SMP均使用已发布的代码实现鲁棒的锚点嵌入在野外无监督视频Re-ID中1320.120.821.913.215.115.450.038.81级准确度（%）39.741.050.01级准确度（%）38.640.140.640.030.020.010.00.031.430032.350033.262540.030.020.010.00.030.430031.750032.862530.020.010.00.0平均精密度（%）20.321.422.313.614.815.5300 500 625基线人种平均精密度（%）30.020.010.00.0300 500 625基线人种(a) （b）不同锚的图5：MARS数据集上锚点选择的敏感性。(a)主播人数。所有这些锚代表不同的人。（b）不同锚的数量主播是随机选择的，两个主播可能属于同一个人。我们还观察到，如表5所示，可以通过进一步的标记估计/细化来进一步改善性能。具体而言，在第2轮中，大规模MARS数据集的秩-1准确度（41.0%至43.2%）和mAP值采用迭代更新方案，可以通过牺牲效率来进一步提高性能4.4野外稳健性在本节中，我们将在更具挑战性的设置下评估RACE，这些设置包括1)对锚点选择的敏感性，不同的锚点初始化策略。（二）对不平衡比率的敏感性，训练集的不同不平衡比率对锚点选择的敏感性。锚初始化是非常重要的，在我们提出的方法，特别是对于选定的锚的数量评估两组不同的锚点选择实验，如图2所示五、(1)在开放环境中很因此，我们随机选择不同数量的初始化锚序列来测试大规模MARS数据集上的性能变化，如图所示。第五条（a）款。实验结果表明，该方法能够在不同初始锚点数目的情况下，一致地提高基线特征的表示。具体而言，与625序列初始化相比，整体性能略有下降，但与当前最先进的无监督方法相比，它们仍然具有竞争力。2）很因此，我们放宽假设，其中锚点是随机选择的，因此两个锚点可能属于同一个图5（b）表明，即使没有假设，所提出的方法仍然实现了令人满意的性能，略有下降。对不平衡比率的敏感性。我们在PRID-2011数据集中采用了额外的734人序列和200人训练序列对14叶芒，兰香媛，庞C. 袁60.050.040.030.020.010.0基线人种55.250.642.850.634.045.336.225.4100/100100/200100/300图6：PRID-2011数据上不同不平衡比的秩1匹配率（%）。“# m / n”表示在两个摄像机中均存在相同的分辨率。模拟不同的不平衡比，如图所示。六、 “#100/400” mean- s that only100 persons appear in both cameras while each camera contains400 具体地，附加的人序列被简单地视为不同的人以初始化深度特征表示学习。图6证明了RACE在不同的野生设置下一致地改善了深度特征表示学习性能。此外，由于深度特征表示学习可以受益于更多的训练数据，因此RACE在PRID- 2011数据集上使用更多的锚序列实现了甚至更好的性能，即使具有较低的阳性率。与DGM [47]相比，RACE对较低的阳性比率更稳健，而DGM在低阳性比率下快速下降总的来说，RACE在以下几个方面更胜一筹：1）它对于大规模场景是可扩展的，其在没有任何手动标记信息的情况下学习有区别的深度特征表示。2)它在标签估计过程方面是有效的。3)它在野生设置下是鲁棒的，因此可以应用于具有高度不平衡的未标记训练数据的实际应用。5结论本文提出了一种有效的和可扩展的无监督深度特征表示学习框架，用于在野生环境下进行视频重新识别为了从未标记序列中准确地估计标记，设计了一种鲁棒的锚嵌入方法，将正则化仿射壳和流形平滑项集成到嵌入过程中。然后引入一种新的前k计数标签预测策略以减少误报。深度特征表示学习可以用新估计的未标记序列来更新在大规模数据集上的实验结果表明了该方法的优越性。致谢本研究得到香港浸会大学（12254316）及国家自然科学基金（61562048）的部分资助。鲁棒的锚点嵌入在野外无监督视频Re-ID中15引用1. Bai，S.，Bai，X.，Tian，Q.：监督平滑流形上的可扩展人员再识别。IEEE计算机视觉和模式识别会议（CVPR）。pp. 25302. Bai，S.，孙，S.，Bai，X.，张志，Tian，Q.：多亲和图上的平滑邻域结构挖掘及其在上下文相关相似性中的应用In：Europea nCo nfere nceonCom uterVisi n（ECCV）.pp. 5923. Bojanowski，P.，Joulin，A.：通过预测噪声进行无监督学习ICML（2017）4. Bojanowski，P.，拉朱吉河巴赫，F.，拉普捷夫岛Ponce，J.，施密德角Sivic，J.：排序约束下视频中的弱监督动作标注In：ECCV（2014）5. 郑，D.，Gong，Y.，Zhou，S.，王杰，Zheng，N.：人员重新识别通过具有改进的三重损失函数的基于多通道部分的CNN。见：CVPR（2016）6. Chung，D. Tahboub，K.，Delp，E.J.：一种用于人员再识别的双流连体卷积神经网络。In：ICCV（2017）7. Danelljan，M.，Bhat，G.，Khan，F.S.，Felsberg，M.：ECO：用于跟踪的高效卷积运算器。在：IEEE计算机视觉和模式识别会议（CVPR）。pp.2017年2月1日8. Duchi，J.，Shalev-Shwartz，S.，辛格，Y.，钱德拉，T.：有效的投影到l 1-球上用于高维学习在：ICML（2008）9. Fan，H.，郑湖，Yang，Y.：无人监管人员重新识别：聚类和微调。arXiv预印本arXiv：1705.10444（2017）10. 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习。见：CVPR（2016）11. Hermans，A.拜尔湖莱贝B：在三胞胎丢失的辩护中重新进行了人的鉴定。In：ICCV（2017）12. Hirzer，M.，贝莱兹奈角罗斯下午Bischof，H.：通过描述性和判别性分类进行人员重新识别。In：Scandinavian conference on Imageanalysis. pp. 9113. 建明湖Weihang，C.，Qing，L.，Can，Y.：基于时空模式迁移学习的无监督跨数据集人员再识别。在：IEEE计算机视觉和模式识别会议（CVPR）（2018）14. Jin，S.，Su，H.，Stauffer，C. Learned-Miller，E.：端到端的人脸检测和移动中的投影组使用的是鲁比。 In：计算机视觉（ICCV）中的一个简单概念。第2卷，第8页（2017年）15. 静雅，W.，Xiatian，Z. Shaogang，G.，Wei，L.：用于无监督人员重新识别的可转移联合属性-身份深度学习。IEEE计算机视觉与模式识别会议（CVPR）（2018）16. Kodirov，E.，Xiang，T.，傅志龚，S.：通过无监督的指纹识别进行人员再识别。 In：在C〇mputerVisin（ECCV）上的E 〇 p e a n C 〇 n fe re n ce。pp. 17817. 兰，X.，妈A.J.袁政道切拉帕河：联合稀疏表示和鲁棒特征级融合用于多线索视觉跟踪。 IEEE Transactions onImageProcess ing （ TIP ） 24（12），582618. 兰，X.，Zhang，S.，（1991），中国农业科学院，袁政道切拉帕河：学习常见的和特定于功能的模式：一种新的基于多重稀疏表示的跟踪器。IEEETra nsacti o nso nImageProcessi ng27（4），20 2216叶芒，兰香媛，庞C. 袁19. Lee，H.Y.，Huang，J.B.，Singh，M.，Yang，M.H.：通过排序序列进行无监督表示学习 IEEE International Conference on Computer Vision（ICCV）pp. 66720. Li，D.，Hung，W.C.，Huang，J.B.，王，S.

下载后可阅读完整内容，剩余1页未读，立即下载