探索摄像头动态性质的人物再识别方法

6 浏览量更新于2023-10-25 收藏 12.53MB PDF 举报

迁移学习

数据隐私

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

𝐶!𝐶"𝐶#𝐶!𝐶"𝐶#𝑀"#𝑀!"𝑀!#𝐶!𝐶"𝐶#𝑀"#𝑀!"𝑀!#𝐶$Source data used for pairwise training of existing networkProvided pairwise metrics without access to source dataNew limited labeled data (colors indicate corresponding camera)New camera with new limited pairwise labeled data with existing camerasLearned models , source data discarded Onboaramera 1121440使用假设迁移学习的人物再识别摄像头引导0Sk Miraj Ahmed 1, �，Aske R Lejbølle 2, �，†，Rameswar Panda 2，Amit K. Roy-Chowdhury 101 加州大学河滨分校，2 丹麦奥尔堡大学，3 IBM研究人工智能，剑桥0{sahme047@, alejboel@, rpand002@, amitrc@ece}.ucr.edu0摘要0大多数现有的人物再识别方法考虑的是网络中摄像头数量固定的静态环境。一个有趣的方向，却鲜有人关注的是探索摄像头网络的动态性质，即在引入新摄像头后，尝试在很少的额外工作下调整现有的再识别模型。最近有一些在人物再识别中提出的方法试图通过假设现有网络中的标记数据仍然可用来添加新摄像头。这是一个强假设，因为可能存在一些隐私问题，无法访问这些数据。相反，基于学习到的再识别模型很容易存储，从而减轻了任何数据隐私问题，我们使用假设迁移学习开发了一种仅使用源模型和有限标记数据来进行模型适应的高效方法，而不使用现有网络的源摄像头数据。我们的方法通过找到多个源模型的最佳加权组合来最小化负迁移的影响，从而实现知识的迁移。在四个具有可变数量摄像头的具有挑战性的基准数据集上进行了大量实验，充分证明了我们提出的方法优于现有方法。01. 引言0人物再识别（re-id）是解决跨不同摄像头匹配人物的问题，在近年来引起了广泛关注[7, 29, 51]。在学习特征[16, 21,22]或距离度量方面，已经取得了很大进展，利用未标记和/或手动标记的数据。最近，深度学习方法也显示出显著的性能0� 相等贡献 † 这项工作是AL在UC Riverside访问学生期间完成的。0� $# = ?0� $" = ?0� $! = ?0(� $)0图1：考虑一个三个摄像头（C1，C2和C3）的网络，我们只有三个配对距离度量（M12，M23和M13）可用于匹配人物，并且由于隐私问题无法访问标记数据。需要快速添加一个新摄像头C4到系统中，因此，我们只能在新摄像头和现有摄像头之间有非常有限的标记数据。本文的目标是使用现有网络的学习源度量和安装新摄像头后可用的少量标记数据来学习新插入摄像头与现有摄像头之间的配对距离度量（M41，M42和M43）。0对于人物再识别的改进[1, 15, 31, 32, 44,52]。然而，除了[25,26]这个显著的例外，大多数这些工作尚未考虑到摄像头网络的动态性质，即新的摄像头可以随时引入以覆盖现有摄像头网络未覆盖的某个相关区域。为了构建一个更可扩展的人物再识别系统，非常有必要考虑如何在现有网络中轻松引入新的摄像头。让我们考虑一个网络中有K个摄像头，我们已经学习到K^2个最佳配对121450匹配度量，每个摄像头对应一个（见图1的示例）。然而，在系统的操作阶段，可能会临时引入新的摄像头以收集额外信息，理想情况下应该以最小的努力进行集成。给定新引入的摄像头，传统的再识别方法旨在使用昂贵的训练阶段重新学习配对匹配度量。在许多情况下，这是不切实际的，因为新添加的摄像头需要在添加后尽快投入使用。在这种情况下，我们无法等待很长时间来获取大量用于学习配对度量的标记数据，因此，我们只有在添加新摄像头后出现在整个摄像头网络中的人物的有限标记数据。0最近发表的作品[25,26]试图通过利用原始摄像机网络中收集的旧数据与扩展网络中新收集的数据以及源度量来学习新的成对度量，以解决将新摄像机引入网络的问题。他们还假设所有摄像机视图中都有相同的人员，包括新摄像机（即在引入新摄像机之前和之后）以测量视图相似性。然而，在许多监控场景中，这是不现实的，因为源摄像机数据可能已丢失或由于隐私问题而无法访问。此外，新的人员可能在目标摄像机安装后出现，这些人员可能已经出现在现有摄像机中，也可能没有出现。受到这一观察的启发，我们提出了一个重要问题：如何在现有的重新识别框架中快速引入新摄像机，而无需访问原始网络训练的源摄像机数据，并且在过渡阶段（即添加新摄像机后）仅依靠少量标记数据。0迁移学习是将知识从源域传递到目标域的研究重点，最近在各种计算机视觉问题中取得了很大成功[18, 23, 30, 46,49]。然而，在我们的系统中，由于有限的标记数据和在引入新摄像机时没有源摄像机数据，知识转移是具有挑战性的。为了解决这些问题，我们使用假设转移学习开发了一种高效的模型适应方法，该方法旨在仅使用源模型（即学习的度量）和有限标记数据来传递知识，而不使用任何原始源摄像机数据。只需要目标摄像机和一个或多个源摄像机看到的少数标记身份，就可以有效地将源知识传递给新引入的目标摄像机。因此，我们将其称为目标数据。此外，与[25,26]只识别与目标摄像机最大程度对齐的一个最佳源摄像机不同，我们的方法专注于识别多个源模型的最佳加权组合以传递知识。0我们的方法工作如下。给定一组成对的源度量和添加新摄像机后的有限标记目标数据，我们基于假设转移学习[4,13]开发了一个高效的凸优化公式，该公式最小化了来自任何异常源度量的负迁移效应，同时从源摄像机向目标摄像机传递知识。更具体地说，我们通过交替最小化学习不同源度量的权重和最优匹配度量，其中加权源度量被用作有偏正则化器，有助于仅使用有限标记数据学习最优目标度量。所提出的方法本质上学习了现有源网络中最好描述新摄像机和现有摄像机所覆盖环境的摄像机对。请注意，我们的提出的方法可以轻松扩展到一次在网络中引入多个附加摄像机或按顺序逐个添加的情况。01.1. 贡献0我们解决了在现有人员重新识别网络中快速引入新摄像机的问题，而无需访问源摄像机数据，并且仅依靠少量标记的目标数据在过渡阶段（即添加新摄像机后）。为了解决这个问题，我们做出了以下贡献。0•我们提出了一种强大而高效的多度量假设转移学习算法，以在没有访问源数据的情况下将新引入的摄像机有效地适应现有的人员重新识别框架。0•我们在理论上分析了我们的算法的特性，并展示了即使只有少量标记数据可用，它也能最小化负迁移的风险，并且表现接近完全监督的情况。0•我们对多个基准数据集进行了严格的实验，以展示我们的方法相对于现有替代方法的有效性。02. 相关工作0人物再识别。大多数人物再识别方法都是基于监督学习的。这些方法使用大量手动标记的训练数据进行广泛的训练，可以广泛分为两类：(i)基于距离度量学习的[9，12，16，37，45，47](ii)基于深度学习的[1，28，33，40，44，52，53]。基于距离度量学习的方法倾向于使用这些摄像机之间的成对标记数据学习摄像机对之间的距离度量，而端到端的基于深度学习的方法倾向于学习人物的鲁棒特征表示，考虑到所有标记数据。Let us consider a camera network with K cameras forwhich we have learned a total N =�K2�pairwise metricsusing extensive labeled data. We wish to install some newcamera(s) in the system that need to be operational soonafter they are added, i.e., without collecting and labelinglots of new training data. We do not have access to theold source camera data, rather, we only have the pairwisesource distance metrics. Moreover, we also have access toonly a limited amount of labeled data across the target anddifferent source cameras, which is collected after installingthe new cameras. Using the source metrics and the limitedpairwise source-target labeled data, we propose to solve aconstrained convex optimization problem (Eq. 1) that aimsand xj ∈ Rd with respect to a metric M ∈ Rd×d is calcu-minimizeMτs, β1ns�(i,j)∈Sx⊤ijMτsxij + λ∥Mτs −N�j=1βjMj∥2Fsubject to1nd�(i,j)∈D(x⊤ijMτsxij) − b ≥ 0, Mτs ⪰ 0,121460一次性处理所有摄像机的问题。为了克服手动标记的问题，过去十年中已经开发了几种无监督[17，18，34，43，47，48]和半监督[5，38，39，41]方法。然而，这些方法没有考虑到向现有网络添加新摄像机的情况。最近在这个方向上的方法[25，26]考虑了目标摄像机的无监督域适应，但做出了源数据可访问的强假设。这些方法都没有考虑到在动态摄像机网络设置中无法访问源数据的事实。这是相关的，因为源摄像机数据可能在一段时间后由于隐私问题而被删除。0假设迁移学习。假设迁移学习[4，13，19，24，42]是一种仅使用源域中学习到的分类器来高效学习目标域中的分类器的迁移学习方法，目标域中只包含有限的标记数据。这种方法在实际中具有吸引力，因为它不假设源和目标分布之间的任何关系，也不假设源数据的可用性，这可能是不可访问的[13]。大部分文献都处理了将简单线性分类器用于迁移知识[13，35]。最近的一项工作[27]解决了将源度量的知识（一个半正定矩阵）转移的问题，并具有一些可证明的保证。然而，它只分析了单个源度量，并且度量的权重是通过分别从广义界限使用次梯度下降来最小化成本函数计算的，该函数是高度非凸非可微的。在[35]中，该方法在SVM框架中处理了多个线性分类器的转移，其中相应的权重与目标分类器一起在单个优化中计算。与这些方法不同，我们的方法通过联合优化目标度量和源权重来处理从多个源度量进行迁移的情况，以降低负迁移的风险。03. 方法论0为了在最小化负迁移风险的同时，高效地将知识从源度量传递到目标。假设我们可以访问现有re-id网络中第a和b个摄像机对的最优距离度量Mab∈Rd×d，其中d是人物图像特征表示的维度，a，b∈{1，2...K}。我们还有有限的目标摄像机τ和源摄像机s之间的成对标记数据{(xij，yij)}Ci=1，其中xij = (xi -xj)是目标摄像机τ中图像i和源摄像机s中图像j之间的特征差异，C =�nτs2�，其中nτs是摄像机τ和s之间有序对图像的总数，yij∈{-1，1}。如果人物i和j在摄像机之间是同一个人，则yij =1，否则为-1。请注意，我们的方法不需要在新的目标摄像机中存在所有人物的存在，而是只需要目标摄像机中的一些人物至少在一个源摄像机中出现，以计算源-目标对之间的新距离度量。让S和D定义为S = {(i，j) | yij = 1}和D = {(i，j) | yij =-1}。我们的主要目标是通过使用所有成对源度量{Mj}Nj =1和有限的标记数据{(xij，yij)}Ci =1来学习目标和每个源摄像机之间的最优度量。在标准度量学习环境中，两个特征向量xi∈Rd之间的距离0( x i − x j ) � M ( x i − x j )。因此，我们制定了以下优化问题，用于计算目标相机τ和第s个源相机之间的最优度量Mτs，其中ns和nd分别是相似对和不相似对的数量，如下所示：0β ≥ 0 , ∥ β ∥ 2 ≤ 1 (1)目标函数由两个主要项组成。第一项是相机τ和s之间所有相似特征对的距离的归一化和，其中距离度量为Mτs的马氏度量，第二项表示Mτs与源度量的加权组合的差的Frobenius范数的平方。λ是一个正则化参数，用于平衡这两个项。需要注意的是，方程1中的第二项与假设转移学习[4,13]密切相关，其中假设是源度量。第一个约束表示相对于Mτs，所有不相似特征对的距离之和大于用户定义的阈值b，第二个约束是将距离度量限制在正半定锥中。itive semi-deﬁnite cone. While the third constraint keeps allthe elements of the source weight vector non-negative, thelast constraint ensures that the weights should not deviatemuch from zero (through upper-bounding the ℓ-2 norm by1).(a) C1 = {M ∈ Rd×d |1nd�(i,j)∈D(x⊤ijMxij) − b ≥ 0}(b) C2 = {M ∈ Rd×d | M ⪰ 0}(c) C3 = {β ∈ RN | β ≥ 0 ∩ ∥β∥2 ≤ 1}Optimization. The proposed optimization problem (1) isnot jointly convex over Mτs and β. To solve this nonconvexoptimization over large size matrices, we devise an iterativealgorithm to efﬁciently solve (1) by alternatively solving fortwo sub-problems. For the sake of brevity, we denote Mτsas M in the subsequent steps. Speciﬁcally, in the ﬁrst step,we ﬁx the weight β and take a gradient step with respect toM in the descent direction with step size α (Eq. 2). Then,we project the updated M onto C1 and C2 in an alternatingfashion until convergence (Eq. 3 and Eq. 4). In the nextstep, we ﬁx the the updated M and take a step with sizeγ towards the direction of negative gradient with respectto β (Eq. 6). In the last step, we simply project β ontothe set C3 (Eq. 7). Algorithm 1 summarizes the alternatingminimization procedure to optimize (1). We brieﬂy describethese steps below and refer the reader to the supplementarymaterial for more mathematical details.Algorithm 1: Algorithm to Solve Eq. 1Input: Source metric {Mj}Nj=1, {(xij, yij)}Ci=1Output: Optimal metric M ⋆Initialization: M k, βk, k = 0;while convergence doM k+1 = M k − α∇Mf(M, βk)|M=M k (Eq. 2);while convergence doM k+1 = ΠC1(M k+1) (Eq. 3);M k+1 = ΠC2(M k+1) (Eq. 4);endβk+1 = βk − γ∇β(f(M k+1, β)|β=βk (Eq. 6);βk+1 = ΠC3(βk+1) (Eq. 7);k = k + 1 ;endStep 1: Gradient w.r.t M with ﬁxed β.With k being the iteration number and M k, βk being Mand β in the k-th iteration, we compute the gradient of theobjective function (1) with respect to M by ﬁxing β = βk∇Mf(M, βk)|M=M k = ΣS + 2λ(M k −βkj Mj), (2)ΠC1(M) = M+max0,∇βi(f(M k+1, β))|βi=βki = 2λβki trace(M ⊤i Mi)−2λtrace(M ⊤i (M k+1 −̸121470Notation. We use the following notations in theoptimization steps.0在第 k 次迭代中，计算如下：0N∑0其中 Σ S = 1 n s ∑ (i,j) ∈ S xMx ij0（i，j）∈ S x ij x � ij 和0f ( M, β k ) = 1 ∑ (i,j) ∈ S x ij x 0（i，j）∈ S x � ij Mx ij +M − N ∑0j =1 β k j M j∥ 2 F0步骤2：将 M 投影到 C 1 和 C 2。将 M 投影到 C1（表示为 Π C 1 ( M )）可以通过求解约束优化问题来计算，如下所示：0∏ C 1 ( M ) = arg min ˆ M01 2 ∥ ˆ M − M ∥2 F0满足 10n d0（i，j）∈ D ( x � ij ˆ Mx ij) − b ≥ 00通过编写上述约束优化的拉格朗日函数，并使用具有强对偶性的 KKT 条件，可以将 M 投影到 C 1，写成0� � � �0� � � �0b − 1 ∑0（i，j）∈ D x � ij Mx ij0空格0∥ Σ D ∥ 2F0� � � �� 0� �0Σ D ,0（3）其中 Σ D = 1 n d0（i，j）∈ D x ij x � ij。类似地，使用谱分解，将M 投影到 C 2 可以写成0奇异值分解，将 M 投影到 C 2 可以写成0Π C 2 ( M ) = V diag ( ˆ λ 1 ˆ λ 2 ... ˆ λ n ) V � ,(4)0其中 V 是 M 的特征向量矩阵，λ i 是 M 的第 i 个特征值，ˆλ j = max { λ j , 0 } � j ∈ {1, ..., d}。步骤3：在固定 M的情况下，关于 β 的梯度。通过将 M = M k +1固定在目标函数中，对 β i 进行微分，得到 β = β k 时 β的第 i 个元素为0j =1 ,j � = i β k j M j))0将 � β i ( f ( M k +1 , β )) | β i = β k i 记为 a k i，我们得到0j =1 ,j � = i β k j M j ))0步骤4：将 β 投影到 C3。这一步实质上是将一个向量投影到 N维单位范数超球面的第一象限。将投影到 C 3的闭式0� β ( f ( M k +1 , β )) | β = β k = （a k 1 a k 2 ... a kN）�0max {1, ∥ β k +1 ∥ 2}0∏ C 3 ( β k+1 ) =max {0, β k+1}�+��+∥j=1βjMj∥F�l1214804. 讨论与分析0我们的方法与现有方法之间的一个关键区别是，我们的问题的性质涉及到假设转移学习框架中的多度量设置。在本节中，我们按照[27]的方法，从理论上分析了我们的算法1从多个度量中传递知识的性质。设 T 是一个定义在集合（X ×Y）上的域，其中 X � R d ，Y ∈ {−1, 1}分别表示特征和标签集，并具有由 D T 表示的概率分布。设T 是由 { ( x i , y i ) } n i =1组成的目标域，其中每个样本都是从分布 D T中独立地抽取的。[27]中的第1个优化问题（第2页）定义为：0minimize M � 0 L T ( M ) + λ ∥ M − M S ∥ 2F (8)0在我们提出的优化（1）中固定 β的值，我们有一个等价于（8）的优化问题，其中 M S = ∑N j =1 β j M j 和0L T ( M ) = 10n s0（i，j）∈ S x � ij Mx ij + µ� （b-1）0n d0（i，j）∈ D x � ijMx ij �0（9）注意，方程（9）中的 µ �是带有固定权重向量的不等式约束优化（1）的最优对偶变量。显然，该表达式是线性的，因此在 M中是凸的，并且具有有限的Lipschitz常数 k 。0定理1. 对于凸和 k-Lipschitz损失（在补充材料中显示）定义的平均界限可以表示为0E T �D T n [ L D T ( M � )] ≤ L D T ( � M S ) + 8 k 20λn ，（10）0其中 n 是目标标记示例的数量，M �0是从算法1计算得到的最优度量，� M S0N，E T �D T n [ L D T ( M � )] 是由 M � 计算在分布 D T上的期望损失，L D T ( � M S ) 是由所有源度量在 D T上计算的平均损失。0证明见补充材料。0定理1的含义：由于我们从多个源度量中转移知识，并且不知道哪个度量在目标分布上具有最广泛的泛化性（即最好的源度量），最明智的做法是检查直接在目标测试数据上使用每个源度量的平均性能。等效地，给予所有源度量相等的权重，并且不使用任何目标数据进行训练。定理（9）中的界限表明，平均而言，从算法1学习的度量往往比直接使用每个源度量在目标测试数据上的表现要好，或者在最坏情况下至少与源度量的平均性能相当。0至少等同于源度量的平均值，收敛速度为 O ( 10n ) 有限数量的目标样本[27]。0定理2. 对于从算法1学习到的任何度量 M，在概率（1-δ）下，我们有0L D T ( M ) ≤ L T ( M ) + O� 10L T ( � N j =1 β jM j )02 n，（11）0其中 L D T ( M ) 是原始目标分布（真实风险）上的损失，LT ( M ) 是现有目标数据（经验风险）上的损失，n是目标样本的数量。0证明见补充材料。0定理2的含义：这个界限表明，只有少量标记的目标数据，我们的方法表现得与完全监督的情况相近。不等式（11）的右边由项 O � 10n � + Φ( β ) O � 1 √ n � 。由于由优化（1）得到的最优权重 β � 由于 β的约束方式而是稀疏的，因此异常值度量，即异常值 M j，将自动被分配零权重，导致对应于这些索引 j 的项 β � k L T ( M j ) 的值为零，从而使 Φ(β ) 的值较小。因此，在（11）中，O � 1 √ n � 项比 O � 1 项占据的主导地位较小。0n � ，由于较小的相关系数 Φ( β � ) ，因此可以忽略不计。因此，由于 O � 1的快速衰减率，可以忽略 O � 10n �，这意味着在非常有限的目标数据情况下，经验风险将收敛到真实风险。此外，当 n 很大（完全监督的情况下），O � 1√ n �将接近于零，并且不能通过与任何系数相乘来改变。这意味着当有足够的标记目标数据可用时，源度量将不会对学习产生任何影响，并且仅在存在有限数据的情况下才有用，就像我们的应用领域一样。负迁移：在优化（1）中，我们同时估计最优度量以及权重向量，该向量确定从哪个源进行迁移以及迁移的权重。如果源度量不是目标分布的良好代表，对于最优的λ，通过优化（1），与该度量相关联的权重将自动设置为零或接近于零，这是由于β的稀疏约束。因此，我们的方法最小化了负迁移的风险。05. 实验0数据集。我们通过在四个公开可用的人员重识别数据集上进行实验来测试我们方法的有效性，这些数据集包括WARD[20]，RAiD [2]，Market1501 [50]和5101520Rank020406080100Recognition rate [%]CMC Curves - WARD datasetAverage across camera pairs with all cameras as targetOurs (nAUC: 94.31)Adapt-GFK (nAUC: 90.32)Avg-source (nAUC: 87.26)CAMEL (nAUC: 75.84)Best-GFK (nAUC: 82.39)Direct-GFK (nAUC: 81.73)5101520Rank020406080100Recognition rate [%]CMC Curves - RAiD datasetAverage across camera pairs with all cameras as targetOurs (nAUC: 88.67)Adapt-GFK (nAUC: 87.36)Avg-Source (nAUC: 81.83)CAMEL (nAUC: 71.43)Best-GFK (nAUC: 76.07)Direct-GFK (nAUC: 79.07)5101520Rank0102030405060Recognition rate [%]CMC Curves - Market1501 datasetAverage across camera pairs with all cameras as targetOurs (nAUC: 93)Adapt-GFK (nAUC: 88)Avg-Source (nAUC: 90)CAMEL (nAUC: 86)Best-GFK (nAUC: 78)Direct-GFK (nAUC: 81)5101520Rank051015202530Recognition rate [%]CMC Curves - MSMT17 datasetAverage across camera pairs with all cameras as targetOurs (nAUC: 58)Adapt-GFK (nAUC: 52)Avg-Source (nAUC: 51)CAMEL (nAUC: 50)Best-GFK (nAUC: 46)Direct-GFK (nAUC: 49)121490(d)图2：逐个引入的所有目标摄像机组合的CMC曲线的平均值。（a）3个摄像机的WARD，（b）4个摄像机的RAiD，（c）6个摄像机的Market1501和（d）15个摄像机的MSMT17。最佳观看效果为彩色。0MSMT17 [36]。还有其他几个人员重识别数据集，如ViPeR[8]，PRID2011 [11]和CUHK01[14]；然而，由于只有两个摄像机可用，这些数据集在我们的情况下不适用。RAiD和WARD是较小的数据集，分别在4个和3个摄像机中捕获了43和70个人，而Market1501和MSMT17是更近期和更大的数据集，分别在6个和15个摄像机中捕获了1,501和4,101个人。0特征提取和匹配。我们在RAiD和WARD数据集中使用长度为29,960的局部最大出现（LOMO）特征[16]。然而，由于LOMO在大型数据集上的性能通常较差[7]，因此对于Market1501和MSMT17，我们从一个Imagenet[3]预训练的ResNet50网络[10]的最后一层提取特征（在我们的工作中称为IDE特征）。我们采用标准的PCA技术将特征维度降低到100，如[12,25]所述。0性能指标。我们提供标准的累积匹配曲线（CMC）和归一化曲线下面积（nAUC），这在人员重识别中很常见[2,12,16,26]。前者显示在排名列表中考虑k个最相似匹配时的累积准确性，而后者是一种独立于测试样本数量的重识别准确性度量。由于空间限制，我们只报告大多数实验的平均CMC曲线，并将完整的CMC曲线放在补充材料中。0实验设置。对于RAiD，我们遵循[16]中的协议，将人员随机分为一个由21人组成的训练集和一个由20人组成的测试集；对于WARD，我们将70人随机分为一个由35人组成的训练集和一个由35人组成的测试集。对于这两个数据集，我们进行10次训练/测试分割，并对所有分割的准确性进行平均。对于Market1501和MSMT17数据集，我们使用标准的训练和测试分割。在测试过程中，我们采用多查询方法，通过对目标摄像机中每个id的所有查询特征进行平均，并与源摄像机中的所有特征进行比较[50]。0评估准确性和Best-GFK，其中最佳源摄像机与目标摄像机之间的GFK用于评估所有源-目标摄像机对之间的准确性，如[25,26]。这两种方法都使用有监督的降维方法Partial LeastSquares (PLS)将特征投影到低维子空间[25,26]。 (2)最先进的新摄像机引入方法[25,26]，它使用了在最佳源摄像机和目标摄像机之间学习到的GFK的传递推理（Adapt-GFK）。 (3)基于聚类的非对称度量学习（CAMEL）方法[47]，它使用学习到的投影矩阵将源摄像机和目标摄像机的特征投影到共享空间中。对于所有比较的方法，我们使用它们的公开可用代码，并在我们的设置中进行评估。05.1. 引入单个新摄像机0我们将一个摄像机视为新引入的目标摄像机，其他所有摄像机视为源摄像机。我们考虑进行所有可能的组合来进行实验。除了上述基线之外，我们还将与源指标的平均准确性（Avg-Source）进行比较，通过直接将其应用于目标测试集来证明定理1的有效性。我们还在两种设置下计算GFK核；一种是在引入新摄像机后仅考虑目标数据的情况（图2），另一种是考虑旧源数据和新标记数据在摄像机安装后的存在，如[25,26]（图3）。0实现细节。我们将训练数据分为不相交的源数据和目标数据，考虑到新安装的摄像头中出现的人员可能已经在源摄像头中出现过，也可能没有出现过。也就是说，对于Market1501和MSMT17，我们将训练数据分为仅在源摄像头中出现的人员的90%和在源摄像头和新安装的目标摄像头中都出现的人员的10%。由于RAiD和WARD训练集中的人员较少，我们将人员分为80%的源数据和20%的目标数据。对于每个数据集，我们评估每个源-目标对，并在所有对中计算平均准确率。此外，我们将所有摄像头作为目标计算平均准确率。请注意，训练集和测试集在所有实验中都是不相交的。结果。图2和图3显示了结果。在所有情况下，我们的方法优于所有比较方法。最具竞争力的方法是Adapt-GFK和Avg-Source，它们也使用了源度量。对于其余的方法，我们看到仅使用有限目标数据来计算新度量的局限性。对于Market1501，我们看到Avg-Source优于Adapt-GFK基线，表明与只使用单个最佳源度量的方法相比，从多个源度量中进行知识转移的优势。然而，我们的方法在RAiD、WARD、Market1501和MSMT17的Rank-1准确率上仍然比Avg-Source基线高出20.60%、13.81%、2.01%和1.07%，验证了定理1的推论。此外，我们观察到，即使在添加新摄像头之前，我们的方法没有访问用于训练网络的源训练数据，仍然优于使用所有源数据进行计算的基于GFK的方法（参见图3）。总之，实验结果表明，我们的方法在具有有限监督的小型和大型摄像头网络上表现更好，因为它能够通过动态加权源度量来适应多个源度量，从而减少负迁移。020406080Recognition rate [%]Ours (nAUC: 94.31)Adapt-GFK (nAUC: 89.03)Best-GFK (nAUC: 80.01)Direct-GFK (nAUC: 78.59)and test set are kept disjoint in all our experiments.Results. Figure 2 and 3 show the results. In all cases, ourmethod outperforms all the compared methods. The mostcompetitive methods are those of Adapt-GFK and Avg-Source that also use source metrics.For the remainingmethods, we see the limitation of only using limited tar-get data to compute the new metrics. For Market1501, wesee that Avg-Source outperforms the Adapt-GFK baselineindicating the advantage of knowledge transfer from multi-ple source metric compared to one single best source met-ric as in [25, 26]. However, our approach still outperformsthe Avg-Source baseline by a margin of 20.60%, 13.81%,2.01% and 1.07% in Rank-1 accuracy on RAiD, WARD,Market1501 and MSMT17, respectively, validating our im-plications of Theorem 1. Furthermore, we observe that evenwithout accessing the source training data that was usedfor training the network before adding a new camera, ourmethod outperforms the GFK based methods that use all thesource data in their computations (see Figure 3). To sum-marize, the experimental results show that our method per-forms better on both small and large camera networks withlimited supervision, as it is able to adapt multiple sourcemetrics through reducing negative tran

下载后可阅读完整内容，剩余1页未读，立即下载