人物再识别的一次性学习方法

71 浏览量更新于2023-10-15 收藏 13.3MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

…"…"…"29900人物再识别的一次性度量学习0Sławomir B ˛ak Peter CarrDisney ResearchPittsburgh, PA, USA, 152130{slawomir.bak,peter.carr}@disneyresearch.com0摘要0在监控录像中对人员进行再识别必须应对颜色、背景、视角和人物姿势的巨大变化。监督技术通常是最有效的，但对于大型摄像头网络来说，需要大量的注释是不可行的。与之前需要数百个注释主体的监督学习方法不同，我们使用一种新颖的一次性学习方法来学习度量。我们首先使用卷积神经网络（CNN）从强度图像中学习深度纹理表示。当仅使用强度图像训练CNN时，学习到的嵌入是不变色的，并且即使在未见过的数据集上也表现出很高的性能，而无需微调。为了考虑到摄像头颜色分布的差异，我们使用一对ColorChecker图像来学习颜色度量。所提出的一次性学习方法在性能上与监督方法相媲美，但只使用了一个示例，而不是完全监督情况下所需的数百个示例。与半监督和无监督的最新方法相比，我们的方法具有显著更高的准确性。01. 引言0人物再识别是在一个摄像头网络中找到同一个人的任务。一个成功的算法必须能够应对由颜色、背景、摄像头视角和人物姿势的变化引起的显著外观变化。大多数成功的最新方法采用监督学习[14, 28, 32-34, 36,62]，需要每个摄像头对之间的数百个标记图像对。新颖的深度架构[2, 11,55]可以超越这些方法，但是从头开始训练它们需要数千个标记图像对。针对目标摄像头对进行微调[60]可以帮助减少所需的训练数据量至数百个图像对。然而，每个摄像头对中注释数百个主体仍然是繁琐的，并且无法扩展到现实世界。0源数据集0目标数据集0CNN0T0G0�0c0I M =0软最大层0fc70图1：一次性度量学习。我们将度量M分为纹理和颜色两个组成部分。使用CNN在强度图像上训练深度纹理特征T，以实现颜色不变性而无需微调。在多个源数据集（标记数据）上进行联合学习可以增加在欧氏距离（单位矩阵I）下的良好泛化能力。我们使用一张彩色图表的单张图像来适应目标相机对的颜色差异，并学习颜色度量G以获取补丁颜色特征c。0网络。为了解决这个问题，已经提出了半监督和无监督的方法[15, 26, 49, 52,58]。不幸的是，没有标记数据，它们通常寻找特征的不变性，这往往会降低区分性和特异性（无法适应特定于摄像头对的变化）。这使得它们与监督技术相比不具竞争力。因此，无监督和半监督的方法在研究社区中受到的关注较少，因为实用性和可扩展性并不是当前基准数据集的主要关注点（通常限于少数摄像头）。在本文中，我们提出了一种度量学习方法，通过采用类似一次性学习的技术来扩展到大型摄像头网络[16]。我们假设为一对摄像头学习到的度量可以分为纹理和颜色两个组成部分（见图1）。对于纹理，我们学习一个具有良好泛化能力且无需微调的颜色不变深度表示T。我们可以通过以下方式实现这一点29910仅使用强度图像，并通过在多个数据集上进行具有挑战性的多分类任务来训练单个CNN。相比之下，使用彩色图像训练的CNN在测试时很可能需要微调[60]，因为训练数据集必须非常大才能涵盖所有可能的摄像头之间的颜色变化。微调仍然需要大量的训练数据，无法与大型摄像头网络一起使用。相反，我们使用与纹理无关的手工制作的颜色特征将颜色纳入我们的模型，并使用一种新颖的一次性学习公式为每个摄像头对学习一个颜色度量G。这种策略只需要每个摄像头一个示例，使其适用于大型网络。为了考虑摄像头颜色分布的特定差异，我们在MacbethColorChecker图像的已注册图像上密集采样补丁，并学习直接建模一对摄像头之间颜色特征关系的马氏度量。我们的贡献是：0•我们将人员重新识别的度量分为纹理和颜色两个组成部分。然后，通过一种新颖的一次性度量学习方法，在目标摄像头对上学习度量。0•仅使用强度图像学习深度纹理特征，从而确保对颜色变化的不变性。这些特征在未见数据集上表现出很高的性能，无需微调，并且与半监督和无监督的最新方法相当竞争。0•我们通过使用一对ColorChecker图像上的补丁，在补丁上本地学习度量，以适应摄像头之间的颜色差异。0•通过明确建模跨摄像头的背景失真，将人的外观中的空间变化纳入颜色度量中。在计算两个图像之间的距离时，我们通过定义一个线性补丁分配问题来适应姿态不匹配，从而允许补丁扰动其位置。0我们在五个基准数据集上进行了大量实验。结果表明，通过将我们的深度纹理特征与使用一对图像训练的颜色度量相结合，我们在性能上与从数百个示例中学习的度量方法相当竞争。我们优于半监督和无监督方法，并为可扩展的重新识别解决方案建立了新的技术水平。02. 相关工作0监督式重新识别最成功的人员重新识别技术都基于监督学习。它们通常采用度量学习[2, 14, 28, 32, 33, 62]。0使用训练数据来搜索有效的距离函数，以比较不同摄像头下的人员。许多监督式机器学习算法已被考虑用于学习稳健的度量。这包括Adaboost进行特征选择[21]，RankSVMs进行特征排序[45]和卷积神经网络进行特征学习[2, 32, 51, 55,60]。尽管这些深度卷积神经网络非常有效，但通常需要数千对图像进行预训练并数百对图像进行微调，以适应特定的摄像头对[55,60]。为了应对数据不足，通常需要使用数据增强和三元组嵌入[11]。在所有这些度量学习方法中，马氏距离函数[13,22, 28,54]在重新识别社区中受到了最多的关注[8]。Köstinger等人[28]提出了一种非常有效和高效的KISS度量学习方法，它使用了基于似然比检验的统计推断，对特征之间的正负成对差异进行了两个高斯分布模型的建模。由于这种学习具有有效的闭合形式解，许多方法通过引入有区分性的线性[34,41]和非线性[40,56]子空间嵌入来扩展这项工作。类似马氏距离的度量学习通常比深度模型需要更少的训练数据（即数百对标记图像）。最近，学习补丁的相似性度量[4, 47, 48,64]的趋势已经出现。Bak等人[4]表明，学习补丁的度量也可以有效地增加训练数据的数量（多个补丁可以共享相同的度量）。因此，可以在较少的标记图像上学习补丁度量（例如，使用60对图像来推断有效的度量）。然而，每个摄像头对中注释60个主体仍然无法适用于现实世界的场景，一个中等规模的监控摄像头网络很容易拥有数百个摄像头。无监督的重新识别半监督和无监督技术已被提出来避免可扩展性问题。无监督方法通常侧重于设计手工特征[5, 7, 12, 15,53]，这些特征应该对成像条件的变化具有鲁棒性。可以通过结合无监督的显著性学习[52,58]对这些特征进行加权，以寻找远离公共分布的特征。迁移学习也已应用于重新识别[25,63]。这些方法使用大型标记数据集（例如时尚摄影数据集[49]）来学习模型，并将有区分性的知识转移到未标记的目标摄像头对。字典学习和稀疏编码[1, 19,35]也在重新识别的背景下进行了研究。字典学习源自无监督设置，因此可以直接应用于利用未标记数据来学习摄像头不变表示。为了保持字典的区分性d2(i, j) = (1 − γ)||Ti − Tj||2 + γΦ2(ci, cj; G),(2)where Ti and Tj are our deep texture features extractedafter converting i and j to intensity images, ci and cjare color features extracted from color images and Φ is aMahalanobis-like metric. Hyper-parameter γ ∈ [0, 1] con-trols the importance of color relative to texture.29920为了保持视觉上相似的人在投影空间中靠近[26,27]，或者通过多任务学习来执行跨数据集转移[42]，通常引入了判别性的，图拉普拉斯正则化。尽管拉普拉斯正则化有很大帮助，但它不足以充分探索判别空间。由于字典学习容易专注于不变表示，相对于监督学习方法，仍存在相当大的性能差距。一次性学习一次性学习旨在从一个或很少的训练样本中学习任务[16]。通常，它涉及通过模型参数[17]或共享特征[6]进行知识转移。在这项工作中，我们提出了一种一次性度量学习方法，其中度量的一部分（纹理）直接转移到目标数据集。第二部分（颜色）使用基于补丁的度量学习进行学习。与学习来自人物图像的度量的现有方法不同，我们使用单对MacbethColorChecker图像来学习颜色度量[37]。这有效地将训练数据量减少到一个示例。03. 方法0马氏度量学习生成一个度量M，用于测量特征向量xi和xj之间的平方距离d2(xi, xj) = (xi − xj)TM(xi − xj)。0Köstinger[28]展示了一个有效的闭式解（KISS度量）来学习M。在本文中，我们提出将度量M分为独立的纹理和颜色组件，这相0其中I对应于深度纹理特征（第3.1节）之间的欧氏距离，G是通过单对图像推断出的颜色度量（第3.2节）。在这种情况下，我们重新编写方程（1），并0� ，其中I是单位矩阵0其中Ti和Tj是我们在将i和j转换为强度图像后提取的深度纹理特征，ci和cj是从彩色图像中提取的颜色特征，Φ是类似马氏度量的度量。超参数γ∈[0,1]控制颜色相对于纹理的重要性。03.1. 纹理差异0对颜色的感知对光照变化非常敏感。即使是在从多个再识别数据集中学习了数千个身份的深度特征[55,60]，也需要对未见数据集进行微调。与这些方法相反，我们感兴趣的是一种不需要微调并且可以直接应用于任何数据集的表示。0相机对。为了实现颜色不变性，我们丢弃了颜色信息，并将所有训练图像转换为单一强度通道图像。我们采用了[55]中的CNN模型，并使用仅强度图像从头开始训练它，以获得高度鲁棒的颜色不变特征，用于人物再识别。该模型通过具有挑战性的多类别识别任务学习一组高级特征表示，即将训练图像分类为m个身份之一。由于在训练期间预测的类别数量增加，学习特征的泛化能力也随之增加[50]，因此我们需要m相对较大（例如几千个）。因此，我们将公开可用的数据集合并为一个身份集，并将网络训练为联合单任务学习（JSTL）[55]。当它被训练为分类大量身份并配置最后一个隐藏层的维度相对较低时（例如，将fc7的维度设置为256[55]），这样的CNN形成了紧凑且高度鲁棒的纹理表示以进行再识别。在本文的其余部分，我们将仅使用强度图像训练的神经网络称为JSTLI，并将从fc7层提取的特征称为T。我们发现直接使用这些训练特征上的欧氏距离非常有效；因此，我们使用ℓ2距离计算T i和Tj之间的不相似度分数。在第4.2节中，我们展示了这种纹理表示具有良好的泛化能力，无需微调，并且在利用颜色信息的半监督和无监督方法中取得了竞争性的性能。03.2.颜色差异0在本节中，我们展示了如何使用一对图像学习颜色度量。然后，我们允许该度量在空间上变化以应对图像之间的姿势变化。03.2.1 一次性学习0设c A i和c Bj是从两个不同摄像机A和B中提取的颜色特征对。通常[28]，成对差异c ij = c A i − c B j的空间被划分为正对数集c +ij，当i和j包含相同的人时，以及c −ij，否则。学习KISS度量涉及计算两个协方差矩阵：对于正对数差异的Σ +（Σ + =（c + ij）（c +ij）T）和对于负对数差异的Σ −（Σ − =（c − ij）（c −ij）T）。从对数似然比开始，马氏度量变为G =（Σ+）−1−（Σ −）−1，并测量两个特征c i和cj之间的平方距离Φ 2（c i，c j; G）=（c i − c j）T G（c i −c j）（3）0= c T ij �（Σ +）−1−（Σ −）−1� c ij. (4) 协方差Σ−：在实践中，可以通过从摄像机A和B中随机选择主体特征来生成一组负例[28]。即使在随机生成的特征对对应于相同个体的罕见情况下，这种情况也几乎不可能发生。2004006008001000120010020030040050060070080029930对于同一个人，这种情况经常发生的几率几乎是不可能的。0协方差Σ +：需要监督来获取正对数示例集c +ij，从而计算Σ+。我们设计了单独的前景和背景项来促进学习。让在摄像机A中提取的颜色特征为c A i = µ i + σ A i + � A i，(5)0其中µ i是指第i个身份的隐式变量，σ A i表示µ i的变化，� Ai对应于背景扭曲。从摄像机B中提取的同一人的相应特征是c B j = µ i + σ B j + � B j（其中µ j = µi，因为它是相同的身份）。大多数方法忽略前景/背景分离，并假设度量学习将学习识别和丢弃背景特征。相反，我们通过�明确地对背景扭曲进行建模。计算正对数差异，我们得到c + ij = c A i − c B j = σ A i − σ B j + � A i − � B j = ∆ σij + ∆ � ij. (6)0我们假设∆ σ和∆ �遵循两个不同的独立高斯分布N（0，Σσ）和N（0，Σ �），其中Σ σ和Σ�是未知的协方差矩阵。正对数差异的协方差则变为0Σ + = Σ + σ + Σ + � . (7)0要计算Σ +�，我们只需要特定摄像机对的背景图像；因此，可以在没有人工监督的情况下获取此信息。要计算Σ +σ，我们建议使用ColorChecker校准图表，该图表保存了给定摄像机中的颜色分布信息。0Re-ID驱动的ColorChecker通过在补丁级别上计算好的度量可以被计算出来的想法驱动，我们设计了一个新的ColorChecker图表，以便跨摄像机的相应补丁可以用作不同的数据点来计算c + ij，从而获得Σ+ σ（Eq. 7）。标准的MacbethColorChecker图表[37]（见图2（a））由类似于自然物体（如人类皮肤、植被和花卉）的颜色补丁组成。该图表旨在通过将结果图像与原始图表进行比较来评估颜色再现过程。0我们重新设计了用于重新识别的ColorChecker图表，这是基于最近基于补丁的重新识别方法[4, 47, 48,64]的见解。补丁大小与用于重新识别问题的补丁大小相匹配，并且我们去掉了细黑边框，以便随机采样板（见图2（b））。这使我们能够通过在c +ij分布中探索更多点（例如，不同颜色的组合）更有效地采样颜色差异空间。0(b) 图2：Macbeth ColorCheckers (a) 原始 [37]；(b)用于重新识别的我们的ColorChecker。03.2.2 空间变化0基于补丁的方法[4,48]在允许指标在空间上变化时通常表现更好。直观地，具有统计上不同背景畸变量的区域应该具有不同的指标（例如，腿部区域的补丁可能包含比躯干区域的补丁更多的背景像素）。假设边界框图像被划分为 N 个补丁。对于补丁位置 n ，我们通过重新定义 ∆ �的高斯分布为 N (0 , α ( n ) Σ � ) 来将空间变化纳入我们的模型中，其中 α ( n )0对应于环境/背景畸变的数量，并且取决于特征差异 c ij相对于检测到的人的完整边界框的位置 n 。因此，方程 7变为0Σ +( n ) = Σ + σ + α ( n ) Σ + � . (8)0我们通常希望 α ( n )是侦测器相关的（基于侦测器能够生成紧密边界框的精确程度）。我们使用辅助数据集学习 α ( n ) 。让 Σ +( n ) R是使用标注个体在位置 n处计算的正对差异的协方差。我们可以通过解决 N个目标来学习 α ( n )0α ( n ) = arg min α || Σ + σ + α Σ + � − Σ +( n ) R || F : α ∈(0 , 1) , (9)0对于 n = 1 . . .N。我们使用CUHK03数据集中的标注图像对学习 α ( n )，并假设它们在所有评估数据集中都是固定的（参见图3(a)）。注意，背景像素的数量越多，α的值越高（例如在头部和腿部区域）。因此，方程（3）中的 Φ 和 G 变为位置相关的0Φ 2 ( c i , c j ; G ( n ) ) = ( c i - c j ) T G ( n ) ( c i - c j ) , (10)0G ( n ) = (Σ + σ + α ( n ) Σ + � ) − (Σ − ) − 1 . (11)0可变形模型：除了空间上变化的指标之外，补丁之间的对应关系也可能在空间上变化。由于姿势变化，提取在固定网格上的特征可能不对应，即使是同一个人。因此，基于补丁的方法[4,48]通常允许在比较两个边界框图像时，补丁调整其位置。在[4]中，可变形模型由控制补丁相对位置的弹簧约束组成(a)∞∞(b)Ω∗ij = arg minΩij,(14)29940#补丁0#补丁0图3：空间变化：(a) 学习到的背景畸变系数 α ( n ) ；(b) N× N的成本矩阵，用作匈牙利算法的输入，用于找到最佳补丁对应关系。0这些弹簧约束是直接从数据中使用结构化SVM学习的。[47]假设对应结构是固定的，并使用类似提升的方法进行学习。相反，我们将补丁对应任务定义为线性分配问题。给定边界框图像 i 的 N 个补丁和边界框图像 j 的 N个补丁，我们创建一个 N × N的成本矩阵，其中包含固定邻域内的补丁相似度得分（见图3(b)）。为了避免补丁自由改变其位置，我们引入全局一对一匹配约束并解决线性分配问题0∞0n =1 Φ 2 ( c Ω ij ( n ) i , c n j ; G ( n ) ) + ∆≤ Ω ij ( n ) , n ∈0s.t. ∆ ≤ Ω ij ( n ) , n ∈0∞ , η ( Ω ij ( n ) , n ) > δ ; 0 ,否则 , (12)0其中 Ω ij 是一个置换向量，将补丁 c Ω ij ( n ) i 映射到补丁c n j 和 Ω ij ( n ) ，n 确定补丁位置，∆( ∙ , ∙ )是一个空间正则化项，约束搜索邻域，其中 η对应于两个补丁位置之间的距离，阈值 δ确定允许的位移（在图 7 (a) 中评估了不同的 δ值）。我们使用Kuhn-Munkres（匈牙利）算法[29]找到最佳分配 Ω � ij（补丁对应关系）。这产生了颜色差异：N0n = 1 Φ2(cΩ�ij(n), cnj; G(n)). (13)03.3. 总不相似度0通过引入补丁，方程（2）变为0d2(i, j) = (1 - γ) ||Ti - Tj||2 + γ�N�0n = 1 Φ2(cΩ�ij(n), cnj; G(n))�.0在下一节中，我们将广泛评估纹理和颜色组件以及超参数γ。0图4：CCH数据集的样本图像：顶部和底部行对应于来自不同相机的图像；列说明同一个人，最后一列显示我们的ColorChecker图像。04. 实验0我们在5个数据集上进行了实验：VIPeR[20]，iLIDS[61]，CUHK01[31]，PRID2011[23]和我们的新数据集CCH。为了学习纹理表示（JSTLI的fc7）和α(n)，我们还使用了CUHK03[32]。重新识别结果使用CMC曲线[20]及其排名1的准确率进行报告。CMC曲线提供了在前r个排名中找到正确匹配的概率。04.1. 数据集和评估协议0CCH（ColorChecker）是我们的新数据集，由23个个体组成，通过两个摄像机在明显不同的光照条件下注册了3379张图像（见图4）。我们使用了一对ColorChecker图像来计算Σ+σ。VIPeR[20]是最受欢迎的人物重新识别数据集之一。它包含由两个户外摄像机捕获的632对行人图像。VIPeR图像在光照条件、背景和视角上变化很大（见图5（a））。CUHK01[31]包含971个由两个摄像机捕获的人物。第一个摄像机捕获行人的侧面视图，第二个摄像机捕获正面或背面视图（见图5（b））。i-LIDS[61]包含476张来自机场监控摄像头的图像，共119个个体。该数据集非常具有挑战性，因为由于行李和人群的存在，存在许多遮挡（见图5（c））。PRID2011[23]包含从两个不同的静态监控摄像头记录的人物图像。该数据集的特点挑战是照明差异显著（见图5（d））。尽管有包含385个和749个身份的两个摄像机视图，但只有200个人同时出现在两个摄像机中。CUHK03[32]是已发表的最大的人物重新识别数据集之一。它包含1467个身份，非常适合学习JSTL模型[55]。我们将此数据集用作训练深度纹理表示和背景扭曲系数的辅助数据集。评估协议我们在所有数据集上使用相同的评估协议。对于计算颜色不相似度，所有个体的图像都缩放为128×48像素，并分成一组12×24重叠的补丁，步幅为6×12像素。这样每个图像就有60个补丁。为了提取颜色特征ci，我们将Lab、HSV、YCbCr、LUV和RGB直方图连接起来，每个通道有10个bin，得到150维的颜色特征向量，然后使用PCA将其降维到30个分量。对于纹理，我们将图像转换为单通道强度图像。为了适应JSTL架构[55]，我们将其缩放为160×64像素。为了评估，我们根据[40,55]中的设置生成探测/库图像：VIPeR：316/316；CUHK01：486/486；i-LIDS：60/60；PRID：100/649和CCH：23/23。在所有实验中，我们遵循单拍设置[40]。为了获取用于学习Σ�的背景补丁，我们运行背景分割[43]并保留与前景掩码不相交的补丁。对于iLIDS和CCH，我们从没有主体的帧中提取背景补丁。为了捕捉相机照明条件，我们使用Colorchecker图表。在实践中，最好（也更容易）使用实际图表的照片。然而，为了与现有数据集进行比较，我们合成了ColorCheckers（见图5）。我们首先随机选择24对图像，并从上半身和下半身部分提取2个补丁。然后，我们选择35个补丁作为ColorChecker，同时尝试匹配MacbethChart[37]中的颜色。与需要手动标记每个摄像机对中的数百个主体的先前监督学习方法相比，标记35个补丁效果更好。为了减少主观偏差，此过程重复了10次。c+ij是通过随机采样ColorCheckers的500个位置生成的。(b) CUHK01(d) PRID2011images of individuals are scaled to be 128×48 pixels and di-vided into a set of 12×24 overlapping patches with a strideof 6×12 pixels. This yields 60 patches per image. To extractcolor features ci, we concatenate Lab, HSV, YCbCr, LUV,and RGB histograms, each with 10 bins per channel, intothe 150-dimensional color feature vector, and we reduce thedimensionality to 30 components using PCA. For texture,we convert images to a single intensity channel. To ﬁt theJSTL architecture [55], we scale them to be 160×64 pixels.For evaluation, we generated probe/gallery images accord-ingly to the settings in [40,55]: VIPeR: 316/316; CUHK01:486/486; i-LIDS: 60/60; PRID: 100/649 and CCH: 23/23.In all experiments, we follow a single shot setting [40]. Toobtain background patches for learning Σǫ, we run back-ground segmentation [43] and keep the patches that do notintersect with the foreground mask. For iLIDS and CCH weextract background patches from frames without subjects.To capture camera illumination conditions we use the Col-orchecker chart. In practice, it is better (and easier) to usea picture of an actual chart. However for comparison pur-poses with existing datasets, we synthesize the ColorCheck-ers (see Fig. 5). We ﬁrst randomly select 24 image pairs andextract 2 patches from the upper and the lower body parts.We then select 35 patches for the ColorChecker, while try-ing to match colors from Macbeth Chart [37]. Labeling 35patches compares favorably to previous supervised learningmethods that needed hand labeling of hundreds of subjectsacross each camera pair. This procedure was repeated 10times to minimize subjective bias. c+ij is generated by ran-domly sampling 500 locations of the ColorCheckers.29950(a) VIPeR0(c) iLIDS0图5：重新识别数据集及其合成的ColorCheckers。顶部和底部行对应于来自不同相机的图像。列说明同一个人；最后一列说明我们手动生成的ColorCheckers。04.2. 纹理不变性0相对性能下降方法 VIPeR CUHK iLIDS PRID 最小值最大值平均值0强度0JSTL I * 15.8 50.6 44.1 35.0 - - JSTL I LOO 9.8 26.8 44.0 21.0 0.2 47.0 31.3手工制作 3.2 4.1 28.9 5.9 34.4 91.8 72.30颜色0JSTL [55] * 35.4 62.1 56.9 59.0 - - JSTL LOO 20.9 37.1 43.5 2.0 23.5 96.650.3 KISSME [28] * 19.6 16.4 28.4 15.0 44.6 74.5 60.70我们的 34.3 45.6 51.2 41.4 3.1 29.8 17.30表1：CMCrank-1准确率，其中*对应于监督方法。在仅使用强度图像训练的情况下（无监督情况下），相对于使用彩色图像训练的模型，模型具有更好的泛化性能（比较相对性能下降统计数据）。我们的方法与JSTL ILOO互补，并且比无监督方法和KISSME*具有更高的准确性，并且与监督的JSTL *相当。0和验证集。由于JSTL需要大量的身份信息，所有训练、测试和验证集都被合并成单个训练、测试和验证集，用于训练单个CNN。由于数据不足，单独训练每个数据集通常不是有效的[55]。在表1中，我们报告了仅在强度图像上训练的JSTL（JSTL I *）与在彩色图像上训练的JSTL（JSTL*）的比较，并且我们将这种情况称为监督学习（因为测试数据集的训练部分包含在合并的训练集中）。*用于突出显示监督方法。与KISSME[28]对于彩色和强度图像的比较相比，单个CNN足够灵活，可以处理多个数据集的变化。学习彩色图像，我们在这个监督设置中实现了更好的性能。然而，由于我们对这个CNN的泛化性能感兴趣（对于无监督情况），我们还评估了JSTL在未见过的摄像机对上的性能。类似于留一法交叉验证，我们从训练集中训练CNNsscratch while entirely skipping images from the test cam-era pair (e.g. results of JSTLILOO in VIPeR column refers toJSTL trained using all datasets but VIPeR.). CUHK03 im-ages were always included in the training phase. The rightside of the table reports the performance drop statistics rel-30405060708090100299601）对于基于强度和颜色的模型，提供了跨所有数据集的最小值、最大值和平均性能下降统计数据。这个实验表明，使用彩色图像训练的JSTL模型相对性能下降明显，对于PRID数据集，性能下降高达96.6%（即rank-1准确率从59%下降到2%）。彩色图像的平均性能下降超过50%。相比之下，仅使用强度图像训练的JSTL模型的性能下降较低，甚至对于某些数据集来说是不可察觉的（例如，iLIDS的rank-1从44.1%下降到44.0%）。这意味着仅在强度图像上训练的模型对于摄像机变化更具不变性。JSTL ILOO在不需要微调的情况下实现了合理的性能，并且在3个数据集中胜过了使用颜色信息的监督KISSME[28]。直观地说，如果我们有大量数据涵盖了所有可能的颜色转换函数，我们应该能够学习到具有良好泛化能力的特征。实际上，通过有限的训练数据，我们的结果表明，仅使用强度图像学习深度纹理表示，并使用提出的一次性学习方法适应特定摄像机对的颜色变化更加有效（Tab.1中的最后一行）。我们的方法明显优于JSTLLOO和KISSME，并且与其监督对应物JSTL *的性能相当。此外，为了与标准的手工纹理描述符进行比较，我们将HOG、LBP和SIFT特征[58]在密集块布局上提取并使用ℓ2计算图像相似性。从结果可以看出，JSTL ILOO在所有数据集上都大大优于手工特征，这证明了学习一组通用深度纹理特征的有效性。因此，我们将JSTL ILOO作为我们的T i描述符。04.3. 颜色校准0摄像机间的颜色变化是多摄像机系统中的一个重要问题。标准方法要么（1）追求颜色恒定性（即在不同照明下感知相同的颜色）并执行归一化技术[18, 24, 30,46]，要么（2）寻找从图像对中推断出的成对映射，例如一对Macbeth ColorCheckers[3]。我们将我们的颜色度量学习与这两组方法在CCH数据集上进行比较（现在不包括深度纹理组件，即在方程（14）中γ =1）。第一组包括：直方图均衡化（HQ）[24]，带颜色恢复的多尺度Retinex（MSRCR）[46]，灰世界归一化（GREY）[18]和02 4 6 8 10 12 14 排名分数0识别百分比0CCH094.57% 我们的，α = α（n）091.09% 我们的，α =1 81.74% 我们的，α= 0 58.70% ICC56.52% TPS 39.13%SSCC 34.78% GREY31.30% MSRCR30.43% LOG29.35% HQ 27.39%L20图6：与标准颜色校准技术的性能比较。我们的方法在所有背景扭曲系数的值上都大幅优于其他技术。主要的改进来自于学习度量G。0对数色度（LOG）[30]。第二组使用ColorChecker图像，包括：场景特定颜色校准（SSCC）[3]，摄像机间颜色校准（ICC）[44]和3D薄板平滑样条（TPS）[9,38]。图6中两组之间的比较显示第二组（由实线表示）的性能通常更高。显然，我们的颜色度量学习明显优于所有颜色校准方法。补偿背景扭曲有所帮助（例如，在方程（11）中，我们可以设置学习的系数α = α（n），或忽略背景建模α=0，或假设从训练数据中计算出的所有补丁的最大背景协方差α =1），但主要的改进来自于使用统计推断[28]学习颜色特征的度量G。我们的方法比通常通过1D颜色直方图映射[44]或低秩矩阵变换[3]来建模颜色转换的标准方法显著提高性能。04.4. 与重新识别方法的比较0表2报告了我们的一次性度量学习与最先进方法在4个数据集上的性能比较。我们报告了无监督、半监督和有监督方法的结果。半监督方法通常假设训练集的三分之一可用。#IDs列提供了用于训练相应模型的标记身份的平均数量。我们的方法在所有数据集上优于所有半监督和无监督方法，并在PRID数据集上获得最大改进。与以前报告的最佳结果（包括无监督GL [26]和半监督TL-semi[42]方法的结果）相比，我们在排名1准确度上的改进超过16%。此外，我们的方法在需要数百个训练样本的最佳有监督方法上实现了竞争性能。例如，我们在PRID数据集上的结果优于所有有监督方法。VIPeR CUHK01iLIDS PRID -2-101234onlycoloronly texture29970方法#IDs VIPeR CUHK01 iLIDS PRID0半/无监督0我们的，α = α（n）1 34.3 45.6 51.2 41.40我们的，α = 0 1 30.1 39.6 49.9 31.9 JSTL I LOO 0 9.8 26.8 44.0 21.0JSTL LOO 0 20.9 37.1 43.5 2.0 Null Space-semi [57] 80 31.6 - - 24.7GL [26] 0 33.5 41.0 - 25.0 DLLAP-un [27] 0 29.6 28.4 - 21.4DLLAP-semi [27] 80 32.5 - - 22.1 eSDC [58] 0 26.7 15.1 36.8 - GTS[52] 0 25.2 - 42.3 - SDALF [15] 0 19.9 9.9 41.7 16.3 TSR [49] 0 27.723.3 - - TL-un [42] 0 31.5 27.1 49.3 24.2 TL-semi [42] 80 34.1 32.150.3 25.30有监督0FT-JSTL+DGD [55] 2629 38.6 66.6 64.6 64.00KISSME [28] 240 19.6 16.4 28.4 15.0 LOMO+XQDA [34] 240 40.063.2 - 26.7 Mirror [10] 240 42.9 40.4 - - Ensembles [40] 240 45.953.4 50.3 17.9 MidLevel [59] 240 29.1 34.3 - - DPML [4] 240 41.435.8 57.6 - kLDFA [56] 240 32.8 - 40.3 22.4 DeepNN [2] 240 34.847.5 - - Null Space [57] 240 42.2 64.9 - 29.8 Triplet Loss [11] 24047.8 53.7 60.4 22.0 Gaussian+XQDA [36] 240 49.7 57.8 - -0表2：C

下载后可阅读完整内容，剩余1页未读，立即下载