摄像机感知的无监督Re-ID方法的研究及实验结果分析

72 浏览量更新于2023-10-12 收藏 1.15MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6922凸轮1凸轮1摄像机内匹配（无场景变化）凸轮1凸轮2跨相机匹配（场景变化）基于摄像机感知相似性一致性学习的吴安聪1，郑伟世2， 3，4，赖建煌2， 51中山大学电子信息学院2中国中山大学数据与计算机科学学院3鹏程实验室，深圳5180054机器智能与高级计算教育部重点实验室5广东省信息安全重点实验室wuancong@gmail.com，stsljh@mail.sysu.edu.cn，wszheng@ieee.org摘要在监控中，针对不相交摄像机视角下的行人匹配问题，人再识别（Re-ID）在监督学习方面取得了很大进展。然而，当扩展Re-ID系统时，在许多新场景中标记数据是不可行的。因此，研究Re-ID的无监督然而，跨相机场景变化是非监督Re-ID的关键挑战，诸如照明、背景和视点变化，其导致特征空间中的域移位，并导致不一致的成对相似性分布，从而降低匹配性能。为了减轻跨摄像机场景变化的影响，我们提出了一个摄像机感知的相似性一致性损失学习一致的成对相似性分布的摄像机内匹配和跨摄像机匹配。为了避免在一致性学习中学习无效知识，我们保留了预训练模型中的摄像机内匹配的先验常识作为可靠的指导信息，这不会受到跨摄像机场景变化的影响为了更有效地学习相似性一致性，我们进一步开发了一个从粗到细的一致性学习方案，通过两个步骤来学习全局和局部一致性实验表明，我们的方法优于最先进的无监督Re-ID方法。1. 介绍近年来，人员再识别（Re-ID）在监控应用中引起了广泛关注。许多工作集中在监督学习[14，45，18，6，16，1，29]，并取得了很大的进展。然而，在实践中，在开发时，人工标记用于训练的数据是昂贵的。匹配结果不一致查询画廊排名列表凸轮111111211凸轮222222221图1.摄像机感知相似性不一致问题的图示。我们使用在MSMT 17 数据集 [34] 上预训练的 ResNet-50 模型 [12] 在DukeMTMC数据集[48]上匹配两个相机（由cam 1和cam 2表示）中的样本。在相机内匹配或相机交叉匹配中计算每对样本之间的通过余弦相似性检索的前8个匹配显示在右侧，正确的匹配由绿色边界框指示。跨相机场景变化导致特征空间中的域移位，并且导致不一致的成对相似性分布，这降低了匹配性能。场景，一些以前的作品试图研究Re-ID的无监督和迁移学习[26，13，40，32，8，34，7，49]，其中一些最近的先进方法[40，34，7，49]关注于相机之间的场景变化。跨相机场景变化是无监督Re-ID1的一个关键挑战，因为照明，背景和视角从相机到相机都不同，并导致特征空间中的域偏移。为了显示跨相机场景变化的效果，我们在图1中可视化成对相似性分布和一些匹配示例。我们在DukeMTMC数据集上匹配两个相机中的样本[48]。通过ResNet-50模型计算摄像机内匹配或摄像机间匹配中每对样本之间的成对相似度Re-ID系统适用于大量新场景。重新-减少标记数量，并在新*通讯作者1.本文研究了在无监督域自适应环境下的无监督人再识别问题，即在给定标记源数据和未标记目标数据的情况下，学习目标域的模型。6923[12]在MSMT17数据集上进行预训练[34]。如分布图所示，这两种成对相似度分布是不一致的，即摄像机间匹配的平均成对相似度小于摄像机内匹配的平均成对相似度，因为成对相似度与摄像机对的场景变化程度（如光照、背景和视点变化）负相关。S.基于不一致分布的成对相似性进行匹配会导致无法在最高排名列表中检索正确的跨相机样本，如图1右侧所示。我们称之为摄像机感知的相似性问题，这是由跨摄像机场景变化引起的，这是无监督Re-ID的一个严重问题。为了减轻跨摄像机场景变化的影响，我们通过学习一致的成对相似性分布来解决摄像机感知的相似性不一致问题，用于摄像机内和跨摄像机匹配。为了避免在一致性学习中学习无效知识，我们利用Re-ID的先验公共知识（例如，预训练模型）作为正则化的指导信息。我们保留了摄像机内匹配的先验常识来指导学习跨摄像机匹配，因为摄像机内匹配不像跨摄像机匹配那样受到跨摄像机场景变化的影响，因此相对更可靠。为了实现这一点，我们提出了一个相机感知相似性一致性损失，它联合学习内/跨相机相似性一致性，并保留相机内成对相似性的共同知识。为了更有效地学习相似性一致性，我们不仅在全局特征空间（即，所有样本对）而且在特征空间的局部邻域中（即，排名靠前的最近邻的样本对），因为检索Re-ID的正确排名靠前的因此，我们进一步开发了一个从粗到细的一致性学习方案，以学习全局和局部的一致性。与通过摄像机到摄像机对齐处理跨摄像机场景变化的高级无监督Re-ID方法[40，34，7，49]相比，我们探索了摄像机内和跨摄像机匹配之间的成对相似性关系，因此跨摄像机匹配可以受益于摄像机内匹配中相对可靠的知识。总之，本文的贡献是：（1）提出了一种摄像机感知的相似性一致性损失算法，以消除无监督Re-ID中的跨摄像机场景变化，探讨了摄像机内匹配和跨摄像机匹配之间的成对相似性关系;（2）进一步提出了一种由粗到细的一致性学习算法在失去亲人的情况下更有效地学习一致性。2. 相关工作监督人重新鉴定。人身重新识别是一个快速发展的过程.目前，从功能设计[10，9，20，18，22，47，38]到距离度量学习[35，10，27，14，45，23，25，17，38，21，24，18，6，46，39，41，33，3]和端到端深度学习-[16，1，36，37，31，19，42，43，48，29]。有监督模型具有丰富的标记数据，具有较高的性能，但标记成本过高，影响了模型的可扩展性.无监督人员重新识别。最近，降低用于人员重新识别的标记成本引起了更多的关注，因为对于每个新场景标记大量身份大多数作品研究非监督学习[26，13，40，32，8，34，7，4，50，49，15]，从Re-ID的未标记数据在先进的非监督方法中，大多数方法依赖于其他场景的源数据[40]和[8]使用源数据进行预训练，并通过聚类和微调从未标记的目标数据中学习。[34，7，4，50，49]学习通过从源图像到目标图像的图像到图像转换来传递知识。[32]学习从属性标签转移知识[15]通过将视频中的tracklet关联到摄像机中来学习。这些方法以不同的方式利用未标记的数据，其中大多数方法显式或隐式地减轻跨相机场景变化它们通过摄像机到摄像机对齐或在特征级别[40]或在图像级[34，7，4，50，49]。我们的方法还专注于减轻跨相机场景变化，这对无监督Re-ID很重要。除了摄像机之间的对齐，我们还进一步探讨了摄像机内匹配和摄像机间匹配之间的成对相似性关系，这在现有的方法中是被忽略的。我们的目标是学习一致的成对相似性分布的相机内和跨相机匹配的指导下，相机内匹配的先验常识。域适配。对于用于减轻跨相机场景变化的影响的相机之间的对准，主适应技术密切相关。例如，MMD[11]、CORAL [28]和ADDA [30]是代表性的域自适应方法。MMD [11]最小化两个域的均值之间的差异珊瑚[28]最小化两个域的协方差矩阵之间的差异。 ADDA[30]通过对抗性学习对齐两个域。它们用于特征空间中的域对齐，而我们的方法在相似性空间中学习摄像机内匹配和摄像机间匹配的成对相似性分布的一致性，并且我们的方法可以受益于摄像机内和摄像机间匹配之间的成对相似性关系。3. 摄像头感知相似性一致性为了研究无监督Re-ID，我们首先将这个问题公式化如下。在具有N个摄像机的新场景中，可以获得一组未标记的行人图像{Ic，i}6924pppp我p其中Ic，i是摄像机c中的第i个人物图像。我们的目标是从未标记的数据{Ic，i}中学习模型H，以计算样本之间的相似性，以便进行检索。3.1. 相似性不一致问题如第1节所述，跨相机场景变化是无监督Re-ID的一个严重问题，它会导致特征空间中的域偏移和不一致的成对相似性分布。为了进行可视化，我们在DukeMTMC [48]数据集中随机选择了三个摄像机，表示为cam1、cam2、cam3，以分析所有摄像机对的成对相似性我们应用在MSMT 17 [34]数据集上预训练的ResNet-50 [12]模型来计算相似性。成对相似性分布为直接转移到看不见的场景，无需改编通过摄像机感知相似性进行一致性学习交叉摄像机匹配摄像机内匹配如图2中的第一个分布图所示。如第一个分布图所示，跨相机匹配的三个分布是相似的，相机内匹配的三个分布也是相似的。摄像机间匹配的平均成对相似度小于摄像机内匹配的平均成对相似度，因为成对相似度与摄像机间场景变化的程度负由跨相机场景变化引起的成对相似性分布的不一致性降低了未监督的Re-ID的匹配性能，如第1节中的图1所示。我们称之为相机感知相似性不一致问题。为了减轻跨相机场景变化，我们提出了相机感知的相似性一致性学习，其目的是学习相机内相似性和跨相机相似性的一致分布，如图2所示。3.2. 相似一致性学习3.2.1摄像机内/摄像机间相似性一致性图2.摄像机感知相似性一致性学习的说明该算法的核心思想是利用相对可靠的摄像机内匹配常识作为指导，学习摄像机内和摄像机间匹配的一致的成对相似性分布。我们在DukeMTMC[48]（由凸轮1、凸轮2和凸轮3表示）。第一个分布图显示了直接应用ResNet-50模型[12]（在MSMT 17上预训练[34]）的情况，第二个分布图显示了摄像头感知相似性一致性学习后的情况经过学习，摄像机间匹配的两两相似度分布s和摄像机内相似性矩阵XXp和摄像机间相似性矩阵XXq之间的所有矩阵元素的标准偏差如下：ΣminLcon =（平均值（X<$Xp）-平均值（X<$Xq））2pΘ1p/=qp（一）为了解决相机感知相似性不一致问题，+（std（X<$Xp）-std（X<$Xq））2，p plem，我们的目标是最小化两两摄像机内匹配和摄像机间匹配的相似性分布。令H（·; Θ1）表示由Θ 1参数化的可学习特征提取器，并且xp，i=H（Ip，i; Θ1）∈Rd表示图像Ip，i的特征。在我们的例子中特征xp，i通过范数2归一化，使得两个特征x<$xp，j的内积是余弦相似度。令Xp=[xp ，1，xp ，2，...，xp ，N]∈Rd×Np 表示特征在训练期间由模型H（·; Θ1）为了学习一致的成对相似性分布，我们计算相机内匹配和相机间匹配的成对相似度对于摄像机p，摄像机内相似性矩阵是X<$Xp，其中元素x<$xp，j其中，mean（·）和std（·）表示计算输入中所有元素的平均值和标准差的函数矩阵，分别。我们将Lcon称为相机内/跨相机相似性一致性损失。3.2.2摄像机内相似性保持为了避免通过相似性一致性学习来学习无效知识，我们利用Re-ID的先验知识作为正则化的指导信息，这些信息可以通过其他场景中的标记源数据来学习。为了获得Re-ID的先验常识，我们在当前最大的Re-ID基准数据集上预训练模型Hp p，i在第i行和第j列中的是样本Ip，i和Ip，j之间的相似性。同样，对于两个摄像机p和q，交叉摄像机相似性矩阵为X<$Xq。然后，为了最小化摄像机内匹配和摄像机间匹配的成对相似度分布之间的差异，我们最小化平均值的差异，MSMT 17 [34].令θpre表示H的固定预训练参数。为了受益于常识，模型H的参数Θ1由Θ pre初始化。Re-ID的知识嵌入在特征之间的成对相似性中。为了提取用于相机p的新场景的Re-ID的公共知识，我们提取相似性保持相似一致性学习6925pΘpp通过预训练模型得到图像Ip，i的特征fp ， i= H（Ip ，i; Θpre）∈ Rd，该特征在训练过程中是固定的，用于计算两两相似度。设Fp=[fp，1，fp，2，...，fp，Np] ∈Rd×Np表示图像的特征矩阵{Ip，i}. 为了利用可靠的知识作为指导信息，我们选择因为当匹配同一摄像机中的样本时，没有摄像机间场景变化，因此与遭受摄像机间场景变化的摄像机间匹配相比，它相对更可靠。为了保留摄像机内匹配的常识，成对相似性应该被保留为预训练模型的相似性。对于摄像机p，我们最小化模型H（·;Θ1）的摄像机内相似性矩阵X ∈ X p与模型H（· ; Θ 1）的摄像机内相似性矩阵X ∈ X p之间的距离。固定预训练模型的相机相似性矩阵FFp跨相机匹配和预训练模型中的相机内匹配的可靠常识之间的桥梁。因此，L_pre提供了用于正则化L_con中的一致性学习的先验公共知识。摄像机感知一致性学习的目标函数是minL=Lpre+λLcon，（5）1其中λ是折衷参数。我们称L为摄像机感知的相似性一致性损失.分析. 我们分析了Lpre和Lcon的相关性。当单独使用摄像机内/跨摄像机相似性一致性损失L_con时，在不保留预训练模型的摄像机内匹配的可靠共同知识作为正则化的情况下，跨摄像机匹配的不正确知识阻碍了有效的一致性学习。elH（·;Θp前）如下：当单独使用相机内相似性保持损失L_pre时，保持已经最小L前= Ncam dist（X<$Xp，F<$Fp），（2）通过预训练的模型学习不能带来改进。Θ1p pp=1其中dist是矩阵的距离度量我们称之为Lpre相机内相似性保持损失。在我们的小批量学习的情况下，特征维度d大于批量大小 Np 。通常，可以满足rank（Xp ）=rank（Fp）= N p，并且相似矩阵因此，Lcon和Lpre应该共同学习。为了可视化我们的摄像机感知相似性一致性损失的效果，我们在图2中的第二个分布图中显示了摄像机感知相似性一致性学习后不同摄像机对的成对相似性分布。与直接转移的分布相比XXp而F<$Fp他们都有自己的风格，他们都有自己的风格。第一个分布图，成对相似性分布所有相机对的分布变得更加一致三个正定（SPD）矩阵，本质上位于黎曼流形而不是向量空间上，所以我们使用对数欧几里德黎曼框架来测量距离[2]。摄像机内相似性保持损失L_pre被重新公式化为：保留了摄像机内匹配的部分4. 从粗到精的一致性学习在最后一节中，我们介绍了摄像头感知SIM-Ncam-ilarity一致性损失，它学习一致的成对最小L =<$log（X<$X）−log（F<$F）<$2，（3）摄像机内匹配和交叉匹配预1�ppp=1ppéF相机匹配为了更有效地学习相似性一致性，其中log（A）是A的矩阵对数。对于任何SPD矩阵A，其对数为log（A）=Udiag（log（A1），log（A2），.，logg（N））U，（4）其中，U是特征向量的正交矩阵，并且Ui是特征值，其从特征值分解A = Udiag（U1，U2，...， Un）U.4.1.1摄像机感知相似性一致性损失为了分析Lcon和Lpre的联合学习，我们首先分析了它们之间的关系。在摄像机内/跨摄像机相似性一致性损失Lcon中，摄像机内相似性矩阵XXp和跨摄像机相似性矩阵XXq有效地与损失，我们模型成对的相似性，不仅全局特征空间中的所有样本对，而且特征空间的局部邻域中的排名最高的最近样本的样本对，因为检索Re-ID的正确排名最高的样本依赖于最近的邻域。在全局特征空间中学习相似性一致性可以看作是学习粗一致性。然后，基于粗一致性，我们的目标是在特征空间的局部邻域中学习更精细的一致性。我们开发了一个从粗到细的一致性学习方案，如图3所示，它需要两个步骤：(1) 全局特征空间(2) 在特征空间的局部邻域中进行精细一致性学习。p p用于学习一致的成对相似性分布。在摄像机内相似性保持损失L_pre中，X_p保留了预训练模型H（·; θ_pre）的常识。当L_con和L_pre被联合学习时，pΘ6926p摄像机内相似性矩阵X∈Xp的作用为步骤1：粗一致性学习。学粗一致性，我们在全球范围内建立成对相似性模型特征空间，即使用所有样本对。对于小批量学习，我们使用每个批次中的两个随机采样相机p和q的样本以及样本Ip，i，Iq，j6927硅镁矾2Θ图3.第4节中的粗到细一致性学习方案的说明。给定用于学习的N个凸轮相机的未标记数据，特征提取器模型H在两个步骤中被训练。在粗一致性学习（步骤1）中，模型H由预训练的参数Θpre初始化，并且然后等式（1）中的相机感知相似性一致性损失L被初始化。（5）在全局特征空间中进行优化。在精细一致性学习（步骤2），通过在步骤1中学习的参数Θ 1初始化模型H，然后在步骤2中计算等式2中的相机感知相似性一致性损失L2。（8）被优化以进一步学习特征空间的局部邻域中的相似性一致性。该计划的目的是学习一致的成对相似性分布的全球和本地从粗到细（最好的颜色）。从所有样本中随机抽取。然后相机-术语mean（X（K）<$X（K））和std（X（K）<$X（K））是重新定义的。p、（r）p、（r）p、（r）p、（r）感知相似性一致性损失（等式（5）适用于学习步骤1的模型H（·; Θ1）步骤2：精细一致性学习。精细一致性学习是基于粗糙一致性学习的。为了针对步骤2学习由θ2参数化的模型H（·; Θ2），我们首先通过在步骤1中学习的参数Θ1初始化H（·; Θ2）然后，我们进一步在在优化中被视为常数，因为我们希望保持在该微调过程中尽可能多地学习相机内匹配的可靠知识在批量形成摄像机c∈ {p，q}的Xc和Fc（s1）以计算摄像机内相似性保持损失时，对样本进行随机采样。步骤2摄像机内相似性保持损失L_pre_2为特征空间中的局部邻域，即样本最小LΣ¨=？ log（X<$X）−log（F<$ F¨）¨、（7）使用排名靠前的最接近样本对。程序22-cc∈{p，q}c（s1）c（s1）F对于小批量学习，我们使用两个随机样本ly采样的摄像机p和q。对于摄像机c∈ {p，q}，Xc是由步骤2的模型H（·;Θ2）提取的特征矩阵其中l〇 g（·）如等式中定义。（三）、步骤2摄像头感知相似性一致性损失L表示精细一致性学习，设Fc（s1）表示由2提取在步骤1中训练的模型H（·; Θ1）当形成用于计算内部/交叉的批处理摄像机相似性一致性损失，我们首先随机采样摄像机p的一个样本Ip，r。然后，我们在摄像机p和cam中搜索Ip，r的前K个最近样本minL2=Lpre2+λ2Lcon2，（8）2其中λ2是折衷参数。在测试阶段，通过由粗到精训练的模型H（·;Θ2）以提取特征矩阵X（K），X（K）∈Rd×K。一致性学习方案用于检索。p，（r）q，（r）用于搜索最近邻的余弦相似度为由固定特征矩阵Fp（s1）和Fq（s1）计算。步骤2摄像机内/跨摄像机相似性一致性损失Lcon2为Σ5. 实验我们对两个大型人员重新识别基准数据集Market-1501 [44]和DukeMTMC [48]进行了评估。我们将我们的方法与最先进的联合国最小Lcon2=（mean（X（K）<$X（K））−mean（X（K）<$ X（K）2Θr，p/=qp、（r）p、（r）p、（r）q，（r）受监督的人重新识别方法和进一步的电子-未标记的数据N个摄像机的特征提取器特征CAM1预训练模型H（I;Θpre）全局成对相似性分布（所有样本对）成对交叉凸轮凸轮内凸轮匹配Cam2相似性初始化010 pre局部成对相似分布（前K个最近样本的样本对）步骤1：粗一致性学习（等式1）（五））成对匹配十字凸轮模型H（I;y相似性初始化Θ 通过2 1步骤2：精细一致性学习（等式2）（八））成对匹配摄像机内相似性保持L pre2（等式1）（七））模型H（I;相似性相似性摄像机内/跨摄像机相似性一致性L con 2（等式1）（六））摄像机内相似性保持L_pre（等式2）（三））摄像机内/跨摄像机相似性一致性L_con（等式（1））概率概率概率概率Θ26928+（std（X（K）<$X（K））−st d（X（K）<$ X（K）2，评价了该方法中的关键成分和参数p、（r）p、（r）p、（r）q，（r）（六）实验设置和数据集。实验是其中，mean（·）和std（·）如等式2中所定义。（一）. 在Mark et-1501[44]和Duk eMTMC[48]上进行，概率6929无人监督的环境。Market-1,501 [44]包含6个摄像机中的1，501个身份的32，217张图像。DukeMTMC- reID[48]由8台摄像机中的1，812个身份的36，411张图像组成。我们遵循Market-1501 [44]和DukeMTMC [48]的标准训练/测试划分。在训练中，我们首先在MSMT 17[ 34 ]上预训练我们的模型，以学习Re-ID的常见知识。然后，我们在Market-1501或DukeMTMC的训练集上训练我们的模型，而不使用身份标签。按照[44]和[48]中的标准评价方案应用性能指标、累积匹配特征（CMC）和平均精密度（mAP）实施详情。对于特征提取器H，我们采用了通过PCB[29]的策略训练的ResNet-50 [12]模型。我们通过在MSMT17的训练集上进行预训练来初始化特征提取器H[34]。输入图像的大小调整为384×128。我们的模型通过粗到细的一致性学习方案（第4节）分两步进行训练。在粗一致性学习步骤中，我们设置λ= 10。0（等式中Lcon的权重（5））。在精细一致性学习步骤中，我们设置λ2= 1。0（等式中Lcon2的权重并且设置K=16（等式（8）中排名靠前的样本的数量）（6））。对于小批量学习，我们使用的批量大小为64。在每个批次中，我们随机抽取两台相机，然后为每台相机抽取32个样本，其中采样方法在第4节中介绍。当计算方程中的项Lpre时，（3）和Lpre2在等式（1）中。（7），将它们除以批量大小以归一化尺度。对于优化，我们使用动量为0.9的SGD优化器[5]我们使用15个epoch进行粗一致性学习和细一致性学习。学习率在前10个时期是0.1，在最后5个时期降低到0.015.1. 与相关无监督模型的比较我们比较了无监督Re-ID方法，包括无监督特征LOMO [18] ， BOW [44] 和无监督学习模型 UMDL[26]，PTGAN [34]，PUL [34]，CAMEL [40]，SPGAN[7]，TJ-AIDL [32]和HHL [49].实验结果示于表1中。我们还使用Market-1501 [44]或DukeMTMC[48]并在表2中报告了结果。我们的方法优于所有比较无监督的Re-ID方法。在竞争性比较方法中，CAMEL [40]、PTGAN [34]、SPGAN [7]、HHL [49]还旨在减轻第1节中提到的跨相机场景变化的影响。与以往的摄像机间对准方法相比，该方法进一步探索了摄像机内匹配和摄像机间匹配的成对相似性关系，使得摄像机间匹配可以利用现有方法中忽略的预训练模型的摄像机内匹配的可靠先验知识.表1.与最先进的无监督Re-ID方法的比较我们的模型使用MSMT17 [34]作为源数据集进行预训练。“R-“mAP”表示平均平均精度（%）。“-” denotes not方法Market-1501DukeMTMCR-1R-5R-10地图R-1R-5R-10地图LOMO [18]27.2四十一点六49.18.012.321.326.64.8BOW [44]35.852.460.314.817.128.834.98.3UMDL [26]34.5五十二点六59.612.418.531.437.67.3PTGAN [34]45.5六十七 66.720.530.043.448.516.4PUL [8]51.570.176.822.841.156.663.022.3骆驼[40]54.5--26.3----SPGAN [7]57.7七十五点八82.426.746.462.368.026.2[32]第三十二话58.2七十四点八81.126.544.359.665.023.0HHL [49]62.2七十八点八84.031.446.961.066.727.2我们65.480.686.235.559.373.277.837.8表2.与使用Market-1501 [44]或DukeMTMC [48]作为预训练源数据集的无监督Re-ID方法进行比较。符号与表1相同。源数据集DukeMTMCMarket-1501目标数据集Market-1501DukeMTMC方法R-1R-5R-10 地图R-1R-5R-10 地图PUL [8]51.5 70.176.822.841.1 56.663.022.3[32]第三十二话58.2 74.881.126.544.3 59.665.023.0HHL [49]62.2 78.884.031.446.9 61.066.727.2我们64.7 80.285.635.651.5 66.771.730.5表3.对我们的方法进行明智的评价。“预训练模型”是基线。“L pre（等式（3））”和“L con（Eq.（1））”是我们的相机感知相似性一致性损失L（等式（1））中的两个项。（5））。“Lpre（w/o log）”表示在L pre中使用欧几里德度量而不是对数欧几里德度量。“L pre +L con（步骤1）”表示我们在步骤1中通过粗一致性学习训练的模型。“Full model (step 1 其他符号与表1中的符号相同。方法Market-1501DukeMTMCR-1 R-10地图R-1 R-10地图预训练模型51.5 67.2 73.724.947.6 64.2 70.430.6Lpre（方程式（三））51.2 66.9 73.425.147.9 63.8 69.931.0Lcon（方程式（1）） 54.4 72.3 78.723.640.6 57.1 63.718.9L前（w/o log）+Lcon59.2 75.4 81.431.455.4 70.9 76.236.2L预处理+L浓缩（步骤1）61.4 78.0 83.832.156.6 71.8 76.935.8完整模型（步骤1和2）65.4 80.6 86.235.559.3 73.2 77.837.85.2. 进一步评价在本节中，我们进一步评估和分析我们的方法的组件和参数。关键部件的评估。我们验证了我们的方法中关键组件的有效性，包括术语Lcon和Lpre以及粗到细一致性学习中的两个步骤。组件评估如下。预训练模型被视为基线模型。在步骤1中的粗到细一致性学习中，我们将这两个术语应用于我们的摄像机感知相似性一致性损失L（等式1）中。（5）单独地，即，Lpre（方程式（3））和Lcon（Eq.（1），以表明他们相互依赖。然后，我们通过组合L_pre和L_con来应用L（由“L_pre + L_con（步骤1）”表示粗一致性学习69306055500.0 0.1 1.0 10.0100.0λ(a) λ的影响6664626058560.0 0.01 1.010.0λ2(b) λ2的影响6664626058564 8 16 32K(c) K的影响图4.参数λ、λ2和K.参数λ是等式（1）中的摄像机内/跨摄像机相似性一致性损失Lconin L的权重。（5）步骤1中的粗一致性学习。参数λ2是等式中的L2中的摄像机内/跨摄像机相似性一致性损失Lcon2（8）在步骤2中的精细一致性学习中。参数K是用于计算等式2中的L_con2的排名最高的样本的数量。（六）、在步骤1中为了说明对数欧几里德度量在Lpre中的有效性，我们还与使用欧几里德度量的情况（记为“Lpre（w/o log）+Lcon“）进行了比较基于步骤1的模型，我们在步骤2中进一步应用了精细一致性学习，这是我们模型的完整版本（表示为实验结果示于表3中。可以观察到，单独使用Lpre或Lcon不能带来改善，并且DukeMTMC上的Lcon性能甚至更差[48]。如第3.2.3节所分析的，L con是一致性学习的主导角色;而L pre提供先验常识作为指导信息，用于正则化L con中的一致性学习，以避免学习无效知识。他们互相依赖。当L_pre和L_con被联合学习时，+ Lcon（步骤1）”在步骤1中实现了最佳性能。“+Lcon可以比欧几里德度量更好地保持相似性，因为相机内相似性矩阵的对称正定（SPD）属性，如第3.2.3节中所解释的。在“Full mod-el（step 1 2）"中的步骤2中使用精细一致性学习，相似性一致性学习与特征分布对齐。我们建议通过摄像机感知的相似性一致性学习来减轻跨摄像机场景变化的影响。跨摄像机场景变化问题也可以看作是特征分布的错位问题，因此，用于分布对齐的域自适应方法与该问题密切相关我们比较了两种代表性的方法MMD [11]和CORAL [28]。当应用于Re-ID时，MMD[11]最小化不同相机的均值之间的差异，CORAL最小化不同相机的协方差矩阵之间的差异。我们还比较了用MMD或CORAL替换我们的相机内/跨相机相似性一致性损失LconinL的情况，以显示表 4. 与域自适应方法 MMD [11] 和 CORAL [28] 的比较“Pretrained model”其他符号如表3所示。方法Market-1501DukeMTMCR-1 R-10地图R-1 R-10地图预训练模型51.5 67.2 73.724.947.6 64.2 70.430.6MMD [11]28.1 46.9 55.58.330.2 46.8 53.912.2珊瑚[28]23.7 39.3 47.38.114.0 26.4 32.87.2Lpre（方程式（3））+MMD58.7 75.2 81.230.455.1 70.8 76.135.6Lpre（方程式（3））+珊瑚58.5 75.4 81.729.754.6 70.8 76.034.8L预处理+L浓缩（步骤1）61.4 78.0 83.832.156.6 71.8 76.935.8完整模型（步骤1和2）65.4 80.6 86.235.559.3 73.2 77.837.8相似性一致性学习对特征分布对齐的优势结果报告于表4。MMD [11]和CORAL [28]的结果甚至比基线预训练模型差得多，因为简单地最小化特征分布之间的差异而当我们的摄像机内相似性保持损失Lpre与MMD和CORAL一起应用时，保留摄像机内匹配常识的特征分布对齐可以带来改进。这表明摄像机内相似性中保存的共同知识我们的12 ）（ 3 ）） + MMD （ 3 ）） + CORAL 与 MMD 和CORAL在特征空间中对齐分布相比，我们的相似性一致性学习在相似性空间中对齐摄像机内匹配和跨摄像机匹配的成对相似性分布，这可以受益于摄像机内匹配相似性中保留的共同知识，因此更鲁棒。此外，MMD和CORAL不能在特征空间中的局部邻域中对样本进行建模，因为我们的完整模型是由粗到细的一致性学习方案训练的。参数评价。在我们的方法中主要有三个关键参数，它们是L中L的权λMarket-1501DukeMTMCMarket-1501DukeMTMCMarket-1501DukeMTMC1级准确度（%）1级准确度（%）1级准确度（%）6931查询图库排名列表查询画廊排名列表查询画廊排名列表直接传递步骤1：粗一致性学习步骤2：细一致性学习图5.显示了在DukeMTMC [48]上测试时直接传输（应用预训练模型）、粗一致性学习（步骤1）和细一致性学习（步骤2）的一些匹配示例正确的匹配由带刻度的绿色边界框指示在直接传输的匹配结果中，与查询图像相比具有非常相似的背景的相机中的不正确的样本被检索，因为跨相机场景变化引起的不同相机对的成对相似性分布不一致。我们的方法可以通过两个步骤从粗到细的一致性学习来改善匹配结果。由方程式（5），Lcon2在等式（5）中的L2中的权重λ2以及等式（8）中的Lcon2中的排名靠前的样本的数量K（六）、我们在Market-1501上评估和分析了这些参数[44][ 48 ][49][49][49][49]- 参数λ的影响。参数λ是等式中L_con 的权重。（5）控制在步骤1中的粗一致性学习中使用的摄像机内/跨摄像机相似性一致性学习的效果。我们将λ从0改变。0到100。0，并在图4（a）中显示了步骤1的测试秩-1准确度。随着λ从0. 0到10。0，改善越来越明显。当λ太大时，Lcon支配L，使得Lpre的正则化被削弱，不能提供指导信息.- 参数λ 2的影响。参数λ2是等式2中Lcon2（8）在步骤2中的精细一致性学习的特征空间的局部邻域中控制摄像机内/跨摄像机相似性一致性学习作为进一步改进基于粗一致性学习的模型的一步，我们将用于细一致性学习的λ2设置为小于λ作为模型的微调策略我们将λ2从0改变。0到10。0，并在图4（b）中显示了步骤2的测试秩-1准确度。当λ2在0.01 ~ 1.0范围内时，性能得到改善- 参数K的影响。K是用于计算等式2（6）用于步骤2中的精细一致性学习。我们将K从4变化到32，并在图4（c）中显示了测试的秩-1精度。可以观察到，精细一致性学习对K相当不敏感，当K∈[4，32]时，性能变化小于2%。匹配示例。为了获得更好的视觉理解，我们在图5中显示了一些直接传输（应用预训练模型），粗一致性学习（步骤1）和精细一致性学习（步骤2）的匹配示例，用于DukeMTMC [48]的测试。正确的匹配由带刻度的绿色边界框指示。在直接传输失败的情况下，检索到的图库图像的行人外观和背景与查询图像非常相似，但它们是不正确的匹配来自查询图像的相同或相似相机，而正确的匹配受到跨相机场景变化的影响，并且成对相似性分布对于不同相机对是不一致的，如在第2006节中的相机感知相似性不一致问题中所示。第3.1条我们所提出的方法可以缓解这个问题，并改善匹配结果，通过粗到细的一致性学习在两个步骤。6. 结论在本文中，我们研究了无监督的人重新识别，并专注于减轻跨相机场景变化的影响（例如，光照、背景和视点），这对于无监督的Re-ID来说是严重的跨摄像机场景变化会引起特征空间的域偏移，导致不同摄像机对的相似度分布不一致，从而降低匹配性能。我们称之为相机感知相似性不一致问题。为了解决这个问题，我们提出了一个摄像机感知的相似性一致性损失。与现有的通过摄像机间对准来处理跨摄像机场景变化问题的Re-ID方法不同，本文进一步探讨了摄像机内匹配和跨摄像机匹配之间我们可以通过学习一致的成对相似性分布的摄像机内和跨摄像机匹配的指导下，在摄像机内匹配的Re-ID的p-保留可靠的常识，以提高跨摄像机匹配。为了更有效的一致性学习，我们进一步开发了一个从粗到细的一致性学习方案，通过两个步骤来学习全局和局部一致性。实验表明，我们的方法优于最先进的无监督Re-ID方法。确认本工作得到了国家自然科学基金（U1611461、U1811461、61573387）、广东省科技创新领军人才（2016TX03X157）、广州研究项目（201902010037）和英国罗伊学会牛顿高级奖学金（NA150459）的部分资助6932引用[1] 艾贾兹·艾哈迈德迈克尔·琼斯和蒂姆K. 标记. 一种改进的用于人员重新识别的深度学习架构。CVPR，2015。一、二[2] Vincent Arsigny 、 Pierre Fillard 、 Xavier Pennec 和Nicholas Ayache。在对数欧几里德框架下对张量进行快速简单的演算。在MICCAI，2005年。4[3] Slawomir Bak和Peter Carr。用于人员重新识别的一次性度量学习。在CVPR，2017年。2[4] Slawomir Bak，Peter Carr，and Jean-Francois Lalonde.通过合成进行主适应，用于无监督的人重新识别。在ECCV，2018。2[5] 朗 · 博图随机梯度下降的大规模机器学习。在COMPSTAT的会议记录，2010年。6[6] Ying-Cong Chen，Wei-Shi Zheng，Jian-Huang Lai，andPong Yuen.一种用于跨视角特征映射的非对称距离模型。IEEE TCSVT，2015年。一、二[7] Weijian Deng ， Liang Zheng ， Qixiang Ye

下载后可阅读完整内容，剩余1页未读，立即下载