异构和同构检索模型的优化

10 浏览量更新于2023-10-13 收藏 1.29MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

一个人检索模型的异构和同构Zhun Zhong1，2，Liang Zheng2，3，Li Shaozi1（），Yi Yang21厦门大学认知科学系2澳大利亚悉尼科技大学人工智能中心3澳大利亚国立大学计算机科学研究院{zhunzhong007，liangzheng06，yee. i. yang}@ gmail.comszlig@xmu.edu.cn抽象。人员重新识别（re-ID）对无监督域自适应（UDA）提出了独特的挑战，因为源和目标集合（域）中的类是完全不同的，并且图像变化主要由相机引起。给定一个标记的源训练集和一个未标记的目标训练集，我们的目标是提高re-ID模型在目标测试集上的泛化能力。为此，我们引入了一种异质-同质学习（HHL）方法。我们的方法同时执行两个属性：1）相机不变性，通过由未标记的目标图像和它们的相机风格转移的对应物形成的正对来学习; 2）域连通性，将源图像/目标图像视为目标图像/源图像的负匹配对。第一个属性是通过同质学习实现的，因为训练对是从相同的域中收集的。第二个属性是通过异构学习实现的，因为我们从源域和目标域对训练对进行采样。在Market-1501、DukeMTMC-reID和CUHK 03上，我们证明了这两个属性的贡献是不可或缺的，并且实现了非常有竞争力的 re-IDUDA 精度。代码可在：https://github.com/zhunzhong07/HHL关键词：人物再识别，无监督域自适应1介绍给定查询，人重新识别（re-ID）旨在从由来自查询的不同相机收集的数据库检索相同的人。尽管卷积神经网络（CNN）获得了显著的性能改善，但据报道，在源域上训练的深度re-ID模型可能在目标域上具有较大的性能下降[7，10]。主要原因是源域的数据分布通常与目标域不同。在本文中，我们考虑设置无监督域自适应（UDA），在训练过程中，我们提供了标记的源训练图像和未标记的目标训练图像。在目标测试数据库上评估性能。无监督域自适应[37，26，16]，已在图像分类，对象检测和语义分割，面部2Z. Zhong等人新的挑战，在人的背景下重新识别。一方面，person re-ID中的源域和目标域具有完全不同的类（person identity），而在通用UDA中，源域和目标域共享同一组类。另一方面，可以清楚地识别导致人re-ID中的域变化的关键因素，即，相机的差异。即使在未标记的目标域中，相机信息，即，捕获图像的照相机是已知的。然而，在UDA社区中，如何有效地利用相机信息来重新识别人仍然是未知的在本文中，我们的设计动机在两个方面，密切相关的新挑战，上述。首先，我们的动机的一个关键部分来自于由不同的相机配置引起的域内这种观点在最近的方法中很大程度上被忽视，解决了人重新识别中的UDA问题。这些最近的工作要么集中在内容保留的源-目标翻译模型[39，7]，要么采用属性和身份标签来学习可转移模型[38]。据我们所知，这些方法仅考虑整体域间差异，但没有明确考虑由不同相机配置引起的域内图像风格变化事实上，域内相机风格差异是人员重新ID的关键影响因素，因为在测试期间，查询及其地面实况匹配由不同相机捕获在不考虑细粒度域内图像变化的情况下，在源集合上训练的迁移学习模型可能仅捕获两个域之间的总体数据偏差，并且当遇到目标域测试集中的大域内其次，我们考虑源和目标集具有完全不同的类/身份的先验，因此源图像和目标图像自然形成负训练对。Deng等人已经探索了类似的想法 [7]。然而，这两篇论文在使用这个先验的目的上有所不同在[7]中，Deng等人使用负对来改进图像-图像转换模型，使得生成的图像将在很大程度上保留其身份标签，这是UDA的理想属性。相比之下，我们直接使用这些负对来学习三重损失公式中的人嵌入。基于这两个考虑，我们提出了一种新的无监督域自适应方法，命名为异质同质学习（HHL），用于人员重新识别任务。HHL是在没有目标监督的情况下构建的，即，我们不需要费力的手动注释，例如目标集中的标识。事实上，HHL的构造需要源集合（给出身份标签）、目标集合（没有身份标签）以及目标集合中的每个图像的相机信息。在这里，我们强调每个目标图像的摄像机ID可以与原始视频一起获得：简单地记录在视频中捕获的摄像机的ID就足够了。因此，我们将HHL的成本结构称为“无成本备份”，或以“无成本监控”的方式进行成本结构在我们的方法中，HHL支持在两个属性的约束。首先，我们约束，应变学习的人嵌入是强大的相机的变化一个人检索模型的异构和同构3目标域。为了以无监督的方式实现这种相机不变性，通过图像-图像转换生成正训练对，将每个相机视为单独的样式。其次，为了赋予域连接性的系统，我们学习源和目标域之间的底层结构，分别使用从源和目标集采样的负训练对。在本文中，由于训练图像来自相同的域，因此施加相机不变性是一个均匀的学习过程强加域连通性属性意味着异构学习过程，因为训练样本来自两个域。这两个特性均质地产生正对和非均质地产生负对，其由锚图像桥接以被馈送到三重丢失训练中。概括起来，本文的特色主要体现在三个方面。首先，介绍了一种异构学习（HHL）方案.通过三重损失，它带来了相机不变性和域连接的系统，这是一个有效的UDA方法在人重新ID的基本属性。其次，HHL是UDA中训练样本构造的一种新方法它对参数变化具有通过实验研究验证了摄像机不变性和领域连通性的重要性和不可或缺性。第三，我们在Market-1501，CUHK 03和DukeMTMC-reID数据集上报告了最新的UDA准确性2相关工作无监督域自适应。我们的工作是密切相关的非监督域自适应（UDA）的目标域是未标记的。以前的大多数方法都试图通过reduc-degree来将源域与目标域对齐特征分布的发散[37，26，11，35，36，41]。这些方法的动机是理论，即目标域的误差由域之间的差异限制[2]。CORAL [35]对齐源域和目标域分布的均值和协方差，并在各种视觉识别任务中取得了有希望的结果此外，深度CORAL [36]通过将CORAL损失纳入深度模型来扩展该方法。存在许多旨在向未标记的样本提供伪标记的方法几种方法利用特征的相似性来为未标记的目标样本提供伪标签[31，33]。在[33]中，提出了一种通过使用k-最近邻来估计未标记样本的标签的方法然后，利用预测的标签来学习最佳深度特征。或者，许多方法试图通过利用分类器的预测并使用标记样本和伪标记样本重新训练分类器来预测未标记样本的标签，这被称为协同训练[50]。这些方法的基本假设是高置信度预测对于未标记的样本是最正确的类别。在[4]中，通过逐渐将高置信度预测的目标样本添加到训练集中，将协同训练的思想应用于域自适应。 Saito等 [32]建议为目标域生成伪标签4Z. Zhong等人样本不对称地通过三个分类器，并用预测的标签训练最终的分类器。最近，许多基于生成对抗网络（GAN）[12]的域自适应方法专注于学习将像素空间中的样本从一个域转换到另一个域的生成器网络[24，3，16]。CyCADA [16]通过像素周期一致性和语义损失来适应像素级和特征级的表示，它在数字识别和语义分割方面都实现了高性能大多数现有的无监督领域自适应方法假设跨领域的类标签是相同的，而不同的re-ID数据集的人的身份（类）是完全不同的。因此，上述方法不能直接用于人re-ID中的无监督域适应问题。无人监督的人重新识别。手工特征可以直接应用于无监督的人员重新识别，例如，ELF [13]，LOMO [23]和SDALF [1]，其目的是设计或学习用于人员重新识别的鲁棒特征。这些冰毒ods经常忽略样本在数据集中的分布，无法执行在大规模数据集上。受益于深度学习的显著成功[21，14，9，8，27]，最近的工作[10，25，40]试图基于深度学习框架预测未标记样本的伪标签。Fan等人。 [10]提出了一种无监督的re-ID方法，用于迭代地应用k均值聚类来为未标记的样本分配标签，并在目标域上微调深度re-ID模型。Liu等人 [25]估计具有k倒数最近邻[29]的标签，并迭代地学习用于无监督视频re-ID的特征 Wu等人[40]提出了一种渐进采样方法，以逐渐预测可靠的伪标签并更新基于单次视频的re-ID的深度模型很少有作品[7，38，39，28，17]研究了re-ID的无监督域自适应。Peng等人。[28]提出基于非对称多任务字典学习来学习目标域的判别表示。Deng等人[7]学习基于Cy-cleGAN的相似性保持生成对抗网络[49]将图像从源域转换到目标域。翻译后的图像用于以监督的方式训练re-ID模型。在[38]中，提出了一种可转移模型，用于联合学习目标域的属性语义和身份判别特征表示。这些方法旨在减少图像级空间[7，39]或特征级空间[38，28，17]上的源域和目标域之间的差距，而忽略了目标域中不同相机引起的在这项工作中，我们显式地考虑由摄像机引起的域内图像变化来学习目标域的判别性re-ID模型。3该方法问题定义。对于人re-ID中的无监督域自适应，我们具有由Ns个人图像组成的标记源集合{Xs，Ys} 每个图像xs对应于标签ys，其中ys∈{1，2，…Ms}，并且Ms是身份的数量。我们还从未标记的目标集合中得到Nt个未标记的目标图像一个人检索模型的异构和同构5FC-编池-5 FC-1024十字架目标域CNN风格迁移CD公司简n源域交叉熵损失相似性学习源目标源+目标Fig. 1. 建议方法的框架。它由两个损失函数组成：1）分类的交叉熵损失，它是通过标记的源样本学习的; 2）用于相似性学习的三元组损失，其将相机不变性和域连通性强加给模型，并通过标记的源样本、未标记的目标样本和相机风格转移样本来学习。{Xt}。{Xt}中的每个目标图像Xt的身份是未知的。本文的目标是利用标记的源训练图像和未标记的目标训练图像来学习目标测试集的区分嵌入。3.1基线配置我们使用ResNet-50 [14]作为主干，并遵循[48]中的训练策略，该策略对ImageNet [6]预训练模型进行微调。我们丢弃最后的1,000-dim全连接（FC）层并添加两个FC层。第一个FC层的输出是1，024-dim，命名为被命名为“FC- #ID”的第二FC层的输出给定标记的训练图像，一种有效的策略是学习用于人重新ID的ID判别嵌入（IDE）[44]交叉熵损失通过将训练过程作为分类问题来使用交叉熵损失写为，LCross=−1SΣnsi=1logpi（y），（1）其中ns是一批中的标记训练图像的数量，pi（y）是属于地面实况类y的输入的预测概率。我们将此模型命名为基线在本文中。基于IDE的方法[44，46，47]在完全标记的数据集上实现了良好的性能，但通常无法推广到新的目标集。接下来，我们将描述异质-同质学习（HHL）方法来提高基线的可移植性。十字架CD6Z. Zhong等人3.2网络架构本文中使用的网络如图所示。1.一、它有两个分支。第一个分支与基线相同，这是一个识别任务。第二分支在两个方面与第一分支不同：1）在“FC- 128”路径的头部中使用128-dimFC路径名称“因此，我们的网络有两个损失函数，用于分类的交叉熵损失和用于相似性学习的三重损失。对于相似性学习，我们采用[15]中使用的三重损失，其公式为：LT（X）=Σxa，xp，x n[m+Dxa，xp−Dxa，xn]，xa，xp，xn∈X，（2）其中X表示训练批次中的图像，Xa是锚点。Xp是与Xa在同一类中的最硬（最远）样本，并且Xn是与StoXa的差的最硬（最接近）样本。 m是一个最大的像素，D（·）是嵌入空间中两个图像之间的欧氏距离。我们使用FC-128的输出作为嵌入特征，并将m设置为0.3。请注意，在重新ID测试期间，我们使用Pool-5（2，048-dim）的输出作为人员描述符。3.3相机不变性学习在人员身份验证过程中，摄像机引起的图像风格变化是一个重要的影响因素。为了实现目标域中的相机不变性属性，我们施加相机不变性约束，通过学习与未标记的目标图像和它们的对应物包含相同的人，但具有不同的相机风格。为了生成或多或少保留个人身份并反映另一相机风格的新目标图像，我们采用CamStyle方法[48]来学习目标集中的相机风格转移模型不同于[48]使用CycleGAN [49]进行图像-图像转换，我们基于StarGAN [5]构建这是因为StarGAN允许我们使用单个模型训练假设我们在目标集中有C个摄像机。我们首先训练一个StarGAN模型，它可以在每个相机对之间进行图像-图像转换。利用学习的StarGAN模型，对于由相机j（j∈ 1，2，......，j）收集的真实图像x t，j C）在目标集合中，我们生成C个假（相机风格转移）图像xt*，1，xt*，2，...， xt*，C，其或多或少包含与xt，j相同的人，但其风格类似于相机1，2，...，C，分别。注意，C图像包括转换成相机j的风格的图像，即，实像xt，j的风格。CamStyle [48]生成的真实图像和假图像的示例如图所示。二、为了学习目标集的相机不变人物嵌入，我们查看xt，j及其对应的假图像xt*，1，xt*，2，...，xt*，C属于同一类。我们将所有其他图像视为属于具有xt，j的不同类。为了简单起见，我们省略了camera的下标具体来说，我们计算一个人检索模型的异构和同构7i=1i=1不不不凸轮11→11→21→31→41→51→6凸轮33→13→23→33→43→53→63→73→8凸轮33→13→23→33→43→53→6凸轮55→15→25→35→45→55→65→75→8凸轮66→16→26→36→46→5Market-15016→6凸轮88→18→28→38→48→58→68→7dukemtmc-Reid8→8图二. Market-1501和DukeMTMC-reID上的相机风格转换示例。由某个相机采集的图像被转移到其他相机的样式。在这个过程中，身份信息在一定程度上得到了保存。在训练期间，真实图像及其对应的伪图像被假设为属于同一类通过未标记的靶结构域样品{xi}nt的三联体损失及其i=1对应的相机传输样本{xi*}nt.摄像机的损失函数不变性学习可以写成，In不i=1我n*（三）LC=LT（{xt}t∪{xt*}t），其中nt是训练批次中的真实目标图像的数量，并且nt是相机风格传输样本的数量。在我们的实验中，我们为每个真实目标图像生成C个假图像，即n/nt=C，其中C是数字摄像头的数量在训练批中，xi是从目标集合中随机选择的我们假设x1，x2，...xnt属于不同的类。技术上t t t因为每个目标训练类具有几个图像，并且很可能是将同一类的两个图像选择到训练批中的情况，所以这种假设是不正确的。话虽如此，我们将在第3.6节和图3中表明，我们的假设不会明显影响性能。3.4领域连通性学习在person re-ID中，不同的域具有完全不同的类/身份，因此源图像和目标图像自然地形成负训练对。有了这个先验，我们建议赋予域连通性的系统作为负匹配对的目标/源图像的源/目标图像给定来自源的锚图像，我们使用源域标签来构建正对。然后，我们选择目标域图像与锚点形成负对。形式上，给定标记的源域样本{xi}ns以及未标记的目标域样本{xi}nt的损失函数si=1ti =1域连通性学习可以被定义为，LD= LT（{xi}ns ∪{xi}nt）、（4）si=1ti =18Z. Zhong等人i=1i=1i=1其中ns是源图像的数量，并且nt是目标图像的数量在该损失函数中，由于目标图像的身份与源域中的身份不重叠，因此每个源图像和每个目标图像形成负对。因此，考虑了源样本和目标样本之间的关系，从而在一定程度上实现了两个域之间的通信和底层结构。3.5异质-同质学习在本文中，我们认为，相机不变性和域连通性是一个有效的UDA系统的人重新ID的互补属性为此，我们建议在训练批次中使用单个损失来具体来说，一个训练批包含标记的源图像{xi}ns，未标记的真实目标图像{xi}nt，和他们的si=1*ti=1对应的假图像{xi*}nt.相机因瓦里不i =1时间学习和域连通性学习可以被写为，n nn我n*（五）LCD= LT（{xs}s∪{xt}t∪{xt*} t）。在这个损失函数中，我们同时执行两个属性：1）相机不变性，通过真实目标图像及其对应的假图像学习;2）域连通性，通过将源/目标样本（包括其相机风格转移样本）视为目标/源样本的负匹配对，将源和目标样本映射到共享特征空间中最后，整体损失函数（图1）在训练批次中表示为，LHHL=LCross+βLCD，（6）其中β是联合相机不变性和域连通性的权重。我们之所以提出“HHL”学习方法，是因为领域连通性学习的异质样本选择方案，以及此外，我们注意到，交叉熵损失是必不可少的方程。6，其提供仅在源上学习的基本辨别能力。如果没有交叉熵损失，系统将受到严重损害。3.6讨论为什么要使用相机风格转移？在表1中，我们比较了经历不同数据增强方法的图像之间的距离，即随机裁剪、随机翻转和相机风格转移。显然，在源集合上训练的re-ID模型对目标集合上的随机裁剪和随机翻转是鲁棒的，但对由相机引起的图像变化敏感因此，由目标集合上的不同相机引起的图像风格的改变是在人重新IDUDA中应该明确考虑的关键影响因素如何从目标域中采样训练图像？我们比较了三种抽样策略，1）随机抽样，我们随机抽取nt个目标一个人检索模型的异构和同构9随机抽样监督抽样表1. 经历不同数据增强技术的两个图像之间的平均距离。我们使用在源集合上训练的基线re-ID模型（第3.1节）来提取目标集合上的图像描述符（Pool-5，2，048-dim）。源目标随机裁剪随机翻转CamStyle传输公爵Market-1501Market-1501公爵0.0490.0590.0340.0440.4850.61480407035603050402530杜克→市场1501市场1501 →杜克大学中大03 →市场1501CUHK03→杜克大学20杜克→市场1501市场1501 →杜克大学中大03 →市场1501CUHK03→杜克大学图3.第三章。在目标集上比较不同抽样策略，包括随机抽样、基于聚类的抽样和监督抽样。报告秩-1准确度和mAP。我们设置β = 0。5，nt = 16。我们发现，不同的采样方法实现非常相似的结果。因此，为了简单起见，我们在整个论文中使用随机抽样- 在每个小批中的图像之间分配不同的标识，并且为每个图像分配非重叠的随机标识，即每个图像在小批中具有不同的标识; 2）基于聚类的采样，在每个训练时期开始时，我们基于当前学习的re-ID模型应用k-均值将目标图像聚类成ηt个聚类，并从每个聚类中采样一幅图像以小批量地组成目标域的训练数据。基于聚类的抽样策略可以有效地避免对同一身份进行小批量抽样; 3）监督采样，假设我们被提供有标记的目标集，我们以监督的方式随机选择nt个图像，确保每个目标图像来自不同的身份。不同采样策略的比较如图所示3 .第三章。显然，随机抽样与其他两种策略产生非常近似的结果这是因为当从包含大量图像和身份的目标集合中采样少量图像时，图像是相同身份的概率非常低因此，本文采用随机抽样的方法。4实验4.1数据集我们在三个re-ID数据集上评估我们的方法，这些数据集被认为是社区中的大规模数据集，即、 Market-1501 [43] 、 DukeMTMC-reID[45，30]和CUHK 03 [22]。Market-1,501 [43]包含从6台相机收集的1，501个身份的32，668个标记图像。为了评估，来自751个身份的12，936个图像用于训练，并且来自750个身份的19，732个图像加上一些干扰因子形成图库/数据库。此外，3，368个手绘边界框随机抽样监督抽样1级准确度（%）最大平均接入点10Z. Zhong等人市场-1501 DukeMTMC-reID CUHK 03图4.第一章Market-1501、DukeMTMC-reID和CUHK 03数据集的示例图像每列中的图像表示从不同相机收集的相同身份/类别。我们观察到三个数据集的图像风格非常不同，并且在每个数据集中，不同相机的图像风格也不同在750中，身份被用作查询以检索数据库中的相应的个人我们在实验中使用单查询评估。DukeMTMC-reID [45]有8个摄像头和36，411个标记图像，属于1，404个身份。与Market-1501的划分类似，该数据集包含来自702个身份的16，522个训练图像，来自另外702个身份的2，228个查询图像和17，661个图库图像。CUHK03 [22]包含14，096张图像，包含1，467个身份。每个身份都是从两个摄像头拍摄的该数据集有两个训练/测试设置：使用标记的边界框和使用重新检测的边界框。我们使用检测到的设置，因为它更具挑战性，更接近实际场景。请注意，CUHK03中的图像没有相机标签，因此我们无法执行相机不变性学习。因此，我们只使用CUHK03作为源域，而不是目标域。我们使用传统的rank-n精度和平均精度（mAP）对所有数据集进行评估不同的re-ID数据集的示例人员如图所示4.第一章4.2实验设置相机风格转换模型。给定由C相机收集的目标集，我们使用StarGAN[5]来训练图像-图像转换模型，以在每个相机对之间传输图像。我们遵循与[5]相同的架构具体来说，生成器包含2个卷积层，6个残差块和2个转置卷积层，而鉴别器与PatchGANs [19]相同将输入图像的大小调整为128× 64。在训练中，我们使用亚当优化器[20]其中β1= 0。5和β2= 0。999.两个数据增强方法，随机翻转和随机裁剪，采用。在前100个时期，生成器和鉴别器的学习率都是0.0001，并且在剩余的100个时期中线性衰减到零在相机风格转移中，对于目标集中的每个图像，我们生成C风格转移的图像（包括转移到原始真实图像的相机风格的图像这些C假图像被认为包含与原始真实图像相同的人。Re-ID模型训练。为了训练re-ID模型，我们采用[48]中具体来说，我们保持输入图像的宽高比，并将其调整为256×128。用于数据扩充、随机裁剪和随机翻转一个人检索模型的异构和同构11杜克大学->市场1501市场1501->杜克大学CUHK 03->市场1501中大03->杜克大学杜克大学->市场1501市场1501->杜克大学CUHK 03->市场1501中大03->杜克大学最大平均接入6030502520401530102000.20.40.60.811.21.41.61.82500.20.40.60.811.21.41.61.82图五、对方程（1）中的参数β（三重损失的权重）的敏感性六、我们固定nt= 16。6030502540203015200 4 8 12 16 20 24 2832目标样本数量100 4 8 12 16 20 24 28 32目标样本数量见图6。对一批中真实目标图像的数量nt的灵敏度。β固定为0.5。应用。丢弃概率设置为0.5。对于分类层，学习速率被初始化为0.1，对于其余层，学习速率被初始化为0.01。学习率在40个时期之后除以10对于IDE和三重丢失，我们将源图像的小批量大小该模型使用SGD优化器在总共60个epoch中进行训练。在测试中，我们提取2，048-dimPool-5层的输出作为图像描述符，并使用欧氏距离来计算查询和数据库图像之间的相似性。4.3重要参数我们评估了两个重要的参数，即三重损失β的权重和一批中真实目标图像的数量nt。当计算一个参数时，我们固定另一个参数。结果示于图图5和图6分别示出。三重损失的重量。当β= 0时，我们的方法减少到基线（仅具有交叉熵损失，第3.1节）。它清楚地表明，我们的方法显着提高了基线在所有值。秩-1准确度和mAP随着β的增加而提高，并且当β在0.4至0.8之间时达到最佳结果训练批次中真实目标图像的数量当nt= 0时，仅源图像被用于利用IDE和三元组l〇s，s来训练re-ID模型，因此，由于s=“e_i_n_e+L_T“，所以可以将其恢复。来自Fig. 5.我们发现，当在一个训练批中增加真实目标图像及其对应的相机风格转移样本的数量时，我们的方法始终优于“baselinee+LT”。 Performanceb ecomestaternt=16.基于上述分析，我们的方法是鲁棒的参数变化。在下面的实验中，我们设置β = 0。5和nt= 16。Duke->Market1501Market1501->DukeCUHK03->Market1501 CUHK03->DukeDuke->Market1501Market1501->DukeCUHK03->Market1501 CUHK03->Duke1级准确度（%）1级准确度（%）最大平均接入12Z. Zhong等人表2.方法比较使用Duke/ Market作为来源，并使用Market/ Duke作为目标。S：标记源集，T：标记目标集，TU：未标记目标集。方法火车设置杜克大学→Market-1501Market-1501 →杜克大学R-1R-5R-10转轴-20地图R-1R-5R-10 转轴-20地图巴塞尔。不83.893.395.697.166.372.384.188.190.953.5巴塞尔。S44.662.569.676.520.632.949.554.861.716.9巴塞尔+ LTS48.666.473.378.923.535.150.757.664.020.5巴塞尔+LDS+Tu49.867.874.580.523.836.852.359.164.921.1巴塞尔+LCS+Tu60.677.183.087.628.542.556.862.967.922.1巴塞尔+LCDS+Tu 62.2 78.8 84.0 88.3 31.4 46.9 61.0 66.7 71.9 27.24.4评价基线精度。我们在表2和表3中展示了基线结果（见第3.1节）。当在目标集上训练和测试时，可以观察到高准确性。然而，当模型在源集上训练并直接部署在目标集上时，性能会显着下降例如，在Market-1501上训练和测试的基线模型产生了83.8%的rank-1准确率，但在DukeMTMC-reID上训练并在Market-1501上测试时下降到44.6%原因是数据集之间的数据分布偏差领域连通性学习在基线上的有效性。由于方程中的域连通性学习损失函数4包括源标记样本和未标记目标样本，我们首先将源样本的三重损失添加到基线（Basel.+LT）。如表2和表3所示，LT特别地，当使用CUHK 03作为源集并在Market-1501上测试时，“LT”从42.2%增加到46.1%。然后，我们将领域连通性学习注入通过将未标记的靶样品加入到三重丢失中与“Basel.+”比较LT”，当在标记t - 1501上测试时，“B”作为1。+LD-1等于+1。2%和d+2。8%在rank-1中执行分别使用Duke和CUHK03作为源集时的准确度相机不变性学习在基线上的有效性。我们在表2和表3中验证了相机不变性学习在基线上的有效性。很明显，“B和E。+LC“签名可以对所有的数据库进行验证。例如，当在标记-1501上设置“B”时。当使用Duke作为源集时，+LC这比1级准确度的基线当在DukeMTMC-reID上测试时，观察到类似的改善一致的改善表明，相机不变性学习是关键，以提高在目标域的区分能力。异质-同质学习的好处。我们在表2和表3中研究了hetero-homogeeusle arning的益处。我的意思是。+LCDLC）或域连通性学习（巴塞尔+。LD）。对于示例，当标记-1501是较大的集合时，“B”为1。+LCD一个人检索模型的异构和同构13表3. 从CUHK 03到Market-1501和DukeMTMC-reID（Duke）的无监督域自适应的各种方法的比较。方法火车设置CU 公司简介→市场-1501中文简体公爵R-1R-5R-10转轴-20地图R-1R-5R-10转轴-20地图巴塞尔。不83.893.395.697.166.372.384.188.190.953.5巴塞尔。S42.259.166.173.820.324.338.245.051.912.3巴塞尔+ LTS46.163.871.178.122.528.443.449.655.914.8巴塞尔+LDS+Tu48.966.774.679.623.329.244.550.757.515.7巴塞尔+LCS+Tu53.671.077.682.725.640.955.960.966.220.8巴塞尔+LCDS+Tu 56.8 74.7 81.4 86.3 29.8 42.7 57.5 64.2 69.1 23.4表4. 与最先进方法的无监督人员重新识别性能比较。方法杜 ke→ Market-1501M市场-1501→杜克大学R-1R-5R-10地图R-1R-5R-10地图LOMO [23]弓[43]27.235.841.652.449.160.38.014.812.317.121.328.826.634.94.88.3UMDL [28]34.552.659.612.418.531.437.67.3PTGAN [39]38.6-66.1-27.4-50.7-PUL [10]45.560.766.720.530.043.448.516.4SPGAN [7]51.570.176.822.841.156.663.022.3骆驼[42]54.5--26.3----SPGAN+LMP [7]57.775.882.426.746.462.368.026.2[38]第三十八话58.274.881.126.544.359.665.023.0HHL62.278.884.031.446.961.066.727.256. 8%，使用CUHK03作为源代码，与“B”相同。+LD”和D”B作为e1。+LC“b y + 7。9%和d+3。2%，相对较低。在其他设置中观察到相似的arimprvement，表明相机不变性和域连通性对于提高UDA中re-ID模型的可移植性是不可或缺的。4.5与最新方法的我们将我们的方法与最先进的无监督学习方法进行比较。表4呈现了当Market-1501/ Duke是源集合并且Duke/ Market-1501是目标时的比较。我们比较了两个手工制作的特征，即BoW [43]和LOMO [23]，三种无监督方法，包括CAMEL [42]，PUL [10]和UMDL [28]，以及三种无监督域自适应方法，包括PTGAN [39]，SPGAN [7]和TJ-AIDL [38]。这两个手工制作的特征直接应用于目标测试集而无需训练。这两个特征都未能获得竞争性结果。通过在目标集上进行训练，无监督方法比手工制作的特征获得更高的结果。为14Z. Zhong等人表5. 当在CUHK03上训练时，无监督人员重新识别性能与最先进的方法进行比较。方法C公司简介→市场-1501中文简体公爵R-1R-5R-10转轴-20地图R-1R-5R-10转轴-20地图PTGAN [39]31.5-60.2--17.6-38.5--PUL [10]41.957.364.370.518.023.034.039.544.212.0SPGAN [7]42.3---19.0-----HHL56.874.781.486.329.842.757.564.269.123.4例如，CAMEL [42]在使用DukeMTMC-reID作为源集并在Market-1501（多查询设置）上测试时实现了54.4%的rank-1准确度。与无监督域自适应方法相比，该方法具有优越性。特别地，当在Market-1501上测试时，我们的结果高于所有竞争方法，实现了秩-1准确度=62.2%和mAP=31.4%。例如，与最近发表的TJ-AIDL方法[38]相比，我们的结果在rank-1准确性方面高出+4.0%，在mAP方面高出+4.9% 当在DukeMTMC-reID上测试时，我们的方法达到了rank-1准确率=46.9%和mAP=27.2%，也高于以前的方法。因此，本文在Duke→ Market-1501上建立了一个新的技术状态，并在Market-1501→Duke上产生了竞争性结果表5显示了使用CUHK03作为源集的方法的比较。我们的方法优于国家的最先进的方法由一个很大的利润。具体而言，当Market-1501为目标设定时，HHL产生29.8%的mAP这比SPGAN [7]（19.0%）高出+10.8%。5结论在本文中，我们提出了异质同质学习（HHL），一个新的无监督的领域自适应方法的人重新识别（重新ID）。利用UDA方法在人重新ID的背景下的独特挑战，我们建议同时学习相机不变性和域连通性，以获得目标域上的更广义的人嵌入。在Market-1501、DukeMTMC-reID和CUHK 03上进行的实验证实，与现有技术相比，我们的方法实现了非常有竞争力的性能。致谢本工作得到了中国国家自然科学基金（No. 61572409号U1705286编号福建省中医药健康管理协同创新中心、中国乌龙茶产业协同创新中心-福建省协同创新中心（2011）、云计算与大数据融合基金、科教创新基金、数据到决策CRC（D2 D CRC）及合作研究中心项目。仲准感谢李文静的鼓励。一个人检索模型的异构和同构15引用1. 巴扎尼湖Cristani，M.，穆里诺，五：对称驱动的局部特征累积，用于人体表征和重新识别。03 The Dog（2013）2. Ben-David，S.，Blitzer，J.，Crammer，K.，Kulesza，A.，Pereira，F.，Vaughan，J.W.：从不同领域学习的理论。机器学习（2010）3. Bousmalis，K.，Silberman，N. Dohan，D. Erhan，D.，Krishnan，D.：无监督像素级域适应与生成对抗网络。在：CVPR（2017）4. 陈美， Weinberger ， K.Q. ， Blitzer ， J. ：领域适应的联合训练。在：Avancesineuralinformimatonpoces sine ss. pp. 24565. 崔，Y.，Choi，M.，Kim，M.，J.W. Kim，S.，Choo，J.：Stargan：用于多域图像到图像翻译的统一生成对抗网络来源：CVPR（2018）6. Deng，J.，Dong，W.，索赫尔河Li，L.J.，Li，K.，李菲菲：Imagenet：一个大规模的分层图像数据库。在：CVPR（2009）7. 邓小平，郑湖，Kang，G.，杨，Y.，Ye，Q.，Jiao，J.：具有保留的自相似性和域不相似性的图像-图像域适应，用于人的重新识别。来源：CVPR（2018）8. 董X Yan，Y.，欧阳，W. Yang，Y.：用于人脸标志点检测的风格聚合网络。来源：CVPR（2018）9. 董X Yu，S. I.，翁，X.，Wei，S.E.，杨，Y.，Sheikh，Y.：注册监管：一种提高面部标志点检测器精度的无监督方法。来源：CVPR（2018）10. Fan，H.，郑湖，Yang，Y.：无人监管人员重新识别：聚类和微调。arXiv预印本arXiv：1705.10444（2017）11. Ganin ， Y. ， Ustinova ， E. ， Ajakan ， H. ， Germain ， P. ， Larochelle ， H.Laviolette，F.，Marchand，M.，Lempitsky，V.：神经网络的领域对抗训练。JMLR（2016）12. 古德费洛岛Pouget-Abadie，J.Mirza，M.，徐，B.，沃德-法利，D.，Ozair，S.，Courville，A. Bengio，Y.：生成性对抗网。在：NIPS（2014）13. Gray，D.，陶，H.：具有局部特征集合的视点不变行人识别。In：ECCV（2008）14. 他，K.，张，X.，Ren，S.，孙

下载后可阅读完整内容，剩余1页未读，立即下载