基于视点混淆特征学习的人物再识别

100 浏览量更新于2023-10-13 收藏 806KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6639基于视点混淆特征学习的人物再识别刘磊张芳怡重庆大学微电子与通信工程学院重庆市沙坪坝区沙正街174号{FangyiLiu，LeiZhang}@ cqu.edu.cn摘要View1原始空间视图分类器公共视野空间人物重新识别是视频监控中的一项重要任务，其目的是将不同位置和时间的摄像机视图中的人物关联起来。视图可变性一直是一个具有挑战性的问题，严重降低了人的重新识别性能。现有的方法大多集中在如何学习视图不变特征或如何组合视图特征。在本文中，我们主要集中在如何学习视图不变的功能，摆脱了特定的信息，通过视图混淆学习机制。具体来说，我们提出了一个端到端的可训练框架，称为视图混淆特征View2视图3视图4共识转换为普通视图学习（VCFL），用于跨摄像机重新识别人员。据我们所知，VCFL最初被提出来学习视图不变的身份特征，并且它是一种视图通用和视图特定方法的组合，S.分类器和特征中心被用来实现视图混淆。此外，我们通过使用词袋模型来提取筛选引导特征，以帮助监督深度网络的训练并增强特征的视图不变性。在CUHK01、CUHK03和MARKET1501三个基准数据集上的实验结果表明，该方法优于现有方法.1. 介绍人物再识别（Person Re-identification，ReID）在多摄像机长时间跟踪、取证搜索等领域有着广泛的应用。然而，由于不同相机视图之间的非重叠区域的问题，使用外观特征重新识别行人并在时间和空间线索中分析其跨相机的活动变得相当困难。结果从摄像机视角的可变性来看正如图1所示，我们的目标是解决交叉-*通讯作者图1.差异是由视图变化引起的，我们的目标是以实现视图混淆。视图混淆是通过拉近每个视图之间的距离，并期望视图分类器将每个视图识别为公共视图来实现的注意，通过4个视图的平均来获得共同视图。通过视图混淆机制查看问题。为了减轻由视图可变性引起的影响，现有方法主要集中于以监督的方式学习鲁棒和区分性表示[15，21]或鲁棒相似性匹配度量[34，12，21，25]最近，深度学习在端到端网络中学习深度特征和度量方面受到了广泛关注，并在re-id任务中取得了可喜的成果。强大的图像特征应该对光照、图像质量，特别是视点的变化保持不变。许多手工制作的特征类型已被用于重新识别，例如。颜色、纹理、边缘和形状，但识别率不高。虽然深度学习的功能已被证明是强大的Re-ID任务，深表示仍然很容易包装与视图的变化。本文主要研究解决深度神经网络中跨视点变化问题的方法，这些方法通常通过设计视点通用模型或设计具有摄像机视点信息的视点专用视图通用模型旨在学习视图不变特征，而无需获取视图信息（例如，标签），但是，6640可能仍然遭受由照相机视图变化引起的特征失真。这是因为不同的视图对特征提取的影响是不同的，我们不能只用一种模型来提取对所有视图都是不变的特征。视点特定模型的目标是利用摄像机视点信息来帮助跨视点数据自适应和学习视点特定特征，然而，与视点共享特征相比，这些特征通常是有限的，因为它们仅适用于特定的视点。因此，在本文中，我们提出了通过结合视图通用模型和视图特定模型来学习视图不变特征，使得我们的方法可以对相机视图变化引起的特征失真保持不变为了实现视图混淆，我们考虑从三个方面提出我们的方法：基于分类器的混淆、基于特征的混淆和筛选引导的混淆。利用对抗性思想，通过特征提取器和视图分类器的迭代训练，将特征混淆为视图不变的。此外，视图混淆可以通过使具有相同标签的特征靠近特征中心来实现。此外，考虑到手工制作的特征（例如，Sift），我们建议采用尺度不变特征变换（SIFT）[23]来指导深度特征网络的学习。SIFT具有以下优点：首先，它是图像的局部特征描述符，对视点变化具有不变性;第二，它的区别性好，信息量大，适合在海量特征数据库中进行快速、准确的匹配;最后但并非最不重要的是，其可扩展性可以容易地与其它形式的特征向量组合。在深度学习出现之前，有许多基于SIFT特征的方法，主要依赖于词袋（BOW）方法。在本文中，我们更加关注SIFT特征的视图无关性，并提出SIFT引导特征，以更好地提高特征的鲁棒性。本文的主要贡献如下：（1）提出了一种基于视图混淆学习机制的视图不变特征学习方法。(2)在VCFL中，我们集成了SIFT引导策略，以进一步提高深层特征的视图独立性。(3)大量的实验验证了所提出的VCFL优于几个国家的最先进的模型。2. 相关工作2.1. 人员重新识别现有的方法主要从两个方面解决身份重识别问题：（1）学习对光照、姿态、视角变化等具有鲁棒性的鉴别特征。（2）学习相似性度量，用于预测两幅图像是否描述相同的图像人. 识别特征在识别中的重要性是众所周知然而，为了解决不同的挑战，这些方法试图以不同的方式学习鲁棒特征为了解决人体包围盒中人体姿态变化和各种空间分布的问题Zhao等人[37]提出了一种简单而有效的人体部分对准表示，用于处理身体部分未对准问题。Zhang等人[35]提出了一种称为Aligned Re-ID的新方法，该方法提取与局部特征联合学习的全局特征为了充分利用机体结构的优势，赵等。[36]提出了基于人体区域引导的多阶段特征分解和树结构竞争特征融合的主轴网络，其中在CNN框架中考虑人体结构信息以促进特征学习。Li等[16]设计一个多尺度上下文感知网络（MSCAN）来学习整个身体和身体部位的强大功能，它使用注意力方法来学习有意义的身体部位，而不是使用可能不合适的预定义部位。对于学习相似性度量，大多数方法提出将人的re-id问题作为排名问题来解决。Hermans等人[12]建议使用三元组损失的变体来执行端到端深度度量学习，为三元组损失训练提供指导。Chen等人[3]设计一个四重损失，与三重损失相比，这可以导致模型输出具有更大的类间变化和更小的类内变化随着三重态丢失的改善，许多端到端框架可以获得良好的性能。2.2. 交叉视图特征学习对于人脸识别问题来说，学习识别特征是至关重要的，这些特征对于观察变化是鲁棒的。解决交叉视图挑战的方法大致可分为视图通用方法和视图专用方法。例如，Yuet al. [33]忽略了视图信息，并试图找到一个共享的空间，其中视图特定的偏见被减轻。 Feng等人 [8]提出了一种基于深度神经网络的框架，该框架在特征提取阶段利用视图信息来学习具有交叉视图欧几里得约束（CV-EC）和交叉视图中心损失（CV-CL）的每个相机视图的视图特定网络。我们提出的VCFL方法是一种视图通用和视图特定的方法相结合。具体而言，视图混淆机制可以利用视图信息消除视图变化带来的影响，从而使模型对特定视图具有鲁棒性。2.3. 基于Sift的方法在非深度学习时代，传统的人重新识别方法通常使用手工制作的视觉特征描述符（例如，SIFT、HOG等）。然后视觉检索社区有6641三重损失视图混乱特征提取器CNN网络特征图2.拟议的VCFL图示视图分支在RAP数据集[17]中进行了预训练，用于预测视图信息。我们的目标是找到具有不同视图信息的共同视图特征。视图混淆包括基于视图分类器的混淆、基于特征的混淆和基于筛选的混淆，并与特征提取器相结合。整个视图混淆损失包括也有三个部分。对抗训练确保不同视图上的特征分布相似（即，视图分类器不能识别人的视角），从而导致视图无关特征。十多年来，他见证了词袋（BoW）模型的突出地位[26]，在此期间提出了许多算法。基于SIFT的图像分类方法主要依赖于BoVW模型[6]。在本文中，我们利用SIFT特征的视图独立性，在每幅图像中找到视图不变区域，以指导深度模型的学习。2.4. 域适应许多人的重新识别方法试图解决跨视图的问题，使用域自适应方法，因为每个视图可以被视为一个独立的域。Zhong等[43]通过学习相机不变描述子空间来解决交叉视图问题，这是一种相机风格的自适应。Deng等[7]使用域自适应方法来实现图像翻译，同时保持其ID标签中包含的判别线索。领域自适应方法对于解决人员识别领域中的分布差异问题是非常有益的本文的工作[9]启发了我们一种新的方法来解决视图方差，我们可以学习主域上的个人再识别任务的并学习关于视图之间的移位的不变特征具体而言，我们引入了“混淆”的概念事实上，这种观点混淆可以理解为观点不可知论，即从不同的观点来看，一个主题的特征可以是观点不可知的。3. 我们的方法人物重新识别是一项跨摄像机查找同一个人的任务挑战在于，在不同相机下拍摄的同一人的图像可能比在相同相机下拍摄的不同人的图像更不同。目前，大多数方法将re-id看作是一个排序问题，这意味着相同身份的图像之间的距离应该比不同身份的图像之间的距离更近。我们的方法旨在学习功能，是强大的查看变化。与其他模型相比，视图通用模型忽略了视图信息，而视图专用模型仅限于视图。也有许多迁移学习方法试图将其他视图信息放在前面。然而，不难发现，变换矩阵可能不适合于所有视图，例如，用于从后到前的变换矩阵可能不适合于从左到前。同样的问题也存在于视图通用模型中，基于视图分类器的混淆FC FC特征混淆关闭关闭视图混淆12整体观混淆损失视图分类器混淆丢失特征混淆损失筛导损耗噿嚀噿嚀噿嚀噿嚀噿嚀噿嚀噿嚀前权左回来网Mon1 /平方米替代对抗训练数据输入查看分支测试阶段干流1前右前权左回来预训练的CNN网络左回来筛选功能全部配备了所特征回来特征左特征权特征前Softmax损Softmax配备了所6642Fd−D+只通过一个模型学习视图不变特征我们假设这四种视图信息的图像之间一定存在一些共同的部分将所有视图转换为公共视图会更合适，而且公共视图中提取的特征必须是视图不变的。该方法利用领域自适应方法，提出了“视图混淆”的概念t.我们的视图混淆是通过三个部分实现的：基于分类器的混淆、基于特征的混淆和基于筛选的混淆。在本节中，我们将描述基于对抗思想的视图混淆机制、SIFT引导的特征丢失和特征学习网络。3.1. 特征学习特征学习一直是解决人脸识别问题的一个重要环节，它有利于后续的特征匹配。人物再识别任务在某些方面类似于图像检索，许多方法将再识别任务视为排序问题。我们的目标是学习一个网络，该网络将具有相同ID的图像映射到相似的特征，并将具有不同ID的图像映射到不同的特征。为了实现这一点，我们建议像 [12] 那样使用三重态损失。基本架构可以是googlenet [29]或resnet [11]。三重损失是为了提高人内相似度和人间差异度而提出的，它是我们基本网络的主要损失。根据[12]中的硬样本挖掘策略，我们将训练集形成一个三元组的集合，γ=（Ii，Ij，Ik），其中（Ii，Ij）是具有相同身份的正图像对，（Ii，Ik）是具有不同身份的负图像对。然后，三重态损失可以用公式表示：Lf=Ltrip（Ii，Ij，Ik）=[d（h（Ii），h（Ij））在[24]中，在我们的网络中，视图分支仅用于获取视图信息，并且我们不要求预测精度尽可能高。这是因为我们的目标是摆脱这些特定的视图信息的影响，并获得视图不变的3.3.基于分类器的混淆在这一部分中，混淆是通过视图分类器来实现的，我们的目标是视图混淆，这样可以将经验特征分类到一个共同的视图而不是特定的视图。具体而言，拟议的混淆包括两个部分：特征提取器和视图分类器。特征提取器尝试学习对视图变化鲁棒的更好的特征，而视图分类器尝试识别所提取的特征属于哪个视图。更具体地，分类器尝试将特征分类到特定视图（前、右、左、后）中，并且特征提取器尝试学习可以由该分类器分类到公共视图中的更好的特征。从技术上讲，我们可以通过对抗性学习策略实现视图混淆。视图混淆的有效性是基于这样的假设，即当特征不能被分类为任何特定的视图时，它们成为视图不变的。换句话说，特征提取器和视图分类器之间的博弈形成了基于分类器的混淆单元。在训练时，为了获得视图不变特征，我们通过使特征分布尽可能相似来寻找使视图分类器损失最大化的特征映射参数θf，同时寻找使视图分类器损失最小化的视图分类器参数θ d。基于此的想法，我们建议求解ve参数θf和θd的有限元-真实提取器网络和视图分类器以对抗的方式。它可以公式如下：L（θf，θd）=Lf（θf）+Ld（θf，θd）-d（h（Ii），h（Ik））+m]+（一）、θf=argminL（θf，θd）θf（二）其中（Ii，Ij，Ik）∈γ，m是保证负图像对之间的距离大于正图像对之间的距离的裕度，h（I）表示图像I的提取特征表示。3.2.查看信息我们都知道，人的姿势大致可以分为四类：{'front'，'right'，'left'，'back' }.由于该信息取决于相机以及人的身份，因此在本工作的剩余部分中，我们称其为视觉信息（VI）为了学习更好的分类器，我们需要θd=argminL（θf，θd）.θd如图2所示，特征提取器用于学习更鲁棒的特征，而视图分类器用于识别视图信息。我们的目标是通过对抗训练获得更好的功能。我们假设，如果所提取的特征不能被训练的视图分类器/分类器分类到任何特定的视图（或可以被分类到一个共同的视图）基于对抗分类器的混淆被公式化：得到每个图像的准确视图信息然而，手动标记图像的这些视图信息是费时费力的，因此我们提出了一种视图minΣNi=1Li（θf）+λΣNi=1i（θf，θd）（三）”[24]“是的，是的，是的。考虑到视图分支预测视图信息的准确性太重要最小λΣNi=1i（θf，θd），LL6643FD{x}其中Lf是特征学习的损失（例如，三元组损失），Ld是视图分类器的损失（例如，softmax在长期使用手工制作的特点中起着重要作用。如果能更好地利用深层特征，交叉熵损失），而L且Li表示相应的-质量与筛选功能结合时。 SIFT功能可以响应损失函数在第i个训练实例处评估。Ld+监督视图分类器的更新以更好地训练视图分类器，而Ld-通过视图分类器的反馈监督特征学习网络的更新提供局部梯度描述，我们想知道SIFT和深度特征的组合是否可以使特征具有相似的分布，这可能有助于深度特征对视图变化更具鲁棒性。对于数据集中的每个图像xi传播 N是训练样本的数量，λ是i Mi=1，我们提取SIFT特征，然后将它们转化为-在实验中设定为0.5。3.4.基于特征的混淆为了使提取的特征具有更好的视角不变性，我们试图使同一个人的具有不同视角信息的特征尽可能的相似最直接的方法是使用中心损失[31]，它迫使特征靠近相应的特征中心。中心损失旨在通过拉近类内距离同时增加类间距离来学习区分特征。使用BOW模型转换为向量，我们称这些向量为筛弓矢量假设SIFT特征是视图无关的，深度特征越类似于SIFT弓向量，深度特征就越视图无关换句话说，我们使用sift-bow向量作为监督来帮助特征学习，然后我们提出了sift-guided loss：ΣnLsg=<$f（xi）−g（xi）<$2，（6）i=1tances 在[8]中，当其中f（x）和g（x）表示图像x的深度特征和将中心损失应用于RE-ID以进一步改善性能然而，它的目标是使每个样本接近Sift-bow向量，并且n是图像的数量同时看到具体的和整体的中心。我们的方法旨在实现特征方面的视图混淆，这意味着特定的视图中心也应该接近整个中心，中心丢失可以在不增加任何额外计算的情况下实现这一点：公司简介f（xi）3.6.视图混淆Σn=2f（x i）.（七）i=11ΣNLcen=2i=1h（Ii）−h（Cyi）整个模型由特征学习部分组成视图混淆机制，视图混淆机制是通过基于视图分类器的混淆、基于特征的混淆和基于SIFT的混淆相结合来实现的其中h（I）表示视觉特征，Cyi表示身份y的中心（平均特征），如图所示2，N是样本数。我们更新网络参数θ和中心Cyi如下。阿利岑 =h（I）−h（C）h（Ii）i yi混乱.通过这种组合，整个损失函数可以归结为特征学习损失和视图分类器损失。在特征学习中，Lf包含三重丢失、特征混淆丢失和筛选引导丢失，以保持特征对于视图分类器损失，其通过基于softmax的交叉熵损失Ld来实现。在整个损失函数中，Lf和Ld表示为当量（8）整个模型中参数θ的更新为阿利岑 =h（Cyi中文（简体））−h（Ii）（五）与Eq相同。（二）、Lf=λfcLfc+λsgLsg+λtripLtrip，θ=θ−µh（Ii）ΣN Σ4L=−ipΣNΣ我第一章（8）Cy=Cy-α-Cen.D+i=1c =1 yclogc，Ld−=−i=1c=5yclogc.中文（简体）其中yi和pi表示视图信息，并且softmax其中μ和α表示更新net-c c工作和中心分别。3.5.基于混淆的我们假设存在一种视图混淆，可以通过深度特征和手工特征的自适应组合来实现在深度学习因其高准确性而流行之前，Sift特征我我我6644第i个图像的概率。另一种优化方法：受[ 10 ]的启发，我们使用替代优化方法。在视图分类器中，包括具有不同视图信息的两个视图分类器损失不同的观点可以被视为不同的领域。最小化第一视图分类器损失（Ld+）导致更好的域区分，而最小化第二视图分类器损失（Ld-）6645图3.为了验证该方法的视图混淆性能，我们比较了同一个id的不同视图信息的特征图，以显示我们的方法的视图不变性。当域是不同的。θf的随机更新和θd则定义为：梯度下降算法（SGD），而视图分类器采用自适应矩估计算法（ADAM）。具体来说，我们首先训练特征提取器以获得初始特征，然后将其馈送到视图分类器。然后我们固定θf和begin以更新θd。Ld-是giv en公共信息，而Ld+被给予由视图分支预测的特定视图信息。特征学习部分使用在ImageNet上预训练的GoogleNet模型进行初始化。在每次迭代中，我们对300个图像的小批量进行采样，例如，Market-1501和CUHK 03上平均有30个身份，每个身份包含然后，我们使用python模型为每个小批量中的每个图像获取sift-bow向量特征学习的目标是从生成器中获取更多的身份特征，为此我们在生成器中提出了多种有监督的身份鉴别信息，包括三重丢失、中心丢失和筛选引导丢失。对于特征提取器，我们采用初始学习率，µ0= 0.001，每20K除以10θf←θf-µ（Li F+θfLi我d−）θf（九）迭代权重衰减为0.0002，梯度更新的动量为0.9。对于视图分类器，梯度更新的动量为0.9，更新策略为θ d <$θ d− µ（d+）。θd3.7.实现细节如下所示µ=µ0，（10）p（1 +αp）β网络架构：网络架构可以是 googlenet或resnet 。googlenet 的实现就像在 [37] 中一样，我们使用GoogleNet第一版的子网络[29]。它具体而言，人物图像框的大小调整为160× 80，输入，因此输出特征图的大小为10× 5，512个频道。然而，不是使用部分提取网-工作中，我们使用全局平均池来获得512个通道的最终特征。在[12]中，我们使用resnet [11]来实现resnet。它具体地说，图像输入为384 ×128。网络培训：谷歌网络是在Caffe上实现的[13]。对于视图混淆部分，为了训练一个具有视图信息的模型，我们首先微调RAP数据集上的视图预测器分支[17]。接下来，我们使用视图单元来预测目标数据集的视图信息。具体来说，在RAP数据集上训练的模型用于微调用于识别视图信息的模型。与GAN [10]类似，对抗性特征学习的训练方法是交替训练特征提取器和视图分类器。然而，我们不需要输入噪声变量，因为我们的目标是生成更具鉴别力的特征，而不是合成图像。特征提取器的训练使用随机其中，p在0到1之间线性变化，µ0= 0.01，α= 10β= 0.75。ResNet网络在Pytorch上实现。初始参数和训练策略如下[12]。对于基本网络，我们使用ResNet-50架构，权重由He等人提供。[11 ]第10段。初始学习率为0.0003，我们在前151个epoch中固定学习，然后按照指数衰减的训练时间表衰减。对于视图分类器，初始学习率为0.001。梯度更新的动量为0.9，更新策略相同。特征提取器和视图分类器的参数交替更新，增加了训练的难度。4. 实验4.1. 数据集和评价方案数据集：Market 1, 501 [38]包含了1,501个标记人物的32,668张图像。训练集有751个身份，测试集有750个身份。在对这个拟议数据集的最初研究中，作者还使用mAP作为评价标准对算法进行了测试。香港中文大学03 [19]包含13，164张图片1,360个身份它提供了从可变形零件模型（DPM）和手动标签检测到的边界框。CUHK01 [18]包含971个身份，这些身份是从与CUHK03相同的校园内的两个摄像机视图每个人都有两个图像，每个图像来自一个相机视图。我们报告设置结果：100个身份进行测试L6646查询图库中的前10名图4.市场1501上检索结果的图示。绿色矩形表示真阳性，红色虚线矩形表示阴性阳性。对于每个样本，第一行和第二行分别显示基线网络表示和我们的方法表示的结果。评价指标：我们采用广泛使用的评价方案[19，1]。在匹配过程中，我们计算每个查询与所有图库图像之间的相似度，然后根据相似度返回排名列表。所有的实验都是在单一查询设置下进行的。通过使用累积匹配特征（CMC）曲线，这是一个估计的期望，找到正确的匹配在前n个匹配的性能进行评估。我们还报告了CUHK03 和Market1501的平均精确度（mAP ）评分[38]。4.2. 与现有技术方法的比较上述实验表明了我们提出的模型的性能。为了验证我们的方法的优越性，我们比较了两个流行的ReID数据集上的最先进的方法。我们采用了文[41]提出的新的训练/测试协议，该协议具有767个训练标识和700个cuhk03（检测）和maket1501的结果分别见表1和表2从结果中，我们清楚地观察到所提出的方法的有效性和优越性。虽然我们的方法在当前的re-id领域中的准确性并不高，但我们的模型旨在为解决re-id问题提供新的方法，因此它可以与许多其他方法相结合，以进一步提高性能，例如[28]。4.3. 对拟议模型我们的实验进行了googlenet和resnet验证我们的方法的性能。给出了GoogleNet在3个基准数据集上的实验结果表1.CUHK03（D）与其它方法的比较方法top1地图[第38话]6.366.39LOMO[20]12.811.5[41]第四十一话31.128.2Resnet50+XQDA+重新排名[41]34.737.4SVDNet[27]41.537.3多尺度[4]40.737.0[42]第四十二话55.550.7[42]第四十二话48.743.5PCB（UP）[28]61.354.2多氯联苯（RPP）[28]63.757.5基线58.3653.71VCFL（Ours）61.4355.61VCFL（Ours）+re-rank[41]70.3670.44表2.与Market1501上其他方法的比较方法top1地图[第38话]34.414.09个人网[32]37.2118.57[第14话]45.16-SCSP[2]51.926.35DNS[34]61.0235.68（30）65.8839.5[44]第四十四话70.7244.27CCAFA[5]71.845.5[22]第二十二话73.8447.11主轴网[36]76.9-重新排序[41]77.1163.63GAN[39]78.0656.23DLPAR[37]81.063.4[40]第四十话82.863.4多尺度[4]88.973.1PCB（UP）[28]92.377.4多氯联苯（RPP）[28]93.881.6基线86.5870.91VCFL（Ours）89.2574.48VCFL（Ours）+re-rank[41]90.9186.67表3所我们假设摄像机视图信息的变化会引起很大的变化。所提出的视图混淆方法可以与现有的方法相结合，进一步改进.三个数据集中的训练和测试协议与[37]相同。在表3中，我们分析了我们的方法的性能和有/没有筛选指南的性能。在market1501上进行resnet的实验结果如表4所示。market1501的培训和测试方案与[35]相同在表4中，我们分析了我们的方法的性能和视图混淆的各个部分的影响，整个视图混淆是通过调整每个部分的权重来实现的6647表3.我们的方法与GoogleLenet的性能香港中文大学01 -100top1top5Top10地图基线无筛整方法82.388.186.294.696.194.996.497.297.2---Cuhk03（检出）top1top5Top10地图基线71.789.293.180.2未经筛选73.2991.3695.9381.51整个方法76.0793.0796.7883.70Market1501top1top5Top10地图基线75.989.092.255.6未经筛选76.4589.9092.9956.43整个方法78.9290.9493.9758.60表4.与ResNet混淆的影响视图分类器和特征提取器在我们的训练阶段非常重要，这意味着这种混淆对最终性能有它为解决跨视图问题提供了一种新的方法，但要想对最终的性能产生积极的影响，还需要对视图分类器和提取器进行更好的训练。基于特征的混淆的影响：特征混淆损失的有效性并不难以承认，它通过将不同视图的特征拉近而大大提高了性能。在训练阶段，混淆损失约为三重态损失的104倍，因此我们只需设置λfc= 10−4即可使整个损失很好地收敛。与[8]相同，后者的目标是确定所有的视图，它可能会受到视图信息预测精度的影响，特别是当视图增加很多时。基于SIFT的混淆的影响：也许它在应用于深层特征时是有意义的，但它也为我们提供了增强深层特征的方法。在我看来，SIFT特征具有良好的局部性，这种指导可以帮助深度特征与精心设计的特征具有相同的分布，从而增强特征的质量，我们设置λ sg = 0。1.一、基线：基线净损失仅为三重损失。GoogleNet：类似于[37]，框架主要基于GoogleNet的一部分。但是，我们不使用部分提取单元，而是使用部分GoogleNet。ResNet：与[11]类似，主框架基于resnet50，它视图混淆：GoogleLenet：我们实证研究视图混淆如何影响Re-ID性能。我们在CUHK01上进行了一个实验，比较了同一个人不同视角信息的特征图，如图所示。3 .第三章。结果表明，视图混淆可以减小视图变化引起的变化，保持图像的区分度;视图混淆后，具有相同视图信息的特征图有可能我们对所提出的VCFL的性能进行了分析，并进一步验证了SIFT导引损耗的影响，因为它是我们方法中一个值得探索的部分。结果表明，在cuhk03和market1501中，使用sift引导损失的准确性增加，这可能为我们提供了一种方法，将手工特征和深度特征相结合，以帮助深度特征具有一些手工特征的良好质量。ResNet：我们研究了Market1501中视图混淆的各个部分的影响如表4所示，混淆的每个部分都对证明性能有贡献。基于视图分类器的混淆的影响：与GAN [10]类似，该网络的训练不够稳定，我们在与其他两部分结合时将权重调整得较小。对抗性学习整个观点混乱：视图混淆的每一部分对最终模型的贡献不同，在将它们组合在一起时，应仔细选择每一部分的权重。在这一部分中，我们还在图4中报告了我们的重试过程和排名结果，它清楚地表明我们的方法对性能有很好的影响。5. 结论本文旨在解决Re-ID中的视角变化问题，防止Re-ID系统由于摄像机视角和人体姿态的大幅度变化而导致性能急剧下降。为了提高性能，以及解决视图变化的问题，我们提出了一个筛选指导的视图混淆对抗框架的特征学习。我们的VCFL是从三个方面实现的：1）特征提取器和视图分类器之间的对抗学习; 2）将具有相同标签的特征提取到其对应的中心附近; 3）利用SIFT的视图无关性，将手工特征和深度特征结合起来。因此，可以学习视图不变的身份特征在我们未来的工作中，我们确认本课题得到了国家自然科学基金（61771079）、重庆市青年人才计划和重庆市基础研究基金（2005年第101号）的资助。cstc2018jcyjAX0250）。Market1501top1top5Top10地图基线86.5895.1096.6770.91分类器混淆85.1894.2796.3269.04特征混淆87.8095.1396.7973.21基于筛选的混淆88.5795.6497.2474.30视图混淆89.2595.6197.1874.486648引用[1] 艾贾兹·艾哈迈德迈克尔·琼斯和蒂姆K. 标记. 一种改进的用于人员重新识别的深度学习架构。CVPR，2015。7[2] Dapeng Chen，Zejian Yuan，Badong Chen，and NanningZheng.具有空间约束的相似性学习，用于个人重新识别。在CVPR，第1268-1277页，2016年。7[3] Weihua Chen ， Xiaotang Chen ， Jianguo Zhang ， andKaiqi Huang.除了三重态损失：一个深度的四元组网络用于人的重新识别。在CVPR，2017年。2[4] 陈燕北，朱夏天，龚少刚。通过深度学习多尺度表示进行人员重新识别在ICCV，第2590-2600页，2017年。7[5] 陈颖聪，朱夏田，郑伟世，赖建煌。通过相机相关性感知特征增强的人重新识别。IEEE TPAMI，40（2）：392-408，2018。7[6] Gabriella Csurka，Christopher Dance，Lixin Fan，JuttaWillamowski和C Bray。使用关键点包进行视觉分类在ECCV W，第1卷，第1-2页中。布拉格，2004年。3[7] Weijian Deng ， Liang Zheng ， Qixiang Ye ， GuoliangKang，Yi Yang，and Jiabin Jiao.具有保留的自相似性和域不相似性的图像-图像域自适应用于人重新识别。在CVPR，2018年。3[8] Zhanxiang Feng，Jianhuang Lai，and Xiaohua Xie.学习特定于视角的深度网络，用于人员重新识别。IEEE TIP，2018。二、五、八[9] Yaroslav Ganin和Victor S. Lempitsky通过反向传播的无监督主适应。ICML，2015。3[10] Ian Goodfellow 、 Jean Pouget-Abadie 、 Mehdi Mirza 、Bing X-u 、 David Warde-Farley 、 Sherjil Ozair 、 AaronCourville和Yoshua Bengio。生成性对抗网。NIPS，第2672-2680页2014. 五六八[11] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。CVPR，第770-778页，2016年。四、六、八[12] A. 赫尔曼斯湖Beyer和B.Leibe 为三胞胎的丢失辩护arXiv，2017. 一、二、四、六[13] 杨青贾，埃文谢尔哈默，杰夫多纳休，谢尔盖卡拉耶夫，乔纳森龙，罗斯Girshick，塞尔吉奥瓜达拉马，和特雷弗达雷尔。Caffe：用于快速特征嵌入的卷积架构。在ACM MM中，第675ACM，2014年。6[14] 我是何塞和弗朗索瓦·弗勒雷。通过加权近似秩分量分析的可扩展度量学习见ECCV，第875-890页。施普林格，2016年。7[15] M. Kostinger，M.作者：Hirzer，P. M. Roth和H.比肖夫等价约束下的大规模度量学习。CVPR，2012。1[16] Dangwei Li，Xiaotang Chen，Zhang Zhang，and KaiqiHuang. 在身体和潜在部位上学习深度上下文感知特征，在CVPR，2017年。2[17] Dangwei Li ， Zhang Zhang ， Xiaotang Chen ， HaibinLing，and Kaiqi Huang.一个用于行人属性识别的丰富注释数据集。arXiv，Apr 2016. 三、六[18] Wei Li，Rui Zhao，and Xiaogang Wang.用转移度量学习进行人类再识别在ACCV，第31Springer，2012. 6[19] Wei Li ， Rui Zhao ， Tong Xiao ， and Xiaogang Wang.Deep- reid：深度过滤配对神经网络，用于人物重新识别。CVPR，2014。六、七[20] Shengcai Liao，Yang Hu，Xiangyu Zhu，and Stan Z Li.通过局部最大发生表示和度量学习进行个体再识别。CVPR，2015。7[21] Shengcai Liao and Stan Z Li.有效的psd约束非对称度量学习用于人员重新识别。在ICCV，2015年。1[22] 纪琳，任亮亮，陆继文，冯建江，周杰。一致感知深度学习用于相机网络中的人员重新识别。在CVPR，2017年。7[23] David G.洛从尺度不变关键点中提取独特的图像特征。IJCV，60（2）：91-110，Nov 2004. 2[24] M. Saquib Sarfraz，Arne Schumann，Andreas Eberle，and Rainer Stiefelhagen.一种姿态敏感的嵌入，用于扩展交叉邻域重新排序的个人重新识别。在CVPR，2018年。4[25] Yang Shen，Weiyao Lin，Junchi Yan，Mingliang Xu，Jianxin Wu，and Jingdong Wang.用对应结构学习进行人的再认同。在ICCV，2015年。1[26] 约瑟夫·西维克和安德鲁·齐瑟曼。视频google：一种用于视频对象匹配的文本检索方法。在ICCV。IEEE，2003年。3[27] Yifan Sun，Liang Zheng，Weijian Deng，and ShengjinWang.用于行人检索的Svdnet。在ICCV，第3800-3808页，2017年。7[28] 孙一凡、郑良、杨毅、齐天、王胜金。超越零件模型：使用改进的部分池（和强大的卷积基线）的人员检索。参见ECCV，第480-496页7[29] Christian Szegedy ， Wei Liu ， Yangqing Jia ， PierreSermanet ， Scott Reed ， Dragomir Anguelov ， DumitruErhan，Rumen-t Vanhoucke，and Andrew Rabinovich.更深的回旋。CVPR，2015。四、六[30] Rahul Rama Varior，Mrinal Haloi和Gang Wang。用于人类重新识别的门控连体卷积神经网络架构见ECCV，第791-808页。施普林格，2016年。7[31] Yandong Wen ， Kaipeng Zhang ， Zhifeng Li ， and YuQiao.一种用于深度人脸识别的判别式特征学习方法见《欧洲法院判例汇编》，第499-515页。施普林格，2016年。5[32] Lin Wu，Chunhua Shen，and Anton van den Hengel.人员-网络：使用深度卷积神经网络进行人员重新识别。arXiv，2016. 7[33] Hong-Xing Yu，Ancong Wu，and Wei-Shi Zheng.用于无监督人重新识别的跨视图不对称度量学习arXiv，2017.2[34] 李章，陶翔，龚少刚。学习用于人的重新识别的判别零空间在CVPR，2016年。1、7[35] 宣章、郝罗星、范蔚来、向一笑、孙齐齐笑、魏江、池章、孙建。对齐- dreid：超越人类水平的表现在人的重新识别。arXiv，2017. 二、七6649[36] Haiyu

下载后可阅读完整内容，剩余1页未读，立即下载