没有合适的资源?快使用搜索试试~ 我知道了~
3390基于软化相似性学习的林玉田1人,谢灵犀2人,吴宇3人,4人,严成刚1人,齐天2人。1杭州电子科技大学,2华为公司,3百度研究,4ReLER,悉尼yutianlin477@gmail.com,198808xc@gmail.com,yu.wu-student.uts.edu.au,cgyan@hdu.edu.cn,huawei.com摘要人物再识别(re-ID)是计算机视觉领域的一个重要课题。本文研究了re-ID的无监督设置,它不需要任何标记信息,因此可以自由地部署到新的场景。在这种情况下的研究很少,并且迄今为止最好的方法之一是使用迭代聚类和分类,B一个 C(A BCBC A(BCABA(,)= 0.3使得未标记的图像被聚类到伪类用于训练分类器,并且更新的特征用于聚类等。这种方法存在两个问题,即簇的数目难以确定,以及聚类过程中的硬量化损失。在本文中,我们遵循迭代训练机制,但放弃聚类,因为它会导致硬量化的损失,但其唯一的产品,图像级相似性,可以很容易地被成对计算和软分类任务所取代。有了这些改进,我们的方法变得更加优雅,对超参数的变化更加鲁棒。在两个基于图像和基于视频的数据集上的实验表明,在无监督的re-ID设置下,该算法具有最先进的性能。1. 介绍给定查询图像,人重新识别(re-ID)旨在跨多个非重叠相机匹配人。在过去的几年里,人的重新识别已经引起了越来越多的研究关注[12,45,46,25,24,23],由于其广泛的应用,如寻找感兴趣的人(例如,丢失的孩子或罪犯)和人员跟踪。然而,大多数提出的方法是监督的方式,这需要密集的人工标记,并不适用于现实世界的应用。为了缓解可扩展性的问题,在本文中,我们专注于无监督的re-ID任务。这部作品是第一作者在华为诺亚方舟实验室实习时完成的†齐田为通讯作者。(a)未标记的特征空间(b)基于聚类的方法(c)我们的方法图1. (a)未标记图像在特征空间中表示为灰色圆圈。图像A和B是同一个人的,初始化距离为0.5。图像C来自另一个人。(b)基于聚类的无监督re-ID方法将图像粗略地划分为用于网络训练的类虽然图像A和B具有相同的身份,但是它们被分配有不同的伪标签并且学习分离。(c)我们的方法推动在类似的颜色(类似的图像)的圆更接近的软约束。与利用从其他re-ID数据集学习的先验知识的无监督域自适应(UDA)方法[28,37,41]不同,在本文中,我们的目标是在没有任何re-ID注释的情况下解决问题。方法[4,14,15]的一个分支被证明是有效的,它采用迭代聚类和深度学习机制,其中网络基于无监督聚类生成的伪标签进行训练。然而,基于聚类的方法在训练时对图像进行粗略的如图1(b)所示,同一个人的图像可以被划分为不同的聚类,这些聚类被进一步训练为使用错误的签名伪标签进行分离由于无监督聚类的错误是不可避免的,因此具有硬量化损失的学习可能倾向于拟合聚类产生的噪声标签。在本文中,我们提出了一个新的框架的非监督学习,其中不再需要聚类,从而减轻了硬量化损失的错误。如图1(c)所示,代替使用显式标签B一3391通过聚类产生的未标记图像之间的关系作为一种温和的约束,使相似的图像具有更接近的表示。具体来说,我们的框架采用了一个分类网络与软化标签,软化标签反映图像的相似性。不像原来的独热标签,迫使图像属于一个确切的类,我们把标签作为一个分布,鼓励图像与几个相关的类。对于每个训练数据,网络不仅被训练来预测地面实况类,而且被激励来预测类似的类。然后,学习的嵌入接近于相似的嵌入,并且与不相关的图像有很长的距离。一方面,在不学习硬标签的情况下,消除了硬量化误差另一方面,对软化标签的监管相对较弱,这也为算法提供了更大的空间。 为了充分发挥模型的潜力,我们引入了一些辅助信息来帮助发现相似的图像。具体来说,当测量图像之间的相似性,摄像机ID和每个行人图像的部分细节进行了研究。为了缓解相机方差的问题,我们提出了跨相机鼓励项(CCE),促进软化相似性学习图像下,不同的相机视图。通过这种方式,模型将从更多样化的数据中学习。注意,相机ID是在捕获时自动获得的,并且不需要人工标记。此外,我们提取部分功能,并考虑部分细节与全球外观作为一个额外的线索。我们评估所提出的方法在两个基于图像和两个基于视频的re-ID数据集。实验结果表明,通过软化相似性学习,该方法在迭代过程中具有较好的鲁棒性和稳定性.我们的方法在所有四个数据集上都表现出最先进的无监督方法。该方法具有精度高、不需要任何标注等优点,易于在实际应用中推广。我们的贡献可以概括为两个方面。首先,我们通过软化相似性学习提出了一个无监督的re-ID框架。采用软标签分布重新分配的分类网络,在平滑约束下从相似图像中通过推动每个人的图像更接近相似的图像,并推动所有其他人的图像远离彼此,我们的框架学习了一个强大的和有区别的模型,具有很高的潜力。其次,利用高势模型,引入辅助信息来指导相似性估计。提出了一个跨摄像机激励(CCE)术语,以鼓励不同摄像机视图的图像之间的相似性探索在度量相似性时,还考虑了细粒度的细节这些策略在插入其他无监督的re-ID方法时也被证明是有效的2. 相关作品2.1. 监督人员重新鉴定大多数re-ID方法都是以监督的方式进行的,其中给出了足够的标记图像。最近,随着深度学习方法[36,35,34]的去模糊化,卷积神经网络的方法已经主导了re-ID社区[12,26,45,46,25,16]。具体而言,提出的从行人图像的部分学习区分特征的方法实现了令人印象深刻的性能[24,8,23]。例如,在[24]中,特征图被切割成统一的片段用于分类,并且部分通知的特征被组装为描述符。进一步提出了一个改进的部分池,以加强在每个部分的部分内的一致性。在我们的论文中,我们专注于无标注标签的无监督re-ID我们采取了从局部学习的策略为了利用细粒度的信息,我们直接将全局特征分成水平部分来度量每对对应部分之间的相似性2.2. 无监督域自适应为了缓解监督re-ID的可扩展性问题,提出了一些无监督域自适应方法(UDA)[21,4,28,3,29,1,18],以从标记的源域和未标记的目标域学习re-ID模型。 Wang等人[28]提出从源数据集学习属性-语义和身份判别表示,该表示可转移到目标域。在[37]中,在源数据集上预训练的PatchNet用于生成行人补丁。然后设计一个网络来将相似的补丁拉到一起,并将不同的补丁推到一起。在[41]中,通过将未标记的人与来自源域的一组已知参考人进行比较,为每个未标记的人学习软多标签。Zhong等人 [49]提出了一个框架,包括分类模块和样本存储模块,分别对标记源数据计算交叉熵损失,对目标数据保存最新特征,对未标记目标数据计算不变性学习损失。无监督域自适应方法通常获得令人印象深刻的性能。然而,这些方法利用了外部源域,其用跨相机身份标签注释。相比之下,我们专注于完全无监督的re-ID任务,没有任何外部数据集或身份注释。2.3. 无监督人员再识别传统的无监督方法通常分为三类,设计手工特征[6,5,13,17,20],利用局部显着统计[43,42,27]3392软化网络00(1 −1)/1重新分配目标标签①特征空间相似性估计图像之间的差异软标签分发(1 −1)/1(1 −1)/10.③CNN模型全局距离局部距离交叉摄像机激励项0 0 0 1 0 0寻找可靠的图像……基线的硬标签分布特征提取(重新训练②(一)初始化基线网络图2.我们的方法概述。首先,采用具有硬标签分布的基线网络进行初始化,如红色箭头所示。随后,利用初始化的网络,迭代地进行三个过程:1.提取训练图像的特征嵌入; 2.通过图像间相似度的估计,重新分配目标标签; 3.用软化的标签重新训练网络。这些程序显示在蓝色箭头之后。值得注意的是,红色箭头的程序进行一次,而蓝色箭头的程序迭代进行。或基于字典学习的方法[10,9]。这些方法的性能通常较低,因为它具有很大的挑战性,需要为不同相机在不同照明和观看条件下捕获的图像设计特征。在[40]中,相机信息用于通过联合学习不对称度量和寻求最佳聚类分离来学习每个相机视图的视图特定投影然而,该方法不适用于由多个相机捕获的数据集,因为视图特定投影是从一对相机学习的。最近,Lin等人。 [14]提出了一种自下而上的聚类框架,该框架基于无监督聚类生成的伪标签迭代地训练网络然而,由于聚类误差,图像可能被分配错误的伪标签,然后网络将受到硬量化误差的影响。此外,聚类是基于先前迭代中的聚类结果来应用的,其在迭代期间累积聚类误差。相反,我们提出了一个框架,挖掘的相似性作为一个软约束。通过将每一幅训练图像作为不同的类,并使用软化的标签分布进行训练,避免了量化损失,为算法提供了更大的空间。3. 该方法在本文中,我们专注于无监督的re-ID问题。给定行人图像的训练集,我们的目标是通过探索图像关系而不是使用人类注释来学习人物图像的特征嵌入函数。然后,在评估阶段,对于查询数据和图库数据,我们使用学习的特征嵌入函数将每个图像嵌入特征空间。查询结果是所有测试图像根据特征嵌入之间的欧氏距离的排序列表,查询和测试数据。在无监督的情况下,图像的标签是未知的,因此我们将每幅图像作为不同的类来初始化网络,并逐渐挖掘未标记图像之间的相似性如图2所示,我们的框架组合了三个子组件(以三个彩色矩形显示):(1)采用基线分类网络对每幅图像进行分类。(2)基于特征嵌入和辅助信息挖掘未标记图像之间的相似性,为每个训练数据选择可靠的图像;(3)根据可靠图像软化目标标签分布,并且用软化的标签微调网络,以将所选择的可靠图像拉在一起并排斥其他图像。3.1. 基线:带硬标签的在无监督的人员re-ID设置下,假设我们有一个训练集X ={x1,x2,., 其中每个xi是未标记的人物图像。我们的目标是从X中学习一个特征嵌入函数φ(θ; xi),而不需要任何手动注释,其中φ的参数统称为θ。 由于我们没有每个图像xi的地面真实身份标签,因此最初我们通过其索引分配每个训练数据xi,即,{yi=i|1≤i≤N}。yi是数据x i的初始伪标签。以这种方式,每个训练图像被假设为属于单独的类。在[33,32,14]之后,我们采用具有非参数分类器的分类然后将每个图像的存储特征用作每个类的权重向量。我们使用softmax标准制定分类目标。对于每个图像x,我们将其归一化3393||φ(θ;x)||J我我我我我 我我特征||v||=1 via v=φ(θ;x).然后,图像属于第i类的概率被定义为:exp(Vv/τ)以更平滑的方式学习身份之间的相似性在训练过程中,我们希望网络不仅能将每幅图像预测到地面真值类,而且能将训练图像预测到可靠的类。p(yi|x,V)= 0Nj=1我exp(VTv/τ)、(1)因此,我们将一个非零值重新分配给可靠的目标标签中的类。 的目标标签分布其中V∈RN×nφ是存储每个类的特征的查找表,Vj是V的第j列,表示第j类的特征。N是类的数量,数据xi然后被写为:λ,yj=yi这与训练图像的数量相同。τ是一个温度参数[7],它控制类上概率分布的软度我们设置τ=0。1在t(yj)=0(1−λ)/k,yj∈Yreliable0,否则、(3)[33]第33段。损失函数被公式化为:ΣNL=−lo g(p(yj|xi,V)t(yj),(2)j=1其中t(y,j)是类标签上的条件经验分布对于地面真值类,我们将分布的概率设置为1,对于所有其他类,设置为0。目标Eq。 2最大化每个图像特征Vi与查找表中的每个特征Vjyi之间的余弦距离,同时最小化每个图像特征Vi与对应的质心特征Vj=yi之间的余弦距离。3.2. 软化相似度模型学习初始化的基线网络学习识别每幅未标记的图像,并获得初始的区分能力。由等式1,每个训练样本都被学习以推开其他训练图像。 然而,有图像显示,其中λ是平衡以下效应的超参数:地面真实类和可靠类。当λ是1,Eq. 3简化为基线网络中只有0,1个选项的函数,即模型学习识别每个图像,但无法学习同一个人的图像另一方面,当λ太小时,模型可能无法预测真实标签。与基线网络相比,图像被标记为软标签分布(表示概率)而不是硬0,1标签。标签不再是基础真值类,而是k个可能的可靠类上的概率。通过引入可信类,降低了真实类的可信度,提高了可信类的可信度,从而引导网络顺利学习同一图像间的相似性。等式2和Eq。3,我们将软化交叉熵损失定义为:L= − λ log(p(yi|xi,V)相同的身份,这应该是接近的功能空间强迫同一个人的图像具有明显不同的表示将对网络产生负面受ECN [49,50]的启发,我们建议1−λk−Kj=1lo g(p(yj|xi,V),(四)学习被估计为相同身份的图像的类似表示。为了找到相同身份的图像,我们为每个训练样本选择具有最小相异性的图像。对于两个图像xa和xb,我们将两个图像之间的差异定义为两个图像之间的距离,即,D(xa,xb) =d(xa,xb),其中距离计算为两者之间的欧几里得距离图像特征,即,,d(xa,xb)=<$φ(θ;xa)−φ(θ;xb)<$。然后,对于每个训练图像xi,选择具有最小相异性的k个图像作为可靠图像。 我们定义可靠图像集X reliable={x1,x2,. xk}带标签Yreliable={y1,y2,. yk}。每个元素xj估计为所提出的目标不仅最小化每个图像特征与查找表中的地面真值特征之间的余弦距离,而且最小化每个图像的特征与其可靠图像之间的距离。同时,每个图像特征与其他类别的特征之间的余弦距离最大化。通过软化的分类网络,我们逐渐学习接近可靠图像的特征。可靠类的学习是温和的,试图避免当我们在可靠集中涉及错误图像时的负面影响。另一方面,相对较弱的监督信号使模型更自由,具有更高的潜力。通过这种方式,我们可以利用辅助信息,我我是与xi相同的单位元,并且每个类yj被认为是可靠类。我们提出了一个软化的分类网络,帮助学习更好的模型。在实验中,我们验证了使用辅助信息时,软学习模型的表现优于使用硬标签学习的模型,并将在后面的4.4节中讨论。3394差异评分:2 68 7 8 11图像xa和xb被公式化为: .查找相似图像CCE(xa,xb)=λc,a= b0,ca/ =cb、(6)凸轮:6凸轮:6凸轮:6 凸轮:3无CCE的凸轮:6 凸轮:3 凸轮:6排名与CCE其中λc是控制交叉强度的参数相机促销。利用CCE项,具有相同相机ID的图像之间的不相似性增加。因此图3.交叉摄像机鼓励术语的图示在计算有无CCE的相异度时,选择的可靠图像是不同的.CCE提倡寻找跨相机的地面实况,而不是硬负样本。负像显示为红色。3.3. 基于辅助信息的相似性估计如第3.2节所示,对于每个训练样本,选择具有最小相异度的k个图像是可靠的。为了为约束引入额外的先验,我们还考虑了其他资源来帮助估计相似性。部分相似性探索。为了帮助相似性全球特征之间的测量,我们建议还考虑部件特征(细节)之间的相似性。在[24]之后,我们提取CNN特征图并将其划分为p个水平条纹。然后将每个分区特征平均池化为部分级特征嵌入。我们将对应部分的平均距离作为两幅图像之间的部分距离。两个图像xa和xb之间的部分距离然后被公式化为:ΣCCE有助于将更多的交叉相机图像纳入可靠集中,并减少一些内部相机负图像。整体差异。考虑到部分相似性探索和跨相机激励,图像xa和xb之间的总体相异度D(xa,xb)为然后公式化为:D(xa,xb)=(1−λp)d(xa,xb)+λpdpart(xa,xb)(七)+ CCE(xa,xb),其中λp平衡了全局相似性和局部相似性的贡献。如图2的绿色部分所示,两个图像之间的相异性由全局距离、部分距离和跨相机激励项组成。通过计算全局距离和局部距离,度量了全局外观和局部细节的相似性,保证了可靠图像选择的准确性。通过添加CCE项,来自不同相机的图像往往会被选为可靠的图像,这使得网络能够从不同的图像中学习。这两种方法都有利于训练模型的区分能力。4. 实验p<$φi(θ,xa)−φi(θ,xb)<$dpart(xa,xb)=i=1,(5)p其中φi是第i个部分特征嵌入函数。交叉摄像机的鼓励我们提出了一个跨相机鼓励项(CCE),增加了不同的相机捕获的图像被视为可靠的图像的不相似性。添加CCE的直观性是双重的。首先,与内部相机对相比,不同相机ID的图像对将教导网络学习跨相机信息。因此,该模型在不同的相机视图下预测了一个人的相似特征,这有利于重新识别任务。第二,有许多不同的行人穿着相似的衣服出现在同一个摄像头下。CCE有助于找到跨相机地面真相,而不是这些硬负样本。如图3所示,在没有CCE的情况下,尽管查询和由相机3捕获的图像属于同一个人,但是由于相机间隙,它们的相异性很大(8)即使是一个负的例子(红色的那个)也有一个更小的距离,因为它们来自同一个相机。具体地,我们将训练样本的相机ID表示为C={c1,c2,.,cN}。两个之间的CCE4.1. 数据集和实施详细信息Market1501数据集[45]是一个由6个摄像头捕获的大规模数据集,用于人员重新识别。它包含751个用于训练的身份和750个用于测试的身份。训练集、图库集和查询集分别包含12936幅图像、19732幅图像和3368幅查询图像DukeMTMC-reID数据集[47]是DukeMTMC数据集[22]的子集。它包含由8个摄像机捕获的1812个身份。使用[47]中指定的评估协议,我们获得了2228个查询图像,16522个训练图像和17661个图库图像。MARS数据集[44]是一个大规模的基于视频的数据集,用于人员重新识别。该数据集包含1261个身份的17503个视频轨迹,其中625个身份用于训练,636个身份用于测试。DukeMTMC-VideoReID数据集[31]是从DukeMTMC数据集[22]导出的基于视频的re-ID数据集。它包含2196个用于训练的702个身份的tracklet,2636个用于测试的其他702个身份的tracklet。实作详细数据。我们采用ResNet-50作为CNN骨干,并通过ImageNet [11]预训练模型初始化它,并删除最后一个分类层3395方法设置Market-1501dukemtmc-Reid秩-1秩-5十阶地图秩-1秩-5十阶地图OIM [33]无监督38.058.066.314.024.538.846.011.3欧洲联盟[31]OneEx49.866.472.722.545.259.263.424.5ATNet [18]UDA55.773.274.925.645.159.564.224.9ProLearn [30]OneEx55.872.378.426.248.863.468.428.5SPGAN [3]UDA58.176.082.726.746.962.668.526.4[第28话]UDA58.2--26.544.3--23.0BUC [14]无监督61.071.676.430.640.252.757.421.9HHL [48]UDA62.278.884.031.446.961.066.727.2基线无监督34.454.162.313.216.529.937.37.9我们的(不含部件和CCE)无监督58.770.476.329.831.648.353.417.4我们的(不含零件)无监督68.480.884.135.149.261.365.826.4我们无监督71.783.887.437.852.563.568.928.6表1. 在 两个基于图像的re-ID数据集上与最先进的方法进行比较,即Market-1501数据集和DukeMTMC-reID数据集。在“设置”列中,“UDA”表示无监督域自适应方法。“OneEx” denotes the methods use the one-exampleannotation, in which each person in the dataset is annotated with one labeled方法设置火星DukeMTMC-VideoReID秩-1秩-5十阶地图秩-1秩-5十阶地图OIM [33]无监督33.748.154.813.551.170.576.243.8DGM+IDE [39]OneEx36.854.0-16.842.357.969.333.6逐步[19]OneEx41.255.5-19.656.270.379.246.7种族[38]OneEx43.257.162.124.5----DAL [2]无监督49.365.972.223.0----BUC [14]无监督57.972.375.934.776.288.391.068.3欧洲联盟[31]OneEx62.674.9-42.472.784.1-63.2我们无监督62.877.280.143.676.488.791.069.3表2.在两个基于视频的re-ID数据集MARS和DukeMTMC-VideoReID上与最先进的方法进行比较。在“设置”列中,“OneEx”表示使用单示例注释的方法,其中数据集中的每个人都用一个标记的示例进行注释。“UDA” denotes the unsupervised domainadaptation基线网络的训练历元数对于基于图像的数据集设置为25,对于基于视频的数据集设置为30,批量大小设置为16,丢弃率设置为0.5。将λ设置为0.6。λp和λc被设置为0.5分别为0.02。部件的数量p被设置为8。我们使用动量为0.9的随机梯度下降来优化网络。学习率初始化为0.1,并在15个时期后变为0.01。对于基于视频的数据集,我们将tracklet内所有帧的平均特征作为tracklet特征。我们在PaddlePaddle和PyTorch上实现了我们的方法 在 Market- 1501 和 DukeMTMC-reID 上 , 使 用 GTX1080TI GPU完成训练过程大约需要4小时在火星和DukeMTMC-VideoReID上,大约需要12个小时。4.2. 与最新技术基 于 图 像 的 人 员 重 新 识 别 。 与 Market-1501 和DukeMTMC-reID上最先进算法的比较如表1所示。在Market- 1501上,在相同的设置下,我们获得了比较方法中最好的性能,rank-1 = 71.7%,mAP = 37.8%。与最先进的非监督方法BUC [14]相比,我们获得了10.7分,7.2 1级准确度和mAP的改善点。在DukeMTMC-reID上,与BUC相比,我们的方法在rank-1准确度和mAP上分别提高了12.3和6.7个点。令人印象深刻的性能表明,软化的相似性学习完全找到相同身份的图像,并鼓励在特征空间中收集可靠的图像所提出的CCE有助于跨相机学习判别模型,而部分相似性估计有助于保持准确可靠的图像选择。基于视频的人员重新识别。 在两个基于视频的数据集上与最先进算法的比较如表2所示。在MARS上,我们获得rank-1 = 62.8%,mAP = 43.6%。与BUC [14]相比,我们在1级准确度和mAP方面分别实现了4.9和8.9点的改善。在DukeMTMC-VideoReID上,我们实现了76.4%的rank-1和69.3%的mAP,分别击败了BUC 0.2和1.0分。我们和BUC之间的性能差距相对较小,3396等级-1(%)mAP(%)75 45704065603555305025452040351530 1015913172125(a) 迭代次数等级-1(%)mAP(%)73 4271406938673665346361325930572855 260.1 0.3 0.5 0.7 0.9(b) 参数λ等级-1(%)mAP(%)73 40397138373669 35346733323165 301 2 3 4 5 6 7 8 9 10(c) 参数k等级-1(%)mAP(%)73 40397138373669 35346733323165 300 0.02 0.04 0.06 0.080.1(d) 参数λc等级-1(%)mAP(%)73 3971 3869 3767 3665 3500.20.40.6 0.8 1(e) 参数λp等级-1(%)mAP(%)73 4140713938693767363565 341 2 3 4 5 6 7 8 9 10(f) 部件的数量图4. Market-1501的参数和方法分析。(a)随着迭代的性能。(b)λ对软化分类的影响。(c)可靠图像数量k的影响。(e)λc对CCE的影响。(e)λp对零件距离的影响。(f)零件数量的影响。DukeMTMC-VideoReID。我们推测,BUC的一级准确率为76.2%,这在无监督设置下是相当高的,并且在高性能上更难取得进展请注意,在没有任何注释的情况下,我们仍然在一个示例设置中击败了EUG方法,其中每个人都被注释了一个tracklet作为标记数据。4.3. 诊断性研究耐用性试验。图4(a)示出了每次迭代的re-ID。在整个迭代过程中,rank-1准确率从34.4%不断增加到71.7%,这表明模型稳定增长。在第16次迭代之后,re-ID性能停止增加并且显示出略微下降。请注意,从第10次迭代到第25次迭代,我们的方法始终保持较高的re-ID性能,即rank-1准确度高于69%,这证明了所提出的方法的鲁棒性超参数λ的影响。由方程式3、超参数λ控制软化程度,其平衡了地面实况类别和所选择的可靠类别的影响。当λ为0时,每个训练图像被学习以预测到可靠类。当λ为1时,每个训练图像将被预测到其自己的地面真理课我们在图4(b)中将λ从0.1变化到0.9,并且观察到,当λ从0.1增加到0.6时,re-ID性能继续增加。当λ不断变大时,我们观察到re-ID性能明显下降。可靠图像数量k的影响。 图- 图4(c)示出了re-ID性能如何随着可靠图像的不同数量k而变化。我们观察到,随着k从0增加到4,re-ID性能继续上升,并且当k变大时,性能开始下降原因是当k太小时,一个身份的学习相似性是不够的,这使得模型难以匹配相同身份的图像。当k太大时,可靠集中会涉及错误情况,这在迫使不同人的图像靠近时会损害网络训练。跨相机鼓励术语的影响。 如表1所示,在Market-1501上,我们的结果(w/o部分)在rank-1和mAP上分别击败了我们的结果(w/o部分和CCE)9.7和5.3分。在DukeMTMC-reID上,rank-1 和mAP的改进分别为17.6和9.0。令人印象深刻的改进证明了CCE模块的有效性。没有CCE,来自不同相机的同一身份的图像很难被等级-1等级-1最大平最大平等级-1等级-1最大平最大平等级-1等级-1最大平最大平3397数据集辅助我们Buc秩-1地图秩-1地图Market-1501没有一58.729.861.030.6CCE68.435.165.931.8CCE+部件71.737.869.536.2DukeMTMC没有一31.617.440.221.9CCE49.226.448.324.4CCE+部件52.528.651.525.1表3.与Market-1501和DukeMTMC-reID上的BUC [14]比较。“辅助”列因为相机的差异而被选为可靠的图像。CCE鼓励跨相机图像选择,这使得模型能够从不同的图像中学习,并对相机视图具有鲁棒性。此外,我们基于BUC [14]评估CCE我们观察到,在Market-1501上,使用CCE的改进是4.9等级-1的分数和mAP的1.2分。这进一步表明,CCE是有效的,可以很容易地采用其他无监督的方法,以实现更好的性能。CCE的参数λc我们在图4(d)中评估了λc随着λc从0增加到0.02,Market-1501上的秩1准确率从65.4%增加到71.7%。如果我们将λc设置为大于0.02,则过大的激励项将导致对性能部件相似性的影响。 如表1所示,在Market-1501上 , 我 们 的 结 果 在 1 级 精 度 和 mAP 上 分 别 比 在DukeMTMC-reID上,rank-1和mAP的改进分别为3.3和2.2我们还基于BUC [14]评估我们观察到,在Market-1501上,使用部分相似性的改进对于rank-1为3.6点,对于mAP为4.4点。这表明,描述行人部分之间的外观是有益的相似性估计。这种思想在其他无监督方法上也是有效的,并且可以容易地被采用。参数λp平衡了全局距离和局部距离的影响。我们在图4(e)中评估了参数λp当λp=0时,我们只从硬标签中学习比较了有无辅助信息的模型学习效果.实验结果总结见表1和表3。我们首先观察到,没有辅助信息的两种方法都比基线有所改进。如表1所示,基线和我们(w/o部件和CCE)的秩1分别为34.4%和58.7%大的性能差距证明了软化相似性学习的有效性其次,如表3所示,在没有任何辅助信息的情况下,BUC在两个数据集上都比我们的性能更好。 我们认为 我们的网络是用软化的标签训练的,这避免了将相同身份的图像推开,但它也具有相对较小的强度来迫使不同身份的图像然而,从表3中,我们发现当我们在两种方法中采用CCE或部分相似性时,我们的方法在两个数据集上都超过了BUC。这表明,给定更好的相似性估计,软化的相似性学习具有更高的潜力来学习更好的嵌入。我们怀疑,当使用硬独热标签学习时,模型被迫拟合噪声标签,这限制了它的准确性。相比之下,我们的方法几乎不受不准确的相似性估计的影响,因此有更多的学习和改进的空间。5. 结论在本文中,我们研究的问题,无监督的re-ID。在迭代的人识别和特征更新的流水线之后,我们建议不分配每个样本与硬标签,以避免量化损失,以及提供更多的学习算法的空间为了引入额外的先验约束,我们引入了几个辅助信息,包括一个基于相机的术语,这是很容易获得的,但有用的距离修正。基于图像和基于视频的重新识别任务的实验验证了我们的方法的有效性。这项工作提出了一个观点,分类可能不是最佳的监督,特别是,对于无监督的re-ID。这让我们想起了基于分类和基于度量学习的方法之间的区别,采用全局距离。 随着λp的增加,检索精度提高。一开始就很活泼。当λp=0. 5、我们获得最佳性能。之后,业绩开始下滑。在图4(f)中,我们将部件p的数量从1到10.当p=1时,零件距离与全局距离相同。当p=8时,我们获得最佳精度。4.4. 软相似性学习与硬标记学习研究我们进行实验来检验我们的软化相似性学习方法和BUC的有效性,监督重新识别。它们之间的潜在联系尚未被发现,我们将在未来的研究中进行调查。致谢。本工作得到国家自然科学基金(61931008,61671196 , 61701149 , 61801157 , 61971268 ,61901145,61901150,61972123)、国家自然科学重大基础研究仪器项目61427808 、 浙 江 省 自 然 科 学 基 金 项 目( LR17F030006 、 Q19F010030 ) 、 111 项 目 、 No.D170193398引用[1] Slawomir Bak,Peter Carr,and Jean-Francois Lalonde.通过合成进行主适应,用于无监督的人重新识别。在ECCV,2018。[2] 陈燕北,朱夏天,龚少刚。无监督视频人物再识别的深度关联学习。在BMVC,2018年。[3] Weijian Deng , Liang Zheng , Qixiang Ye , GuoliangKang,Yi Yang,and Jiabin Jiao.图像-图像域自适应与保留的自相似性和域相异度的人重新识别。在CVPR,2018年。[4] 范呵呵,梁铮,严成刚,杨毅。无人监管人员重新识别:聚类和微调。汤姆,2018年。[5] Michela Farenzena、Loris Bazzani、Alessandro Perina、Vitto- rio Murio和Marco Cristani。通过对称驱动的局部特征累积的人再识别。CVPR,2010。[6] 道格拉斯·格雷和海涛。具有局部特征集合的视点不变行人识别ECCV,2008年。[7] Geoffrey Hinton Oriol Vinyals和Jeff Dean。在神经网络中提取知识。在NIPS研讨会,2014年。[8] MahdiMKalayeh 、 EmrahBasaran 、 MuhittinGo¨kmen 、Mustafa E Kamasak和Mubarak Shah。人的语义分析,用于人的重新识别。在CVPR,2018年。[9] Elyor Kodirov,Tao Xiang,Zhenyong Fu,and ShaogangGong。基于无监督l1图学习的人物再识别。在ECCV,2016年。[10] Elyor Kodirov,Tao Xiang,and Shaogang Gong.无监督人员重新识别的迭代拉普拉斯正则化字典学习。在BMVC,2015年。[11] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。NIPS,2012年。[12] Wei Li , Rui Zhao ,Tong Xiao ,and Xiaogang Wang.Deep- reid:深度过滤配对神经网络,用于人物重新识别。CVPR,2014。[13] Shengcai Liao,Yang Hu,Xiangyu Zhu,and Stan Z Li.通过局部最大发生表示和度量学习进行个体再识别。CVPR,2015。[14] 林宇天,董宣义,郑良,严妍,杨毅。一种自底向上的聚类方法,用于无监督的个人重新识别。在AAAI,2019年。[15] Yutian Lin,Yu Wu,Chenggang Yan,Mingliang Xu,and Yi Yang.通过跨相机相似性探索的无监督人重新识别。IEEE TIP,2020。[16] 林玉田,郑良,郑哲东,吴宇,胡智兰,严成刚,杨毅.通过属性和身份学习提高人的再识别。模式识别,2019年。[17] Giuseppe Lisanti,Iacopo Masi,Andrew D Bagdanov,and Alberto Del Bimbo.通过迭代重新加权稀疏排序进行人员重新识别。IEEE TPAMI,2014年。[18] Jiawei Liu,Zheng-Jun Zha,Di Chen,Richang Hong,and Meng Wang.用于跨域人员重新识别的自适应转移网络。在CVPR,2019年。[19] 刘子墨,王东,陆沪川。无监督视频人物再识别的逐步度量提升。InICCV,2017.[20] Tetsu Matsukawa,Takahiro Okabe,Einoshin Suzuki,and Yoichi Sato.用于人物再识别的层次高斯描述子。在CVPR,2016年。[21] Peixi Peng,Tao Xiang, Yaowei Wang ,MassimilianoPon- til,Shaogang Gong,Tiejun Huang,and YonghongTian.用于人员重新识别的无监督跨数据集转移学习。在CVPR,2016年。[22] Ergys Ristani , Francesco Solera , Roger Zou , RitaCucchiara,and Carlo Tomasi.多目标、多相机跟踪的性能测量和数据集。在ECCV,2016年。[23] Yifan Sun,Qin Xu,Yali Li,Chi Zhang,Yikang Li,Shengjin Wang,and Jian Sun. 感知重点在哪里:学习可见性感知的部分级特征以用于部分人重新识别。在CVPR,2019年。[24] 孙一凡、郑良、杨毅、齐天、王胜金。超越零件模型:使用改进的部分池(和强大的卷积基线)的人员检索。在ECCV,2018。[25] Chiat-Pin Tay、Sharmili Roy和Kim-Hui Yap。Aanet:用于人员重新识别的致敬注意网络。在CVPR,2019年。[2
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 平尾装配工作平台运输支撑系统设计与应用
- MAX-MIN Ant System:用MATLAB解决旅行商问题
- Flutter状态管理新秀:sealed_flutter_bloc包整合seal_unions
- Pong²开源游戏:双人对战图形化的经典竞技体验
- jQuery spriteAnimator插件:创建精灵动画的利器
- 广播媒体对象传输方法与设备的技术分析
- MATLAB HDF5数据提取工具:深层结构化数据处理
- 适用于arm64的Valgrind交叉编译包发布
- 基于canvas和Java后端的小程序“飞翔的小鸟”完整示例
- 全面升级STM32F7 Discovery LCD BSP驱动程序
- React Router v4 入门教程与示例代码解析
- 下载OpenCV各版本安装包,全面覆盖2.4至4.5
- 手写笔画分割技术的新突破:智能分割方法与装置
- 基于Koplowitz & Bruckstein算法的MATLAB周长估计方法
- Modbus4j-3.0.3版本免费下载指南
- PoqetPresenter:Sharp Zaurus上的开源OpenOffice演示查看器
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功