没有合适的资源?快使用搜索试试~ 我知道了~
基于单尺度全局表示的遮挡人再识别
11875†基于单尺度全局表示的遮挡人再识别程亚1*、关松潘g2††、焦季乐3小白1†、冯雪涛3、沈春华41北京航空航天大学2阿德莱德大学3阿里巴巴集团4莫纳什大学摘要被遮挡人重新识别(ReID)旨在从跨多个相机拍摄的被遮挡或整体图像重新识别被遮挡行人。当前最先进的(SOTA)遮挡ReID模型依赖于一些辅助模块,包括姿态估计、特征金字塔和图形匹配模块,以学习多尺度和/或部分级特征来应对遮挡挑战。不幸的是,这导致复杂的ReID模型,其(i)不能推广到具有不同外观、形状或大小的具有挑战性的遮挡,以及(ii)在处理未被遮挡的行人时变得无效。然而,现实世界的ReID应用通常具有高度多样化的遮挡,并且涉及被遮挡行人和未被遮挡行人的混合输入图像培训测试为了解决这两个问题,我们引入了一种新的ReID模型,该模型通过在基于遮挡的增强数据上强制执行一种新的指数敏感但有界的距离损失来学习有区别的单尺度全局级行人特征。我们第一次表明,在不使用这些辅助模块的情况下学习单尺度全局特征此外,我们的简单模型可以在遮挡和非遮挡ReID中实现新的SOTA性能,如在三个遮挡和两个一般ReID基准上的广泛结果所示。此外,我们创建了一个大规模的遮挡人ReID数据集,在不同的场景中具有各种遮挡,它比现有的遮挡ReID数据集更大,包含更多样化的遮挡和数据集可在以下网址获得:https://git. io/OPReID1. 介绍人物再识别(ReID)的目的是从不同摄像机拍摄的行人图像库中搜索同一个人,这是计算机视觉中的一个关键任务*CY和GP同样为这项工作做出了贡献。 CY和XB是北京航空航天大学江西研究院软件开发环境国家重点实验室的成员.XB 和 GP 是 相 应 的 作 者 , 电 子 邮 件 : 网 址 :baixiao@buaa.edu.cn,pangguansong@gmail.com图1-三种闭塞ReID入路的概述。现有方法(A B)依赖于辅助模块,诸如姿态估计和特征金字塔,来学习被遮挡ReID的多尺度或部分级特征,而我们提出的方法(C)可以用显著简化的模型来解决问题,该模型学习具有单个主干的单尺度全局特征。由于其在多摄像机跟踪、视频监视和法医搜索中的广泛应用大多数现有的ReID方法[7,16,32,36,43]通常假设人的整个身体是可见的。然而,在实际应用中,许多行人图像可能被诸如汽车、树木和人群的各种障碍物遮挡。对于一般ReID方法来说,学习这些被遮挡图像的有效表示是具有挑战性的[6,15,26,34,37,39],导致被遮挡ReID的性能无效[22,47]。已经提出了许多遮挡ReID方法[8,12,14,22,33]来解决这个问题。目前的技术状态可以大致分为两类,基于关键点的方法和特征金字塔匹配方法。如图1(A)所示,基于关键点的方法[8,22,33]通常利用姿态估计模型来获得一些额外的语义信息,例如用于训练或推断阶段中的身份匹配的关键点热图/图形。这些部件级特征或图形匹配策略有助于克服遮挡问题。然而,ReID性能在很大程度上依赖于姿态估计模型的性能。此外,这些姿势-姿态估计图形/全局特征骨干图形/特征匹配一特征金字塔骨干特征金字塔匹配B全局特征 全局特征全局特征主干匹配C11876估计模型也可能遭受闭塞[4,28]。如图1(B)所示,另一种类型的遮挡ReID方法[12,14]是在训练期间使用单个骨干网络建立在特征金字塔匹配框架上的在推理阶段,他们从查询和图库图像中提取多尺度特征进行人员匹配。这种特征金字塔匹配策略对于仅查询图像包含被遮挡的身体部位并且图库图像是整体的容易遮挡的情况很好地工作,但是它不能处理查询和图库都包含被遮挡图像的情况此外,在没有关键点模型支持的情况下,特征金字塔匹配策略会受到遮挡障碍物的强烈影响。例如,当查询图像包含与图库中的人图像相似的汽车障碍物时,如图1(B)所示,由于遮挡对象的相似性而不是人的外观,这些模型将错误地产生高匹配分数。另外,两种类型的方法中的这些辅助模块然而,现实世界的ReID应用通常具有高度多样化的遮挡,并且涉及被遮挡和未被遮挡的行人的混合在这项工作中,我们提出了一种新的ReID模型,学习歧视性的单尺度的全球级行人表示,这样的现实世界的ReID应用。虽然它是一个很大程度上简化的模型,不需要辅助模型,它可以很好地推广到不同的occlusions和执行有效地处理闭塞和整体行人。特别地,我们的方法利用基于遮挡的数据增强和指数敏感但有界的距离损失来学习来自非遮挡身体部位的细粒度在这样做时,我们的模型以端到端的方式使用单个骨干网络(例如,Resnet-50),如图1(C)所示。该网络通过解纠缠非局部(DNL)操作和我们提出的重构池层来增强,以更好地学习非遮挡特征。在推理过程中,它只使用来自最终特征层的单尺度全局特征表示,而不是像当前模型中那样使用多尺度或多个部件级特征进行人员匹配。此外,对于遮挡ReID任务,存在有限的公开可用的数据集基准。现有相关数据集,包括P-iLIDS [12]、P-ReID [42]、O-ReID[47] 和O-Duke [22],是小的,并且具有太单调的遮挡,以表示现实世界应用中的问题复杂性。更糟糕的是,这些单调的遮挡可能会误导ReID模型的设计和评估。例如,在最大的数据集O-Duke中,查询图像集中的大多数人被同一辆汽车遮挡表1-在闭塞ReID方法中使用的模块和特征。模块包括单骨干(S-B),姿态估计(P-E),特征金字塔匹配(FP-M)和图形匹配(G-M)。特征包括多尺度特征(MS-F)、部分级特征(Part-F)和全局级特征(Global-F)。模块特征方法S-BP-EFP-MG-MMS-FF部分Global-FDSR [12]CCCCCFPR [14]PCFA [22]CCCCCCCCCPVPM [8]CCCCCHOReID [33]CCCCC我们CC在相同的身体部位,如腿和脚(见图4),这可能导致ReID模型可以基于从遮挡对象提取的特征而不是人的外观来实现为了解决这些问题,我们创建了一个大规模的遮挡ReID数据集,具有高度多样化的遮挡(例如:推车、标牌、货架等)在超市和购物中心内外的不同场景中的不同身体部位(见第4节和补充材料)。它包括7,918个身份,所有季节由此产生的数据比现有最大的遮挡ReID数据集O-Duke更可靠,更大,数据集经过精心准备,以避免隐私问题。综上所述,我们的主要贡献如下。• 我们提出通过使用单个网络主干学习单尺度全局特征表示来解决被遮挡人ReID,这与学习多尺度和/或部分级特征的当前最先进的模型形成对比,其性能严重依赖于一个或多个辅助模块,如表1中所总结的。为此,我们引入了一种新的ReID模型,该模型最大限度地减少了基于遮挡的增强数据上的指数敏感但有界的距离损失,以学习这种全局特征。通过这个模型,我们首次展示了学习单尺度全局特征优于遮挡ReID的多尺度或部分级别特征(例如,最高1精度和平均精度的相对提高高达17%-19%),为探索简单有效的ReID模型提供了重要的启示。• 我们进一步表明,我们的模型可以在遮挡和非遮挡ReID中实现新的SOTA性能,如三个遮挡和两个一般ReID数据集上的广泛结果所这对于通常涉及被遮挡和整体行人的混合的真实世界ReID应用• 我们引入大规模遮挡人ReID11877×›→--联系 我们∈联系 我们∈在不同场景中具有室内和室外遮挡的ReID数据集,其比现有的遮挡ReID数据集明显更大并且包含实质上更多样化的遮挡和行人装扮,从而提供更忠实的遮挡ReID基准。2. 相关工作大多数现有的人ReID方法[7,15,16,26,32,34,36,37,38,39]。36,37,39,43]集中于学习全局或局部特征,其中隐含地假设行人很好地存在于图像中。这些方法对于具有整体外观的人实现了良好的性能,但是它们对于被遮挡的人不能很好地工作,因为所提取的特征被遮挡误导和/或偏置为了解决这个问题,已经针对遮挡ReID引入了许多方法。这些方法可以大致分为两组,包括基于关键点的方法和基于特征金字塔/多特征匹配的方法。基于关键点的方法[8,22,33]的动机是用于一般ReID任务的掩模姿势引导或掩模引导方法[20,23,40]的成功,但它们被专门设计用于处理被遮挡的ReID问题。虽然这些方法显示出有效的遮挡ReID性能,但是它们严重依赖于辅助姿态估计模型的性能最近的一些封闭ReID方法[8,33]表明,在训练或/和推理阶段添加额外的复杂图匹配模块可以帮助进一步提高性能。基于特征金字塔匹配的方法[4,11,28,30]不依赖于辅助模型来获得额外的语义信息。这里的关键成分是多特征学习以及遮挡图像和完整图像之间的匹配。在[12,14]中,首先提取多尺度特征以形成特征金字塔。然后使用来自整体图像的特征金字塔来重建被遮挡图像的特征金字塔以实现最大匹配。这些方法通常可以很好地用于遮挡-整体图像匹配,但是它们不能处理遮挡-遮挡图像匹配,特别是在查询集和图库集中的遮挡不同的情况3. 所提出的方法3.1. 概述给定一组训练图像X=x1,,xN以及标识/类集合Y=y1,...,yN,我们的方法是使用一个单个网络主干来学习单尺度全局特征映射函数φ:X Y Z。φ将数据X投影到新的特征空间Z上,使得每个人的图像的距离较小,而不同人之间给定查询图像q,系统首先计算φ(q)与来自图库的每个图像φ(gi)之间的距离图像集G=g1,…,gM,然后返回与查询图像具有最小距离的图像。通常假设图库集合G和训练集合X中的身份没有重叠。为此,我们引入了一种基于遮挡的数据增强方法和一个指数敏感但有界的距离损失函数来学习非遮挡身体部位的判别性全局表示。特别地,如图2所示,首先通过我们的名为复合批量擦除(CBE)的数据增强方法来增强输入图像,目的是增强数据以及在输入图像中创建合成遮挡,然后将其馈送到神经网络中。利用解纠缠非局部操作(DNL)在骨干网中定义新的重构池化层,以保证网络关注人而不是遮挡。之后,通过最小化我们提出的有界指数距离(BED)损失来优化特征表示,以趋向于人的有区别的非遮挡部分在推断期间,仅全局池化之后的单个全局表示用于每个查询的身份匹配。此外,我们发现在现实世界的ReID应用程序中存在长尾问题。我们通过经验证明,不良动量效应消除技术[31]可以用来缓解这个问题。3.2. 非遮挡特征学习我们的模型学习细粒度的歧视性功能,从非闭塞的身体部位,通过执行建议的BED损失的闭塞为基础的增强数据。一个分解的非本地(DNL)操作是利用设计一个新的重建池层在我们的骨干,以进一步提高特征学习。基于遮挡的数据增强。我们提出了复合批量擦除增强方法来模拟遮挡,其中包括广泛使用的随机擦除(RE)[45]和我们提出的批量常数擦除(BcE)。这两个擦除操作被分别应用于同一批原始行人图像,从而产生具有被擦除的不同图像块的两个增强图像批。它们的组合有助于产生在不同大小的不同身体部位处具有遮挡的图像。这两个图像批次被组合为一个大批次以馈送到模型。为了实现这一点,我们首先对一批图像XRB×3×H×W进行采样,然后复制子批次并将两个子批次连接以形成全批次Xfull=[Xre;Xbce]R2B×3×H×W,其中RE和BcE然后分别应用于Xre和Xbce。这为学习具有不同大小的不同空白遮挡的身份的特征提供了大规模数据。对于BcE,我们擦除图像的条带部分,并且擦除的部分被固定并应用于同一子批次Xbce中的所有图像。每个子批次的擦除部分是随机的11878儿儿儿儿儿儿儿联系我们Σ∈×∈∈∈Tk图2 -所提出的方法的概述。复合批次擦除操作首先被应用于两个子批次的输入图像-Xre和Xbce,这两个子批次由相同的图像组成,但是分别具有RE和BcE擦除操作。将这两个亚批样品进料至具有DNL嵌段的Resnet骨架中。在网络的末端,通过两个池化层(建议的重构池化和全局池化)获得两个特征表示对于训练,将所提出的BED损失与身份损失一起应用于这两个特征以学习判别性全局级特征。我们还维护了一个不断更新的平均特征向量,以捕获训练数据中可能偏向大类的动量。在推断期间,单尺度全局池化特征(减去均值特征以减轻长尾问题)用于人ReID。选择如下。我们首先在空间上将图像划分为s个水平部分,其中s6,7,8是随机值,然后随机选择一个部分,并每隔Xbce擦除所有图像的相同部分。这是一个与[45]相同的问题。启用DNL的骨干和重建池。先前的研究[8,12,22]表明,没有局部特征匹配或图匹配模块的单个主干在学习非遮挡特征方面是无效的。受许多CV应用中的自注意或非局部特征学习技术的巨大成功[2,35]的激励,我们结合了非局部解缠(DNL)操作[38]以更好地提取非遮挡特征。这种类型的操作将一个位置处的神经元激活计算为所有位置处的特征的加权和因此,来自同一实例的特征(例如,行人的一些身体部位)相互加强并且容易被模型关注。这是用于闭塞ReID的主干的重要能力。具体地,DNL由两个项组成,其中一个项说明两个像素之间的关系,另一个项表示每个像素的显著性。因此,它可以有效地工作,以获得高的响应,并照顾到非遮挡的身体部位和显着的边界。我们遵循[35]将两个/三个DNL层添加到Resnet-50的第二/第三级DNL的成对活化的关键公式如下:w ( f , f ) =s.( Wqf−µ ) ( Wf−µ )Σ+s(Wmf),其中,Wqfi和Wkfi是非局部特征的查询和关键字,μ q和μ k是所有查询和关键字的平均值,并且s(.是一个softmax函数。 如[38]中所讨论的,第一项是用于实例响应学习的白化成对项,第二项关注显著区域。位置i的输出为jw(fi,fj )·Wvfi ,其中WvRc×c是文[ 38 ]中计算值项Wvfi的另一线性变换. 通过将其广播到整个特征图,我们以c wh张量的形式获得激活图。然后将该张量添加到特征图以增强主干。此外,Eq.(1)类似于[ 1,12 ]中的基于掩码的匹配方法。等于特征图的掩模并且用于对特征重新加权。受此观察的启发,我们定义了一种新的操作,称为重建池,并通过以下方式将其纳入我们的主干:fr=(WvF)s(WmF)T,(2)其中FRc×wh是最终特征图,WmR1×c和WvRc×c是线性变换。 项(WvF)类似于特征金字塔匹配框架[12,14]中的重建项,其中它用于重新加权整体图像特征以重建被遮挡的图像特征。s(WmF)用作通道上的特征选择层。对于给定的特征图,Eq.(2)基本上i j iqikJ(一)连续地用作特征重构和池化操作两者。因此,我们使用Eq。(2)在主干的最后一个特征图之上聚合重要的非其中fi是特征映射中位置i处的c维特征,Wq,Wk∈Rc ×c和Wm∈R1 ×c是线性的遮挡特征。与广泛使用的全局池不同,这种池使骨干网络能够在Xbce:带有BcE阿塞阿擦除ase阿塞阿阿塞阿输入:[Xbce; Xre]Xre:有RE基于遮挡的数据增强床层损失重建池化培训ID丢失全球池化测试非遮挡全局特征学习带DNL的Resnet-50平均特征平均特征多头分类器全局特征全局特征11879··床床注意到显着的边界,以及重建被遮挡的功能。因此,我们的网络本身可以捕获非遮挡特征,而不涉及任何基于部分特征的匹配模块。请注意,重建池仅在训练阶段使用。对于推断,仅使用全局池化之后的特征。有界指数距离损失。基于遮挡的数据增强生成具有合成遮挡的许多硬示例。要学会辨别(a) 同一人(b) 不同的人针对这些困难的例子,我们提出了新的有界指数距离(BED)损失。BED是一个双动态缩放的指数损失函数,其中指数惩罚是对小距离的图像对执行的,将缩放因子并入损失函数中以控制惩罚灵敏度,从而帮助自动减少模型对容易区分的图像对的关注,同时关注几乎没有区分的具体地,令Zi=φ(Xi)是池化层之后的特征表示,BED损失定义如下。.− αd(z,z)Σ− αd(z,z)图3-(a)相对于相对湿度的损失人与人之间的距离和(b)损失w.r.t.人与人之间距离根据[21],三重态损失和对比度损失中的裕度被设置为0.3。所提出的BED损失函数的一个期望性质是其惩罚是指数敏感的,但可证明有界的。如(a)和(b)所示,我们的损失函数以指数方式惩罚具有小距离的相似/不相似对,并对大距离施加有界损失。这使模型能够捕获非遮挡身体部位的细粒度判别特征。相比之下,对比度损失、三重损失和焦点损失的惩罚对于同一个人来说基本上是不太因此,该模型未能出席分散分布的小的歧视部分的图像。Lbed(xi,xj)=yij1−e我j +(1−yij)e我j,(三)非闭塞部件。相比之下,BED损失具有上限其中,α是灵敏度比例因子,d(i)是距离,并且如果zi和zj来自同一个人,则y ij = 1,否则yij=0。该损失具有以下两个关键的期望性质:• 它对具有小的人间/人内距离的对给予积极的指数惩罚,强制注意不同的区分特征。• 它对大差异的图像对施加有界损失,这有助于自动地降低具有大的人间/人内距离的容易的图像对的权重。边界如下所示。在那些图像对上的约束惩罚,同时在具有小的人内距离的图像对上实施指数惩罚,使得能够有效地学习区分性的非遮挡特征。在图3(b)中,在类似的意义上,对于来自不同的人但具有小距离的图像对,BED损失对距离应用与指数相反的惩罚,并且对具有大的人间距离的对应用几乎为零的损失,这有助于比对比损失或三重损失中的线性惩罚更好地区分具有小的人间距离的图像对。启发的指数惩罚的床的损失Limdij→∞Limdij→∞如果yij=1,则Lbed(xi,xj)=1,如果yij=0,则Lbed(xi,xj)=0,(四)通过在密集物体检测中焦点损失的成功[19],但是BED损失与焦点损失的根本不同在于(i)它们具有非常不同的惩罚特性(例如,可证明有界vs.无边界),如图所示其中dij表示zi和zj之间的距离。指数敏感惩罚带来的一个主要益处是学习非遮挡身体部位的细粒度差异的能力。 特别地,如图3(a)所示,对于具有小的人内距离的图像对,我们的指数惩罚不同于对比度损失中的小惩罚或无惩罚在图3中,以及(ii)BED损失被设计为使得能够在排名任务中学习细粒度特征,而焦点损失被引入以解决分类任务中的类不平衡问题。整体损失函数。我们模型的最终损失函数如下和三重态损失。而且,三胞胎L=Lrpf+Lgf+Lc,(5)损失和对比损失是无限的,吸引了模型床床压倒性的注意力与大的帧内其中Lrpf和Lgf指的是使用床的损失人的距离。因此,基于这些损失函数的模型无法学习到模型的细粒度差异分别来自重构池化层和全局池化层的特征表示,并且距离床焦三重对比损失距离床焦三重对比损失11880~1Σt−1f=zgΣE(Y,Y)是一个基于交叉熵的多头分类器˜˜| |H¯我损失,这被证明是更有效的比单头分类[31]。[31]后,两个头,即,H=2,在我们的实验中使用。此外,长尾类分布通常是这在现实世界的ReID应用中可见,因为对于大多数身份只有有限的图像,而一些身份具有大量可用于训练的图像。这个问题变得更加严重的闭塞ReID中的数据贫乏的身份减少的监督信息的尾部类。由于这种类不平衡,模型可能偏向于头类。在我们的实现中使用了不良动量效应消除(ME)策略[31]来缓解该问题。特别地,SGD优化中的动量可以由来自数据丰富的头部类的样本支配,导致所有特征倾向于头部类的特征方向。因此,我们保持一个不断更新的平均特征向量,以捕捉这种向头部类的动量转移。从全局池化之后的特征中获得平均特征向量通过以下方式进行增量更新µt=βµt−1+(1−β)·fg,(6)其中µt−1是迭代时获得的更新后的平均特征向量表示平均特征Bz∈B当前迭代中批次B中所有样本的向量,β是一个超参数,用于平衡µt−1和fg的重要性。由于特征在全局池化之后全部被归一化,因此减去该平均向量可以有效地消除朝向头部类的偏差因此,在推断期间,在执行图像匹配之前,查询和图库集合的图像的特征表示被该平均特征向量减去。4. 推荐数据集:OPReID基于从超市和购物中心内外的89个摄像机系统的6,497个不同摄像机收集的数据集创建所提出的遮挡人ReID(OPReID)基准原始数据集包含超过30K不同身份的138万张图像。我们使用姿势估计模型来分类图像是否包含被遮挡或未被遮挡的身份。然后手动检查和校正这些被遮挡或未被遮挡的图像分类结果。我们进一步从该大规模数据集中随机选择被遮挡和未被遮挡的图像以创建我们的OPReID数据集。具体地,我们首先使用[3]中的姿态估计方法来检测所有图像的关键点。错过至少三个连续关键点的图像然后被认为是被包含的图像。我们从3,515个标识中选择4,200个图像以形成查询集。在现实世界中,ReID应用由于我们通常具有非常有限的用于身份的图像,因此我们仅收集来自每个查询的相同身份的两个图像,包括一个遮挡图像和一个完整图像,以组成图库集合的子集。然后,我们从其他身份中随机选择每个身份的1-3个遮挡图像和1-3个整体图像,以形成图库的其余部分对于训练集,它包含来自1,744个身份的27,228个图像,其中约15%为遮挡图像,85%为随机选择的整体图像;对于每个标识有5-20个图像。来自训练集的所有身份都不同于图库集的身份。OPReID和现有闭塞ReID数据集之间的关键统计和特征的比较如表2所示。在这些现有的数据集中,P-iLIDS,P-ReID和O-ReID没有训练数据,它们只有非常小的查询和图库集。 欧杜克群岛 大数据集,但是该数据集中的遮挡非常单调,例如,大多数人在相同的身体部位例如腿和脚(见图4中的第四行)被相同的汽车遮挡。与这些数据集相比,OPReID提供了明显更真实的遮挡ReID测试平台,因为(i)它包含明显更多的不同外观、形状和大小的遮挡,(ii)它包含在所有四个季节中使用6,000个相机收集的明显更大数量的身份和图像,以及(iii)它从室内和室外场景收集。此外,在像O-Duke这样的数据集中,过于单调的遮挡可能导致“聪明的ReID模型可以执行相比之下,我们的数据集包含不同身体部位处的各种遮挡,例如推车、电梯、存储架等。从超市和购物中心内外的不同场景中获取的图像(见图4中的底行)。OPReID中的所有面孔都被掩蔽以保护隐私数据可在www.example.com上查阅https://git.io/OPReID。5. 实验5.1. 实施细节和数据集我们的方法的实现建立在[13]中的FastReID强基线方法的基础上,其中采用Gem池化[24]和非局部[35]块来增强[21]中的最新模型。为了公平比较,Resnet-50被用作主干,其中最后一个CNN层的步幅被设置为1。对于训练,批次大小、α和β分别设置为64、0。3和0。9、默认我们评估了三个闭塞的性能每-子 ReID 数 据 集 , 包 括 两 个 流 行 的 大 型 基 准 点 ,Occluded-Duke ( O-Duke ) [22] 和 Occlude-ReID ( O-ReID)[47],以及我们的数据集OPReID。我们的方法还在两个广泛使用的一般人ReID数据集上进行了表2现有遮挡ReID数据集。Imgs和Cams分别是图像和相机的缩写数据集火车查询画廊整体关键特征ID编号图像数量ID编号图像数量ID编号图像数量ID编号图像数量Cams闭塞闭塞部分敷料P-iLIDS [12]--1191191191191191192截断图像以模拟遮挡冬季P-ReID [42]--6030060300603005截断图像以模拟遮挡夏天O-ReID [47]--2001,0002001,0002001,0005墙、垃圾桶、雨伞所有身体部位四季O-Duke [22]70215,6185192,2101,11017,6611,81235,4898汽车、广告牌腿,脚冬季OPReID1,74427,2283,5154,2006,17441,0147,91874,4166,000手推车、升降机、货架等所有身体部位四季P-iLIDSP-ReIDO-ReID欧杜克OPReID查询画廊R-1和mAP分别改善5.3%在小数据集O-ReID上,将启发式/领域知识结合到ReID模型或图像匹配中通常比数据驱动的表示学习更有效。因此,HOReID [33]在其图像匹配中使用图卷积网络组合辅助姿态信息,获得比我们的模型更好的R-1。然而,HOReID在O-ReID上的mAP中不如我们的模型有效,因为在相同身份的不同图像中提取的姿势信息可能是高度不相似的,导致较低的召回。此外,这种类型的方法无法在大规模数据集O-Duke和OPReID上工作,因为在这种情况下,它们难以指定良好的广义启发式/领域知识。5.3.一般ReID数据集图4-OPReID和现有遮挡ReID数据集的视觉比较。为了保护隐私,我们会对所有面孔进行面具。Market 1501 [41]和DukeMTMC-ReID [44]。 以下[8,21,22],我们使用秩-1准确度(R-1)[10]和平均平均精度(mAP)[41]作为性能指标。读者可参考补充材料,了解使用其他主干、R-5、R-10和运行时结果的结果。5.2. 闭塞ReID数据集在三个包含的ReID数据集上,将我们的模型与七种最先进的包含的ReID方法[8,9,12,14,16,22,33由于O-ReID没有训练集,我们遵循文献[12,33]使用Market 1501数据训练模型我们还将我们的模型与五种最先进的通用ReID方法进行了比较[13,21,26,27,46]。比较结果示于表3中。请注意,在提出的OPReID数据集上,我们报告了三种最近的封闭ReID方法[12,22,33]和一种通用ReID方法[13]的结果,这些方法是我们使用其公开可用的代码获得的我们的模型在两个具有挑战性的数据集O-Duke和OPReID上的mAP和R-1中大大优于所有竞争方法,这些数据集具有比O-ReID更复杂的遮挡。特别地,我们的模型在O-Duke上的R-I和mAP两者中优于现有技术超过13%,并且在OPReID上的R-I和mAP两者中优于现有技术17%-19%与当前最先进的通用ReID模型基线[13]相比,我们的模型仍然达到4.7%-6.2%和4.4%-6.2%。现实世界的ReID应用程序通常涉及被遮挡和整体行人图像的混合,我们的模型也在一般的ReID数据集上进行评估,以检查其在处理非遮挡ReID情况下的适用性。我们的模型与各种类型的最先进的一般ReID方法进行了比较,包括一种基于数据增强的方法[23],三种基于掩模/注意力的方法[15,18,25],四种条带化方法[ 15,18,25 ]基于方法[5,7,26,46],由一些新损失函数驱动的两种方法[27,29],以及两种基于全局特征的方法[13 , 21] , 以 及 表 3 中 的 七 种 遮 挡 ReID 方 法 。Market1501和DukeMTMC的结果示于表4中。我们的模型在两个数据集上的R-1和mAP上都取得了最好的结果表3-在三个遮挡的ReID数据集上的不同方法的R-I和mAP。最好的表现是粗体。1火车无训练数据无训练数据无训练数据类型方法OPReID欧杜克O-ReIDR-1地图R-1地图R-1地图AdO [16]44.5 33.2--FD-GAN [9]--40.8---闭塞ReIDDSR [12]PCFA [22]FPR [14]-四十八点一48.7-四十八点三46.640.8 30.451.4 37.3- -72.8-78.362.8-68.0PVPM [8]--51.5 29.270.461.2HOReID [33]47.646.055.1 43.880.370.2[27]第二十七话--36.9---11882表4-两个通用ReID数据集上不同方法的R-1和mAP。最好的表现是粗体。表5-我们的模型及其消融变体的R-I和mAP。%(a) 结果vs. α%(b) 结果vs. β所有通用ReID和遮挡ReID模型。当考虑闭塞和一般ReID数据集的性能时,HOReID[33]和基线[21]是两个最佳竞争模型。令人印象深刻的是,我们的模型在遮挡和一般ReID数据集上都优于它们。这证明了我们的模型在具有/不具有遮挡的真实世界ReID应用5.4. 消融研究我们评估了我们的模型的五个关键组成部分的重要性,包括复合批量擦除(CBE),BED损失,解开非本地模块(DNL),重建池(RP)和动量效应消除(ME)。结果提供于表5中。从结果中我们可以看出,添加CBE和L床在遮挡数据集上的R-1和mAP中增加了约3-4个点。这两个模块为我们的模型提供了卓越性能的主要驱动力DNL和RP模块增强了骨干网络,并进一步提高了1-2个点的性能。注意,由RP驱动的改进仅应用于被遮挡数据,因为RP是专门针对特征重建而设计的。添加ME有助于在封闭和一般ReID数据集上将性能提高约1个点,因为长尾问题通常存在于这两种类型的数据中,ME有助于缓解该问题。5.5. 参数敏感性分别控制所提出的BED损失和ME模块中的平衡的灵敏度的两个关键超参数α和β可以经由交叉验证很好地调整。本节旨在提供一些开始图5-关于两个参数α和β的R-1和mAP结果。根据我们的经验结果的参数调整点。这里α=0。3和β=0。9,我们改变一个参数,另一个参数固定,以检查其对性能的影响。mAP和R-1结果见图5。我们的模型一般表现稳定w.r.t.两个参数。一般来说,α需要足够大。这是因为当α被设置为非常小的值时,BED损失变得非积极的,这可以破坏最终性能。性能通常对β的变化是鲁棒的。6. 结论本文提出了一种新的模型来学习细粒度的遮挡人ReID的区别性特征。该模型具有两个关键特征:(i)它学习具有单个网络主干的单尺度全局特征,这比依赖一个或多个辅助模块的现有技术的遮挡模型明显更简单,但是它可以实质上胜过这些竞争者;以及(ii)它在闭塞ReID和一般ReID基准上都实现了新的SOTA性能,在现实生活中的ReID应用中显示出优异的适用性。通过这个模型,我们首次证明了单尺度全局级特征可以优于流行的多尺度局部级特征,为探索轻量级但有效的遮挡ReID模型提供了新的方向。此外,我们引入了一个大规模的闭塞ReID数据集,包含迄今为止最真实的闭塞和最大数量的身份和图像,提供了一个显着更忠实的闭塞ReID基准比现有的数据集。YC 和 XB 部 分 得 到 了 国 家 自 然 科 学 基 金 项 目#61772057和BNSF项目#4202039的支持R-1 O-公爵R-1 OPReIDmAP O-DukemAP OPReID.. 值.R-1 O-公爵R-1 OPReIDmAP O-DukemAP OPReID.. 值..CBE床DNLRp我遮挡数据集一般数据集欧杜克OPReIDMarket1501DukeMTMCR-1地图 R-1地图 R-1地图R-1地图62.851.9 61.162.1 95.488.689.979.8C64.153.3 62.563.5 95.688.990.380.0CC66.854.5 64.165.7 95.788.990.580.5CCC67.054.8 64.865.9 95.989.090.780.8CCCC68.156.1 65.266.4 96.089.090.880.9六十九点零57.2 65.867.2 96.1八十九点三91.181.3C CCCC类型方法Market1501DukeMTMCR-1地图R-1地图AdO [16]86.570.479.262.1FD-GAN [9]90.577.780.064.5闭塞ReIDDSR [12]PCFA [22]FPR [14]83.691.295.464.376.886.6-82.688.6-65.578.4PVPM [8]93.182.384.971.8HOReID [33]94.284.986.975.6[27]第二十七话91.779.684.469.3PCB [26]92.377.481.965.3PN-GAN [23]89.472.673.653.2美国有线电视新闻网[18]91.275.780.563.8MGCAM [25]83.874.380.766.4一般IANet [15]94.483.187.173.4里德OSNet [46]94.884.988.673.9BDB [7]93.582.886.871.5美国[5]95.688.289.078.5ASB [21]94.585.986.476.4[第29话]96.187.4--基线[13]95.488.689.979.811883引用[1] 蔡洪龙,王志官,程金星。多尺度身体部分掩模引导注意用于人重新识别。在IEEE Conf. Comput.目视模式识别Worksh. ,第1-8页[2] 曹岳、徐佳瑞、林斯蒂芬、魏方云和韩虎。Gcnet:非局部网络满足挤压激励网络及其他网络。在IEEE Conf.Comput.目视模式识别,第0-0页[3] Z. Cao,G. Hidalgo Martinez,T.西蒙,S。Wei和Y. A.酋长Openpose:实时多人2D姿态估计使用部分亲和字段。IEEE传输模式分析马赫内特尔,2019年。[4] 曹哲、托马斯·西蒙、魏世恩和亚瑟·谢赫。使用部分仿射场的实时多人2d姿态估计。 在IEEE会议Comput. 目视模式识别,第7291[5] 陈天龙、丁少金、谢静怡、叶远、陈武扬、杨阳、周仁、王张扬。细心但多样化的人重新识别。在国际会议计算中目视,第8351-8361页[6] De Cheng , Yihong Gong , Sanping Zhou , JinjunWang,and Nanning Zheng.改进三重丢失的多通道基于零件的cnn的人员再识别。在IEEE Conf. Comput.目视模式识别第1335-1344页[7] Zuozhuo Dai,Mingqiang Chen,Siyu Zhu,and Ping Tan.用于人员重新识别和离开的批量落块网络。在国际会议计算中目视,2019年。[8] 尚高、王静雅、卢沪川、刘子墨。基于姿态引导的遮挡人可见部位匹配。在IEEE Conf. Comput.目视模式识别,第11744- 11752页[9] YixiaoGe , Zhuowan Li , Haiyu Zhao , Guojun Yin ,Shuai Yi,Xiaogang Wang,et al. Fd-gan:用于稳健的人重新识别的姿势引导特征提取gan。在高级神经信息。过程系统,第1222-1233页[10] 道格拉斯·格雷,谢恩·布伦南,海涛。评估识别、重新捕获和跟踪的外观模型在PETSW,第3卷,第1-7页[11] 罗浩、樊星、张弛、姜维。 斯特恩赖德深度卷积网络与成对空间变换器网络,用于部分人员重新识别。TMM,2020年。[12] 何凌霄,梁健,李海青,孙振安。用于部分人重新识别的深度空间特征重建:无对准方法。在IEEE Conf.Comput.目视模式识别,第7073-7082页[13] Lingxiao He , Xingyu Liao , Wu Liu , Xinchen Liu ,Peng Cheng,and Tao Mei.Fastreid:一个pytorch 工具箱,用于一般实例的重新识别。arXiv预印本arXiv:2006.02631,2020。[14] Lingxiao He , Yinggang Wang , Wu Liu , He Zhao ,Zhenan Sun,and Jiashi Feng.前景感知金字塔重建,用于无对准的被遮挡人员重新识别。在国际会议计算中目视,第8450-8459页[15] Ruibing Hou , Bingpeng Ma , Hong Chang , XinqianGu,Shiguang Shan,and Xilin Chen.交互聚合网络进行人员重新识别。 在IEEE会议Comput. 目视模式识别,第9317-9326页[16] Houjing Huang,Dangwei Li,Zhang Zhang,XiaotangChen,and Kaiqi Huan
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功