没有合适的资源?快使用搜索试试~ 我知道了~
12615基于范数感知的高效人物搜索嵌入陈迪1,3,张珊珊1分,杨健1,2分,Bernt Schiele3分1南京理工大学计算机科学与工程学院高维信息智能感知与系统教育部重点实验室PCA实验室2社会保障图像与视频理解江苏省重点实验室3马克斯·普朗克信息学研究所萨尔信息学校区{张俊仁,张珊珊,张俊扬}@ njust.edu.cn,{张俊仁,张丽丽}@ mpi-inf.mpg.de摘要人物搜索是一个实际相关的任务,旨在联合解决人物检测和人物重新识别(re-ID)。具体地,它需要在一组全景图库图像中找到并定位与查询人具有相同身份的所有实例。一个主要的挑战来自于两个子任务的矛盾目标,个人身份检测主要是寻找所有个人身份的共性,而个人身份识别主要是处理多个身份之间的差异因此,在联合人员搜索模型中,协调两个子任务之间的关系是至关重要的为此,我们提出了一种称为Norm-Aware Embedding的新方法,将人嵌入到norm和angle中,分别用于检测和re-ID,从而实现有效和高效的多任务训练。我们进一步将建议级的人物嵌入扩展到像素级,像素级的识别能力受错位的影响较小。我们优于其他一步的方法,由一个很大的利润率,并实现可比的perfor- mance两步的方法在CUHK-SYSU和PRW。此外,我们的方法易于训练和资源友好,在单个GPU上以12 fps运行。1. 介绍在视觉监控系统中,最基本的问题是1)如何在图像中定位人,以及2) 如何确定查询人是否出现在特定的图像集中,通常是在不同的摄像机上。这两个问题通常作为行人检测和人的重新识别(re-ID)这两个独立的任务来研究但在实际应用中,将它们放在一个联合的框架中求解,不仅方便、高效,而且性能更好。如[46]中所介绍的,人物搜索的任务*通讯作者。(a)(b)第(1)款图1.说明人物和背景表示如何分散在嵌入空间中。黑色箭头表示背景,彩色箭头表示不同身份的人灰度曲面是人与背景的判定边界。(a)对于L2归一化嵌入,不同人的类间角距离被背景压缩。(b) 规范感知嵌入通过规范区分人与背景,通过角度区分人的身份,从而放松了对类间距离的限制。目标是从由不同相机捕获的未裁剪图像的图库中检索查询人。人员搜索继承了重新识别和检测的困难e.G.视点和照明变化、杂乱的背景、遮挡、改变姿势等,因此比单独的两个任务中的任何一个都更具挑战性。解决人员搜索标准方法是使用两步策略,即,级联行人检测器和分别训练的re-ID特征提取器(例如,[61、3、21、16])。根据检测器从图库图像中裁剪所有候选人,并将其馈送到标准的人重新ID模型中。相反,其他人提出在检测和re-ID之间共享骨干网络[44,42,26,2,30,47]。给定一个未裁剪的图像,这些模型输出边界框坐标和相应的L2归一化的身份嵌入的所有人这些作品延伸到.更快的R-CNN [34]通过堆叠额外的完全-12616连接层,以产生L2归一化嵌入,并在标准检测损失和身份分类损失的情况下联合训练整个模型然而,正如[3]所指出的,它们在训练过程中受到检测和重新识别的相互冲突的目标的影响。一个直观的说明为L2规范化嵌入显示在图.第1(a)段。检测分类目标倾向于挤压所有人的嵌入空间,而不管身份如何,以便更好地与背景分离。因此,与背景实例共享特征空间限制了不同身份之间的因此,由于这两个任务之间的固有权衡,它们的检测和重新识别性能通常都低于单独训练的对应物。在这项工作中,我们的目标是开发一个轻量级但准确的人物搜索模型。我们采取一步到位的策略,在端到端模型中联合优化检测和重识别,并通过显式分解来具体地,我们完全共享用于检测和重新ID的表示,但是在极坐标系中分解特征,其中每个嵌入向量被分解为径向范数r和角度θ。径向范数r用于行人检测,并且可以被解释为边界框的检测置信度。角度项θ度量了人与人之间的余弦相似性,在个人识别中有着广泛的应用。图中展示了原理思想。第1段(b)分段。在训练过程中,嵌入范数使用二进制分类损失进行优化,角度使用OIM损失进行优化[44],这是一种具有归一化softmax权重的多类交叉熵损失。在推理过程中,我们将查询人的范数固定为1,并计算其与任意建议的相似性(点积),这由范数和角度确定。Therefore, a highvalue of similarity indicates both high detection confidenceand high identity similarity.由于嵌入范数被显式地利用,我们称我们的方法为范数感知嵌入(NAE)。联合检测和re-ID的另一个挑战是空间未对准问题。通常,当我们训练一个检测器时,当一个建议的交集大于并集(IoU)时,它会被采样为正,而不是任何地面真值框。这种相对宽松的匹配标准确保在每个小批次中采样足够的阳性,但具有负面影响,因为它包括许多未对齐的样本。那些具有低对齐质量的样本对于re-ID性能是有害的[61],因为所包含的背景杂波通常对特征的区分能力起负面作用为了缓解这个问题,我们建议根据每个局部补丁属于一个人的置信度来重新加权每个局部补丁的特征。具体地说,我们对每个专业人员执行细粒度的人/背景分类,即,我们预测每个像素位置的置信度属于一个人,然后被用作特征聚合的空间在重新加权之后,用于重新ID的特征被期望在抑制背景杂波的同时更多地集中在人区域上,并且因此对于身份分类变得更具区分性我们使用上述细粒度分类的方法与norm-aware嵌入兼容,因此称为NAE+。综上所述,本工作的主要贡献如下:• 我们提出了规范感知嵌入方法(NAE)的人搜索。NAE缓解了目标-通过将特征嵌入分解为范数和角度,分别用于检测和重新识别。• 提出了一种逐像素扩展,表示为NAE+,以处理端到端的未对准问题。个人搜索• 我们的方法是快速的,可解释的,并达到标准基准(中大-中山大学和PRW)的竞争力的表现2. 相关工作人员搜索。 最近,人物搜索已经提高了很多计算机视觉社区的研究人员感兴趣的Zheng等[61]首先对不同检测器和重新标识器的组合的数量进行彻底评估他们还提出了一个级联微调策略的训练和置信加权相似度(CWS)的人匹配。Lan等人[21]分析了人物搜索中的分辨率多样性问题,并利用跨层次语义对齐(CLSA)解决了多尺度匹配问题。Chen等人[3]提出了对人物搜索中客观矛盾问题的关注Han等人[16]指出,由vanilla检测器产生的边界框对于re-ID不是最佳的。因此,他们开发了一个RoI转换层,使梯度流从重新识别器到检测器的定位细化。与上述两步方法相比,其他工作旨在使用单步方法更有效地解决人员搜索问题例如,在线实例匹配(OIM)损失[44]和中心损失[42,40]用于解决病态训练问题并增强特征区分能力。Yan等人[47]和Munjaletal. [30]提出分别用周围人或查询人来丰富特征。在[26]和[2]中,他们放弃了建议生成操作,并通过顺序决策或强化学习直接在未裁剪的图像上搜索查询人。在本文中,我们也采用了一步战略。基于OIM模型[44],我们通过范数感知嵌入改进了特征学习。此外,最后12617convRoIAlign conv多任务头该方法相似度计算与CWS相似。与用于后处理步骤的原始形式不同,该方法中的CWS是从极坐标系中的显式分解自然导出的因此,指导训练过程以更好地进行特征学习也是有用的人员重新识别。早期的人重新识别模型专注于手动设计功能[37,11,58,24]和学习效果。主动距离度量[20,23,50]。最近,CNN已经成为构建re-ID模型的事实标准。这样的模型通常被训练为具有连体损失[49,22,1,36,27,45],三重损失[7,4]或交叉熵损失[43,59,61,10,41]。最新的方法不是平均所有位置的卷积特征,而是提取部分级别的特征并将它们连接在一起作为最终的人物嵌入[35,39,57,48]。这些方法通常将特征图划分为水平条纹以进行细粒度的特征学习。我们对范数感知嵌入的像素级扩展也受到了这种方法的启发。我们使用逐像素概率图来重新加权每个位置的特征,而不是将特征图划分为块,这进一步由具有边界框注释的分割损失来监督。行人检测。与人员重新识别类似,早期行人检测方法也基于手工制作的特征[12,8,9,51,54]。深度神经网络作为多功能特征提取器,近年来一直主导着这项任务[52,53,32,31]。成功的通用对象检测模型适用于行人,例如R-CNN [13,52,53]和Faster R-CNN [34,55,56]。在这工作,我们还基于适应的Faster R-CNN构建了我们的模型,该模型可扩展用于细粒度特征学习,并达到了速度和准确性之间的最佳点。嵌入规范。 通常的做法是在人脸识别[28,29,6]、人员重新识别[10,41]和人员搜索[44]中规范化具有单位长度的深度嵌入。据我们所知,只有两篇文章讨论了嵌入范数的有效性[15,38]。Guo等[15]发现softmax权向量的范数与该类的样本数有关。他们进一步建议促进代表性不足类的规范,以提高一次性人脸识别的性能Wang等人[38]还使用归一化嵌入来表示面部身份。此外,他们通过减少训练期间这两者之间的均方误差,将嵌入的范数回归到给定人的年龄。然而,范数信息,然后忽略年龄不变的人脸识别时,匹配身份。与上述两种方法不同的是,我们的方法使前-框回归人/bg分类身份分类图2.基于Faster R-CNN的单步方法的整体架构[34]。黑色箭头表示向前传递,彩色箭头表示不同的监督信号。为简单起见,省略了区域建议网络。保护的信心,这是必不可少的人搜索。3. 方法基于Faster R-CNN [ 34 ]的典型一步人物搜索方法如图所示。二、在Faster R-CNN的顶级卷积特性之上添加了一个用于定位、检测和重新识别的多任务头。第一个也是最具代表性的一步方法是OIM [44],其中L2归一化的全连接层连接到全局平均池化卷积特征。如图所示。图3(a)中,框回归和区域分类损失与Faster R-CNN中的相同,其中身份分类损失监督由全连接层产生的人嵌入。相比之下,我们的范数感知嵌入方法,如图2所示。3(b)中,去除原始区域分类分支,并使用嵌入范数作为二进制人/背景分类置信度。在本节中,我们将详细描述norm-aware嵌入头,并介绍用于细粒度特征学习的逐像素扩展。3.1. 规范感知嵌入在最终的卷积特征之上,我们首先应用全局平均池化(GAP)和全连接(FC)层来获得d维特征向量x,其中d是第256章追上了[44]然后x被分解为显式的,它在极坐标系中为:x=r·θ,(1)其中范数r∈[0,+∞)和角度θ是具有单位长度的256为了将范数r解释为检测置信度,我们使用单调映射将其幅度压缩到[0,1]的范围:隐式使用嵌入规范,而不是使用作为训练中的常规术语。通过使用分类任务的规范(人与人),背景),我们赋予规范以明确的语义意义,即,去-r=σ.Σr−E[ r]·γ+βVar[r] +Var、(二)12618框回归人/bg分类2048 xKxK2048 256θ256马RoIAlign间FC归一化身份分类l2模英国11xx7kxx7k1xkxk人/BG分类2048x 256xkxk kxk规模256 xkxk 256垫RoIAlignres5conv256 xKxK正常化身份分类2048Q&Res52048 xKxK(a) OIMl2模256θ���(BN)r1 1规模x~256的蚀刻框回归人/BG分类匹配置信度,这对于抑制错误检测特别有用。同时,它也与类别加权相似性(CWS)[61]具有相同的形式。然而,我们并不只是使用CWS作为后处理步骤,而是利用它在训练过程中显式地分解检测和重新识别目标的嵌入。我们进一步证明了CWS在SEC中的功效。四点三。训练从Eq. 4.我们的范数感知嵌入能够区分个人身份,并抑制错误检测。因此,它可以在训练期间同时由re-ID和检测信号监督具体地,检测信号被投射在缩放的范数RoIAlignres5间隙256FC归一化(b) NAE身份分类r表示为二元分类:Ldet=−ylog(r)−(1−y)log(1−r)(5)其中y是指示是否考虑该提议的{0,1}标签框回归清(c) NAE+图3.用于在线实例匹配(OIM)、规范感知嵌入(NAE)及其像素扩展(NAE+)的多任务头架构。虚线箭头指示仅在推理期间启用该过程其中σ是sigmoid激活,其中是批量归一化[19]层。然后将原始嵌入x缩放到我们的范数中-awareembeddingx:x=r·θ(3)该过程由图1中的虚线箭头表示。3(b)款。推理匹配。对于一个查询人,我们首先通过移除RPN模块并设置具有给定边界的建议坐标来提取其嵌入xq盒子由于查询边界框肯定包含一个人,我们手动将xq的范数设置为1。然后,查询人和图库中的任意检测到的人的相似度Xg计算如下:sim(x<$q,x<$g)=x<$Tx<$g=r<$g·θTθg(4)作为背景或人物。同时,我们在归一化角向量θ上使用OIM损失[44]Lreid,这是一种多类交叉熵损失,可以最小化相同身份的角裕度,并最大化不同身份的角裕度边界框回归损失L框保留与Faster R-CNN定义的形式相同三损失函数在图中分别用黄色、绿色和蓝色箭头表示。3(b)款。与RPN分类和回归损失一起,它们通过随机梯度下降(SGD)进行联合优化3.2. 像素级扩展节中3.1中,每个建议的卷积特征通过全局平均池化(global average pooling)而被折叠成向量,从而丢失空间信息。 通过这种方式,人物嵌入将受到未对齐区域(图中的黑色区域)的干扰噪声的影响。4).为了解决这个问题,我们提出了NAE+,这是NAE的像素级扩展我们通过突出显示身体部位并抑制未对齐的区域来仔细地利用空间信息具体来说,我们首先从具有1×1卷积层的顶部特征图预测256×k×k张量然后,所有位置处的256维向量可以被归一化,缩放到norm-aware嵌入,同时仍然保留空间结构。图1示出了一个示例。3(c)款。在这种方法中,每个位置处的映射范数rnl充当空间注意力,在张量被折叠成最终匹配向量之前校准每像素重要性NAE+的训练可以用语义分割的方式来公式化,即,用每像素交叉熵损失来监督所有映射的范数。与标准的语义分割方法不同,地面真值类别图在个人搜索数据集中不可用因此,我们需要从在上面的等式中,θTθg是查询和图库人员之间的余弦相似度。因此,最终相似度等于检测加权的余弦相似度边界框注释。生成过程如图所示4.第一章对于每个RoI,我们将其与地面真值边界框的交集设置为1,其余的设置为0。双线性204812619ROI路口双线性KxKGT图4.从边界框注释生成逐像素标签。Red box is the groundtruth while blue box is the proposal.黑色区域标记为0,白色为1,灰色为介于两者之间的值。双线性插值用于使标签大小与特征图大小相匹配。插值用于将RoI框调整为k×k。因此,损失公式如下:2共收集了18,184幅未裁剪的图像和96,143个绑定框,其中11,206幅图像和55,272个行人用于训练。测试集包括2,900个查询人和6,978个图库图像。对于每个查询,不同的图库大小由基准定义,以评估不同模型的缩放能力如果未指定,我们默认使用图库大小100。PRW[61]是从安装在大学校园不同位置的6台固定摄像机记录的视频帧中提取的有11,816帧,有43,110个边界框,其中34,304个标注了932个身份,其余的标记为未知身份。在训练集中,有5704幅图像,482个标识符。测试集包含2,057个查询人,每个人都要在一个包含6,112张图像的图库中搜索。因此,图库大小明显大于CUHK-SYSU的默认设置。1Ldet+= −k2Σki=1yilog(ri)+(1−yi)log(1−ri)(6)评 价 方 案 。类 似 于 人 的 重 新 识 别 [60] , 平 均 精 度(mAP)和累积匹配特征(CMC top-K)是用于测量的标准指标。其中yi是所生成的每像素标签,其值位于[0,1]之间。标签生成过程如图所示。4.第一章在推理期间,即使训练了每像素概率图,也需要单个概率来测量检测置信度。一种直接的方法是在所有空间位置上使用平均概率Ei[ri]。然而,我们通过实验发现这种方法效果不佳,即,有效边界框的置信度太低,因为平均值将被不可避免的具有低置信度的背景区域 我们通过简单地拉伸Ei[ri]的大小来解决这个问题。具体地,对于每个图像,所有检测置信度除以它们之间的最大值,使得所有检测置信度都被扩展并且仍然在0和1之间的范围内。与NAE相比,NAE+不会增加参数的数量。实验表明,该方法只增加了少量的计算开销,同时提高了人员搜索的准确性4. 实验在本节中,我们对NAE和NAE+进行了全面评估。我们首先介绍了数据集和评估协议,之后我们详细描述了实现。通过综合分析和直观检验,探讨了该方法的有效性。我们进一步比较我们的方法与最先进的w.r.t.搜索性能和运行速度。4.1. 数据集和设置CUHK-SYSU[44]是一个混合数据集,由移动相机拍摄的城市场景和电影截图可靠的人搜索性能。然而,排名列表中的候选人只有在其对地面实况边界框的IoU大于0.5时才被认为是正确的,这是与re-ID方法的主要区别。4.2. 实施细节1我们的模型由三个主要部分组成:一个用于空间特征提取的主干网络,一个用于候选包围盒采样的区域建议网络(RPN)和一个用于建议分类和回归的头部网络。我们采用ImageNet预训练的[5] ResNet-50 [18]作为我们的骨干网络,其中最重要的四个残差块,即‘conv1’ to ‘conv4’, used as the stem一个标准的RPN建立在主干网络的顶部,以生成行人候选边界框。我们遵循[ 25 ]中的锚定设置,并对正向提案进行采样,下限IoU为0.5,负向提案的IoU区间为[0. 1,0。(五)。接下来,提案被裁剪并重新整形为14×14[2017 - 12 -17][2017 - 12 - 17 ] 头部网络,也就是‘conv5’ residual block of ResNet-50, is used to transformthe proposals into 2048-dimensional 在该特性之上添加了用于边界框回归和范数感知嵌入生成的特定于任务的头地图对于NAE+,我们将空间大小k设置为7,如图2所示。3(c)款。在训练过程中,我们为每批样本5张图像,大小为900×1500 。我 们的 模 型在 单 个NVIDIA Tesla P40GPU上训练了22个epoch,初始学习率为0.003,在第一个epoch期间逐渐预热,在第16个epoch时减少10纪SGD的动量和重量衰减被设置为1https://github.com/DeanChan/NAE4PS12620检测器召回AP再识别器mAP top-1OIM基89.3 79.7OIM基NAE84.4 86.190.0 91.8NAEOIM基92.6 86.8NAE85.9 87.691.5 92.4GT100 100OIM基NAE90.7 91.293.5 94.0表1.中大中山大学实验结果分析。上-每个块使用基于OIM的检测盒,而较低的块使用NAE检测结果。方法mAP top-1PURPOSE_PURPOSE_PURPOSEOIM基础OIM-基础,带CWS 87.1 88.5 +2.7+2.4NAE91.592.4NAE w/o CWS89.991.3-1.6-1.1表2.类加权相似性的消融实验0的情况。9和5×10−4。至于NAE+,我们通过将FC层权重转换为1×1卷积权重,使用经过训练的NAE模型初始化权重然后对它进行11个时期的微调学习率设置为0.003,前8个历元,然后对于剩余的3个历元衰减到0.0003在测试时,建议的数量设置为300。阈值为0.4的非最大抑制[14]用于过滤掉冗余框。4.3. 分析实验如引言部分所述,人物搜索准确度受检测质量和身份识别准确度两者的影响。为了更好地理解我们的NAE方法如何处理上述两个子任务,我们将人员搜索分解为检测和重新识别,并分别评估它们的性能。我们实现了对我们的规范感知嵌入和OIM基线模型的分析。四个变量进行了评估,即• OIM-base:我们对OIM模型的重新实现[44],它共享相同的架构设置正如我们的NAE模型中所描述的,四点二。受益于大输入图像尺寸[56],密集锚定[25]和RoIAlign[17],我们的OIM基础明显优于原始实现。• 含CWS的OIM基:使用OIM- base的训练模型并应用类加权相似性[61],将画廊人员与查询进行匹配。• NAE:我们的norm-aware嵌入模型,如第二节所述。第3.1条• NAE w/o CWS:与NAE相同,但仅使用归一化嵌入θ,而不使用尺度运算图5.CUHK-SYSU上NAE+的逐像素范数预测较暖的颜色表示较大的标准,这表明该位置是人的概率较高。NAE+的检出率为93. 0%,82。1% w.r.t.回忆和AP,与NAE相似。(the矢量在图中以绿色标记。第3(b)段)。所有模型都在中大中山大学进行训练,并在100个图库大小对于行人检测,我们使用召回率和平均精度(AP)作为性能指标。对于人员重新识别,采用mAP和top-1精度。它们与人物搜索相同,但用于匹配的嵌入提取方式不同。我们删除训练模型的RPN,并手动设置要检查的框的建议。因此,端到端人员搜索模型仅用作re-ID特征提取器。评估结果收集在Tab中。1和Tab。2,从中我们得出以下结论。NAE的检测质量较好。 检测结果记录在表的第二列。1,从中可以看出,我们的NAE模型达到了92。6%,86。8%相对湿度召回和AP,超过OIM基地3。3和7。1页。分别更好的检测质量表明,NAE中的检测目标比我们的OIM-base更平滑和有效地优化NAE的最终人物搜索性能也优于OIM- base,这要归功于高质量的边界框。NAE对于重新鉴定更具鉴别力。在Tab的下块中。 1,我们可以看到NAE达到91。5%和92. 4%w.r.t. mAP和top-1,表现优于OIM-基础,NAE检测到的盒子为5。6和4. 8页当将绑定框切换到地面实况框或基于OIM的检测时,性能改进也保持不变,如Tab的上部和下部块所示。1.一、这些结果表明,NAE具有更好的re-ID准确性,这表明NAE的区分能力优于OIM。类加权相似性很有用。在选项卡中。 2,我们可以看到将CWS添加到OIM基础产生+2的增益。7和12621NAE+M90807060RCAANPSMIANOIMCTXGraph9876500 1000 2000 30004000图库大小(一)501000200030004000图库大小(b)第(1)款图6.中大-中山大学不同画廊规模的性能比较虚线表示两步法,而实线表示一步法。表3.与最新技术水平的比较。一步法是收集在上块中,而两步法在下块中。每个区块中的最佳结果以粗体标记。+2。4页分别为mAP和top-1。同时,从NAE中移除CWS使得mAP和top-1从91. 5到899和92。4到913 .第三章。这些结果证实了CWS的阳性疗效作为NAE的自然诱导形式,CWS也有助于我们的方法的人搜索性能。总之,我们的范数感知嵌入成功地通过将嵌入显式分解为范数和角度来解决检测和重新识别的矛盾目标。检测和重新识别子任务都取得了比基线更好的结果。结果表明,该方法的最终人物搜索性能是显著的,这可以归因于两个子任务的改进。表4.不同GPU上的速度比较。运行时间以毫秒为单位。(e,g)。我们的NAE方法在大多数困难情况下成功地定位和匹配了查询人,尽管在极端情况下(f)和(g)仍有改进性能的空间此外,我们的NAE+方法比NAE更好,因为它为所有场景返回正确的结果。4.5. 与最新技术水平的比较在本节中,我们将NAE和NAE+与Tab中最先进的人员搜索方法进行比较3 .第三章。所有的结果都是根据它们的搜索策略收集的,即,上块一步法和两步法4.4.可视化检查为了检验NAE+方法的有效性,我们可视化了图1中的输出概率图。五、具体来说,我们从经过训练的NAE+模型中删除RPN和RoIAlign模块,并直接通过整个网络转发输入图像。输出概率图由每个位置的映射范数ri组成,通过双线性插值进行上采样然后,我们用不同的颜色表示概率图,并将它们与相应的输入图像叠加。我们从图中观察。5. NAE+成功地突出了人体区域并抑制了背景杂波,这使得嵌入对噪声更具鲁棒性。如Tab所示。3、NAE+在中大-中山大学和PRW上的表现一直优于NAE我们还在图中显示了一些定性搜索结果。7.第一次会议。所选案例为具有代表性的困难案例,包括人群重叠(案例a,f)、混淆外观(c,d,f,g)、视点变化(c,d,f,g)和障碍物遮挡在下面的街区。可变形零件模型[14]、基于ResNet-50的Faster R-CNN[34]和特征金字塔网络[25]。它们被单独训练成普通的行人探测器。中大-中山大学比较。如Tab.所示。 3号NAE和NAE+优于所有其他一步法,包括强对应物QEEPS [30]和CTX- Graph [47]。注意,它们的前向传递需要一些计算量很大的操作,例如连体注意力和额外的图形卷积。相比之下,我们的方法只需要一个单一的向前传递,消耗更少的计算资源和内存。我们的方法也可以与顶级的两步法“FPN +RDLR”[ 16 ]相媲美,后者分别使用两个我们相信[16]的性能提升组件,即,特征金字塔网络、RoI变换层和代理三元组丢失也可以为我们的方法带来改进,但这超出了本文的范围。在图6中,我们进一步评估了更大搜索范围下的性能。如[44]中所定义的,每个查询-中大中大PRWNAENAE+CLSAMGTSRDLR00000一步两步最大平均接入点最大平均接入点(%)ethod地图top-1地图top-1OIM [44]75.578.721.349.9IAN [42]76.380.123.061.9NPSM [26]77.981.224.253.1RCAA [2]79.381.3--CTXGraph [47]84.186.533.473.6QEEPS [30]88.989.137.176.7OIM基地(我们的)84.486.134.075.9NAE(我们的)91.592.443.380.9NAE+(我们的)92.192.944.081.1[61]第六十一话--20.548.3CNN+MGTS [3]83.083.732.672.1[21]第二十一话87.288.538.765.0FPN+RDLR [16]93.094.242.970.2GPU(TFLOPs)MGTSQEEPSNAENAE+K80(4.1)1269-663606P6000(12.6)-300--P40(11.8)--158161V100(14.1)--839812622(一)(b)第(1)款(c)(d)(e)(f)(g)Q OIM NAE NAE+ Q OIM NAE图7.几个硬样品的前1名搜索结果。'Q'代表查询图像,对于每个图像,我们显示OIM-base,我们的NAE和NAE+给出的前1名匹配。绿色/红色框分别表示正确/错误的结果。(a)(e)是OIM基础失败而NAE和NAE+成功的情况。(f)和(g)是OIM-基础和NAE的失效情况,NAE+除外。儿子是匹配的画廊越来越大。从图6中我们可以看到,所有方法的mAP随着图库大小变大而单调下降。这种现象表明,在更大的范围内匹配每个子更加困难,这是现实世界应用中的典型挑战。我们的方法优于所有的一步方法的一个相当大的利润率,同时实现类似的mAP的两步方法在所有范围内。比较PRW。在Tab的右列中。3、总结了我们的NAE和NAE+以及其他竞争性方法的结果我们的NAE方法超越了以前的所有方法,包括一步和两步。特别是,我们的NAE优于第二好的方法约9 pp的大幅度。w.r.t.前一精度。与中大中山大学相比,PRW包含更少的训练数据和更大的图库大小,因此更具有挑战性。我们的NAE方法在PRW上表现得更好,表明我们的方法在减少训练数据的情况下更鲁棒。此外,逐像素扩展NAE+比NAE进一步提高0。7和0。2页w.r.t. mAP和top-1指标,在PRW上设置新的最先进技术。时机我们在Tab中比较了不同方法的速度。4.第一章由于不同的方法在不同的GPU上实现,我们在每个GPU旁边显示每秒万亿次浮点运算(TFLOPs)以进行公平的比较。我们的NAE和NAE+是在PyTorch中实现的[33],没有花哨的东西。我们用输入来测试模型图像大小为900×1500,与MGTS和QEEPS相同[30]。我们可以从Tab看到4、我们的方法是比两步法MGTS快约2倍[3]。我们的方法也比QEEPS快2倍,QEEPS是目前最先进的一步法。 最后,我们的NAE和NAE+方法在V100 GPU上每帧分别花费83和98毫秒。我们的方法的快速速度揭示了其巨大的潜力,为现实世界的应用。5. 结论本文提出了一种嵌入分解方法来处理人物搜索中的矛盾目标问题。将人物嵌入分解为范数和角度,分别用于度量检测置信度和身份相似度。这样,检测和重新识别子任务都获得了较高的性能,从而提高了人员搜索的准确性。为了提取更细粒度的信息,我们进一步将我们的方法从区域级扩展到像素级。在两个标准基准上的实验证实了该方法在准确性和速度方面的优势。确认作者要感谢AC和匿名评审员的批评性和建设性评论和建议。本工作得到了国家自然科学基金(批准号:国家自然科学基金国际合作与交流基金(批准号:U1713208,61702262);江苏省自然科学基金“111”项目 B13022 ( 批 准 号 : 61861136011 ) ;BK20181299)、中国科学技术院青年科学家资助计划( 2018 QNRC 001 ) 、 并 行 与 分 布 式 处 理 实 验 室(PDL)科学技术开放基金(WDZC 20195500106)。12623引用[1] Ejaz Ahmed,Michael Jones,and Tim K Marks.一种用于人员重新识别的改进的深度学习架构。CVPR,2015。[2] Xiaojun Chang , Po-Yao Huang , Yi-Dong Shen ,Xiaodan Liang,Yi Yang,and Alexander G.豪普特曼RCAA:用于人员搜索的相关上下文感知代理。在ECCV,2018。[3] 帝尘、张珊珊、欧阳万里、杨剑、英台。基于掩码引导的双流cnn模型的人员搜索。在ECCV,2018。[4] De Cheng , Yihong Gong , Sanping Zhou , JinjunWang,and Nanning Zheng.通过具有改进的三重损失函数的基于多通道部件的CNN进行人员重新识别。在CVPR,2016年。[5] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。CVPR,2009。[6] 邓健康,贾国,薛念南,Stefanos Zafeiriou。Arcface:用于深度人脸识别的附加角度余量损失。arXiv预印本arXiv:1801.07698。[7] Shengyong Ding , Liang Lin , Guangrun Wang , andHongyang Chao.使用相对距离比较的深度特征学习PR,48(10):2993[8] 彼得·多勒,罗恩·阿佩尔,塞尔日·贝隆吉,皮埃特罗·佩罗纳.用于对象检测的快速特征金字塔。TPAMI,36(8):1532[9] 杜卓文,佩罗纳,贝隆吉.集成通道功能。在BMVC,2009年。[10] 邢凡、魏江、罗昊、飞梦娟。球体:用于人物重新识别的深超球流形嵌入。arXiv预印本arXiv:1807.00537,2018。[11] M.法伦泽纳湖Bazzani,A. Perina、V.Murio和M.克里斯塔尼通过局部特征的模糊驱动的累积来重新识别人。CVPR,2010。[12] Pedro F Felzenszwalb , Ross B Girshick , DavidMcalester,and Deva Ramanan.使用区分性训练的基于部分的模型进行对象检测。TPAMI,32(9):1627-1645,2009年9月。[13] Ross Girshick,Jeff Donahue,Trevor Darrell和JitendraMalik。丰富的特征层次结构,用于精确的对象检测和语义分割。CVPR,2014。[14] Ross Girshick、Forrest Iandola、Trevor Darrell和JitendraMalik。可变形零件模型是卷积神经网络。CVPR,2015。[15] 郭延东和张磊。 通过促进代表性不足的阶层来实现一次 性 面 部 识 别 。 arXiv 预 印 本 arXiv : 1707.05574 ,2017。[16] Chuchu Han、Jiacheng Ye、Yunshan Zhong、Xin Tan、Chi Zhang、Changxin Gao和Nong Sang。用于人员搜索的Re-id驱动的本地化细化。在ICCV,2019年。[17] KaimingHe , GeorgiaGkioxari , PiotrDolla'r ,andRossGir-shick.面具R-CNN。InICCV,2017.[18] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在CVPR,2016年。12624[19] Sergey Ioffe和Christian Szegedy。批次标准化:通过减少内部协变量偏移来加速深度网络训练。ICML,2015。[20] 放大图片作者:Martin Kostinger,Martin Hirzer,PaulWohlhart,Peter M. Roth和Horst Bischof。基于等价约束的大规模度量学习。CVPR,2012。[21] 徐澜,朱夏天,龚少刚通过多尺度匹配进行人员搜索在ECCV,2018。[22] Wei Li,Rui Zhao,Tong Xiao,and Xiaogang Wang.Deep-ReID:深度过滤配对神经网络,用于人员重新识别。CVPR,2014。[23] Xiang Li , Wei Shi Zheng , Xiaojuan Wang , TaoXiang,and Shaogang Gong.用于低分辨率个体重新识别的多尺度学习在ICCV,2015年。[24] Shengcai Liao,Yang Hu,Xiangyu Zhu,and Stan Z.李通过局部最大发生表示和度量学习进行个体再识别。CVPR,2015。[25] 林宗义、彼得·多尔、罗斯·格希克、何开明、巴拉特·哈里哈兰和塞尔日·贝隆吉.用于对象检测的特征金字塔网络。在CVPR,2017年。[26] Hao Liu,Jiashi Feng,Zequn Jie,Karlekar Jayashree,Bo Zhao , Meibin Qi , Jianguo Jiang , and ShuichengYan.神经人搜索机器。InICCV,2017.[27] Hao Liu,Jiashi Feng,Meibin Qi,Jianguo Jiang,andShuicheng Yan.端到端的比较注意力网络,用于人员重新识别。TIP,26(7):3492-3506,2017年7月。[28] 刘未央,温延东,余智定,李明,拉吉比丘,宋乐Sphereface:用于人脸识别的深度超球面在CVPR,2017年。[29] Weiyang Liu,Yandong Wen,Zhiding Yu,an
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- IEEE 14总线系统Simulink模型开发指南与案例研究
- STLinkV2.J16.S4固件更新与应用指南
- Java并发处理的实用示例分析
- Linux下简化部署与日志查看的Shell脚本工具
- Maven增量编译技术详解及应用示例
- MyEclipse 2021.5.24a最新版本发布
- Indore探索前端代码库使用指南与开发环境搭建
- 电子技术基础数字部分PPT课件第六版康华光
- MySQL 8.0.25版本可视化安装包详细介绍
- 易语言实现主流搜索引擎快速集成
- 使用asyncio-sse包装器实现服务器事件推送简易指南
- Java高级开发工程师面试要点总结
- R语言项目ClearningData-Proj1的数据处理
- VFP成本费用计算系统源码及论文全面解析
- Qt5与C++打造书籍管理系统教程
- React 应用入门:开发、测试及生产部署教程
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功