没有合适的资源?快使用搜索试试~ 我知道了~
人物搜索的联合检测与识别特征学习
3415面向人物搜索的联合检测与识别特征学习佟晓1,2李爽2王博超3梁琳3,4王晓刚21深圳市计算机科学重点实验室目视专利建议:中国科学院深圳先进技术研究院2香港中文大学3中山大学4商汤科技集团有限公司{xiaotong,sli,xgwang}@ ee.cuhk.edu.hk,wangboch@mail2.sysu.edu.cn,linliang@ieee.org摘要现有的人的重新识别基准和方法主要集中在匹配查询和候选人之间的裁剪行人图像。然而,这与现实世界的场景不同,在现实世界中,脚边界框的注释不可用,并且需要从整个场景图像的图库中搜索目标个体。为了缩小差距,我们提出了一个新的深度学习框架来进行人员搜索。我们没有将其分解为两个单独的任务-行人检测和人员重新识别,而是在单个卷积神经网络中联合处理这两个方面。提出了一种在线实例匹配(OIM)损失函数来有效地训练网络,该网络可扩展到具有大量标识的数据集为了验证我们的方法,我们收集并注释了一个大规模的基准数据集的人搜索。它包含18184幅图像、8432个身份和96143个足边界框。实验表明,我们的框架优于其他单独的方法,和提议的OIM 损失 函数 收敛速 度更 快,更 好地 比传统 的Softmax损失。1. 介绍人员重新识别(re-id)[8,39]旨在将目标人员与行人图像库进行匹配。它有许多视频监控应用,如寻找罪犯[33],跨摄像头人员跟踪[38]和人员活动分析[23]。 由于人体姿势、摄像机视点、照明、遮挡、分辨率、背景杂波等的复杂变化,因此近年来引起了许多研究的关注[4,19,21,24,35,43]。虽然已经提出了许多人的身份识别数据集和方法,但问题设置本身与现实世界的应用之间仍然存在很大的差距。在大多数基准测试[10,14,18,19,45]中,图库仅包含手动裁剪的行人图像(图1a),而在肖彤和李爽是共同第一作者,贡献相等(a) 人员重新标识:与手动裁剪的行人匹配(b) 人员搜索:从整个场景图像中查找图1.人员再识别与人员搜索的比较。人员搜索问题设置更接近于现实世界的应用并且更具挑战性,因为检测行人将不可避免地产生错误警报、误检测和未对准。在实际应用中,目标是在整个场景图像库中找到目标人物,如图1b所示。根据这些基准测试的协议,大多数现有的人员识别方法都假设完美的行人检测。然而,这些手动裁剪的边界框在实际应用中不可用。现有的行人检测器不可避免地会产生误报警、误检测和未对准,这会显著损害最终搜索性能2014年,Xuet al. [36]他为弥补这一差距迈出了第一步。他们将人物搜索问题引入社区,并提出了一种基于行人检测和人物匹配分数相结合的滑动窗口搜索策略然而,性能受到手工制作功能的限制,并且滑动窗口3416框架不可扩展。在本文中,我们提出了一个新的深度学习框架-工作人员搜索。与传统的将问题分解为两个独立任务-行人检测和人员重新识别的方法不同,我们在单个卷积神经网络(CNN)中联合处理这两个方面我们的CNN由两部分组成,给定整个输入图库图像,行人建议网络用于产生候选人的边界框,这些边界框被馈送到识别网络以提取用于与目标人进行比较的特征在联合优化过程中,行人建议网络和识别网络相互适应。例如,建议网络可以更多地关注召回率而不是精度,因为可以通过后一个特征匹配过程消除错误警报同时,建议的偏差也是可以接受的,因为它们可以通过识别网进一步调整。为了提高整个系统的可扩展性,受对象检测[27]的最新进展的启发,我们鼓励两个部分共享底层卷积特征图,这大大加快了推理过程。传统的re-id特征学习主要采用成对或三重距离损失函数[1,3,5,19]。然而,它们不是有效的,因为每次只比较几个数据样本,并且有O(N2)个潜在的输入组合,其中N是图像的数量。不同的采样策略会显著影响收敛速度和收敛质量,但随着N的增加,寻找有效的采样另一种方法是学习使用Softmax损失函数[35]对身份进行分类,该函数可以同时有效地比较所有样本。但随着类的数量增加,训练大型Softmax分类器矩阵变得越来越慢,甚至无法收敛。在本文中,我们提出了一种新的在线实例匹配(OIM)损失函数,以应付的问题。我们维护一个查找表的功能,从所有标记的身份,并比较小批量样本和所有注册的条目之间的距离。另一方面,在场景图像中可能会出现许多未标记的身份,这些身份可以作为标记身份的否定。因此,我们利用一个循环队列来存储他们的功能也进行比较。这是另一个优势带来的人搜索问题设置.在我们的实验中,所提出的无参数OIM损失比Softmax损失收敛得更快,更好。我们工作的贡献有三方面。首先,我们提出了一个新的深度学习框架,从整个场景图像库中搜索目标个人我们不是第二,我们提议致力于可扩展到具有众多标识符的大型数据集。再加上快速的推理速度,我们的框架更接近现实世界的应用需求。最后,我们收集并标注了一个大规模的基准数据集的人的搜索,涵盖了数百个场景,从街道和电影快照。该数据集包含18184张图像、8432个身份和96143个行人边界框。我们验证了我们的方法的有效性,与此数据集上的其他基线进行比较。数据集和代码被公开,以方便进一步的研究1。2. 相关工作人员重新识别。早期的人员重新识别方法通过手动设计区分特征[12,34,42]、学习相机视图间的特征变换[25,26,30]以及学习距离度量[11,22,24,26,46]来解决该问题近年来,许多研究人员提出了各种基于深度学习的方法来联合处理所有这些方面。Li等[19] Ahmedet al. [1]设计了特定的CNN模型用于人的重新识别。这两个网络都利用一对裁剪的行人图像作为输入,并采用二进制验证损失函数来训练参数。Ding等[5] Chenget al. [3]开发了用于训练CNN的三重样本,以最小化同一个人之间的特征距离,并最大化不同人之间的距离。除了使用成对或三重损失函数,Xiaoet al. [35]提出通过对身份进行分类来学习特征。将多个数据集组合在一起,提出了一种领域引导的丢弃技术来改进特征学习。最近的几项工作致力于解决异常图像(例如低分辨率图像[20]或部分遮挡图像[47])上的人员识别问题与我们之前的arXiv提交同时,Zhenget al. [44]还为人物搜索提供了一个基准数据集。他们利用单独的检测和重新识别方法以及分数重新加权来解决这个问题,而在这项工作中,我们提出了一个联合处理这两个方面的深度学习框架行人探测。[7],ACF [6],和触摸板[41]是最常用的现成行人探测器。他们依靠手工制作的特征和线性分类器来检测行人。近年来,基于CNN的行人检测器也被开发出来[37,40]。各种因素,包括CNN模型结构,训练数据和不同的训练策略,在[15]中进行了实证研究。Tian等人[31]利用行人和场景属性标签以多任务方式训练CNN行人检测器Cai等人[2]提出了一种复杂度感知的提升算法,用于学习CNN检测器casades。一个在线实例匹配损失函数来学习识别-阳离子功能更有效,使我们的框架-1https://github.com/ShuangLI59/person_search3417Conv特征图RoI池AnchorCls.锚注册行人建议网模型特征准则L2-normed256-d干CNN建议Cls. 建议登记识别网在线实例匹配图2.我们提出的框架。行人建议网络生成候选人的边界框,这些边界框被馈送到识别网络进行特征提取。我们将特征投影到L2归一化的256-d子空间,并使用建议的在线实例匹配损失对其进行训练。行人建议网络和识别网络共享底层卷积特征图。3. 方法我们提出了一个新的深度学习框架,在单个卷积神经网络(CNN)中联合处理行人检测和人员重新识别,如图2所示。给定整个场景图像作为输入,我们首先使用干CNN将原始像素转换为卷积特征图。行人建议网络建立在这些特征图上,以预测候选人的边界框,然后将其馈送到具有RoI-Pooling [9]的识别网络中,以提取每个人的L2归一化256-d特征在推理阶段,我们根据图库中的人与目标人的特征距离对图库中的人进行排序。在训练阶段,我们提出了一个在线实例匹配(OIM)损失函数的特征向量的顶部,以监督识别网络,与其他几个损失函数一起训练的建议网在多任务的方式。下面我们将首先详细介绍CNN模型的结构,然后详细介绍OIM损失函数。3.1. 模型结构我们采用ResNet-50 [13]作为我们的基本CNN模型。它前面有一个7×7的卷积层(名为conv1),后面是四个块(名为conv2 x到conv5 x),每个块分别包含3,4,6,3个残差单元我们利用conv1到conv4 3作为主干部分。 给定一个输入图像,干将产生1024通道的特征图,其分辨率为原始图像的1/16在这些特征图之上,我们构建了一个行人亲网络来检测候选人。首先添加一个512×3×3卷积层来转换行人的特征。然后,我们按照[27]在每个特征地图位置关联9个锚点,并使用Soft- max分类器预测每个锚点是否是行人,以及线性回归来调整它们的位置。我们将保留前128个调整后的边界框作为我们的最终方案为了在所有这些建议中找到目标人,我们建立了一个识别网络来提取每个建议的特征,我们首先利用RoI-Pooling 层 [9] 从 每 个 提 案 的 茎 特 征 图 中 池 一 个1024×14×14的区域那么他们通过ResNet- 50的其余conv 4 4到conv 5 3,然后是全局平均池化层,以求和为2048维特征向量。一方面,由于行人建议不可避免地包含一些错误警报和错位,我们再次使用Softmax分类器和线性回归来拒绝非人并优化位置。另一方面,我们将特征投影到L2归一化的256维子空间(id-feat)中,并在进行推理时使用它们来计算与目标人的余弦相似度。在训练阶段,我们用建议的OIM损失函数监督id-feat。与用于检测的其他损失函数一起,整个网络以多任务学习方式联合训练,而不是使用[27]中的替代优化。3.2. 在线实例匹配丢失有三种不同类型的建议,标记的身份,未标记的身份,和背景杂波。假设训练集中有L个不同的目标人,当一个建议与目标人匹配时,我们称之为标记身份的实例,并相应地为其分配一个class-id(从1到L也有很多正确预测行人的建议,但不属于我们的目标人群。在这种情况下,我们称之为未标记的身份我们在图3中分别用蓝色和橙色的边界其他建议只是对其他对象或背景区域的错误警报。在损失函数中,我们只考虑了标记和未标记的身份,而不考虑其他建议。3418标记身份未标记身份循环队列JKJK查找表id=1ID=2ID=3ID特征1v1T2v2T3v3Tu1Tu2T…uQ不图3. 在线实例匹配。 左侧部分显示了标记(蓝色)和未标记(橙色)的身份提案, 一个形象我们维护一个查找表(LUT)和一个循环队列(CQ)来存储特征。当转发时,每个标记的身份与所有存储的特征相匹配。当向后时,我们根据id更新LUT,将新特征推送到CQ,并弹出过时的特征。请注意,这两种数据结构都是外部缓冲区,而不是CNN的参数由于我们的目标是区分不同的人,一个自然的目标是最小化同一个人的实例之间的特征差异,同时最大化差异。通过Softmax函数pi=∑exp(vTx/τ)i∑、(1)在不同的人之间。为了实现这一目标,我们需要记住所有人的特征为此可Lj=1 exp(vTx/τ)+Qk=1 exp(uTx/τ)通过对所有训练图像进行网络前向,离线,但当使用随机梯度下降(SGD)进行优化时,这是不切实际的因此,在我们的方法中,我们选择在线近似。表示一个D其中较高的温度τ导致较软的概率分布,报应类似地,在循环队列中被识别为第i个未标记身份的概率为exp(uTx/τ)小批内x∈R的标号恒等式,其中Dqi=∑iΣ。(二)是特征维度,我们维护一个查找表(LUT)V∈RD×L来存储所有标记恒等式的特征Lj=1 exp(vTx/τ)+Qk=1 exp(uTx/τ)如图3所示。 在前向传播期间-OIM目标是最大化期望对数似然在此基础上,我们用VTx计算小批量样本与所有标记身份之间的余弦相似度。在后面-L= Ex [logpt],(3)ward,如果目标class-id是t,那么我们将更新t,通过vt←γvt+(1 −γ)x计算LUT的第11列,其中其相对于x的梯度可以推导为:γ∈[0,1],vt标度为单位L2范数.100万美元∑L∑Q除了标记的身份,许多未标记的身份,(1−pt)vt−pjvj−qk kkk。(四)关系对于学习特征表示也是有价值的。它们可以安全地用作所有xτj=1j=tk=1标记身份。我们使用一个循环队列来存储这些未标记的身份,出现在最近的小批量的功能。用U∈RD×Q表示循环队列中的特征,其中Q是队列长度,我们还可以通过下式计算它们与小批量样本的余弦相似度:UTx.每次迭代后,我们将新的特征向量推入队列,同时弹出过时的特征向量以保持队列大小不变。基于这两种数据结构,我们定义了x被识别为类ID为i的3419可以看出,我们的OIM损失有效地将小批量样本与所有标记和未标记的身份进行了比较,使底层特征向量与目标特征向量相似,同时将其推离其他特征向量。为什么不是Softmax损失?这里一个自然的问题是,为什么不学习一个具有传统Softmax损失的分类器矩阵来预测class-id。主要有两个缺点。首先,大规模的个人搜索数据集将有大量的身份(在我们的训练集中超过5000个),而每个身份只有几个实例3420每张照片只包含几个身份我们需要Source/Split #图片#行人#身份同时学习5000多个判别函数-但是在每次SGD迭代中,我们只有积极的街景12,49075,8456,057几十个班级的样本。 分类器矩阵遭受电影电视5,69420,2982,375从梯度的大变化,因此不能学习培训11,20655,2725,532有效地,即使有适当的预训练和高力矩-测试6,97840,8712,900tum 其次,我们不能利用未标记的身份Softmax损失,因为它们没有特定的类ID。整体18,18496,1438,432虽然我们的OIM损失公式与Soft-max相似,但主要区别在于OIM损失是非参数的将查找表和循环队列视为外部缓冲区,而不是网络参数。梯度直接作用于特征而不通过分类器矩阵进行变换。这种非参数损失的潜在缺点我们发现,将特征投影到L2归一化的低维子空间有助于减少过拟合。可扩展性。计算等式(1)和等式(2)中的配分函数可能是耗时的,身份的增加。为了解决这个问题,我们表1.关于数据源和训练/测试分割的数据集统计0.0080.0070.0060.0050.0040.0030.0020.0010.000可以通过对标记的和未标记的恒等式进行子采样来近似估计器,这导致优化等式(3)的下限。4. 数据集我们收集并标注了一个大规模的个人搜索数据集,以评估我们提出的方法。我们利用两个数据源,以多样化的场景。一方面,我们使用手持相机拍摄城市周围的街道快照。另一方面,我们从包含行人的电影快照中收集,因为它们可以丰富视点,照明和背景条件的变化。在本节中,我们将展示数据集的基本统计数据,并定义评估协议和指标。4.1. 统计在收集了所有18184张图像之后,我们首先对这些场景中的所有96143个行人边界框进行密集注释,然后将出现在不同图像中的人关联起来,得到8432个标记身份。表1列出了两个数据来源的统计数据。我们没有注释那些以半个身体或不正常姿势出现的人,如坐或蹲。此外,在不同视频帧中改变衣服和装饰的人在我们的数据集中没有关联,因为人搜索问题需要主要根据他们的衣服和身体形状而不是脸来识别身份。我们确保背景行人不包含标记身份,因此他们可以安全地作为负样本进行识别。请注意,我们还忽略了高度小于50像素的背景行人,因为即使是人类标签人员也很难识别。标记和未标记100 200 300 400 500 600 700身高(px)图4.我们数据集中标记和未标记身份的高度分布。图4中展示了身份。可以看出,我们的数据集具有丰富的行人尺度变化。4.2. 评估方案和流程我们将数据集分为训练和测试子集,确保它们之间没有重叠的图像或标记的身份。表1显示了这两个子集的统计数据。我们将测试身份实例分为查询和图库。对于2900个测试身份中的每一个,我们随机选择他/她的一个实例作为查询,而相应的图库集由两部分组成--所有包含其他实例的图像和一些随机采样的不包含这个人的图像。不同的查询有不同的图库,它们共同覆盖了所有6978张测试图像。为了更好地理解图库大小如何影响人员搜索性能,我们定义了一组图库大小范围从50到4000的协议。 带廊以100为例,因为每个图像大约包含6个行人,那么我们的任务是在大约600人中找到目标人物。该设置可与现有的个人re-id数据集(例如, 中大-03,VIPeR)在画廊行人的数量方面,甚至更具挑战性,因为可能有数千个背景杂乱的边界框分散了我们的注意力。我们采用两种评价指标-累积匹配特性(CMC top-K)和平均精度(mAP)。第一个问题是从person re-id问题继承而来的,如果在未标记的身份3421所述前K个预测边界框中的至少一个与所述地面实况重叠,其中交并比(IoU)大于或等于0。五、第二个是受目标检测任务的启发。我们遵循ILSVRC对象检测标准[29]来判断预测边界框的正确性根据查准率-查全率曲线计算每个查询的平均查准率(AP),然后我们对所有查询的AP进行平均以获得最终结果。100806040200召回率(%)75.7 79.2 84.25. 实验为了评估我们的方法的有效性,并研究各种因素对人员搜索性能的影响在本节中,我们首先详细介绍第5.1节中的基线方法和实验设置。然后,我们将我们的联合框架与第5.2节中使用单独行人检测和人员重新识别的基线进行比较。第5.3节显示了我们提出的在线实例匹配(OIM)损失的有效性。最后,我们提出了各种因素的影响,包括检测召回率和画廊的大小。5.1. 实验设置我们基于Caffe [16,32]和py-faster-rcnn [9,27]实现了我们的框架。ImageNet预训练的ResNet- 50 [13]用于参数初始化。我们将第一个7×7卷积层和批归一化(BN)层固定为主干中的常数仿射变换部分,而在识别部分中保持其他BN层正常方程中的温度标量τ(1)和方程 (2)设为0。1,则循环队列的大小设置为5,000。所有损失具有相同的损失重量。每个小批次由两个场景图像组成。 学习率初始化为0。001,降至0。0001,并保持不变,直到模型收敛在50K迭代。我们将我们的框架与传统的方法进行比较,这些方法将问题分解为两个单独的任务-行人检测和人员重新识别。在我们的实验中使用了三种行人检测和五种人的re-id方法,产生了15种基线组合。对于行人检测,我们直接使用现成深度学习CCF [37]检测器,以及另外两个专门针对我们的数据集进行微调的检测器。一个是ACF [6],另一个是带有ResNet-50的Faster-RCNN(CNN)[27],它相当于我们的框架,但没有识别任务。我们数据集上每个检测器的召回精度曲线如图5所示。我们还使用地面实况(GT)边界框作为完美检测器的结果。对于人员重新识别,我们使用几种流行的重新识别特征表示,包括DenseSIFT-ColorHist(DSIFT)[42],词袋(BoW)[43]和本地最大值。图5.不同检测器的召回精度曲线。AP列在图例中。[21]第21话每个特征表示都与特定的距离度量结合使用,包括欧几里得,余弦相似性,KISSME [17]和XQDA [21],其中KISSME和XQDA是在我们的数据集上训练的此外,通过丢弃我们框架中的行人建议网络,并训练剩余的网络对裁剪的行人图像进行Softmax损失的身份分类,我们得到了另一种基线re-id方法(IDNet)。在[35]中已经利用这种训练方案来学习区分性的re-id特征表示。在我们的实验中,当使用检测器框训练IDNet时,我们发现添加背景杂波作为唯一类可以改善结果,而添加未标记的身份则不会。如果未指定,则使用方案报告以下结果,图库大小等于1005.2. 与Detection和Re ID的比较我们首先将我们提出的人员搜索框架(使用或不使用未标记的身份)与其他15个基线组合进行比较,这些基线组合将问题分解为单独的检测和重新识别任务。结果总结在表2中。我们的方法远远优于其他方法。与CNN+IDNet相比,其收益来自于检测和识别部分的联合优化,以及OIM损失中未标记身份的有效利用从表2中我们还可以看到,不同的检测器对每个re-id方法的人员搜索性能有显著影响。当在现实世界的个人搜索应用中应用现有的re-id方法时,直接使用现成的检测器可能不是好的选择。否则,检测器可能会成为一个瓶颈,减少更好的re-id方法的回报。另一方面,不同re-id方法的相对性能在所有检测器上是一致的。这意味着现有的person re-id数据集仍然可以指导我们设计更好的特征表示,但它可能会丢失一些有价值的数据,例如未标记的身份和背景杂波,这些数据来自person搜索数据集。(59.9(%)(62.9%)ACF(78.0%)CNN精密度(%)342210080604020010080604020表2.我们的框架和单独的行人检测+人re-id方法之间的比较另一个有趣的现象是,虽然IDNet和LOMO+XQDA在使用01 2 3 4 5迭代次数(x 10 000)图 6. 在 我 们 的 框 架 中 使 用 建 议 的 在 线 实 例 匹 配(OIM)和Softmax损失(有和最终精度和mAP如图例所示。GT或微调ACF和CNN检测器,IDNet是重要的,如果-当使用现成的CCF检测器时,明显更好我们网络丢失CUHK03 Market1501 Duke观察到CCF检测结果包含许多错误-对齐。在这种情况下,手工制作的功能不如IDNet对应的功能那么强大。5.3. 在线实例匹配我们验证了建议的在线实例匹配(OIM)损失的有效性,通过比较它对软最大基线与或不预训练的分类器的martensor。训练识别准确度和测试人员搜索mAP曲线如图6所示。首先,我们可以看到,在没有预训练分类器的情况下使用Softmax损失在整个过程中仍然保持低精度这种现象验证了我们在3.2节中的分析,即学习大型分类器矩阵是困难的。即使有适当的预训练,训练准确率仍然提高缓慢,测试mAP保持在60%左右。相反,建议的OIM损失开始时较低,训练精度,但是收敛快得多,并且还一致地提高了测试性能。无参数OIM损失直接学习特征,而无需学习大型分类器矩阵。此外,训练和测试标准之间的不匹配不再存在,因为两者都是基于L2归一化特征向量的内积计算的,其表示余弦相似性。我们进一步评估OIM损失对标准的影响,Inception Softmax 73.2 75.8 54.4初始OIM77.7 77.9 61.7ResNet-50 Softmax 70.8 81.4 62.5ResNet-50 OIM77.5 82.1 68.1表3.使用Softmax或OIM损失进行标准人员重新识别任务的CMC top-1准确度(%)50 [13](ImageNet预训练),Softmax损失或OIM损失,三个大规模的人re-id数据集,CUHK 03 [19],Market 1501 [43]和Duke [28,48]。福尔-按照他们自己的方案,我们评估了使用不同损失函数的CMC top-1精度,如表3所列。OIM损失始终优于Softmax损失,无论使用哪种基本CNN。我们建议读者参考Open-ReID2基准以了解更多细节。对身份进行二次抽样。随着标识数目的增加,OIM损失的计算时间可能成为整个系统的瓶颈。因此,我们在第3.2节中提出近似方程。(1)和方程(2)通过对分解器中的标记和未标记身份进行子采样。我们在这里通过训练子采样大小为10、100和1000的框架来验证这种方法。测试mAP曲线如图7a所示。dard人re-identification识别task任务. 我们训练两个不同的-ent base CNN,Inception [35](从头开始)和ResNet-2https://github.com/Cysu/open-reid培训ID准确度(%)检测mAP(%)(11.1%)Softmax(85.2%)Softmax+预训练(81.4%)OIM(08.7%)Softmax(58.8%)Softmax+预训练(75.5%)OIMCMC top-1(%)CCFACFCNNGTDSIFT+欧氏11.725.939.445.9DSIFT+KISSME13.938.153.661.9BoW+余弦29.348.462.367.2LOMO+XQDA46.463.174.176.7IDNet57.163.074.878.3我们的(w/o未标记)--76.178.5我们--78.780.5最大平均接入点(%)CCFACFCNNGTDSIFT+欧氏11.321.734.541.1DSIFT+KISSME13.432.347.856.2BoW+余弦26.942.456.962.5LOMO+XQDA41.255.568.972.4IDNet50.956.568.673.1我们的(w/o未标--72.775.53423(72.2(%)次级抽样10(73.0(%)二次抽样100(73.7%)二次抽样1000CCFACFCNN最大平均接入点80 80 90708070607060 506040503050401 2 3 4 5迭代次数(x 10 000)2020 30 40 50 60 70 8090检测召回率(%)4050100200 500100020004000 6978图库大小(对数比例)(a) OIM损失(b) 检测(LOMO+XQDA)回忆(c) 测试图库大小图7.测试不同因素的mAP曲线如适用,最终mAP显示在图例尺寸N/A1282565121024前1名(%)59.365.978.778.278.5最大平均接入点(%)54.262.175.575.375.7表4. L2归一化特征子空间不同维数的比较。N/A意味着我们直接使用L2归一化的2048-d全局池化特征向量。通常,对少量恒等式进行二次采样放松了训练目标,这导致性能稍差,但收敛速度快得多。这表明,我们的框架是可扩展的更大的数据集,甚至更多的身份,通过使用适当的子采样率。低维子空间我们进一步研究了L2归一化特征向量的维度如何影响人物搜索性能。结果总结于表4中。我们观察到,直接使用2048-d全局池化特征向量与L2-归一化可以降低训练误差,但其测试性能要差20%这表明,将特征投影到适当的低秩子空间中对于正则化网络训练非常重要。在我们的实验中,256到1024维具有相似的测试性能,我们选择256维来加速特征距离的计算。5.4. 人员搜索检测召回。我们通过使用LOMO+XQDA作为re-id方法,并设置不同的检测分数阈值,研究了检测重呼对个人搜索性能的影响。较低的阈值减少了误检(增加了召回),但会导致更多的假警报。我们选择的召回率范围从30%到每个检测器的最大值。图7b中展示了每个设置下的最终人员搜索mAP。一个有趣的观察结果是,较高的召回率并不一定会导致较高的人员搜索性能,这意味着re-id方法仍然可能在一些错误的情况警报这再次表明,我们不应该仅仅专注于训练re-id方法与手动裁剪pedestri- ans,但应该考虑在per-son搜索问题设置下联合检测画廊大小。随着画廊规模的增加,个人搜索可能更具挑战性。我们根据4.2节中定义的协议,在不同的测试图库大小(从50到6978张图片)下评估了几种方法。测试mAP如图7c所示。注意,对于每个测试查询,对应的图库图像是从整个集合中随机采样的所有测试图像均覆盖-即使是小画廊的规模。不同方法之间的性能差距随着图库大小的增加而减小,这表明所有方法都可能受到一些共同的硬样本的影响,我们可以通过硬样本挖掘进一步提高性能。6. 结论在本文中,我们提出了一个新的深度学习框架-工作人员搜索。 它在单个CNN中联合处理检测和识别。提出了一种在线实例匹配损失函数来有效地训练网络。它的非参数性质使更快,更好的收敛,这是通过一系列的实验验证。鸣谢。这项工作得到商汤科技集团有限公司的部分支持,部分由香港研究资助局的一般研究基金资助,资助额为CUHK14213616,CUHK14206114,CUHK14205615,CUHK14207814,CUHK14203015,香港中文大学14239816及香港中文大学419412,部分由香港创新及科技支援计划ITS/121/15 FX资助,部分由国家重点发展计划资助2016 YFB 1001004资助,部分由广东省自然科学基金资助2016 YFB 1001004资助。2014 A030313201,部 分由 国家自 然科学 基金61371192资助。(44.0%)LOMO+XQDA(45.3%)IDNet(47.6%)我们的最大平均接入点最大平均接入点3424引用[1] E.艾哈迈德,M。Jones和T. K.标记.一种用于人员重新识别的改进的深度学习架构。CVPR,2015。2[2] Z.蔡,M. Saberian和N.瓦斯康塞洛斯学习复杂性感知级联用于深度行人检测。在ICCV,2015年。2[3] D.郑,Y.贡,S. Zhou,J. Wang,and N.郑基于改进三重损失函数的多通道部分cnn的个体再识别。在CVPR,2016年。2[4] X.朱,W。欧阳,H. Li和X.王.用于姿态估计的结构化特征2016. 1[5] S.丁湖,澳-地Lin,G. Wang和H.赵使用相对距离比较的深度特征学习进行人员重新识别。PR,2015年。2[6] P. 多尔河Appel,S. Belongie和P. 佩洛娜用于对象检测的最后特征金字塔。TPAMI,2014年。二、六[7] P. F. 费尔岑斯瓦尔布河B. Girshick,D.McAllester和D.拉玛南。用有区别地训练的基于部分的模型进行目标检测。TPAMI,2010年。2[8] N. Gheissari,T.B. Sebastian和R.哈特利利用时空外貌重新识别人。CVPR,2006。1[9] R.娘娘腔。快速R-CNN。在ICCV,2015年。三、六[10] D. Gray,S. Brennan和H.涛.评估识别、重新获取和跟踪的在PETS,2007年。1[11] D. Gray和H.涛. 具有局部特征集合的视点不变行人在ECCV。2008年2[12] O. Hamdoun,F.穆塔尔德湾Stanciulescu和B.斯托基于兴趣点描述子的多摄像机身份识别方法。载于ICDSC,2008年。2[13] K.他,X。Zhang,S. Ren和J. Sun.用于图像识别的深度残差学习。在CVPR,2016年。三六七[14] M.希尔策角,澳-地别列兹奈山口M. Roth和H.比肖夫通过描述性和判别性分类进行人员再识别在图像分析中。2011. 1[15] J. Hosang,M.奥姆兰河Benenson和B.席勒仔细观察行人。CVPR,2015。2[16] Y. Jia、E.Shelhamer,J.多纳休S.Karayev,J.隆河,西-地Gir- shick,S. Guadarrama和T.达雷尔。Caffe:用于快速特征嵌入的卷积架构。ACM Multimedia,2014年。6[17] M. Koestinger,M.Hirzer,P.Wohlhart,P.M. Roth和H.比肖夫基于等价约束的大规模度量学习。CVPR,2012。6[18] W. Li和X.王.局部对齐的特征在视图间变换。CVPR,2013。1[19] W. 利河,巴西-地Zhao,T.萧,还有X。王. Deepreid:深度过滤配对神经网络,用于人员重新识别。CVPR,2014。一、二、七[20] X. 李伟S. Zheng,X.Wang,T.Xiang和S.龚多尺度学习用于低分辨率人的重新识别。在ICCV,2015年。2[21] S. 廖,Y.Hu,X.zhu和S.Z. 李基于局部最大发生表示和度量学习的人物CVPR,2015。1、6[22] S. Liao和S. Z.李有效的psd约束非对称度量学习用于人员再识别。在ICCV,2015年。2[23] C. C. Loy,T. Xiang和S.龚多相机活动相关性分析。CVPR,2009。1[24] S.派西特克良格赖角Shen和A.范登亨格尔。学习-ing排名的人重新识别与度量合奏。CVPR,2015。一、二[25] F.波里克利基于相关模型函数的摄像机间色彩校正。载于ICIP,2003年。2[26] B. Prosser,W. S. Zheng,S.龚氏T. Xiang和Q.玛丽.基于支持向量机排序的人员再识别在BMVC,2010年。2[27] S. Ren,K.赫利河Girshick和J.太阳Faster r-cnn:Towardsreal-timeobjectdetectionwithregionproposalnetworks.2015年,在NIPS中。二、三、六[28] E. Ristani,F.索莱拉河邹河,巴西-地Cucchiara和C.托马西多目标、多摄像机跟踪的性能指标和数据集。2016年ECCV研讨会。7[29] O. 鲁萨科夫斯基Deng,H.Su,J.Krause,S.萨蒂希S.妈Z。Huang,黄背天蛾A.卡帕西A.科斯拉,M。Bernstein等人图像网大规模视觉识别挑战。IJCV,2014年。6[30] Y. 沈,W。Lin,J.严,M.徐,J.Wu和J.王. 用对应结构学习进行人的再认同。在ICCV,2015年。2[31] Y. 田,P.Luo,X.Wang和X.唐深度学习语义任务辅助的行人检测CVPR,2015。2[32] L. Wang,Y.Xiong,Z.Wang,Y.Qiao,中国粘蝇D.Lin,X.唐和L.范古尔时间段网络:为深度行动识别提供良好实践。在ECCV,2016年。6[33] X.王.智能多摄像头视频监控:重新审视。模式识别字母,2013年。1[34] X. Wang,G.Doretto,T.Sebastian,J.Rittscher,和P.涂。形状和外观上下文建模。载于ICCV,2007年。2[35] T. Xiao,H.Li,W.欧阳和X.王.学习深度特征表示,具有域引导的丢弃,用于人员重新识别。在CVPR,2016年。一、二、六、七[36] Y.徐湾,澳-地马河,巴西-地Huang和L.是林书通过对人物共性和人物独特性进行联合建模,实现场景中的人物搜索。InACM1[37] B. 杨,J.Yan,Z.Lei和S.Z. 李卷积通道特征。在ICCV,2015年。二、六[38] S.- I. Yu,Y. Yang和A.豪普特曼哈利波特的地图:通过非负离散化定位和跟踪多个感兴趣的人。CVPR,2013。1[39] W. Zajdel,Z. Zivkovic和B.科罗斯跟踪人类:我以前见过这个人吗?载于ICRA,2005年。1[40] L.张丽Lin,X. Liang和K.他外更快的r-cnn在行人检测方面做得好吗?在ECCV,2016年。2[41] S.张河,巴西-地Benenson和B.席勒用于行人检测的过滤通道特征。CVPR,2015。2[42] R. Zhao,W.欧阳和X.王.无监督显着性学习用于人员重3425新识别。CVPR,2013。二、六3426[43] L.郑湖,澳-地申湖,澳-地Tian,S. Wang,J. Wang,and Q.田可扩展的人员重新识别:基准。在ICCV,2015年。一、六、七[44] L.郑惠南Zhang,S.孙,M。Chandraker和Q.田在野外进行人员重新鉴定。arXiv预印本arXiv:1604.02531,2016年。2[45] W.- S. Zheng,S. Gong和T. 翔将人群 联系起来。在BM
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功