没有合适的资源?快使用搜索试试~ 我知道了~
人员搜索:基于图像嵌入和筛选的有效方法
1684QG1G 2G 3人员职位场景嵌入G2G 3G 1保留0.5丢弃检测器g21g 22g 31g 32g 33查询嵌入31g 22g 21g 33g 320.570.890.910.16 0.320.820.46 0.95Q用于人员搜索的加州大学伯克利分校lucasjaffe@berkeley.eduAvidehZakhor UCBerkeleyavz@berkeley.edu摘要在人物搜索中,我们的目标是从一个场景中的其他画廊场景中定位查询人此搜索操作的成本取决于图库场景的数量,这有利于减少可能场景的池。 我们描述并演示了画廊过滤网络(GFN),一个新的模块,它可以有效地从搜索过程中丢弃画廊场景,并有利于在剩余场景中检测到的个人评分我们表明,GFN是强大的,在一系列不同的条件下,通过测试不同的检索集,包括跨相机,闭塞,和低分辨率的情况下。此外,我们开发了基本的SeqNeXt人员搜索模型,它改进和 简 化 了 原 始 的 SeqNet 模 型 。 我 们 表 明 ,SeqNeXt+GFN组合产生显着的性能增益比其他国家的最先进的方法对标准PRW和中大中山大学的人搜索数据集。为了帮助这个模型和其他模型的实验,我们提供了标准化的数据处理和评估管道工具,通常用于人员搜索研究。1. 介绍在人物搜索问题中,使用查询人物图像裁剪来定位场景图像集合中的同现,查询图库1a. 使用嵌入(Emb)模块提取人物和场景嵌入。1b. 查询场景分数使用提取的嵌入的余弦相似性来计算。1c. 使用硬阈值,低得分场景被丢弃:无需进行检测。2a. 对高得分场景执行检测。2b. 从检测到的盒子中提取嵌入。2c. 查询检测相似性分数被计算并与查询场景分数相结合。2d. 综合评分进行排序,以确定最终排名。被称为画廊。这个问题可以分为两部分:1)人检测,其中所有人边界框被定位在每个图库场景内,以及2)每个人重新识别(re-id),其中将检测到的图库每个人裁剪与查询人裁剪进行比较。两步人物搜索方法[5,9,13,19,32,40]明确地用单独的模型处理相反,端到端人员搜索方法[221,23,26,34-对于这两种模型类型,需要执行相同的步骤:1)计算检测器骨干特征,2)检测人边界框,以及3)计算用于检索的每个边界框的特征嵌入。人员搜索模型效率的改进通常是图1:我们提出的两阶段检索干扰管道的说明。在第一阶段,图库过滤网络丢弃不太可能包含查询人物的场景。第二阶段是标准的人检索过程,其中检测人,提取相应的嵌入,并将这些嵌入与查询进行比较以产生排名。专注于降低这些步骤中的一个或多个步骤的成本。我们建议,通过将检索过程分成两个阶段,可以为图库场景的某些子集一起避免第二和第三步骤:场景检索,其次是典型人物检索。该两阶段过程如图1所示。我 们 把 实 现 场 景 检 索 的 模 块 称 为 画 廊 过 滤 网 络(GFN),因为它的功能是:阶段1:场景检索第2阶段:人员检索1685关键是从图库中筛选场景通过在需要检测之前执行更便宜的查询-场景比较,GFN允许用于实际系统的模块化计算流水线,其中一个过程可以确定哪些场景是感兴趣的,并且另一个过程可以仅针对感兴趣的场景检测和提取人物嵌入这可以用作高帧速率上下文中的视频帧的有效过滤器,或者在查询大型图像数据库时廉价地减小搜索空间GFN还提供了一种将全球背景纳入画廊排名过程的机制。我们没有像[9,20所得到的分数不仅可以用于使用硬阈值过滤出图库场景,还可以用于对预测的框分数进行加权,以用于重新计算。maining场景。我们表明,硬阈值和得分加权机制对基准PRW和CUHK-SYSU数据集都是有效的,从而获得了最先进的检索性能(PRW数据集上的前1准确率比以前的最佳模型高出2.7%),并提高了效率(CUHK-SYSU数据集上的每次查询成本节省超过50%,而CUHK-SYSU数据集上的每次查询成本节省超过50%)。没有GFN的型号)。此外,我们还为大多数人搜索方法使用的数据处理和评估框架做出了贡献,这些方法具有公开的代码。该工作在补充材料A节中描述。1.1. 贡献我们的贡献如下:图库过滤网络:一个用于学习查询场景相似性分数的新模块,通过硬阈值有效地减少了检索图库的大小,同时通过分数加权提高了全局场景信息的检测嵌入排名。SeqNet人员搜索模型中的性能改进和不必要元素的删除[21],称为SeqNeXt。用于数据管道和评估框架的标准化工具,通常用于PRW和CUHK-SYSU数据集,可扩展到新数据集。我们所有的代码和模型配置都是公开的1.2. 相关工作人员搜索。从两个基准人物搜索数据集PRW [40]和CUHK-SYSU [35]的发布开始,人们不断开发新的深度学习模型用于人物搜索。大多数方法利用1项目存储库:https://github.com/LukeJaffe/GFN来自[35]的用于re-id特征学习目标的在线实例匹配(OIM)损失几种方法[20,36,39]使用三重态损失的变化增强了这一目标[29]。许多方法对目标检测子模块进行了修改。在[2,20,36]中,使用特征金字塔网络(FPN)[22]的变体来产生用于检测和重新识别的多尺度特征图。[2,36]中的模型基于全卷积一级(FCOS)检测器[30]。在COAT [38]中,Cascade R-CNN风格[1] transformer-augmented [31]检测器用于改进框预测。我们使用单尺度两阶段的变化更快的R-CNN [28]方法来自SeqNet模型[21]。基于查询的搜索空间缩减。在[3,23]中,查询信息用于迭代地细化画廊场景内的搜索空间,直到查询人被定位。在[9]中,区域建议网络(RPN)建议通过与查询的相似性进行过滤,减少了昂贵的RoI池特征计算的建议数量我们的方法使用查询功能来执行粗粒度的,但更有效的搜索空间减少过滤掉昂贵的检测器功能计算之前,完整的场景。查询场景预测。在实例引导建议网络(IVPN)[9]中,全局关系分支用于场景图像中查询存在的二元预测。这在原理上类似于GFN预测,但它是使用昂贵的中间查询场景功能完成的,与我们更便宜的模块化方法相反。骨干变异。虽然SeqNet和大多数其他人员搜索模型中使用的原始ResNet50 [16]主干到目前为止一直有效,但许多更新的架构已经引入。随着视觉变换器(ViT)[10]的出现以及包括Swin Transformer [24]和PSTR每个搜索模型[2]使用的金字塔视觉变换器(v2)[33]在内的一系列然而,CNN模型仍然存在效率差距,包括ConvNeXt [25]在内的新CNN已经缩小了与基于ViT的模型的性能差距,同时保留了卷积层的固有效率出于这个原因,我们探索ConvNeXt作为我们的模型骨干,作为对ResNet50的改进,它比ViT替代品更有效。3. 方法3.1. 基础模型我们的基本人员搜索模型是基于SeqNet的端到端架构[21]。我们对模型主干进行了修改,简化了两阶段检测管道,并改进了训练配方,从而获得了卓越的性能 。 由 于 该 模 型 大 量 继 承 了 SeqNet , 并 使 用 了ConvNeXt基,因此我们将其简称为SeqNeXt,以将其与原始模型区分开来。我们的模型,com-···1686˟2盒评分箱头克莱斯角4conv5Emb头人emb人格特征56x56conv5GFN场景特征场景嵌入Emb头GFN评分GFN Loss:LgfnRCNN评分损失:LclsRCNN盒丢失:Lreg14x1检测器加权RE-ID评分场景范围建议ROI Alignconv4池自适应最大池RPN评分丢失:LclsRPN盒丢失:LregRPNL××−x1+e×··场景conv1-4(骨干)传奇输入共享输出改性损失新re-id评分Re-ID丢失:Lreid图2:使用GFN增强的SeqNeXt人员搜索模型的架构。从SeqNet修改的模块是红色的,与GFN相关的新模块是绿色的。该模型遵循标准的Faster R-CNN范式,来自conv 4的主干特征用于通过RPN生成建议conv4特征被汇集用于RPN建议,并通过conv5头来生成细化的建议。这个过程会对优化后的建议重复进行,以生成最终的盒子。conv4特征也用于以相同的方式生成人物嵌入和场景嵌入:人物框或场景通过池化块,然后是复制的conv5头部,并且conv4,conv5特征被连接并通过嵌入(Emb)头部。在池化块中,RoI Align [15]用于人物和提案特征,而自适应最大池化用于场景特征。GFN分数是使用来自相同或不同场景的人物和场景嵌入生成的。Person re-id分数与第二R-CNN阶段的分数输出相结合,以产生检测器加权分数。与GFN模块结合,如图2所示。主干功能。在SeqNet我们使用类似的层,从ConvNeXt采样,为方便起见也称为conv 1 -4多阶段提炼和推理。我们通过复制Faster R-CNN头[28]来代替Norm-Aware Embedding来简化SeqNet的检测管道。作为里德。 这在图3a中可视化。 对于图3中的所有图表,我们借用了DrLIM[11]中使用的度量学习的弹簧类比,以及吸引和排斥的概念。检测器损失是来自RPN的分类和盒回归损失的总和,以及两个更快的R-CNN阶段,表示为:Ldet=Lm+Lm,M={RPN, RCNN1, RCNN2}(1)(NAE)头[6]。我们仍然使用检测器的输出来加权人的相似性分数,但是使用第二个-m∈MCLSreg阶段类得分,而不是SeqNet中的第一阶段这在图2中被描绘为此外,在推理过程中,我们不使用SeqNet的上下文二分图匹配(CBGM)算法,在补充材料部分E中讨论。增强。在训练时将图像缩放到900 1500(窗口调整大小)之后,我们使用两种具有相等概率的随机裁剪方法之一:1)随机聚焦作物(RFC):在原始图像分辨率中随机地进行512 512裁剪,其包含至少一个已知的人,2)随机安全裁剪(RSC):随机地裁剪图像,使得包含所有的人,然后调整大小512×512 这种种植策略使我们能够训练全损耗是检测器、re-id和GFN损耗的总和:L=Ldet+Lreid+Lgfn(2)3.2. 图库过滤网络我们的目标是设计一个模块,删除低得分的场景,并从高得分的场景中重新加权框。令sreid是预测的图库框嵌入与查询嵌入的余弦相似度,sdet是检测器框得分,sgfn是来自GFN的对应图库场景的余弦相似度,σ(x)=e-x,更大的批量,同时通过改进的正则化来提高性能。在推理时,我们调整到900 1500,就像在其他模型中一样。我们还考虑了随机聚焦裁剪(RFC 2)的一个变体,它可以调整图像的大小,因此Objective. 与其他人搜索模型一样,我们采用在线实例匹配(OIM)损失[35],表示为α是温度常数,λgfn是GFN评分阈值。在推理时,得分低于λgfn的场景被移除,并对剩余场景执行检测,检测到的盒子的最终得分由下式给出:sfinal=sreid sdet σ(sgfn/α)。该模块应尽可能多地区分低于λgfn的场景,同时积极影响来自任何剩余场景的框的得分。为此,我们认为1687Q∈∈||||Q.i、j∈ǁ ǁǁ ǁGFNi、ji、j图3:re-id和GFN优化目标的可视化表示在a)、b)、c)、e)中,圆圈表示场景图像,其包含一个或多个不同的人身份,标记为A和B。我们展示了一个由三个场景组成的系统,其中有两个独特的人物身份。绿色连接器代表吸引力,意味着两个嵌入被一个目标推到一起,红色连接器代表排斥力,意味着两个嵌入被一个目标拉开。在a)中,我们显示了标准的re-id损失目标。在b)中,我们示出了仅场景GFN目标。在c)中,我们示出了基线GFN目标,并且在e)中,我们示出了组合的查询场景GFN目标。在d)中,我们一起示出了基线GFN目标和re-id目标的图形形式,并且在f)中,我们一起示出了组合的查询场景GFN目标和re-id目标的图形形式,其中绿色椭圆包围每个多部分组件中的独立集合除了第3.2.4节中的一些架构和优化考虑之外,第3.2.1-3.2.3节中的标准对比目标[7,27]的三种变化。基线库过滤网络损失对所有查询-场景对上的正对损失求和:N ML =0.000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000i=1j=1(五)基线GFN优化的目标是当人包含在场景中时将每个嵌入推向场景嵌入,并且当人不在场景中时将它们拉开,如图3c所示。设xiRd表示从位于某个场景sj 中 的 每 个 q i 中 提 取 的嵌 入。让yjRd表示来自场景s j的嵌入example。 设X是所有人嵌入xi的集合,Y是所有场景嵌入yj 的 集 合,其中N=X,M=Y。我们定义查询-场景指示器函数来表示正查询-场景对,3.2.2组合查询-场景目标虽然可以使用等式5中的损失直接用人物和场景嵌入来训练GFN,但我们证明了这个目标在没有修改的情况下是不适定的。问题是我们已经建立了一个对立的吸引力和排斥力的系统我们可以通过将系统解释为图G(V,E)来形式化这个概念,如图3d所示。让顶点V对应于人、场景和/或组合的人-场景嵌入,其中连接V中的任何两个节点的E中的边(红色箭头)表示优化对象中使用的负对Ii,j =1,如果qi存在于sj0否则(三)tive.设由绿色虚线箭头连接的任何节点组(不是G中的边)是一个独立的集合,表示优化目标中的正对。然后,每个然后,我们定义一个集合来表示特定位置的索引阳性对和所有阴性对:G的连通分支必须是多部的,或者,最小化问题将是病态的设计,如在Qi、j={k∈1,. . .、M|k=j或IQ= 0}。定义基线目标。sim(u,v)=uTv/ u v,两个u之间的余弦相似度,vRd,τ是温度常数。 则正查询-场景对的损失是交叉熵损失F.Re-Id+GFN 查 询场景(图)的B1一一B3e1e3S1 A1S1 B1S2A 1S3A 1S2 B1S3 B1S1 A2e2S1 B3e4S2 A2S3A 2S2 B3S3 B3场景1A1B 1场景2场景3A2B3S1的B1一B3S2S3D. Re-Id+GFN基线(图)C. GFN基线K3.2.1基线目标B. GFN仅场景场景1场景2的1B1场景3B3e. GFN查询-场景场景1场景1场景2A1B1e1场景3B3场景2A1B1e3场景3B3场景2场景1A1B 1e2场景3B3场景2场景1A1B 1e4场景3B3a. Re-Id场景1场景2一个2的1B1场景3B3传奇吸引力排斥B场景中的人物A场景嵌入由查询嵌入激活B.S1 A1A1A 2场景S1嵌入由查询嵌入A1激活。嵌入A1和A2形成一个独立的吸引集.1688为了了解一个人是否包含在场景中,同时防止这种吸引和排斥的冲突,我们需要在优化之前对查询和场景嵌入一个这样的选择Qexp(sim(xi,yj)/τ)(四)是将单独的查询人嵌入与li,j=−logQexp(sim(xi,yk)/τ)i、j查询场景和图库场景嵌入以产生融合的k∈K1689Si、jSⓈ××C我 KL gfn =100000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000表示。这使我们能够理清查询和场景嵌入之间的交互网络,同时仍然学习所需的关系,如图我们定义场景-场景指示器函数来表示正场景-场景对,3e.用于与一对中的每个场景嵌入融合的人物嵌入被保留颜色,并且对应的场景根据该人物嵌入被着色每-Ii,j=1如果si与sj(9)共有一个nyq0否则未使用的场景中存在的子嵌入类似于3.2.1节,我们定义一个索引集:灰色的Si、j={k ∈ 1,. . . 、M |k = j或IS= 0}。那么损失在图3f所示的基于图的表示中,这种使用查询场景嵌入的修改方案将对于一个积极的场景场景对是交叉熵损失总是会导致一个包含一定数量的星的图Sexp(sim(yi,yj)/τ)(十)图连接组件。 由于这些星图是由-ponents是多方的设计,冲突li,j=−logexp(sim(y,y)/τ)避免了吸引和排斥为了将查询和场景嵌入组合成单个查询-场景嵌入,我们定义函数f:Rd,Rd→仅场景画廊过滤器网络损耗对所有场景-场景对上的正对损耗求和:dxiMR,使得zi,j=f(xi,yj)和wi=f(xi,y),其中L=1000[iISIS(十一)yxi是人i所在场景的嵌入。借鉴SENet [17]和QEEPS[26],我们选择S形激活的元素级激励,用于元素级乘积。GFNi=1j =1其中[i/=j]是1,如果i jelse0。i,j i,j以反映其他嵌入头的架构,以及β是温度常数。f(x,y)=BN(σ(x/β)<$y)(6)对于f,其他选择也是可能的,但是元素级乘积是至关重要的,因为它激发了与场景中的给定查询最相关的特征,从而引出了图3e中所示的关系。正查询-场景对的损失是交叉熵损失3.2.4架构和优化我们考虑了一些设计选择的架构和优化策略的GFN,以提高其性能。架构场景嵌入以与人物嵌入相同的方式提取,除了使用具有自适应最大池化的更大的56 56池化大小与人员池大小为14 14,RoI Align。需要这种较大的场景池大小来充分地概括场景信息,因为场景范围比典型的人边界框大得多。此外,场景conv5头部和Emb头部从对应Cexp(sim(wi,zi,j)/τ)(七)人员模块(无权重共享),如图2所示。li,j=−logQexp(sim(wi,zi,k)/τ)i、j查找表。与OIM目标[35]所用的方法类似,我们使用查找表(LUT)来存储查询-场景组合的图库过滤器网络损失对所有查询-场景对上的正对损失求和:场景和人的嵌入从以前的批次,重新刷新LUT完全在每个时期。我们比较每个批次中的人物和场景嵌入NM梯度,在LUT中嵌入的一些子集,QCi,ji,ji=1j =1(八)它们没有梯度。因此,只有批次内或批次与LUT之间的嵌入比较才具有梯度。3.2.3仅场景物镜作为查询场景目标的控制,我们还定义了一个更简单的目标,它只使用场景嵌入,如图3b所示。该目标试图学习两个场景是否共享任何共同的人的较少区别的概念,并且具有与基线目标相同的冲突吸引和排斥的优化问题在推理时,它的使用方式与其他GFN方法相同。查询原型嵌入。我们可以使用存储在OIM LUT中的身份原型嵌入,而不是直接使用来自给定批次的人员嵌入,类似于[18]。为此,我们在训练期间在OIM LUT中查找给定批次人员身份的相应身份,并将其替换为目标。在这样做时,我们从批量人物嵌入中丢弃梯度,这意味着我们只通过场景嵌入传递梯度,因此只更新场景嵌入模块。在第4.4节的消融中检查了这种选择。.Kk∈Kk∈KSi、j1690××4. 实验和分析4.1. 数据集和评估数据集。对于我们的实验,我们使用两个标准的个人搜索数据集,CUHK-SYSU [35]和野外人员(PRW)[40]。中大中山大学的摄影作品融合了手提摄影机拍摄的影像,以及电影和电视节目的镜头,呈现出丰富多样的视觉效果。它包含18,184个场景图像,其中96,143个人边界框来自跟踪(已知)和未跟踪(未知)的人,具有8,432个已知身份。PRW由来自香港清华大学它能-969492908886848250100 5001000 2000 4000图库大小图4:CUHK-SYSU数据集的图 库 大 小 对 mAP 的 影 响 。SNX-CNB=SeqNeXtConvNeXt碱基。随着画廊规模 的 增 加 , GFN 的 帮 助 更大。闭塞地图top-1SeqNeXt91.189.8SeqNeXt+GFN92.090.9低分辨率地图top-1SeqNeXt91.492.4SeqNeXt+GFN92.093.1表1:使用阻塞(顶部)或低分辨率(底部)查询人员的两 个CUHK-SYSU 检 索 分区的性能指标。从已知和未知的人中获取11,816个场景图像,其中使用43,110个人边界框进行注释,具有932个已知身份。中大-中山大学数据集的标准测试检索分区有2,900个查询人,每个查询的图库大小为100个场景。PRW数据集的标准测试检索分区有2,057个查询人,并使用图库中的所有6,112个测试场景,不包括身份。为了更稳健的分析,我们还将给定的训练集划分为单独的训练集和验证集,在补充材料部分A中进一步讨论。评估指标。在其他作品中,我们使用标准的平均精度(mAP)和前1名的准确性(top-1)的re-id指标。对于检测指标,我们使用召回率和平均精度为0.5 IoU(召回率,AP)。此外,我们显示GFN度量mAP和顶1,这是计算使用GFN分数的场景检索的度量为了计算这些值,我们计算每个场景的GFN分数,并且如果查询人存在于其中,则将图库场景视为与查询的匹配。4.2. 实现细节我们对ResNet模型使用带有动量的SGD优化器,起始学习率为3e-3,对Con- vNeXt模型使用Adam,起始学习率为1 e-4。我们对所有模型进行了30个epoch的训练,在epoch 15和25时将学习率降低了10倍对于所有模型,均将因子修剪为范数模 型 在 单 个 Quadro RTX 6000 GPU ( 24 GBVRAM)上训练,使用最终模型配置的30个epoch训练时间对于PRW数据集需要11小时,对于CUHK-SYSU数据集需要21小时。我们用于消融研究的基线模型具有ConvNeXt Base主干,嵌入维度为2,048,场景嵌入池大小为5656、训练与512 512图像裁剪使用组合裁剪策略(RSC+RFC)。它使用GFN物镜的组合原型功能版本。 最终模型配置-用于与其他最先进的模型进行比较,使用640×640图像裁剪进行训练,使用更改后的COM-组合种植策略(RSC+ RFC 2)。它使用GFN目标的组合批处理功能版本。补充材料部分B中给出了其他实施细节。4.3. 与最新技术水平的我们在表2中显示了最先进的方法在标准基准上的比较。GFN使所有的度量标准都受益,尤其是PRW数据 集 的 top-1 精 度 , ResNet 50 主 干 提 高 了 4.6% ,ConvNeXt Base主干提高了2.9%。我们最好的模型,Se-qNeXt +GFN与ConvNext Base,在PRW上提高mAP1.8%,在CUHK-SYSU上提高mAP 1.2%,超过以前最好的PSTR模型。这一优势延伸到中大-中山大学更大的画廊,如图4所示。事实上,GFN分数加权随着图库大小的增加而更有帮助.这是预期的,因为降低背景不太可能场景的权重的益处,与在单个场景内区分人,当与之相比存在更多场景时具有更大的效果。GFN有利于CUHK-SYSU检索场景与闭塞或低分辨率的查询人,如表1所示。这表明,高质量的查询人的意见是不是必不可少的功能的GFN。GFN还有利于跨相机和相同相机检索,如表3所示。强大的跨相机性能表明,GFN可以推广到不同的位置,并没有简单地选择场景是最视觉上相似的。强大的同相机性能表明,GFN能够使用查询信息,即使所有画廊场景的上下文相似。为了展示这些好处,我们在补充材料C部分提供了一些定性结果。这些例子表明,GFN使用本地人的信息结合全球背景,以提高检索排名,即使在困难的混淆。4.4. 消融研究我们使用PRW数据集进行了一系列消融,以显示检测,re-id和GFN性能如何SNX-CNB GFNSNX-CNBPSTR-PVTPSTR-R50TCTSRDLRAlignPS+DKD最大平均接入1691†检测Re-idGFNGFN目标召回AP地图top-1∆mAP公司简介地图top-1没有一96.093.658.688.7----仅场景96.093.456.591.9-0.9+2.816.173.3基础批次95.793.153.986.6-2.6-2.023.858.4基础原型96.093.655.086.2-3.0-2.722.957.8Comb. 批96.293.659.592.2+1.1+2.920.578.8Comb. 原†96.093.458.892.3+1.1+3.520.478.5End-to-endOIM [35]ResNet5075.578.721.349.4IAN [34]ResNet5076.380.123.061.9NPSM [23]ResNet5077.981.224.253.1RCAA [3]ResNet5079.381.3--CTXG [37]ResNet5084.186.533.473.6QEEPS [26]ResNet5088.989.137.176.7APNet [41]ResNet5088.989.341.981.4HOIM [4]ResNet5089.790.839.880.4Binet [8]ResNet5090.090.745.381.7NAE+[6]ResNet5092.192.944.081.1[18]第十八话ResNet5092.394.744.285.2DKD [39]ResNet5093.194.250.587.1DMRN [14]ResNet5093.294.246.983.3[第12话]ResNet5093.394.253.387.7AlignPS [36]ResNet5094.094.546.182.1SeqNet [21]ResNet5093.894.646.783.4[21]第二十一话ResNet5094.895.747.687.6外套[38]ResNet5094.294.753.387.4COAT+CBGM [38]ResNet5094.895.254.089.1MHGAM [20]ResNet5094.995.947.988.0PSTR [2]ResNet5094.295.250.187.9PSTR [2]PVTv2-B295.296.256.589.7SeqNeXt(我们的)ResNet5094.194.750.886.0SeqNeXt+GFN(我们的)ResNet5094.795.351.390.6SeqNeXt(我们的)ConvNeXt96.196.557.689.5SeqNeXt+GFN(我们的)ConvNeXt96.497.058.392.4表2:比较了最先进的两步模型和端到端ConvNeXt backbone= ConvNeXt Base。方法相同的凸轮ID交叉凸轮内径地图top-1地图top-1HOIM [4]--36.565.0NAE+[6]--40.067.5SeqNet [21]--43.668.5[21]第二十一话--44.370.6[第12话]--48.073.2外套[38]--50.975.1COAT+CBGM [38]--51.776.1SeqNeXt(我们的)82.998.555.380.5SeqNeXt+GFN(我们的)85.198.656.482.1表3:针对来自相同相机(相同相机ID)或不同相机(交叉相机ID)的查询和图库场景的PRW测试集的性能。每一个都受到模型结构、数据增加和GFN设计选择的变化的影响在相应的度量表中,我们通过将GFN修改的分数表示为mAP和top-1以及未修改的mAP和top- 1之间的差异与mAP和top-1之间的差异来显示结果。这一变化体现在,表4:GFN优化目标的不同选项的比较。“None” does not usethe GFN, Scene-Only uses the objective in Section 使用3.2.2节中的query-scene目标,Batch表示使用批处理查询嵌入,Proto表示使用原型查询嵌入。基线模型用†标记,最终模型用灰色突出特别是从GFN得分加权中识别性能为了在表格中指示基线配置,我们使用符号,并突出显示灰色的大多数消融的结果如补充材料部分D所示,包括模型修改、图像增强、场景池大小、嵌入维数和GFN采样。GFN目标。 我们分析了3.2节中讨论的各种GFN目标选择的影响。比较示于表4中。最重要的是,没有GFN的re-id mAP性能相对较高,但re-id top- 1性能远低于最佳GFN方法。相反,仅场景方法实现了有竞争力的re-id top-1性能,但减少了re-id mAP。基础方法被发现比所有其他方法都要差得多,GFN分数加权实际上降低了GFN的性能。组合方法是最有效的,对于re-id和仅GFN统计数据,都优于Base和Scene-Only方法,展示了第3.2.2节中讨论的改进。此外,综合目标的成功可以用两个因素来解释:1)场景嵌入之间的相似关系; 2)查询场景嵌入给出的查询信息。仅使用场景嵌入之间的相似性的仅场景目标是功能性的,但不如使用场景相似性和查询信息两者的组合目标由于仅场景对象结合了背景信息,并且不使用查询信息,因此我们推断组合对象所提供的附加益处来自场景特征的查询激励的所述机制,而不是来自例如,查询背景与图库场景图像的简单匹配最后,发现组合方法和基础方法的批处理和原修改器在性能上相对相似由于Proto方法更简单、更有效,我们将其用于基线模型配置。方法骨干中大中大PRW地图top-1地图top-1两步IDE [40]ResNet50--20.548.3MGS [5]VGG1683.083.732.672.1里昂证券[19]ResNet5087.288.538.765.0[9]ResNet5090.391.447.287.0RDLR [13]ResNet5093.094.242.970.2TCTS [32]ResNet5093.995.146.887.51692∼∼0.200.150.10中大GFN成绩0.200.150.10PRW GFN评分0.050.000.40.50.60.70.050.000.40.50.60.7表5:CUHK-SYSUGFN评分GFN评分(图库大小4,000)和PRW(图库大小全)测试集。图5:CUHK-SYSU和PRW测试集的GFN评分直方图。在中大-中山大学的图库大小设置为4,000,而PRW的图库大小设置为完整时,会显示查询的匹配和不匹配(差异)4.5. 滤波分析GFN评分阈值。我们考虑选择GFN分数阈值,用于在检索过程中过滤出图库场景。在图5中,我们显示了CUHK-SYSU和PRW的GFN得分直方图。我们引入了一个- other指标来帮助分析过滤操作的计算节省:当使用保持99%的正图库场景(召回)的阈值时,可以过滤掉的负图库场景的分数(负预测值)。对于所示的直方图,中大-中山大学的该值为91.4%,而PRW仅为11.5%。简而言之,这是因为中大-中山大学的场景外观比PRW有更大的变化。这导致在来自明显不同环境的场景之间发生CUHK-SYSU评估的大多数查询库比较(例如,两部不同的电影)。虽然GFN分数加权提高了相同相机和跨相机检索的性能,如表3所示,但用于硬阈值的查询场景分数对于几乎相同的场景可能不太具有区分性,如PRW与中大-中山大学,如图5所示。尽管如此,最终PRW模型的GFN top-1得分为78.4%,这意味着78.4%的查询导致正确的图库场景仅使用GFN得分排名第一。计算成本。 在表5中,我们显示了在共享计算、仅GFN计算和仅检测器计算上花费的时间百分比。由于大多数计算时间(60%)花费在检测上,只有(5%)的时间花费在GFN相关的任务上,因此使用GFN通过过滤图库场景来避免检测可以节省大量成本。在实践中究竟节省了多少时间取决于查询的相对数量与画廊大小以及画廊场景中感兴趣的人的密集程度。为了理解单个查询的计算节省,我们展示了一些使用99%的保守召回要求对于中大中山大学,我们有99.9%的图库场景是负面的,91.4%的负面图库场景被过滤,61.0%的时间花费在图库场景上,导致55.7%的计算与不使用GFN的相同型号相比,使用GFN节省的成本。对于PRW,使用GFN进行相同的计算可节省6.6%的计算。5. 结论我们描述并演示了画廊过滤网络,这是一个用于提高人员搜索模型准确性和效率的新模块。我们表明,GFN可以有效地过滤图库场景在一定的条件下,它有利于得分的检测场景中没有过滤。我们表明,GFN是强大的,在一系列不同的条件下,通过测试不同的检索集,包括跨相机,闭塞,和低分辨率的场景。此外,我们表明,GFN分数加权的好处随着画廊大小的增加而增加。另外,我们开发了基本的SeqNeXt人员搜索模型,该模型比原始SeqNet模型具有显着的性能提升。我们提供了相应的训练配方,使用积极的裁剪策略,通过改进的正则化有效地训练。总之,Se-qNeXt +GFN组合产生了优于其他现有技术方法的显著最后,我们注意到GFN并不特定于SeqNeXt,并且可以很容易地与其他人搜索模型相结合。社会影响。 考虑人员搜索模型的潜在负面影响很重要,因为它们是为监视应用准备的。PRW数据集完全由监控图像组成,而CUHK-SYSU数据集包含许多行人的街景图像,这一点非常突出。我们考虑了两个潜在的优势,推进个人搜索研究,并在一个开放的格式。首先,该人员搜索模型可以用于有益的应用,包括帮助寻找失踪人员,以及用于与人类交互的新出现的自治系统,例如,自动化车辆。其次,它允许研究社区了解模型如何在粒度级别上工作,因此有利于在技术被滥用时对抗负面用途的潜力确认作者要感谢Wesam Sakla和Michael Goldman提供了有益的讨论和反馈。匹配差异计数密度匹配差异共享GFN检测骨干查询Emb.场景嵌入GFN评分RPNR-CNN(×2)香港中文大学时间(%)33.7<0.15.3<0.119.241.833.75.361.0PRW时间(%)36.9<0.15.3<0.116.141.736.95.357.81693引用[1] 赵伟蔡和努诺·瓦斯康塞洛斯。Cascade R-CNN:深入研究高质量的对象检测。2018年IEEE/CVF计算机视觉和模式识别会议,第6154-6162页,2018年6月。ISSN:2575-7075。[2] Jiale Cao , Yanwei Pang , Rao Muhammad Anwer ,Hisham Cholakkal,Jin Xie,Mubarak Shah,and FahadShahbaz Khan. PSTR:端到端的一步人搜索与变压器。在IEEE/CVF计算机视觉和模式识别会议论文集,第9458- 9467页[3] Xiaojun Chang , Po-Yao Huang , Yi-Dong Shen ,Xiaodan Liang,Yi Yang,and Alexander G.豪普特曼RCAA:用于人员搜索的相关上下文感知代理。InVitorio Ferrari,Martial Hebert,Cristian Sminchisescu,and Yair Weiss , editors , Computer Vision - ECCV2018 , vol-11213 , pages 86-102. Springer InternationalPublishing- ing,Cham,2018.系列标题:计算机科学讲义。[4] 帝尘,张珊珊,欧阳万里,杨健,Bernt Schi
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Fisher Iris Setosa数据的主成分分析及可视化- Matlab实现
- 深入理解JavaScript类与面向对象编程
- Argspect-0.0.1版本Python包发布与使用说明
- OpenNetAdmin v09.07.15 PHP项目源码下载
- 掌握Node.js: 构建高性能Web服务器与应用程序
- Matlab矢量绘图工具:polarG函数使用详解
- 实现Vue.js中PDF文件的签名显示功能
- 开源项目PSPSolver:资源约束调度问题求解器库
- 探索vwru系统:大众的虚拟现实招聘平台
- 深入理解cJSON:案例与源文件解析
- 多边形扩展算法在MATLAB中的应用与实现
- 用React类组件创建迷你待办事项列表指南
- Python库setuptools-58.5.3助力高效开发
- fmfiles工具:在MATLAB中查找丢失文件并列出错误
- 老枪二级域名系统PHP源码简易版发布
- 探索DOSGUI开源库:C/C++图形界面开发新篇章
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功