没有合适的资源?快使用搜索试试~ 我知道了~
超越零件模型:使用细化部件池的人员检索(and强卷积基线)孙一凡1、梁铮2、杨毅3、田琦4、王胜金1、1清华大学电子工程系2澳大利亚国立大学计算机科学研究院3澳大利亚悉尼科技大学人工智能中心4(1)HuaweiNoah网址:sunyf15@mails.tsinghua.edu.cn,wgsgj@tsinghua.edu.cn抽象。采用局部特征为行人图像提取提供了细粒度的信息,而局部发现的前提是要准确定位每个局部。而不是利用外部资源与姿态估计器类似,我们考虑每个部分内的内容一致性以获得精确的部分位置。具体来说,我们的目标是学习判别部分知情的功能,人检索,并作出两个贡献。(i)一种称为基于零件的卷积基线(PCB)的网络。给定图像输入,它输出由若干部分级特征组成的卷积描述符。通过统一的分区策略,PCB实现了与最先进的方法竞争的结果,证明了自己是一个强大的卷积基线的人检索。(ii)一种改进的部分合并(RPP)方法。均匀划分不可避免地在每个部分中产生离群值,这些离群值实际上与其他部分更相似。RPP将这些离群值重新分配给它们最接近的部件,从而产生具有增强的部件内一致性的细化部件。实验证明,RPP可以使PCB获得新一轮的性 能 提 升 。 例 如 , 在 Market-1501 数 据 集 上 , 我 们 实 现 了(77.4+4.2)% mAP和(92.3+1.5)% rank-1准确度,大大超过了现有技术代码可在:https://github.com/syfafterzy/PCB_RPP关键词:人物检索,零件级特征,零件求精1介绍人检索,也称为人重新识别(re-ID),目的是在给定查询感兴趣的人的情况下,在大型数据库中检索指定行人的图像目前,深度学习方法在这个社区中占主导地位,与手工制作的竞争对手相比具有优势[44]。深度学习的表示提供高辨别能力,特别是当从深度学习的零件特征聚合时。关于re-ID基准的最新技术水平是通过部分知情的深度特征实现的[39,31,41]。通讯作者2Y. Sun等人Fig. 1.人物检索中几种深层模型的划分策略。(a)至(e):分别通过GLAD[35]、PDC [31]、DPL [39]、Hydra-plus [25]和PAR [41]划分的部分。(f)我们的方法采用均匀分区,然后细化每个条带。B.PAR[41]和其他内容“软”页,但这些内容与[ 41 ]有显著差异学习区分性零件特征的一个必要前提是零件应被准确定位。最近的最先进的方法在它们的分离策略上有所不同,并且可以相应地分为两组 第一组[42,31,35]利用外部线索,例如, 人类姿势估计的辅助[26,36,16,29,2]。它们依赖于外部人体姿势估计数据集和复杂的姿势估计器。姿态估计和人物检索之间的底层数据集偏差仍然是对人物图像进行理想语义划分的障碍另一组[39,41,25]放弃从语义部分的线索它们不需要部件标签,但与第一组相比,其准确性具有竞争力。图中比较了一些分区策略1.一、在学习部件级深度特征取得进展的背景下,我们重新思考了什么使部件对齐良好的语义分区可以提供稳定的线索,以良好的对齐,但易于噪声姿态检测。本文从另一个角度出发,强调了各部分内部的一致性,认为这对空间对齐至关重要。然后,我们到达我们的动机,给出粗划分的部分,我们的目标是细化它们,以加强部分内的一致性。具体而言,我们做出以下两项贡献:首先,我们提出了一个名为基于零件的卷积基线(PCB)的网络,它进行统一的分区上的conv-layer学习零件级的功能。它不会显式地对图像进行分区。PCB将整个图像作为输入并输出卷积特征。作为一个分类网,PCB的体系结构简洁,对骨干网略有修改培训程序是标准的,不需要花里胡哨。我们表明,卷积描述符比常用的全连接(FC)描述符具有更高的判别能力例如,在Market-1501数据集上 , 性 能 从 85.3% 的 rank-1 准 确 率 和 68.5% 的 mAP 提 高 到 92.3%(+7.0%)的rank-1准确率和77.4%(+8.9%)的mAP,大大超过了许多最先进的方法。超越零件模型:使用细化零件池的人员检索3其次,我们提出了一个自适应池方法命名为细化部分池(RPP),以改善均匀划分。我们考虑的动机是,在每个部分的内容应该是一致的。我们观察到在均匀划分下,每个部分都存在离群点。事实上,这些离群值更接近其他部分的内容,这意味着部分内的不一致。因此,我们通过将这些离群值重新定位到它们最接近的部分来细化均匀分区,从而加强部分内的一致性。细化部分的示例在图1中示出。1(f). RPP不需要零件标签进行训练,并且在PCB实现的高基线上提高了检索准确性。例如,在Market-1501上,RPP进一步将性能提高到93.8%(+1.5%)的rank-1准确度和81.6%(+4.2%)的mAP。2相关作品用于人员检索的手工制作的零件特征。在深度学习方法主导re-ID研究社区之前,手工算法已经开发出了学习部分或局部特征的方法 Gray和Tao [13]将行人划分为水平条纹以提取颜色和纹理特征。类似的分区,然后通过许多工程[9,45,28,23]。其他一些作品采用了更复杂的策略。 Gheissari等人 [12]将行人划分为若干个三角形进行局部特征提取。Cheng等人[4]采用图像结构将行人解析为语义部分。 Das等人 [6]在头部、躯干和腿部应用HSV直方图以捕获空间信息。深入了解零件特征。大多数人检索数据集的最新技术水平目前由深度学习方法维护[44]。当学习用于重新ID的零件特征时,深度学习优于手工制作的算法的优点是双重的。首先,深度特征通常获得更强的区分能力。其次,深度学习提供了更好的工具来解析pedes-trians,这进一步有利于零件特征。特别是,人体姿态估计和地标检测已经取得了令人印象深刻的进展[26,29,2,36,16]。最近在re-ID中的几项工作采用这些工具进行行人分区,并报告了令人鼓舞的改进[42,31,35]。然而,当以现成的方式直接利用这些姿态估计方法时,用于姿态估计和人物检索的数据集之间的潜在差距仍然是一个问题。其他人则放弃了分割的语义线索 Yao等人 [39]在特征图上聚类最大激活的坐标,以定位几个感兴趣的区域。 Liu et al. [25]和Zhao et al. [41]在网络中嵌入注意力机制[38],允许模型自己决定关注哪里。具有注意机制的深刻学习部分。本文的一个主要贡献是细化部分池。我们将它与最近的工作PAR进行了[39]赵等详细介绍。这两个作品都采用了一个部分分类器来进行“s of t”的部分对pedestri an image s的处理,如图所示。1.一、这两种方法的优点是不需要部分标记来学习区分部分。然而,在这方面,这两种方法的动机、训练方法、机制和最终表现都有很大不同,下面将详细说明4Y. Sun等人图二. PCB的结构。输入图像从主干网络向前通过堆叠的卷积层以形成3D张量T。PCB用常规池化层替换原始全局池化层,以在空间上将T下采样为p个列向量g。下面的1× 1内核大小的卷积层减小了g的维数。最后,将每个降维的列向量h分别输入到分类器每个分类器通过全连接(FC)层和顺序Softmax层来实现g或h的p个片段被连接以形成输入图像的最终描述符。动机:PAR旨在直接学习对齐的部分,而RPP旨在细化预分区的部分。工作机制:PAR采用注意力方法对零件分类器进行无监督训练,而RPP的训练可以看作是一个弱监督的过程。训练过程:RPP首先训练一个均匀划分的身份分类模型,然后利用学习到的知识诱导部分分类器的训练表现:稍微复杂一点的训练程序可以使RPP获得更好的解释和更高的表现。以Market-1501为例,PAR、PCB协同注意机制和RPP实现的mAP分别为63.4%、74.6%和81.6%此外,RPP具有与各种分区策略合作的潜力3该方法秒3.1首先提出了基于部分的卷积基线(PCB)。PCB在卷积特征上采用均匀划分的简单策略。秒3.2描述了部分内不一致的现象,它揭示了均匀划分的问题。秒3.3提出了改进的部分池化(RPP)方法。RPP通过对卷积特征进行像素级细化来减少分区误差。RPP还具有学习功能,无需零件标签信息,详见第2节。三点四分。3.1PCB:基于部件的卷积基线骨干网络。PCB可以采用任何没有为图像分类设计的隐藏全连接层的网络作为骨干,例如,Google Inception[33]和ResNet [14]。本文主要采用ResNet50,考虑到其具有竞争力的性能以及其相对简洁的架构。超越零件模型:使用细化零件池的人员检索5从主干到PCB。我们将骨干网络重塑为PCB,并进行了轻微修改,如图所示。二、原始全局平均池化(GAP)层之前的结构被保持与骨干模型完全相同不同之处在于,GAP层和后续层被移除。当图像经历从主干网络继承的所有层时,它变成激活的3D张量T。在本文中,我们定义的向量激活沿通道轴作为一个列向量。然后,利用常规的平均池化,PCB将T分割成p个水平条带,并将同一条带中的所有列向量平均成单个部分级列向量gi(i=l, 2,...,p,除非必要,否则将省略下标之后,PCB采用卷积层来降低g的维数。根据我们的初步实验,降维的列向量h被设置为256-dim。最后,每个h被输入到分类器中,该分类器用全连接(FC)层和随后的Softmax函数来实现,以预测输入的身份(ID)。在训练期间,通过最小化p个ID预测上的交叉熵损失的总和来优化PCB。在测试期间,g或h的p个片段被级联以形成最终描述符G或H,即,G=[g1,g2,· · ·,gp]或H=[h1,h2,· · ·,hp1]。正如我们在实验中所观察到的,采用G实现了略高的准确性,但计算成本更大,这是一致的在[32]中观察。重要参数。PCB受益于细粒度的空间集成。 几个关键参数,即,输入图像尺寸(即,,[H,W])、张量T的空间大小(即,、[M,N])和合并列向量的数目(即,,p)对PCB的性能是重要的。注意,[M,N]由骨干模型的空间下采样率确定,给定固定大小的输入。 一些深度对象检测方法,例如SSD [24]和R-FCN [5]的研究表明,降低骨干网络的下采样率有效地丰富了特征的粒度。PCB通过移除骨干网络中的最后一个空间下采样操作来增加T的大小来跟随它们的成功。这种操作大大提高了检索的准确性,增加了非常轻的计算成本。详情可参见第4.4节。通过我们的实验,PCB的优化参数设置为:– 输入图像的大小调整为384× 128,高宽比为3:1。– T的空间大小设置为24 ×8。– T被等分成6个水平条纹。3.2部件内不一致PCB的均匀划分是一种简单、有效的方法,但仍有待改进。它不可避免地将分区误差引入到每个部分,并且因此损害了学习特征的区分能力。我们从一个新的角度来分析分区错误:内部不 一致。6Y. Sun等人图3.第三章。部件内不一致性的可视化T. 左:在训练期间T被均等地分割成p右:T中的每个列向量都用一个小矩形表示,并以其最近部分的颜色绘制。针对待空间划分的张量T,我们对部分内不一致性的直觉是:T的同一部分中的列向量f应该彼此相似,并且与其他部分中的列向量不同;否则会出现部件内不一致的现象,这意味着部件被不适当地划分。在训练PCB收敛之后,我们比较每个f和gi(i = 1,2,···,p)之间的相似性,即,通过测量余弦距离,求出每个部分的平均合并列向量通过这样做,我们找到了最接近每个f,如图所示。3.第三章。每个列向量由一个小矩形表示,并以其最近部分的颜色绘制。我们观察到存在许多离群值,而在训练期间指定到指定的水平条纹(部分),其与另一部分更相似。这些离群值的存在表明,它们本质上与另一部分中的列向量更加一致3.3细化部件合并我们提出了改进的部分池(RPP),以纠正部分内的不一致。我们的目标是根据它们与每个部分的相似性分配所有列向量,以便重新定位离群值更具体地,我们定量地测量列向量f与每个部分Pi之间的相似性值S(fPi)。然后,根据相似度值S(fPi)将列向量f采样到部分Pi中,其由下式表示:Pi={S(fPi)f,f∈F},(1)其中F是张量T中的列向量的完整集合,{·}表示形成聚合的采样操作。直接测量给定f和每个部分之间的相似性值是不平凡的。假设我们已经执行了在Eq中定义的采样操作。 1对于更新的数据库,“已创建”的简单方法不再是原来的方法,而且更多。 我们已经迭代地将该“简单”算法执行为“uring”-“sam pling”过程直到收敛,这演化出嵌入深度学习中的非平凡聚类。超越零件模型:使用细化零件池的人员检索7exp(Wf)J见图4。PCB与改进的部件池相结合。当我们关注空间分区时,3D张量T简单地由矩形而不是立方体表示。T之前的层被省略,因为它们与图相比保持不变二、零件分类器预测每个列向量属于p个零件的概率然后以相应的概率作为采样权值从所有列向量中采样每个部分GAP表示全局平均池化。因此,RPP不是测量每个f和每个Pi之间的相似性,而是采用部分分类器来预测S(fPi)的值(也可以解释为f属于Pi的概率),如下所示:不S(fPi)=softmax(WTf)=i,(2)iΣpj=1exp(WTf)其中p是预定义部分的数量(即,,在PCB中p=6),W是零件分类器的可训练权重矩阵。所述可选择的重新定义的分区将重新定位数据的“s”和自适应分区以重新定义或初始“har”和统一分区,并且将重新定位来自统一分区的其他存储器或初始。结合上述改进的部分池化,PCB进一步被重塑为图1。4.第一章 细化部件合并,即部分分类器连同以下采样操作一起替换原始平均池化。所有其他层的结构完全保持不变与图中相同。二、必须在没有零件标签信息的情况下学习W。为此,我们设计了一个诱导训练程序,如以下第3.4节所述。3.4零件分类器的诱导训练所提出的诱导训练的关键思想是:在没有部件标签信息的情况下,我们可以使用预先训练的PCB中已经学习的知识来诱导新附加的部件分类器的训练。算法如下。– 首先,标准PCB模型被训练为与T相等地分割的收敛。– 第二,我们去除T之后的原始平均池化层,并在T上附加p-类别部分分类器。根据部件分类器的预测从T中采样新部件,如第3.3节中所详述。8Y. Sun等人– 第三,我们将PCB中所有已经学习的层设置为固定的,只留下部分分类器可训练。然后我们在训练集上重新训练模型。在这种情况下,模型仍然期望张量T被相等地分割,否则它将预测不正确的训练图像的身份。因此,步骤3惩罚部分分类器,直到其进行接近于原始均匀分区的分区,而部分分类器倾向于将固有相似的列向量分类到相同的部分中。作为步骤3的结果,将达到平衡状态。– 最后,允许更新所有层。全网,即、PCB以及部件分类器被微调以用于整体优化。在上述训练过程中,在步骤1中训练的PCB模型诱导部件分类器的训练。第3步和第4步收敛得非常快,总共需要10多个epoch算法一:零件分类器的诱导训练步骤1. 一个标准的PCB被训练成以均匀划分收敛步骤2.在张量T上附加p-范畴部分分类器.步骤3. PCB的所有预训练层都是固定的。只有零件分类器是可训练的。训练模型直到再次收敛。步骤4.整个网络被微调到收敛,以实现整体优化。4实验4.1数据集和设置数据集。我们三个数据集进行评估,即。、Market-1501 [43]、DukeMTMC-reID [30,47]和CUHK 03 [19]。Market-1,501数据集包含在6个摄像机视点下观察到的1,501个身份,DPM检测到的19,732个图库图像和12,936个训练图像[10]。DukeMTMC-reID数据集包含1,404个身份,16,522个训练图像,2,228个查询和17,661个图库图像。DukeMTMC-reID由8台摄像机拍摄了如此多的图像,是迄今为止最具挑战性的re-ID数据集之一。CUHK03数据集包含13,164张图像,包含1,467个身份。每个标识由2个摄像机观察。CUHK03提供了手工标记和DPM检测的边界框,本文中我们使用后者。CUHK 03最初采用20个随机的训练/测试分割,这对于深度学习来说非常耗时。因此,我们采 用 了 [48] 中 提 出 的 新 的 训 练 / 测 试 协 议 。 对 于 Market-1501 和DukeMTMC-reID,我们分别使用[43]和[47]提供的评估包。所有实验都评估单查询设置。此外,为了简单起见,我们不使用显著改善mAP的重新排序算法[48]。我们的研究结果与报告的结果相比,没有重新排名。超越零件模型:使用细化零件池的人员检索94.2实现细节实现IDE进行比较。我们注意到,IDE模型规范-[44]中的字段是深度re-ID系统中常用的基线[44,42,37,11,32,46,47,49]。与所提出的PCB相比,IDE模型学习全局描述符。为了比较,我们在同一骨干网络上实现了IDE模型,即。,ResNet50,并对[44]中的原始算法进行了几次优化,如下所示。1)在ResNet50中的“pool5”层之后附加FC层的输出尺寸设置为256-dim. 2)我们在“pool5”层上应用dropout。虽然在“pool5”层中没有可训练的参数我们根据经验将脱落率设置为0.5。在Market-1501上,我们实现的IDE实现了85.3%的rank-1准确度和68.5%的mAP,这比[49]中的实现略高。实现两种潜在的PCB替代结构以供比较。给定相同的骨干网络,存在几种潜在的替代结构来学习部件级特征。 我们列举了两种结构与PCB进行比较。– 变式1.代替基于每个hi(i = l,2,...,p)进行ID预测,它将所有hi平均为单个向量h,然后将其完全连接到ID预测向量。在测试期间,它还连接g或h以形成最终的描述符。 变体1的特征在于在单次丢失下学习卷积描述符。– 变式2.它采用与图中PCB完全相同的结构二、然而,变型2中的FC分类器的所有分支共享相同的参数集训练通过水平翻转和归一化来增强训练图像。我们将批量大小设置为64,并在60个时期训练模型,基本学习率初始化为0.1,40个时期后衰减为0.01骨干模型在ImageNet上进行了预训练[7]。所有预训练层的学习率被设置为0。基础学习率的1倍。当采用改进的部分池进行提升时,我们附加另外10个epoch,学习率设置为0.01.使用两个NVIDIA TITAN XP GPU和Pytorch作为平台,在Market-1501(12,936个训练图像)上训练IDE模型和标准PCBPCB的训练时间增加主要是由于取消了Conv5层中的最后一次空间下采样操作,这将张量T放大了4倍。4.3绩效评价我们在三个数据集上评估了我们的方法,结果见表4.3。对均匀分配(PCB)和细化部分合并(PCB+RPP)进行了测试。10Y. Sun等人表1.所提出的方法与IDE和2种变体的比较。pool5:ResNet50中Pool5层的输出FC:附加FC层的降维输出G(H):用列向量g(h)组装的特征表示g和h都在图1中示出。2模型特征昏暗Market-1501dukemtmc-ReidCUHK03R-1地图R-1地图R-1地图IDEpool5204885.368.573.252.843.838.9IDEFC25683.867.772.451.643.338.3变体1G1228886.769.473.953.243.638.8变体1H153685.668.372.852.544.139.1变体2G1228891.275.080.262.852.645.8变体2H153691.075.380.062.654.047.2PCBG1228892.377.481.766.159.753.2PCBH153692.477.381.965.361.354.2PCB+RPPG1228893.881.683.369.262.856.7PCB+RPPH153693.181.082.968.563.757.5PCB是一个强有力的基线。比较PCB和IDE(许多作品中先前常用的基线)[44,42,37,11,32,46,47,49],我们清楚地观察到PCB的显著优势:三个数据集上的mAP分别从68.5%,52.8%和38.9%增加到77.4%(+8.9%),66.1%(+13.3%)和54.2%(+15.3%),活泼地这表明,集成零件信息增加了特征的区分能力。PCB的结构和IDE一样简洁,训练PCB只需要训练一个规范的分类网络。我们希望它能作为人物检索任务的基线。精炼部件池(RPP)改善了PCB,尤其是在mAP中。从表4.3,而PCB已经有一个高精度,RPP带来了进一步的改善,它。在三个数据集上,秩-1准确度的改善为+1.5%,分别为+1.6%、+3.1%; mAP改善为+4.2%、+3.1%、+3.5%。mAP的改进大于秩-1准确度。事实上,rank-1准确度表征了在相机网络中检索最简单匹配的能力,而mAP指示找到所有匹配的能力。因此,结果表明RPP在寻找更具挑战性的匹配方面特别有益使用P损失的好处。为了验证图中p2,我们将我们的方法与变体1进行比较,变体1在单个分类丢失下学习表4.3表明,变体1产生的准确度比PCB低得多,这意味着对每个部件采用相应的损失对于学习区分性部件特征至关重要。身份分类器之间不共享参数的好处。 图2、PCB在Softmax丢失之前将每个列向量h输入到FC层我们将我们的提议(不共享FC层参数)与变型2(共享FC层参数)进行比较。根据表4.3,在三个数据集上,PCB分别比变体2高2.4%、3.3%和7.4%这表明在最终FC层之间共享参数是较差的。超越零件模型:使用细化零件池的人员检索11表2.所提出的方法与Market-1501上的现有技术的比较。比较的方法分为3组。第1组:手工制作方法。第2组:使用全局特征的深度学习方法。第3组:采用零件特征的深度学习方法。* 表示需要辅助部件标签的部件。我们的方法不是“P CB“和方法R-1R-5R-10地图[17]第四十七话:我的世界KLFDA[18]44.445.246.563.968.171.172.276.079.920.8--SOMAnet[1]73.9--47.9SVDNet[32]82.392.395.262.1三重损失[15]84.994.2-69.1DML [40]87.7--68.8[50]第五十话88.1--68.7多区域[34]66.485.090.241.2客房[41]81.092.094.763.4[20]第二十话83.9--64.4PDC*[31]84.492.794.963.4多尺度[3]88.9--73.1GLAD*[35]89.9--73.9[21]第二十一话91.2--75.7PCB92.397.298.277.4PCB+RPP93.897.598.581.6与现有技术的比较。我们将PCB和PCB+RPP与现有技术进行比较。表2中详述了与Market-1501的比较。比较的方法分为三组,即。、手工方法、全局特征深度学习方法和局部特征深度学习方法。仅依赖于均匀分区,PCB超越了所有现有方法,包括[31,35],其需要辅助部件标记以故意对齐部件。性能领先进一步扩大了建议的细化部分池。DukeMTMC-reID和CUHK 03(新培训/测试方案)的比较总结见表3。在比较的方法中,PCB在两个数据集上的mAP分别超过[3]+5.5%和17.2%。PCB+RPP(精细部件池化)进一步超过其+8.6%mAP的大幅幅度DukeMTMC-reID和CUHK 03上+20.5%mAP。PCB+RPP产生更高的准确度,“Tr i Ne t + E r a”和“S VD Ne t + E ra”[ 4 9 ],而其特征在于额外的数据增强。在本文中,我们报告mAP= 81.6%,69.2%,57.5%和Rank-1对 于 Market-1501 、 Duke 和 CUHK 03 , 分 别 为 93.8% 、 83.3% 和63.7%,在三个数据集上设定了新的最新技术水平。所有结果都是在单次查询模式下实现的,无需重新排序。重新排序方法将进一步提高性能,特别是mAP。例如,当“P_C_B+R_PP”与[48]中的方法合并时,市场1501上的m_AP和R_AN-1的准确性分别增加到91.9%和95.1%。12Y. Sun等人表3.与现有技术在DukeMTMC-reID和CUHK 03上的比较。显示了秩-1准确度(%)和mAP(%)方法dukemtmc-ReidCUHK03秩-1地图秩-1地图[43]第四十三话25.112.26.46.4[23]第二十三话30.817.012.811.5GAN [47]67.747.1--SVDNet [32]76.756.841.537.3多尺度[3]79.260.640.737.0[49]第四十九话79.362.448.743.5[50]第五十话75.353.5--[21]第二十一话80.563.841.738.6PCB(UP)81.866.161.354.2PCB(RPP)83.369.263.757.54.4参数分析我们分析了3.1节中介绍的PCB(以及RPP)的一些重要参数。一旦优化,相同的参数用于所有三个数据集。图像的大小和张量T。我们将图像大小从192× 64变化到576×192,使用96× 32作为间隔。测试两个下采样率,即原始速率和减半速率(较大的T)。我们在PCB上训练所有这些模型,并在图中报告它们的性能。五、观察到两种现象首先,较大的图像尺寸有利于学习的零件特征。mAP和秩-1准确度都随着图像大小而增加,直到达到稳定的性能。第二,较小的下采样率,即,张量的较大空间大小T增强了性能,尤其是在使用相对较小的图像作为输入时。在图5(a)中,使用384× 128输入和减半的下采样率的PCB实现了与使用576× 192输入和下采样率的PCB几乎相同的性能。(a) 尺寸的影响(b)p的影响图五.参数分析(a):图像大小的影响。我们使用原始和减半的下采样率。(b):零件数量p的影响。我们比较了PCB和没有细化的部分池。超越零件模型:使用细化零件池的人员检索13见图6。不同p值下细化部分的可视化。当p= 8或12时,一些部分与其他部分重复或变为空。原始下采样率。考虑到计算效率,我们推荐将下采样率减半的操作。部分P的数量。直观地说,p决定了零件特征的粒度当p=1时,学习的特征是全局特征。 随着p的增加,检索精度首先提高。然而,精度并不总是随着p的增加而增加,如图所示。5(b)。当p= 8或12时,性能显著下降,无论是否使用细化的部分池化。细化部分的可视化提供了对这种现象的见解,如图所示六、当p增加到8或12时,一些细化部分与其他部分非常相似,并且一些细化部分可能会塌陷为空部分。结果,过度增加的p实际上损害了零件特征的辨别能力在实际应用中,我们建议使用p= 6的器件。4.5诱导与注意机制在这项工作中,当在Alg. 1,需要用均匀分区预先训练的PCB。在均匀划分下学习的知识诱导了零件分类器的后续训练在没有PCB预训练的情况下,网络在没有诱导的情况下学习划分T,并且变得类似于由注意力机制驱动的方法。 我们在Market-1501和DukeMTMC-reID上进行消融实验以比较这两种方法。结果见表4,从中可以得出三个观察结果。首先,无论在PCB中应用哪种分区策略,它都显着优于PAR [41],PAR通过注意力机制学习分区。第二,注意机制也是基于PCB的结构。在“RPP(w /o i ndu c t i on)”设置下,这两个工作通过注意机制对各个部分进行了知识的学习,并取得了实质性的14Y. Sun等人表4.上市诱导消融研究PAR学习关注几个部分来区分具有注意机制的人。RPP(w/o induction)表示没有用于学习细化部分的诱导,并且网络学习关注具有注意机制的几个部分。在PCB方法Market-1501 dukemtmc-Reid秩-1地图秩-1地图客房[41]81.063.4--IDE85.368.573.252.8RPP(无诱导)88.774.678.860.9PCB92.377.481.766.1PCB+RPP93.881.683.369.2通过IDE,它学习全局描述符。第三,入职程序(PCB培训)至关重要。当零件分类器在没有归纳的情况下训练时,检索性能与“P C B+ R PP”相比显著下降。这表明,通过注意机制学习的部分优于通过注意机制学习的部分。具有诱导和注意机制的分区结果在图中可视化。1.一、此外,为了在没有标记信息的情况下学习部分分类器,我们将RPP与从中级元素挖掘[22,27,8]导出的另一种潜在方法进行了比较。具体来说,我们遵循[8],为张量T上的每个条纹分配一个伪部分标签来训练部分分类器。然后,我们将训练好的零件分类器在T上滑动,以预测T上的每个列向量与每个零件之间的相似性。预测的相似性值用于细化PCB的均匀分区的条带,如在RPP中相同。上述方法在Market-1501(DukeMTMC-reID)上实现了93.0%(82.1%)的秩-1准确度和79.0%(66.9%)的mAP。它也改善了PCB,但不如RPP。我们猜测RPP的优越性源于:在没有部分标签的情况下,RPP的部分分类器和ID分类器被联合优化以识别训练身份,从而获得更好的行人区分能力。5结论本文对解决行人检索问题做出了两方面的贡献。首先,我们提出了一个基于部分的卷积基线(PCB)学习部分通知的功能。PCB采用简单的统一分区策略,并将部分信息特征组装到卷积描述符中。PCB将最新技术水平提升到一个新的水平,证明自己是学习部件信息功能的强大基线。尽管PCB具有均匀分区简单有效,有待改进。我们提出了改进的部分池,以加强在每个部分内的一致性。细化后,相似的列向量归纳为同一部分,使每个部分内部更加一致。精细化的部件池不需要部件标签信息,大大改善了PCB。超越零件模型:使用细化零件池的人员检索15引用1. Barbosa,I.B.,Cristani,M.,Caputo,B.,Rognhaugen,A.,Theoharis,T.:超越表象:用于深度cnns再识别的合成训练数据。arXiv预印本arXiv:1701.03153(2017)2. Cao,Z.,Simon,T.Wei,S.E.,Sheikh,Y.:利用局部仿射场进行实时多人二维姿态估计在:CVPR(2017)3. 陈玉,Zhu,X.,龚,S.:通过深度学习多尺度表示进行人员重新识别。在:在计算机视觉国际会议,研讨会跨领域人类身份识别(CHI)(2017)4. Cheng,D.S.,Cristani,M.,Stoppa,M.,巴扎尼湖穆里诺,五:用于重新识别的自定义图形结构。03 The Dog(2011)5. Dai,J.,李,Y.,他,K.,孙杰:R-FCN:通过基于区域的全卷积网络进行对象检测。在:NIPS(2016)6. Das,A.,Chakraborty,A.,Roy-Chowdhury,A.K.:摄像机网络中的一致性重新识别Springer International Publishing(2014)7. Deng,J.,Dong,W.,索赫尔河Li,L.J.,Li,K.,Li,F.F.:Imagenet:一个大规模的分层图像数据库。在:CVPR(2009)8. Diba,A.,Pazandeh,A.M.,Pirsiavash,H.,古尔,L.V.:Deepcamp:深度卷积动作属性中级模式。见:CVPR(2016)9. 恩格尔角Baumgartner,P.,Holzmann,M.,Nutzel,J.F.:基于支持向量机排序的人员再识别。BMVC(2010)10. Felzenszwalb,P.,McAllester,D. Ramanan,D.:一个有区别地训练的、多尺度的、可变形的零件模型。载于:CVPR(2008年)11. Geng,M.,王玉,Xiang,T.,田某:深度迁移学习用于人员重新识别。arXiv预印本arXiv:1611.05244(2016)12. Gheissari,N.,塞巴斯蒂安,TB,哈特利,R.:利用时空外貌进行人员再识别在:CVPR(2006年)13. Gray,D.,陶,H.:具有局部特征集合的视点不变行人识别。In:ECCV(2008)14. 他,K.,张,X.,Ren,S.,孙杰:用于图像识别的深度残差学习。见:CVPR(2016)15. Hermans,A.拜尔湖莱贝B:在三胞胎丢失的辩护中重新进行了人的鉴定。arXiv预打印arXiv:1703.07737(2017)16. Insafutdinov,E.,Pishchulin,L.Andres,B.,Andriluka,M.,Schiele,B.:Deepercut:更深、更强、更快的多人姿势估计模型。In:ECCV(2016)17. 何塞角Fleuret,F.:通过加权近似秩分量分析的可扩展度量学习In:ECCV(2016)18. Karanam,S.,Gou,M.,吴志,Rates-Borras,A.,坎普斯岛Radke,R.J.:人员再认定的综合评价和基准:功能、指标和数据集。arXiv预打印arXiv:1605.09653(2016)19. 李伟,赵,R.,Xiao,T.,Wang,X.:Deepreid:深度过滤配对神经网络,用于人员重新识别。在:CVPR(2014)20. 李伟,Zhu,X.,龚,S.:通过多损失分类的深度联合学习进行人员重新识别。在:IJCAI(2017)21. 李伟,Zhu,X.,龚,S.:和谐关注网络对人的再认同。arXiv预印本arXiv:1802.08122(2018)22. 李,Y.,刘,L.,Shen,C.,van den Hengel,A.:使用深度CNN激活挖掘中级视觉模式。International Journal of Computer Vision(2017)16Y. Sun等人23. Liao,S.,Hu,Y.,Zhu,X.,李S.Z.:基于局部最大发生表示和度量学习的人物再识别。参见:CVPR(2015)24. 刘伟,Anguelov,D.,Erhan,D.,塞格迪角Reed,S.E.,Fu,C.,Berg,A.C.:SSD:单次触发多盒探测器。In:ECCV(2016)25. Liu,X.,中国科学院院士,赵,H.,田,M.,盛湖邵,J.,Yi,S.,Yan,J.,Wang,X.:Hydraplus-net:用于行人分析的精细深度特征In:ICCV(2017)26. 朗J Shelhamer,E.,达雷尔,T.:用于语义分段的全卷积网络。参见:CVPR(2015)27. M.,J.O. Tuytelaars,T.:通过分层的中间层元素建模视觉兼容性In:ECCV(2016)28. 妈A.J.袁政道李杰:不需要目标摄像机标签信息的域转移支持向量排序的人物再识别In:ICCV(2013)29. Newell,A.,杨,K.,Deng,J.:用于人体姿态估计的堆叠沙漏网络。In:ECCV(2016)30. Ristani,E.,Solera,F.,Zou,R.,库基亚拉河Tomasi,C.:多目标、多相机跟踪的性能在:欧洲计算机视觉研讨会基准多目标跟踪会议(2016)31. Su,C.,李杰,Zhang,S.,(1991),中国农业科学院,邢杰,Gao,W.,Tian,Q.:用于人员重新识别的姿势驱动的深度卷积模型。In:ICCV(2017)32. Sun,Y.,郑湖,邓小平,Wang S.:SVDNet用于行人检索。In:ICCV(2017)33. 塞格迪角Ioffe,S.,Vanhoucke,V.,Alemi,A.:起始-v4,起始-resnet和剩余连接对学习的影响。在:AAAI(2017)34. Ustinova,E.,Ganin,Y.,Lempitsky,V.:多区域双线性卷积神经网络用于人员重新识别。arXiv预打印arXiv:1512.05300(2015)35. 韦湖,加-地Z
下载后可阅读完整内容,剩余1页未读,立即下载
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功