密集语义对齐的人员重新识别

180 浏览量更新于2023-10-18 收藏 1.27MB PDF 举报

双流网络

推理系统

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

667密集语义对齐的人员重新识别Zhizheng Zhang1张翠玲兰21中国科学技术大学2微软亚洲研究院zhizheng@mail.ustc.edu.cn{culan，wezeng}@ microsoft.comchenzhibo@ustc.edu.cn摘要我们提出了一个密集语义对齐的人重新识别框架。它从根本上解决了由姿势/视点变化、不完美的人检测、遮挡等引起的身体未对准问题通过对人物图像的密集语义的估计，我们构造了一组密集语义对齐的部分图像（DSAP图像），其中相同的空间位置在不同的图像中具有相同的语义。我们设计了一个双流网络，包括一个主要的全图像流（MF流）和一个密集的语义对齐的引导流（DSAG-Stream）。DSAG流以DSAP图像作为输入，充当调节器，（一）（d）其他事项（b）第（1）款（e）（c）第（1）款（f）第（1）款MF流从原始图像中学习密集语义对齐的特征。在推理中，DSAG流被丢弃，仅需要MF流，这使得推理系统在计算上高效且鲁棒。据我们所知，我们是第一个利用细粒度语义来解决重新ID的错误对齐问题的人。我们的方法在CUHK 03数据集上实现了78.9%（新协议）的rank-1准确度，在CUHK 01数据集上实现了90.4%，在Market 1501数据集上实现了95.7%，优于最先进的方法。1. 介绍人员重新识别（re-ID）旨在跨多个相机视图或在来自相同相机视图的不同场合中匹配特定人员。它促进了许多重要的应用，如跨相机跟踪[40]。由于人的姿势和视点的大变化、不完美的人检测、杂乱的背景、遮挡和照明差异等，该任务是具有挑战性的。这些因素中的许多导致人体的空间错位，如图所示1，其中相同的空间位置不对应于相同的语义。未对准是影响性能的关键挑战之一[30，33，53，37，48，34，57]这份工作是张志政在MSRA实习时完成的。†通讯作者图1.用于说明由（a）不同相机视点引起的人员重新识别中的空间未对准的挑战的示例(b)不同的姿态，（c）不完美的人检测，（d）局部内的未对准，（e）杂乱的背景，（f）遮挡。一些范例采用卷积神经网络以端到端的方式学习全局特征表示[1，43，8，4，2]。然而，全局表示的能力受到以下限制：1）缺乏对局部差异的强调[48]，以及2）缺乏任何明确的机制来解决不对准[2]。近年来，已经做出了许多努力来缓解这些问题[33，53，37，48，34，19]。为了使特征集中在局部细节上，一些工作将人图像直接划分为几个固定的刚性部分（例如，水平条纹）并了解详细的局部特征[5，37，18，3，35，39]。然而，这样的分区不能很好地对准人体部分。一些作品尝试使用姿势（用于识别不同类型的部件，例如：、头部、手臂等。）定位身体部位，以学习部位对齐特征[47，15，49，33，53，42]。然而，基于姿势的身体部位对准太粗糙，不能具有令人满意的对准。如图1（d），即使对于相同类型的部件，在部件内仍然存在空间未对准，其中对于相同的空间位置，人类语义是不同的。设计一种能够高效学习密集668演示图像图片U-map V-map24个身体部位UUV空间（躯干部分）将图像像素扭曲到UV空间DSAP图像（躯干部分）24 DSAP图像图中的DSAP图像。2，其中许多DSAP图像不具有有效信息）。此外，通常存在估计误差，包括丢失检测，特别是在通常具有低分辨率和模糊伪影的re-ID数据集的图像上。设计一个有效的网络来充分利用语义对齐的信息仍然具有挑战性，因为那里存在信息丢失和噪声。在我们的设计中，我们利用密集的语义对齐信息来驱动主网络从原始图像中学习语义对齐的特征。如图3、我们的网络由一个主全图像流（MF-Stream）和一个密集语义对齐的引导流（DSAG-Stream）组成。对于MF流，图2. 2D人物图像与UV空间中基于表面的规范表示之间的密集对应关系的说明。人体表面被划分为24个身体区域。每个区域可以被扭曲为DSAP图像，并且针对不同的人图像在空间上对齐细粒度（密集）语义语义上对齐的特征，用于重新识别。在本文中，我们提出了一种新的密集语义对齐的人re-ID框架，它从根本上使细粒度的语义对齐和语义对齐的特征学习的re-ID。首先，我们建议在规范空间上执行人体的密集语义对齐，以解决人员重新识别中的不对齐挑战。我们受到了DensePose [ 9 ]的密集语义估计工作的启发，该工作能够预测人的细粒度像素级语义。与仅具有有限数量的粗糙关键关节的姿势不同，密集语义在2D人物图像和人体的3D基于表面的规范表示之间建立密集对应[9，10]。如示于图2.将人体三维表面分割成24个语义体区域。在区域内，每个位置的语义由二维UV坐标标识。基于根据UV坐标值（在U，V图上）估计的密集语义，原始输入图像被扭曲为UV空间中的24个密集语义对齐的部分图像（DSAP图像）。通过这种方式，具有不同视点、姿势和背景的人物图像在语义上被很好地对齐。因此，这种代表性对于解决不一致的挑战具有固有的优点。注意，不仅粗略的身体部分区域被对准，而且部分内的内容也在像素级上密集地对准。其次，我们提出了一个新的框架，旨在充分利用密集的语义对齐表示的人重新ID。对于密集语义估计，由于2D图像中的人是来自3D人的投影，所以3D表面的几乎一半是不可见的，并且因此不能从2D图像中检测到（参见24将完整图像作为输入。对于DSAG流，将从密集语义对齐模块获得的24个DSAP图像作为输入。而不是... 由于两个流的特征都具有re-ID能力，DSAG流充当调节器以引导MF流学习语义上对齐的特征。我们实现这一点的元素明智的融合的MF流功能和DSAG流功能，监督上添加的融合功能。端到端联合训练实现了两个流的交互和联合优化。总之，我们作出了三项主要贡献。• 我们建议使用密集语义对齐的人重新ID，解决错位的挑战。• 提出了一种基于密集语义对齐的深度学习框架，用于人员重新识别。尽最大据我们所知，我们提出的框架是第一个利用细粒度语义来解决有效人员重新身份识别的错误对齐问题。我们提出了一个有效的融合和监督设计，以促进语义对齐的特征学习。它使学习过程中DSAG流和MF流之间的交互成为可能。这极大地增强了MF流的能力，即使其输入图像在语义上没有对齐。• DSAG-Stream作为一个调节器，可以在推理过程中删除，而不会牺牲性能。这还消除了在干扰期间对密集语义估计器的性能的依赖性，使得推理模型在计算上更高效并且对密集语义估计误差更鲁棒。我们进行了广泛的消融研究和实验结果表明，我们提出的架构与密集的语义对齐是非常强大的。我们在Market-1501、CUHK 03和CUHK 01数据集上实现了最先进的性能，并在DukeMTMC-reID上实现了具有竞争力的性能。在CUHK 03数据集上，我们的性能明显优于以前的方法，在Rank-1/mAP准确度上至少提高了+10.9%/+7.8%...6692. 相关工作身体部位/姿势对齐方法。空间错位是一种普遍存在的问题，也是重识别中的关键问题之一.在早期的工作中，一些基于补丁的方法执行补丁级匹配以解决补丁式未对准[23，51，52]。为了避免具有相似外观的不匹配的补丁[30]，引入了部分/姿势的人类语义，以便在语义对应的部分之间执行相似性匹配[6，46]。近年来，在部位/姿势方面的人类语义被广泛用于局部化身体部位，以进行部位对齐的深度特征学习和匹配[47，15，49，33，53，42]。在[42]中，首先检测身体姿势/部位，并设计深度神经网络用于局部部位和全局区域的表示学习。一些作品依赖于来自人类面具/部分/姿势的约束注意力选择机制来隐式地校准未对准的图像[32，25，45，14，34]。所有上述工作的目的是解决在粗糙的身体部分水平的不对准。然而，每个部分内仍然存在我们的工作旨在从根本上解决错位问题。它与以前的作品有三个主要方面的不同。首先，我们的方法旨在充分利用细粒度的语义对齐表示。其次，我们利用语义对齐的表示，它扮演的监管机构的角色，指导语义特征学习从原始图像。第三，在推理过程中，我们不需要DSAG-Stream，使我们的模型计算效率高且鲁棒。以地方和全球为基础的办法。许多方法利用全局和局部特征来同时利用它们的优点[3，39，18，42，33，49，48]。从完整图像中学习的全局特征旨在捕获外观的最有区别的线索，但可能无法捕获有区别的局部细节。因此，基于零件的特征被用作补救措施。Wang等人设计了一个多粒度网络，它由一个全局特征分支和两个局部特征表示分支组成[39]。在[48]中，图像特征图被严格划分为局部条带，并引入最短路径损耗这通过共享骨干网络的权重来帮助全局特征学习。然而，在不考虑人密集语义的情况下，对齐仍然太粗糙。我们利用密集的语义对齐表示来指导全局特征和部分感知特征的学习。基于联合多损失学习的方法。 Zheng等人认为，人的重新识别介于图像分类和实例检索之间[55]。分类任务和排序任务是相辅相成的。再-最近，一些方法[43，21，4，39]同时优化了分类损失和排序损失的网络，例如。，三重态丢失[29，13]。同样，我们利用这两项任务的互补优势。3. 密集语义对齐的人员Re-ID我们提出了一个新的框架，旨在充分利用密集的语义对齐表示鲁棒的人重新ID。图3显示了flowchat。该网络由两个流组成：主全图像流（MF-流）和密集语义对齐引导流（DSAG-流）。基于密集语义对齐模块，从输入的人的图像，我们构建24个密集语义对齐的部分图像（DSAP 图像）作为 DSAG流的输入。DSAG-Stream具有语义对齐的优点，通过我们的融合和损失设计，DSAG-Stream充当调节器来调节MF-Stream从原始图像的特征学习整个网络以端到端的方式进行训练。我们将在以下小节中讨论细节。3.1. DSAP图像2D图像[9]建立了从2D图像到人体表面的密集对应。表面上的每个位置具有不同的语义含义，其可以由二维UV坐标值参数化/表示[10，9]。相同的UV坐标值对应于相同的语义。因此，在UV空间中，密集语义是固有地对齐的。对于密集语义对齐模块，原始RGB图像被扭曲到UV空间中的表示，以获得基于估计的密集语义的24个DSAP图像。密集语义估计。我们采用现成的DensePose模型（在DensePose-COCO数据集上训练）[9]来估计2D图像的密集语义。它将人分割成24个基于表面的身体部位区域。对于每个检测到的身体部位，根据UV空间中的坐标值（u，v）来提供每个像素的语义，其中u，v ∈[0，1]。请参阅[9]以了解更多详细信息。翘曲。对于第i个身体部位区域，如图11所示，如图2所示，基于语义，每个像素上的像素值可以在无变形UV空间中被扭曲到大小为S×S的DSAP图像上，其中行和列分别表示U和V。DSAP图像由变形前图像的平均值初始化。请注意，背景和未检测到的语义位置没有扭曲。我们简单地将身体部位的像素值（r，g，b）及其语义估计为（u，v）复制到对应DSAP的（u×S形象求取最大整数的函数大于或等于x，我们在实验中将S讨论对于第i个身体部位的DSAP-意象，在相同的空间位置上的语义同一性总是相同的。它们在语义上紧密对齐。这种代表性有三大优势。1)它克服了空间错位的挑战，670i=1图3.建议的密集语义对齐的人re-ID（DSA-reID）的Flowchat。它由两个流组成：MF-Stream和DSAG-Stream，通过我们的融合和监督设计进行联合训练。DSAG-Stream具有密集语义对齐的输入DSAP图像，扮演着促进整个网络联合优化的调节器的角色在推理中为了在计算上有效，丢弃DSAG-St_ream。全局特征fG和局部特征aw是特征fL= fL，i|8被用作re-ID的最终功能同时利用全局信息和局部细节信息。观点和姿态的多样性，以及不完善的人的检测。2)该方法避免了背景杂波的干扰，因为只有人体区域被扭曲成DSAP图像。3)它不受遮挡的外观干扰，因为语义不是在遮挡对象上估计的。然而，DSAP图像在人员重新识别任务中的作用方面有三个局限性。1)DSAP图像上的有效内容非常稀疏（见图1）。2）的情况。作为3D表面的2D投影，近一半的身体区域在2D图像上不可见，因此无法通过DensePose检测到。此外，通常存在估计误差，包括丢失检测，特别是在低分辨率和模糊伪影的图像上。2)密集语义估计器不是最优的。由于re-ID数据集没有标记的密集语义，因此我们利用在COCO-DesenPose数据集上训练的DensePose模型然而，这些数据集在分辨率、图像质量和姿态分布方面存在差距。3)由于背景被移除，一些歧视性的内容，如红色背包，也被移除。3.2. 我们网络由于DSAP图像上有效内容的稀疏性和潜在的语义估计错误（如第3.1小节），设计一个有效的网络来单独利用来自DSAP图像的语义对齐事实上，我们沿着这条路线的一些早期尝试（只有DSAP映像作为输入）未能提供良好的结果。为了利用DSAP图像的合并，同时解决上述挑战，在我们的设计中，我们建议将它们视为端到端网络中的调节器，以驱动从原始完整图像学习的这种设计的一个重要优点是，在推理期间，不需要调节器，使其在计算上高效。这也消除了推理对密集语义估计器的性能的依赖性，使系统实际上更加鲁棒。图3显示了flowchat。DSAG-Stream扮演着调节器的角色，以协助MF-Stream的培训。我们通过DSAG-Stream和MF-Stream之间的相应特征融合以及对融合特征的监督来实现这一点。对于DSAG-Stream，输入DSAP图像在语义上是密集对齐的，因此输出特征继承了这些优点。我们打算利用DSAG-Stream来驱动MF-Stream学习全局特征和部件感知特征。对于每个流，设计了一个具有两个分支的小头部网络，分别关注全局和局部信息MF流部件感知 F特征L，ii=1|8池化FFC三重损失池化FCID丢失+FCID丢失FG全局特征zL多分支子网部分 D8L，ii=1|+FCID丢失DSAP图像特征zG池化Di|8i=1三重损失当地池化DSAG-Stream全球DG全局特征密集语义对齐ID丢失671i=13.2.1DSAG-StreamDSAG流由多分支子网络（MB-N）和由以下形成的小头网络组成：一个全局分支和一个局部分支，如图2所示。3.第三章。我们在表1中展示了详细的架构。多分支子网络（MB-Ns）。全局信息和局部细节对于re-ID都是重要和补充的[3，39，18，42，33，49]。为了了解局部的详细特征的单独区域部分，而不是混合-在此基础上，我们采用多分支子网络（MB-Ns）对N个合并后的人体部位区域分别进行c个通道（i=1，2，···，N）的局部特征图Di∈Rh×w×c的学习注意，N主体部分区域没有重叠。 N个特征图是一致的，沿着通道连接，我们有D=Di|N为通过小的Head网络的两个单独的分支来学习部件感知特征fL该头网络架构类似于DSAG-Stream的头网络。注意，特征fG和fL用于我们最终方案中的re-ID。3.2.3双流融合我们通过逐元素添加来融合来自两个流的全局特征，即，zG=fG+dG，这使得能够对两个流进行联合优化。类似地，来自两个流的部件感知特征和部件特征被融合为zL=fL+dL。3.2.4损失设计为了训练网络，我们使用了广泛使用的标识[D1，D2，···，DN] ∈Rh×w ×cAi=1其中cA=N×c.损失（ID损失），即识别的交叉熵损失分类，并与批对于MB-N，我们有两个级别的合并来支持，从相关的身体部位中逐步融合特征，以利用人体的对称性，提高视点鲁棒性，减少分支数目。我们从MB-Ns中获得8个独立的特征图，|N，其中N= 8。一对左右对称的语义度量部分，在UV空间中进行语义对齐，并且我们在第一级合并中按元素方式添加特征。在第二级合并中，同样地，我们合并对应于前后对称部分的两个分支，最终得到如图所示的8个分支。4.第一章主管网络。它由两个独立的分支组成，分别关注全局和局部信息。对于全局分支，输出特征向量dG∈R2048是通过dG=P（H（D）），（1）其中H（·）表示由加权层组成的底层映射;P（·）表示平均空间池化操作。对于P（H（·））的这种映射，我们采用如表1所示的conv5g的网络架构。对于部分分支，输出特征向量dl∈R2048是8个合并部分的特征向量dl，i∈ R256的级联，即，dL=[dL，1，dL，2，···，dL，8]，其中dL，i通过下式获得：[13]三重损失（Triplet Loss）作为我们的损失函数。考虑到由于语义估计误差而导致的DSAP图像中的噪声，以及DensePose模型的高复杂性，在我们的设计中，我们将DSAP图像视为调节器来驱动从原始完整图像中进行语义对齐的特征学习，期望MF流单独进行推理。我们分别对来自MF流的特征fG、fL和融合特征zG、zL添加监督，如图1B所示。3.第三章。具体来说，对于MF流，我们添加了全局fea的ID损失真向量fG，以及每个部件感知特征向量fL，i，i = 1，2，...，8。对于融合特征zG、zL，添加ID损失和三重态损失两者。使用融合特征计算的损失使得反向传播到MF流的梯度也受到DSAG流fea的影响。因为它们有助于熔合特征和所导致的损耗。通过这种方式，DSAG-Stream通过影响训练中MF-Stream的特征学习来发挥正则化的作用。为了计算每个识别损失，将由两个全连接（FC）层以及随后的SoftMax函数构成的分类器应用于特征向量以输出分类概率。4. 实验dL，i=P（F（Di）），（2）其中F（X）表示由几个堆叠层组成的底层映射。对于P（F（·））的这种映射，我们采用如表1所示的网络架构。3.2.2 MF流我们使用ResNet-50的子网络（conv 1，conv 2 x，conv 3 x和conv 4 x）[11]来获得特征映射F∈Rh×w×cA。为了促进与相关部门的共同学习，从DSAG流中响应特征，以特征图F作为输入（见图3）、全局特征fG和4.1. 数据集和评估指标Market1501[54]有32，668个DPM检测到的行人1 501个身份的图像盒，12 936个培训，3 368个查询和19，732个图库图像。751个身份用于训练，其余750个用于测试。CUHK03[17]由1，467名行人组成。此数据集提供了来自14，096个图像的手动标记边界框和DPM检测边界框14,097张图片我们采用了新的培训/测试协议[58，57，12]。在该方案中，767个身份用于训练，其余用于测试。672M1 M2M5M6M7M8M9M10M11M12123456789101112131415161718192021222324M13M4M3头脚手下臂上臂小腿上腿躯干图4.对应于24个身体部位的两级合并的图示一级合并二级归并表1.我们的DSAG-Stream的详细架构。我们使用与ResNet-18[11]中类似的卷积层和构建块来构建它。对于conv1，5×5，32表示卷积核。通道尺寸为5×5，输出通道数为32。后在[11]中，构建块显示在括号中，与堆叠的块的数量。下采样由步长为2的conv3 1和conv4 1执行。#麸皮。表示子分支的数量。图层名称参数输出大小#麸皮。conv15× 5， 3232× 3224conv23× 3， 6432× 3224conv3 xΣ3× 3 64Σ3× 3、64×216× 1624、MB-Ns合并逐元素加法16× 1624→13conv4 xΣ3× 3 128Σ3× 3、128×28× 813、合并逐元素加法8× 813→8Σ3× 3 2048Σ3× 3，2048×28× 8conv5 g、1头平均池化1× 1Σ3× 3 256Σ3× 3，256×28× 8conv5 l、8平均池化1× 1CUHK01[16]包括971个身份的3884张图像，在两个不相交的相机视图中捕获。我们采用下面的常见实验设置[1，5，50]。DukeMTMC-reID[56]是Duke数据集[27]的一个子集，用于基于图像的re-ID。我们使用标准的训练/测试分割和评估设置[56，20]。它包含702个身份的16，522个训练图像，其他702个身份的2，228个查询图像和17，661个图库图像。评估指标。按照通常的做法，我们使用Rank-1（至少），Rank-5，Rank-10的累积匹配特征（CMC）和平均平均精度（mAP）来评估准确性。4.2. 实现细节网络设置。我们采用ResNet-50 [11]来构建我们的基线网络，就像在一些re-ID系统中一样[3，35，48，2]。与[35]类似，Conv5层中的最后一个空间下采样操作被删除。对于 MF 流，我们使用 ResNet-50 架构的一部分（即，，conv1，conv2 x到conv4 x）作为子网络以获得特征图F。在Im-ageNet [7]上预训练的权重用于初始化。头部网络架构类似于DSAG-Stream的头部网络，并且随机初始化。区别在于MF-Stream中全局分支的架构与ResNet-50中conv 5 x块的网络架构相同，而不是ResNet-18中的MF-Stream的每个本地分支使用类似于全局分支的架构，但每层上的通道数量仅为全局分支的1/8。对于DSAG-Stream，网络随机初始化并从头开始训练。数据扩充。我们在基线方案和我们的方案中使用了常用的随机裁剪[41]、水平翻转和随机擦除[59，41，38]（概率为0.5）优化. 对于批量硬挖掘的三重丢失[13]，我们对P= 16个身份和K= 4个图像进行[39]对于每个标识，将其作为小批量，并且将边缘参数设置为0.3。MF流特征的ID损失、三重态损失和融合特征的ID损失为分别称重0.5、1.5和1.0。我们采用Adam优化器进行训练，其权重衰减为5×10−4。我们将模型预热20个epoch，线性增长学习率从8×10−6到8×10−4。然后，学习率每40衰减0.5倍时代我们观察到模型在训练320个epoch后收敛我们所有的模型都在PyTorch上实现，并以端到端的方式进行训练。4.3. 与最新技术我们将我们提出的密集语义对齐的 re-ID 方案（DSA-reID）与表2中的四个类别的当前最先进的方法进行比较。Basic-CNN方法具有类似的网络结构，具有深度re-ID系统中常用的基线[53，48，3，39，38]，它学习全局描述符。姿势/部件相关方法利用粗略姿势/部件语义信息来辅助重新ID。基于条纹的方法将完整的RGB图像/特征图划分为若干水平条纹以利用局部细节。MGN [39]结合了多粒度的局部特征和全局特征。基于注意力的方法[50，19，31，38]共同学习注意力选择和特征表示。请注意，我们并没有在所有模型中实现重新排序[58]以进行清晰的比较。673表2.与最新技术水平方法的性能（%）比较。粗体数字表示最佳性能，带下划线的数字表示次佳性能。上标“*”表示模型在CUHK03上进行了预训练，并在CUHK01上进行了微调CUHK03市场1501（SQ）方法检出标记CUHK01 DukeMTMC-reIDOurs（我们的）市场-1501。DSA-reID实现了最佳性能。我们的方法和第二好的方法MGN [39]具有相似的性能，并且在Rank-1/mAP 准确度方面均优于其他方法至少+1.9%/+4.6%为了节省空间，我们只显示单次查询（SQ）结果，对于多次查询设置也观察到类似的趋势。CUHK03。DSA-reID的性能优于其他方法，标记设置的Rank-1/mAP 至少为+10.9%/+7.8%，检测设置的Rank-1/mAP至少为+11.4%/+7.1%。这些图像比其他数据集中的图像更模糊。语义估计更准确，这极大地帮助了我们网络的训练。香港中文大学01。我们的方法在Rank-1/Rank-5准确度上优于当前最佳结果+2.3%/+1.1%。与[5，50，34]中的方法类似，该结果是通过对CUHK03进行预训练并对CUHK01进行微调而获得的为了公平比较，我们还在CUHK 03上测试了我们的模型，没有进行预训练，它在Rank-1/Rank-5中分别达到88.6%/97.1%，这也是最好的。DukeMTMC-reID. DSA-reID实现了第二好的结果。对这个数据集的语义估计是呃-容易出错。超过20%的人不能在训练图像上被检测到。DSA-reID优于除MGN [ 39 ]之外的所有其他方法，MGN[ 39]以多个粒度集成局部特征。我们相信训练一个更好的DensePose估计器可以进一步提高性能。4.4. 消融研究我们对Market-1501数据集（单次查询）进行了全面的消融研究。我们的对比基线。在表3中，标签平滑正则化[36]作为一种通过改变地面真实标签分布来正则化分类器层的机制，已被证明在识别中是有效的[24，44]。我们将标签平滑（LS）添加到re-ID中的分类子任务，并将该基线表示为与“基线（RE）”相比，它将秩1/mAP准确度提高了+1.1%/+2.6%。此外，我们还采用基于“基线（RE+LS）”构建的仅MF-Stream我们表示建议密集语义对齐（DSA）的重新ID计划在不同的设置 / 设计与前缀的 “DSA” 。 “DSA(Twostreams fused)” denotes our在推理中，DSAG-Stream可以被丢弃，并且我们将其称为我们有的观察/结论。1)我们的最终方案取得了显着的性能秩-1地图秩-1地图秩-1地图秩-1秩-5秩-1地图Basic-CNNIDE（ECCV18）[35]85.368.543.838.9----73.252.8（ResNet-50）Gp-reid（Arxiv18）[2]92.281.2------85.272.8主轴（CVPR 17）[49]76.9-----79.994.4--[53]第78.753.9--------MSCAN（CVPR 17）80.857.5--------[33]第3384.163.4--------[22]第二十二话87.768.933.830.530.128.2--68.648.1[26]第二十六话89.472.6------73.653.2Pose/PartPSE（CVPR 18）[28]87.769.0--30.227.367.786.679.862.0相关MGCAM（CVPR 18）[32]83.874.350.150.246.746.9----MaskReID（Arxiv18）[25]90.075.3----84.3-78.961.9部分对齐（ECCV 18）[34]91.779.6----80.7米94.4分84.469.3美国有线电视新闻网（CNN）[45]85.966.9----88.196.776.859.3SPReID（CVPR 18）[14]92.581.3------84.471.0[48]第48话91.879.3--------[3]第三届全国政协委员92.379.6------80.964.8基于PCB+RPP（ECCV 18）[35]93.881.663.757.5----83.369.2[39]第39话95.786.968.067.466.866.0--88.778.4[50]第50届中国国际音乐节81.063.4----76.5公斤94.2分--注意HA-CNN（CVPR 18）[19]91.275.744.441.041.738.6--80.563.8基于DuATM（CVPR 18）[31]91.476.6------81.864.6美国（USA）[38]93.182.369.063.965.560.5--84.971.8密集语义DSA-reID95.787.678.975.278.273.190.4分97.8分86.274.3674表3.在Market-1501数据集上，基线和我们的方案的性能（%）比较。模型地图秩-1秩-5十阶基线76.491.296.597.9基线（RE）78.692.397.698.3基线（RE+LS）81.293.497.898.5基线（两个分支）83.494.098.098.7DSA-全球（单个）84.794.898.298.9DSA-本地（单个）83.294.097.998.6DSA-全球（联合）87.495.698.699.1DSA-当地（联合）86.595.298.499.0DSA（两个数据流融合）87.595.898.499.1DSA-reID（仅MF流）87.695.798.499.1改进，通过以下方式超过+2.3%/+6.4%和“基线（两个分支机构）Rank-1/mAP准确度分别为+1.7%/+4.2%。（二）“DSA-reID(Only与“DSA（双流融合）”类似全局和部件感知/部件功能.为在每个流中，我们有两个分支，分别关注全局特征和局部特征。我们在表3中显示了分析。1) “DSA-Global(Single)”/“DSA-Local(Single)” 在秩-1/mAP 准确度方面，“DSA-全局（单次） ” 优于 “ 基线（ RE+LS ） ”+1.4%/+3.5% 。“DSA-Local(Single)” outperforms “Baseline(RE+LS)”Rank-1/mAP准确度为+0.6%/+2.0%这表明我们的语义对齐设计是非常有效的。2)由于全局和部分感知/部分特征是互补的，因此我们的具有全局和部分感知/部分分支的方案与“DSA-全局（单次）”和“DSA-局部（单次）”相比，Rank- 1/mAP 准确度分别提高了 +1.0%/+2.8% 和+1.8%/+4.3%。3)“DSA-全局（联合）”或“DSA-局部（联合）”表示推断基于我们的方案“DSA（双流融合）"的全局分支或部分感知分支的特征，即，、zG或zL。由于联合培训，密集语义对齐与粗略语义对齐。由于密集的语义对齐表示和我们的架构设计，我们的计划取得了优异的性能。我们将DSAP图像作为DSAG-Stream的输入。人们可能想知道，如果没有内部细粒度对齐的裁剪身体部分被作为我们框架的输入，性能我们进行了一个实验，通过替换24 DSAP图像由24裁剪部分图像（与部分区域内的对齐），并将此方案称为粗略语义对齐的重新ID，CSA。表4显示了性能比较。1)我们的密集语义对齐方案显著优于粗糙表4.在Market-1501数据集上，我们的框架中密集和粗略语义对齐模型地图秩-1秩-5十阶基线（RE+LS）81.293.497.898.5CSA（仅限MF流）84.194.198.198.8DSA（仅MF流）87.695.798.499.1语义对齐方案的Rank- 1/mAP准确率为+1.6%/+3.5%。2)我们的粗略语义对齐方案仍然优于基线的大幅度，证明了我们的架构设计的有效性。两种气流融合设计。我们研究了如何使MF流和DSAG流有效地交互以进行联合训练，并在表5中显示了比较。“Concatenation+fc” denotes that for either来自MF-流和DSAG-流的特征被级联，随后是完全连接的层。“Elem- add” denotes that the features from the“Concatina- tion+fc”的性能很差。相比之下，我们的融合元素明智的添加实现了出色的性能。表5.在Market-1501数据集上，两个流融合设计的性能（%）比较。融合方法地图秩-1秩-5十阶串联+fc81.693.097.698.6Elem-add87.695.798.499.15. 结论在本文中，我们提出了一个密集的语义对齐的人重新ID框架，旨在解决无处不在的错位问题。由于所估计的密集语义，从2D图像构造密集语义对准的部分图像（DSAP图像）变得可能。我们设计了一个由MF-Stream和DSAG-Stream组成的双流网络。考虑到DSAP图像具有固有的密集语义对齐的优点，但由于语义估计错误而具有噪声，我们将DSAG-Stream作为调节器来帮助MF-Stream的特征学习，通过我们的融合和监督设计。在推理中，只需要MF流，使系统的计算效率和鲁棒性。我们的方案在 Market-1501 、 CUHK 03 和CUHK 01上取得了最好中大03日，我们的方案在Rank-1/mAP准确度上明显优于以前的方法，至少为+10.9%/+7.8%确认本研究得到了国家重点研究发展计划项目（编号：2016YFC 0801001）、国家重点基础研究项目（973计划）项目（编号：2015CB 351803）、国家自然科学基金项目（编号：61571413、61390514）的部分资助675引用[1] Ejaz Ahmed，Michael Jones，and Tim K Marks.一种用于人员重新识别的改进的深度学习架构。CVPR，2015。1、6[2] 乔恩·阿尔玛赞，博贾纳·加吉奇，奈拉·默里，戴安·拉鲁斯.正确完成重新识别：制定重新识别身份的良好措施。arXiv预印本arXiv：1801.05339，2018。一、六、七[3] Xiang Bai，Mingkun Yang，Tengteng Huang，ZhiyongDou，Rui Yu，and Yongchao Xu.深度人：学习区分人的深层特征以重新识别。 arXiv 预印本 arXiv ：1711.10658，2017。一、三、五、六、七[4] Weihua Chen ， Xiaotang Chen ， Jianguo Zhang ， andKaiqi Huang.一个多任务深度网络用于人员重新识别。InAAAI，2017. 第1、3条[5] De Cheng ， Yihong Gong ， Sanping Zhou ， JinjunWang，and Nanning Zheng.基于改进三重丢失函数的多通道部件cnn的人员再识别。在CVPR，2016年。一、六、七[6] Dong Seon Cheng ， Marco Cristani，Michele Stoppa，Loris Bazzani，and Vittorio Murino.用于重新识别的自定义图形结构。在BMVC，2011年。3[7] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。CVPR，2009。6[8] Mengyue Geng ， Yaowei Wang ， Tao Xiang ， andYonghong Tian.深度迁移学习用于人员重新识别。arXiv预印本arXiv：1611.05244，2016。1[9] RızaAlpGuéler ， Na taliaN ev er ov a ， andIasonasKokkinos.DensePose：在野外进行密集的人体姿势估计。CVPR，2018年。二、三[10] 里扎·阿尔普·古勒、吉奥·奇·特里吉奥·吉斯、埃帕梅农达斯·安东·阿科斯、帕特里克·斯内普、斯特凡诺斯·扎菲里乌和亚索纳斯·科基。Densereg：完全卷积的密集形状回归。在CVPR，2017年。二、三[11] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。五、六[12] 何凌霄，孙振安，朱宇浩，王云波。识别部分生物特征模式。arXiv预印本arXiv：1810.07399，2018. 5[13] 亚历山大·赫尔曼斯、卢卡斯·拜尔和巴斯蒂安·莱布。为了防止三重丢失，进行人员重新鉴定。arXiv预印本arXiv：1703.07737，2017。三五六[14] MahdiMKalayeh 、 EmrahBasaran 、 MuhittinGo¨km

下载后可阅读完整内容，剩余1页未读，立即下载