通过全局和局部图像-语言关联：人员再识别中的有效辅助信息

194 浏览量更新于2023-10-13 收藏 1.42MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

通过全局和局部图像-语言关联陈大鹏1[0000 - 0003 - 2490 - 1703]、李洪生<$1 [0000 - 0002 - 2664 - 7975]、刘喜辉1[0000- 0003 - 1831 - 9952]、沈艳涛1[0000 - 0001 - 5413 - 2445]、景邵2[0000 - 0003 - 3521 - 6744]、袁泽建3、王晓刚11香港中文大学-商汤科技联合实验室2SenseTimeResarch3Xi{dpchen，hsli，xhliu，ytshen，xgwang} @ ee.cuhk.edu.hk抽象。人的重新识别是一项重要的任务，需要学习区分不同的人的身份的区别性的视觉特征。不同的辅助信息已被用来改善视觉特征学习。在本文中，我们建议利用自然语言描述作为有效的视觉特征的额外训练监督。与其他辅助信息相比，语言可以从更紧凑、更语义化的视觉角度描述特定的人，是像素级图像数据的补充我们的方法不仅学习更好的全局视觉特征与监督的整体描述，但也强制执行本地视觉和语言特征之间的语义一致性，这是通过建立全球和本地图像语言协会。全局图像-语言关联是根据身份标签建立的，局部关联是基于图像区域与名词短语之间的隐式对应关系大量的实验表明，采用语言作为训练监督与两个联想计划的有效性。我们的方法实现了国家的最先进的性能，在测试过程中不利用任何辅助信息，并表现出更好的性能比其他联合嵌入方法的图像-语言的关联。关键词：人物再识别，局部-全局语言联想，图文对应1介绍人员再识别是智能视频监控中的一项关键任务受到深度卷积神经网络（CNN）在图像分类中取得的显着成功的鼓舞[23]，re-ID社区通过开发各种网络取得了很大的进展，产生了非常有效的视觉表示[1，12，24，28，34，36]。†Hongsheng Li为通讯作者。2D. Chen等人图1：在我们的框架中，全球和局部图像-语言关联的图示。全局关联应用于整个图像和语言描述，旨在区分匹配的图像-语言对与不匹配的。局部关联的目的是模拟名词短语和图像区域之间的对应关系。全局和局部的图像-语言关联被用来监督学习的人的视觉特征。36、45、50、52、67]。为了进一步提高识别准确性，在深度神经网络中引入了各种辅助信息，例如摄像机ID信息[32]，人体姿势[59]，人属性[33，48]，深度图[7]和红外人图像[54]。这些数据被用作增强图像间相似性估计的增强信息[32，54，59]或可以正则化特征学习过程的训练监督[33，48]。我们的工作属于后一类，并提出使用语言描述作为训练监督以改善人的视觉特征。与其他类型的辅助信息相比，自然语言提供了一种灵活而紧凑的方式来描述显著的视觉方面，以区分不同的人。先前对基于语言的人re-ID的努力[26]是关于跨模态图像-文本检索，旨在从由文本查询设置的图库中搜索目标图像。相反，我们感兴趣的是，当语言只在训练阶段使用时，它如何帮助图像到图像的搜索。这任务是不平凡的，因为它需要对图像，语言及其跨模态对应关系的内容的详细理解。为了利用语言描述中传达的语义信息，我们不仅需要识别最终的图像表示，而且还建议优化中间特征和语言特征之间的全局和局部关联。全局图像-语言关联是从它们的ID标签中学习的。也就是说，整体图像特征和文本特征对于同一个人应该具有高相关性，并且当它们来自不同的人时具有低相关性（图1B）。1，左）。局部图像-语言关联基于图像区域和名词短语之间的隐式对应关系（图1）。1，右）。就像在一个耦合的图像-文本对中，文本中的一个名词短语通常描述图像中的特定区域，因此短语特征与一些局部视觉特征更相关。我们设计了一个深度神经网络来自动关联-按全局和局部图像语言协会的3通过注意机制将相关短语和局部视觉特征关联起来，然后聚合这些视觉特征以重构短语。推理这种潜在的和模态间的对应关系使得特征嵌入可解释，可以用作特征学习的正则化方案。总之，我们的贡献是三方面的：（1）我们建议使用语言描述作为训练监督，以学习更多的歧视性视觉表示的人re-ID。这与现有的针对跨模态检索的文本-图像嵌入方法不同（2）提出了两种有效的、互补的图像-语言关联方案，利用语义、语言信息指导不同粒度的视觉特征学习。(3)广泛的消融研究验证了这两种关联方案的有效性和互补性我们的方法实现了国家的最先进的性能上的人重新ID和优于传统的跨模态嵌入方法。2相关工作早期关于人员重新识别的工作集中在特征提取[17，37，53]或度量学习[9最近的方法主要受益于CNN架构的进步[26]，其结合了上述两个方面以产生鲁棒和ID区分的图像表示[1，8，28，46，50，52]。我们的工作旨在通过使用语言描述作为训练监督来进一步提高深度视觉表征。已经引入了各种辅助信息来改进用于人重新ID的视觉特征表示几个作品[47，59，61]检测人姿势地标以获得人体区域。他们首先根据区域分解特征图，然后融合它们以创建对齐良好的特征图。Lin等人利用相机ID信息通过保持相机网络中的一致性来辅助图像间相似性估计[32]。此外，不同类型的传感器（诸如深度相机[7]或红外相机[54]）已经被用于人员重新识别以生成更可靠的视觉表示。对于这些方法，辅助信息用于训练和测试阶段，需要额外的模型或数据采集设备用于算法部署。不同的是，人的属性通常作为一种训练监督。例如，Lin et al. [33]通过联合优化识别损失和属性分类损失，改进了中间特征图的可解释性。虽然属性被证明对特征学习有帮助，但它们很难获得，因为人们需要记住数十个属性标签来进行注释。它们在描述人类外表的各种变化方面也不太灵活。将图像和语言联系起来有助于建立它们之间的相互关系。近年来，由于其在图像字幕[13，20，35，51，57]，视觉QA [4，19，30]和文本图像检索[18，41]中的广泛应用，它引起了极大的关注。这些跨模态关联可以通过生成方法或判别方法来建模。生成式模型利用概率模型来捕获4D. Chen等人图2：我们提出的方法的总体框架。我们使用ResNet-50作为主干架构。所产生的中间特征Ψ（I）与描述特征θg（T）和短语特征θl（P）。图像或文本[39，51]，并具有流行的应用，如字幕生成[3，35，43，51，57]和图像生成[41，42]。另一方面，也已经开发了用于图像-文本关联的判别模型。Karpathy和Fei-Fei [21]制定了一个双向排名损失来关联文本和图像片段。 Reed等人 [41]提出了深度对称结构化联合嵌入，并强制要求匹配的图文对的嵌入量高于不匹配的图文对的嵌入量。我们的方法结合了判别式和生成式方法的优点，以不同的粒度建立图像-文本关联，其中语言描述作为训练监督，以提高视觉表示。3我们的方法我们的目标是利用语言描述的人的图像作为训练监督，除了原来的ID标签，更好的视觉表示。视觉表征不仅要对不同的人具有区分性，而且要与语言表征保持一致性。因此，我们提出了全球和本地的图像语言的关联计划。一个人的整体视觉特征与同一个人的语言描述特征的相关性应该比不同人的语言描述特征的相关性更高与现有的跨模态联合嵌入方法不同，我们不需要将视觉和语言特征映射到统一的嵌入空间。此外，基于图像和语言都是空间可分解和时间可分解的假设，我们还试图找到它们之间的相互对应关系按全局和局部图像语言协会的5n=1k=1K我 J在图像区域的特征和名词短语之间。总体框架如图所示。二、3.1视觉和语言表征给定数据集D={（In，Tn，ln）}N包含N个元组，每个元组有一个图像I、文本描述T和ID标签l。提高学习的视觉特征φ（I），我们在中间视觉特征图φ（I）和语言表示Θ（T）之间建立全局和局部对应。视觉表现。视觉特征φ（I）和中间特征图Ψ（I）从标准卷积神经网络（CNN）获得其将ResNet-50作为骨干网络。 Ψ（I）是在最后一个剩余块上进行1×1卷积得到的特征图。假设Ψ（I）具有K个仓，第k个仓处的特征向量由Ψk（I）表示，则Ψ（I）可以可表示为Ψ（I）={ψk（I）}K.客观视觉特征向量φ（I）ΣK从一个平均函数出发，在一个映射ψ¯（I）=1k=1ψk（I）上线性地执行：φ（I）=fφ（Ψ（I））=Wφψ¯（I）+bφ。（一）我们采用φ（I）上的ID损失。具体地，给定属于I个人的N个图像，ID损失是被正确分类到其ID的特征图的平均负对数似然：LI=− 1ΣN ΣI.yi，nlog Σ exp（wφ（In））Σ、（二）Nn=1i =1我j=1 exp（wφ（In））其中，yi，n是索引标签，如果第n个图像In属于第i个人，则yi，n=1，否则yi，n= 0是在视觉特征向量上与第i个人相关联的分类器参数语言表达。Θ（T）包含两种类型的特征向量，如图2所二、一个是从整个文本映射的全局描述特征θg（T），另一个是编码从文本T裁剪的独特名词短语P的局部短语特征θl（P）。名词短语提取过程如图所示。3，并且T中获得的短语形成集合P（T）。首先将文本T或短语P中的每个词表示为D维独热向量，对于第m个词表示为om∈RD，D是词汇量。然后将独热向量投影到单词嵌入：em =We om。基于嵌入，我们将整个描述或短语逐字输入到长短期记忆网络（LSTM），其更新过程如下：h m+1 = LSTM（e m，h m）。LSTM单元将当前单词嵌入e_m和隐藏状态h_m作为输入，并输出下一步骤的隐藏状态e_m+1。最后时刻的隐藏状态步骤是对描述T或短语P进行有效概括，得到描述特征θg（T）=WghF（T）+bg或短语特征θl（P）=WlhF（P）+bl，其中hF（T）和hF（P）分别是文本T和短语P的最终隐藏状态。因为T描述了丰富的人的特征6D. Chen等人我JSSN图3：从文本中提取感兴趣的名词短语的流程图。首先进行词级分词和词性标注，然后进行组块抽取名词短语由于并非所有的短语都具有区分信息，我们对两种短语感兴趣：（1）带形容词的名词短语（JJ），定义为JNP(2)名词短语由通过介词（IN）连接的多个名词组成θg（T）可以描述特定的人。因此，我们施加另一个ID损失以使θg（T）对于不同的人是可分的，LT=− 1ΣN ΣI.yi，nlog Σ exp（vθg（Tn））Σ、（3）Nn=1i =1我j=1 exp（vθg（Tn））其中yi，n是类似于等式n中的标签定义的标签。表示与文本特征上的第i个人相关联的分类器参数3.2全局判别图像语言协会前一节中的ID损失仅使视觉和语言特征在每种模态内具有区分性，但不建立图像-语言对应以增强视觉特征。由于全局描述通常与图像中的多个不同区域相关，因此θg（T）可以与t oψ¯（I）（Eqn. （1））在一个实施例中，该方法是严格的。 S.pecifically，ψ¯（IΣ）a.ndθg（T）firstlΣy对于在i上的一个j∈ {\displaystylei\，}{\，}{\其中◦表示Hadamard乘积。联合代表是亲通过以下操作将其转换为范围（0， 1）exp（w =1，T）+bs）s（I，T）=.（四）1 + exp（w（I，T）+bs）为了构造ψ¯（I）和θg（T）的关系式，当I和T属于同一人时，将（I，T）设为1，当I和T属于不同人时，设为0.因此，我们对分数施加二进制交叉熵损失：1ΣΣLdis=−i、jli，jlog.Σs（Ii，Tj）+（1−li，j）log.1−s（Ii，Tj）ΣΣ、（五）按全局和局部图像语言协会的7r¯whereN 是采样的图像-文本对的数量。li，j= 1，如果Ii和Tj是描述同一个人，否则，li，j= 0。讨论这里，我们在所提出的判别方案和双向排名[21，41，63]之间进行区分，其由下式表示1ΣLrank=N i、jmax（0，ki，j-ki，i+α）+max（0，kj，i-ki，i+α），（6）其中ki，j=ψ¯（Ii）θg（Tj）. 如果一个图像-文本元组应该比ki，j或kj，i（对于任何i = j）高至少a的裕度，则该代价是最小的k i，i。我们强调了所提出的L_dis（等式1）和L_dis（等式2）之间的两个主要差异（5））和Lrank：（1）由于Lrank最初应用于图像-文本检索任务中，它通过简单地检查图像和文本特征是否来自同一元组来关联图像和文本特征不同的是，L_dis基于人ID，这更合理，因为一个描述可以很好地对应于同一个人的不同图像。（2）Lrank通过图像与文本的余弦相似度、r∈i（i）和dθg（Tj）来估计图像与文本的相关性。而前提条件是目标没有可用的资源。3.3局部重构图像-语言联想一个短语通常只描述图像的一部分，并且可以包含在对不同人的描述中。由于这个原因，短语与人物ID，但仍然可以与其描述的图像中的某个区域建立对应关系。因此，我们提出了一个重建方案。即短语特征θl（P）可以在视觉特征图中选择相关特征向量Ψ（In），如果P∈ P（Tn），所选择的特征向量能够依次重构短语P。图像特征聚合。假设P是一个短语，描述了一个特定的区域，在信息In，我们可以定义一个Vectt或一个P（In），它可以在该区域中反映出你的感受。为此，我们通过集合来计算ψ（P（In））。在您的映射表中的函数{k（In）}K的gation：k k kP（In）=ΣKk=1k=1rk（P，In）ψk（In），其中rk（P，In）是反映相对于k的注意力权重evanceb e tweenth e phrase. P和f e aΣtur e v ec t或ψk（In）。我是我是注意函数fattψk（In），θl（P），其首先计算非正常利用线性函数对weig htrk（P，In）进行分解。projectionoverthejointrepresentatΣion关于ψk（In）和rk（P，In）：r¯k（P，In）=w（ψk（In）−θl（P））◦（ψk（In）−θl（P））+br¯，该orm通过在K上使用t个最大操作来实现值bi ns：rk（P，In）=ex p（r¯k（P，In））/Kk=1 exp（r¯k（P，In））. 在实践中，这一点模型很容易在有限的训练数据下过拟合此外，空间上的adja-分特征图可能代表一个短语，它们更合理合并。出于这些原因，我们通过在加权聚合之前平均池化Ψ（In也在图中示出。4 .第一章短语重构。为了加强聚合函数映射ψ（P（In））与输入p之间的一致性，我们构建了约束概率p（P|ψ（P（In））与hψ（P（In））的关系。如果你是一个单身汉，8D. Chen等人注意力权重加权聚集<开始>袋袋超过超过LSTM肩膀肩膀LSTM重建图4、局部重构性意象-语言联想的网络结构我们首先使用特征映射Ψ（In）和短语特征θl（P）来计算不同位置处的中间特征的注意力权重，然后执行weigdaggregationtoobtainintheevisualfeaturesΨ（P（In），并最终使用ψ（P（In）来执行LSTIMto truct P。l en>hM，它很容易应用Σchanru l e。tomode l theprob i li tyΣover{〇 1，〇 2，… 〇M+1}：l〇 gp（P|ψ（P（In））=Mm=0 logp om+1|P（In），o om. 更具体地，0m+1（m = 0，…，M）是one-hot vec上的随机变量。t或s，并且d{0，…o{M+1}是e-hotvectorsofthegrond请输入hw或ds。其中，o0、oM+1是唯一的向量，也是指定的向量这是一个很好的例子。 I'msure.I'm sure. I'msure.tetaskofimagecaptiΣongen-在文献[51，57]中，LSTM被应用于modelpom+1|P（In），o o？m. M或e特别地，我们将ψ（P（In））函数化到LSTM，该函数化了以获得下一个字的隐藏状态。下一个单词从所述hiddedestatemm+计算概率。1和dew或dembedΣing嗯。对于多个数据，可获得的数据量为：p om+1|P（In），o om∝exp（Woh hm+1 +Woe em）.重建损失是负对数每个步骤中正确单词的可能性：1ΣN1Σ。ΣLrec=−N n=1 |P(Tn)|P∈P（Tn）logpP|（In）.（七）3.4训练和测试最终的损失函数是图像ID损失、文本ID损失以及区分性和重构性图像-语言关联损失的组合L=LI+λTLT+λdisLdis+λrecLrec，（8）其中λT、λdis和λrec是平衡参数。对于网络训练，我们采用随机梯度下降（SGD），初始学习率为10- 2，在第20个历元后进一步衰减到10- 3我们按以下方式组织培训批次。首先将数据元组（In，Tn，dn）变换为（In，Tn，P（Tn），dn）。按全局和局部图像语言协会的9每批包含来自32个随机选择的人的样本，并且每个人具有两个随机抽样元组。对于全局判别，我们通过利用所有元组内和元组间图像描述组合形成32× 4个正图像描述对，并为每个图像采样6个负对，产生64×6个负对，保持正/负比为1：3。同时，在每个元组内执行局部重构。在测试中，只提取图像特征，而不使用语言描述。两个图像特征之间的距离简单地是欧几里得距离，即，di，j=φ（Ii）−φ（Ij）2。通过以升序排列探针图像和图库图像之间的距离来执行人员Re-ID。4实验我们在三个标准的人re-ID数据集上评估了所提出的方法，其语言注释可以完全或部分地从CUHK-PEDES数据集获得[26]。消融研究主要在Market-1501 [62]和CUHK-SYSU [56]上进行，这便于进行广泛的评估，因为固定的培训/测试划分。我们还报告了Market-1501，CUHK 03 [28]和CUHK 01 [27]的总体结果，以与最先进的方法进行比较4.1实验装置数据集和指标。为了验证语言描述在人重新ID中的效用，我们用语言描述增强了四个标准的人重新ID数据集（Market-1501，CUHK 03，CUHK 01和CUHK-SYSU）。语言描述是从CUHK-PEDES数据集获得的，该数据集最初是为基于文本的跨模态人物搜索而开发的，包含来自五个现有人物re-ID数据集的13，003人的由于Market-1501和CUHK03中的人有许多相似的样本，因此这两个数据集中每个人只有四个图像具有语言描述。在四个数据集中，Market-1501、CUHK 03和CUHK 01遵循标准训练和测试分区。CUHK-SYSU是一种用于联合检测和识别的新数据集。根据CUHK-PEDES中的分离，来自5，532个身份的15，080个图像用于训练，来自2，900个人的8，341个图像采用平均精密度（mAP）和CMC top-1、top-5、top-10准确度作为评价指标。实作详细数据。所有人物图像的大小都调整为256×128。对于数据增强，采用随机水平翻转和随机裁剪。我们根据经验将特征嵌入的维度Φ（I）、θ1（P）和θg（T）设置为256，并设置平衡参数λT=0。1，λdis= 1，λrec= 1。由于Market-1501和CUHK 03中的一些图像没有语言描述，我们使用同一个人的描述（如果可能的话，在同一个相机中）来组成数据元组（ In， Tn， dn）。ResNet-50主干由ImageNet上预训练的参数初始化[16]。10D. Chen等人方法培训损失表1：基线和其他变体的损失配置方法市场-1501中大中山大学表2：基于我们的基线方法的不同关联方案的比较。第一名报告5、-10准确度（%）和mAP（%）基线和变体。基线只是产生特征图φ（I）的视觉CNN，由图中的红线指示。二、我们还在消融研究的基线上构建了4个变体。它们的损耗配置如表所示。1. 其中，巴塞尔。仅施加ID损失以使φ（I）对于不同的人是可分离的都是巴塞尔+ rank和basel.+ GDA在全局描述特征θg（T）上附加ID损失，但具有不同的全局图像-语言关联方案。巴塞尔+rank 采用等式（ 1 ）中的 L 秩。（ 6 ），而 Basel.+ GDA 利用 Eqn.（五）、变种巴塞尔。+ LRA采用等式1中的重建损耗Lrec。（7）利用集合特征ψ（P（In））和相位特征θl（P）构造局部我们提出的方法利用全球和本地图像语言关联计划。4.2全局判别联想（GDA）与非区别性变体的比较。我们通过比较使用和不使用描述特征θg（T）的变体来评估全局区分性图像-语言关联的效果。其中，巴塞尔+ GDA改进了巴塞尔协议. 以市场1501及中大-中山大学的最低平均入学率计算，分别上升5.6%及4.4%（见表10）。2），表明GDA有利于视觉表征的学习此外，我们提出的方法产生更好的perfor-曼斯比巴塞尔。LRA，表明全球歧视性协会的效果是互补的局部重建协会。LILTL显示L记录L秩巴塞尔。✓✗✗✗✗巴塞尔。+级别✓✓✗✗✓巴塞尔。+ GDA✓✓✓✗✗巴塞尔。+上帝抵抗军✓✗✗✓✗提出✓✓✓✓✗地图top-1top-5前10地图top-1top-5前10巴塞尔。74.489.295.596.985.887.393.795.1巴塞尔+ [21]第二十一话75.588.595.997.587.088.094.595.9巴塞尔+ 排名第二[63]77.790.596.197.688.890.295.596.8巴塞尔。+ GDA80.091.596.498.090.291.096.297.5巴塞尔。+上帝抵抗军79.691.696.797.989.790.796.097.4按全局和局部图像语言协会的11与双向排名损失的比较[21，63]。 GDA中的L_dis算法的其具有与双向排序损失Lrank（等式11）类似的功能。（6））用于图像-语言跨模态检索。我们实现两种类型的排名损失进行比较。第一个更类似于[21]中的损失，其中正图像-文本对由来自同一元组的图像和文本组成。另一种是采用文献[63]中的损失，其中正的图像-文本对是由来自同一个人的任意图像-文本组合获得的。我们修改巴塞尔协议。+ GDA通过用两个损失函数代替L_dis，并将它们表示为b_a_sel。+rank1andbasel.+rank2，respetively。表2中的结果表明，两种排名损失都可以提高基线。此外，巴塞尔。+ rank2优于basel。+ 通过结合更丰富的正样本用于区分来排名1。巴塞尔协议+ GDA 在Market-1501和CUHK-SYSU上进一步提高了2.3%和1.4%的mAP，验证了我们的相关性估计策略（Eqn. 4）.T的重要性。为了保持视觉特征的可分性，假设关联的语言特征θg（T）对不同的人是有区别的，因此L_T与L_dis一起使用。基于巴塞尔协议，我们研究了L T的重要性。GDA并观察性能如何随表3中λT变化。当λT= 0时，结果稍差，表明LT是不可缺少的。另一方面，当λ T在0附近时实现最优结果。1.一个可能的原因是，语言描述有时更模糊，以描述一个特定的人，使LI和LT不是同样重要的。例如， “ 该人穿着蓝色衬衫 ” 可以包括穿着深蓝色衬衫和浅蓝色衬衫的不同人。4.3地方重建协会（LRA）与非重建变体的比较。我们通过比较使用和不使用局部短语特征θl（P）的变体来评估局部重构关联的效果。巴塞尔协议之间的绩效差距。巴塞尔+ LRA证明了LRA用于视觉特征学习的有效性。雇佣上帝抵抗军带来5. 2%和3。两个数据集的mAP增益为9%，接近巴塞尔+ GDAMarket-1501中大中山大学λT地图top-1top-5前10地图top-1top-5前10078.991.196.497.689.390.395.797.00.0579.291.296.597.889.290.295.696.90.180.091.596.498.090.291.096.397.50.579.691.396.697.989.890.996.297.3178.991.096.697.989.190.095.897.1表3：巴塞尔协议中L T的重要性分析+ GDA。我们固定λdis=1，并将λT调整为0，0.05，0.1，0.5，1。报告前-1、前-5、前-10准确度（%）和mAP（%）12D. Chen等人方法top-1 top-5 top-10方法top-1 top-5 top-10 GNA-RNN [26]19.05--53.64 DPCE [63]44.40 66.26 75.07国际亚视[25]25.94--60.49我国43.58 66.93 76.26表4：CUHK-PEDES的结果。使用GDA的好处此外，该方法优于Basel.+ GDA还显示了上帝军的有效性。短语引导的注意力权重的可视化。我们计算针对特定短语的注意力权重（等式1）。（4）），将权重与相应的图像对齐热图如图所示。图5示出了注意力权重可以粗略地捕获由短语描述的局部区域。4.4文本到图像检索的结果作为副产品，我们的方法也可以用于文本到图像检索，这是通过对跨模态相关性进行排名来实现的（等式11）。（四））。我们报告了在CUHK-PEDES上的检索结果，其中有3，074个测试图像，6，156个字幕，3，078个验证图像，6，158个字幕，34，054个训练图像，68，126个字幕。定量和定性结果报告于表4和图3中。6，分别。虽然我们的方法不是专门为这项任务而设计的，但它与当前最先进的方法相比取得了有竞争力的4.5与最先进方法的比较我们将我们的方法与 Market1501 ，CUHK03和CUHK01数据集上的当前最先进的方法进行了比较。关于Market-1501的结果报告于Ta-方法中大01上一页-1上一页-5上一页-10左表6。我们的方法优于所有其他方法的单查询和多查询协议下的mAP和top-1的准确性。请注意，我们的方法的基线与大多数以前的方法相当有竞争力，这部分是因为良好初始化的ResNet-50 骨干和适当的数据增强策略。所提出的图像语言关联方案可以大大提高性能良好的基线，使我们的方法更好。[31]XQDA（CVPR15）63.283.9九十[55]JSTL（CVPR16）66.6--[58]DNS（CVPR16）69.186.9九十一点八[12]Quad（CVPR17）62.683.489.7[14]CRAFT（PAMI17）74.591.294.8[59]第59话79.994.497.1[60]DLPAR（ICCV17）75.093.595.5巴塞尔。77.093.295.3提出84.8 95.1 98.4表5：CUHK01的结果。报告前-1、前-5、前-10准确度（%）比最近的国家的艺术[2，6]。CUHK 03具有两种类型的人边界框：一种是手动标记的，另一种是由pedes-trian检测器获得的我们比较了我们的方法和其他两种类型的方法，并在表6中报告了前1名和前5名的准确度可以看出我们的方法按全局和局部图像语言协会的13图5：注意力权重的热图这些短语被放置在相应热图的左侧放大图以更好地查看短语。图6：文本到图像搜索的示例显示最相关的24张图像红框表示地面实况。具有显著优于前1精度的优势，但在标记边界框的前5精度上比D-person [6]低0.2%。由于D-人只利用图像数据，它是有前途的应用我们的语言关联方案D-人更好的性能。与Market-1501和CUHK 03相比，CUHK 01具有较少的用于训练的图像，如第五、如表5所示，建议的关联方案在CUHK01上的基线上具有7.8%的前1准确度增益。实验结果证实了语言描述的有效性，并表明在图像数据不充分的情况下，该方案可能更有用。在比较的方法中，Spindle [59]和PDC [47]利用姿势地标，CADL [32]采用相机ID标签，ACN [44]利用属性进行训练。我们在所有三个数据集上都取得了比它们更好的结果（表5和表6）。结果表明，语言描述也是一种有用的辅助信息，为人的再ID。利用所提出的方案，它可以实现与标准CNN架构的优越性能。14D. Chen等人街市-1501 CUHK 03方法单个查询多-查询实验室埃莱戴特反恐执行地图top-1地图top-1top-1top-5top-1top-5[67]P2S（CVPR17）44.370.755.785.8----[32]CADL（CVPR17）47.173.855.680.9----[24]MSCAN（CVPR17）57.580.366.786.874.294.368.091.0[5]SSM（CVPR17）68.882.276.288.276.694.672.792.4[65]第65话63.477.1--61.6-58.5-[44]ACN（CVPRW17）62.683.6----62.689.7[49]SVDNet（ICCV17）62.182.3----81.895.2[60]DLPAR（ICCV17）63.481.0--85.497.681.697.3[66]第66话60.7-66.8-61.788.462.787.6[40]第四十话----76.976.375.694.4[47]PDC（ICCV17）63.484.1--88.798.678.394.8[64]VI+LSRO（ICCV17）66.184.076.188.4--84.697.6[15]DPFL（ICCVW17）73.188.980.792.386.7-82.0-[29]JLMT（IJCAI17）65.585.174.589.783.298.080.696.9[6]D-Person（Arxiv17）79.692.394.585.191.599.089.498.2[2]三峡工程（Arxiv18）81.292.287.394.7----巴塞尔。74.489.282.393.388.498.187.997.5提出81.893.387.995.392.598.890.998.2表6：与Market-1501和CUHK 03数据集上的最新方法的比较。Market-1501上的结果是在单查询和多查询协议下的。报告MAP（%）和前1位准确度（%）同时，CUHK03上的性能进行了评估与标记和检测的边界框。报告前1和前5准确度（%）5结论我们利用语言描述作为额外的训练监督，以提高人的重新识别的视觉特征。提出了全局和局部图像-语言关联方案。前者学习更好的全局视觉特征的歧视性监督的整体语言描述，而后者加强局部视觉特征和名词短语之间的语义一致性，通过短语重建。实验结果表明，本文提出的图像-语言关联方法能够显著提高视觉特征的学习效率，比现有的图像-文本联合嵌入方法更有效.该方法在三个公共人员re-ID数据集上实现了最先进的性能。确认这项工作得到商汤科技集团有限公司、香港研究资助局资助的优才研究基金（第香港创新科技大学（香港中文大学）及技术支援计划（编号ITS/121/15 FX）。按全局和局部图像语言协会的15引用1. Ahmed，E.，琼斯，M.，马克，T.K.：一种用于人员重新识别的改进的深度学习架构。参见：CVPR（2015）2. Almazan，J.，Gajic，B.，Murray，N. Larlus，D.：正确完成重新识别：制定人员重新识别的良好做法。arXiv预印本arXiv：1801.05339（2018）3. Anderson，P.他，X.，比勒角Teney，D. Johnson，M.，Gould，S.，张先生，L.：自下而上和自上而下关注图像字幕和视觉问答。arXiv预印本arXiv：1707.07998（2017）4. Antol，S.，阿格拉瓦尔，A.，卢，J，Mitchell，M.Batra，D.，LawrenceZitnick，C.Parikh，D.：Vqa：可视化问答。In：ICCV（2015）5. Bai，S.，Bai，X.，Tian，Q.：监督平滑流形上的可扩展人员再识别。在：CVPR（2017）6. Bai，X.，杨，M.，黄，T.，窦志，字，尤河Xu，Y.：深度人：学习用于人重新识别的有区别的深度特征。CoRR abs/1711.10658（2017）7. Barbosa，I.B.，Cristani，M.，Del Bue，A.，巴扎尼湖穆里诺，五：用rgb-d传感器重新识别。In：ECCV（2012）8. Chen，D.，中国农业科学院，徐，D.，Li，H.，塞贝，N.，Wang，X.：基于深度crf的群体一致性相似性学习方法。来源：CVPR（2018）9. Chen，D.，中国农业科学院，Yuan，Z.，陈伯，Zheng，N.：具有空间约束的相似性学习用于人的重新识别。见：CVPR（2016）10. Chen，D.，中国农业科学院，Yuan，Z.，Hua，G.，郑，N.，Wang，J.：基于显式多项式核特征映射的相似性学习用于人员重新识别。参见：CVPR（2015）11. Chen，D.，中国农业科学院，Yuan，Z.，王杰，陈伯，Hua，G.，Zheng，N.：基于多项式核特征映射的样本引导相似性学习用于人员再识别。InternalJour nalofComuterVison123（3），39212. 陈伟，陈旭，张杰，Huang，K.：除了三重态损失：一种用于人员重新识别的深度四元组网络。在：CVPR（2017）13. Chen，X.， Zitni ck，C. L. 字幕：一个再现的视频再现了用于图像字幕生成的内容。在：CVPR（2015年6月）14. Chen，Y.C.，Zhu，X.，Zheng，W.S.，Lai，J.H.：通过相机相关性感知特征增强的人重新识别。IEEETransactionsonPatternAnalysisandMachineIntelligence40（2），39215. 陈玉，Zhu，X.，龚，S.：通过深度学习多尺度表示进行人员重新识别。在：ICCVW（2017）16. Deng，J.，Dong，W.，索赫尔河Li，L.J.，Li，K.，李菲菲：ImageNet：一个大规模层次化图像数据库。在：CVPR（2009）17. Farenzena，M.，巴扎尼湖Perina，A.，Murino，V.，Cristani，M.：个人重新识别由个人驱动的积累的地方特点。在：CVPR（2010）18. Frome，A.，科罗拉多州科拉多Shlens，J.，Bengio，S.，迪恩J Mikolov，T.，等：开发：一种基于改进模块的设计。 In：NIPS. pp. 212119. Johnson，J.，Karpathy，A.，李菲菲：Densecap：用于密集字幕的全卷积定位网络。见：CVPR（2016）20. Karpathy，A.，李菲菲：用于生成图像描述的深度视觉语义对齐。IEEETrans.模式分析马赫内特尔39（4）（2017年4月）21. Karpathy，A.，Joulin，A.，李菲菲：用于双向图像句子映射的深度片段嵌入。在：NIPS（2014）22. Koestinger，M.，Hirzer，M.，Wohlhart，P.，罗斯下午Bischof，H.：大规模的精确计算来自于均衡的经济增长。In：CVP R.pp. 第228816D. Chen等人23. Krizhevsky，A.，萨茨克弗岛Hinton，G.E.：使用深度卷积神经网络的图像网分类在：Pereira，F.，Burges，C.J.C.博图湖温伯格K.Q.（编辑）NIPS（2012）24. Li，D.，陈旭，张志，Huang，K.：在身体和潜在部位上学习深度上下文感知特征，用于人员重新识别。在：CVPR（2017）25. Li，S.，Xiao，T.，Li，H.，杨伟，Wang，X.：具有潜在共同注意的身份感知文本视觉匹配In：ICCV（2017）26. Li，S.，Xiao，T.，Li，H.，Zhou，B.，（1991年），中国地质大学，Yue，D.，Wang，X

下载后可阅读完整内容，剩余1页未读，立即下载