全局与局部图像-语言关联：提升人员再识别精度的关键策略

197 浏览量更新于2024-06-20 收藏 1.42MB PDF 举报

本文主要探讨了"通过全局和局部图像-语言关联：人员再识别中的有效辅助信息"这一主题。在当前的智能视频监控领域，人员再识别是一项至关重要的任务，它涉及到区分个体身份的独特视觉特征。以往的研究已经展示了深度卷积神经网络（CNN）在图像分类中的显著成就，这促使re-ID（人员再识别）领域取得了一系列突破，产生了高效的视觉表示。传统的视觉特征学习方法往往依赖于单一的图像数据，而本文提出了一种创新的方法，即利用自然语言描述作为额外的训练监督。语言描述能够提供更为紧凑且语义丰富的视角，补充像素级图像数据的不足。该方法不仅关注全局视觉特征的学习，使之与整体的描述保持一致，还强调了局部视觉特征与语言特征之间的语义一致性，通过建立全局和局部的图像-语言关联来实现这一点。全局图像-语言关联是基于身份标签建立的，旨在帮助模型理解和区分匹配的图像-语言对和不匹配的。另一方面，局部关联则聚焦于图像区域与名词短语之间的对应关系，这有助于模拟并增强模型在特定区域的识别能力。通过大量的实验验证，将语言作为训练监督证明了其与全局和局部关联计划的有效性。结果显示，该方法在不依赖任何额外辅助信息的情况下，达到了国家最先进的性能，并且在与图像-语言联合嵌入方法的对比中显示出更强的识别效果。这表明语言辅助信息对于提升人员再识别的准确性和鲁棒性具有显著作用，为未来的研究提供了新的思路和技术支持。关键词：人员再识别、局部-全局语言联想、图文对应总结来说，本文的核心贡献在于提出了一种结合全局和局部图像-语言关联的人员再识别策略，通过自然语言的引导，强化了模型对视觉特征的理解和表达能力，从而显著提高了识别性能。这对于提升智能监控系统的实用性和智能化水平具有重要意义。

D. Chen等人

图2：我们提出的方法的总体框架。我们使用ResNet-50作为主干架构。所产

生的中间特征

（

）与描述特征

（

）和短语特征

（

）。

图像或文本[39，51]，并具有流行的应用，如字幕生成[3，35，43，

51，57]和图像生成[41，42]。另一方面，也已经开发了用于图像-文本

关联的判别模型。Karpathy和Fei-Fei [21]制定了一个双向排名损失来关

联文本和图像片段。 Reed

等人

[41]提出了深度对称结构化联合嵌入，

并强制要求匹配的图文对的嵌入量高于不匹配的图文对的嵌入量。我

们的方法结合了判别式和生成式方法的优点，以不同的粒度建立图

像-文本关联，其中语言描述作为训练监督，以提高视觉表示。

我们的方法

我们的目标是利用语言描述的人的图像作为训练监督，除了原来的ID

标签，更好的视觉表示。视觉表征不仅要对不同的人具有区分性，而

且要与语言表征保持一致性。因此，我们提出了全球和本地的图像语

言的关联计划。一个人的整体视觉特征与同一个人的语言描述特征的

相关性应该比不同人的语言描述特征的相关性更高与现有的跨模态联

合嵌入方法不同，我们不需要将视觉和语言特征映射到统一的嵌入空

间。此外，基于图像和语言都是空间可分解和时间可分解的假设，我

们还试图找到它们之间的相互对应关系

剩余16页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

全局与局部图像-语言关联：提升人员再识别精度的关键策略

遥感图像处理_分类与特征抽取

externals: { vue: 'Vue', 'element-ui': 'ELEMENT', 'element-china-area-data': } 'element-china-area-data': 的后面应该写什么

用自己的语言定义下列分布式数据库中的术语：全局数据、全局用户（应用）、全局DBMS、全局DB、全局外模式、全局概念模式、分片模式、分配模式。局部概念模式。

gateway同时配置了全局限流和局部限流，但是局部限流不生效，请用代码解决一下

利用E-R模型进行数据库概念设计的步骤：局部E-R模型设计->全局E-R模型设计-全局E-R模型优化。对吗

成员变量 全局变量 局部变量

普通全局变量和static全局变量的区别？

局部E-R模式的合并顺序有时会影响处理效率和结果，在合并的过程中还存在各种冲突，试分析从局部E-R模式的合并和为全局E-R模式的方法,合并中冲突以及其中冲突的解决办法

目标识别全局特征和局部特征

最新资源

成员变量全局变量局部变量