跨模态行人再识别：自注意力融合网络应对姿态、视角与夜间挑战 - CSDN文库

版权申诉

127 浏览量更新于2024-06-27 收藏 1.51MB DOCX 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

随着视频监控技术的日益普及，行人再识别（Person Re-Identification, ReID）在公共安全领域扮演着至关重要的角色，特别是在多目标跨摄像头追踪问题中。传统的监控系统往往依赖单一的RGB（Red, Green, Blue）图像，但面对复杂场景和夜间环境，仅依靠RGB相机无法满足所有的识别需求。因此，引入其他模态如红外(IR)图像，形成跨模态行人再识别（Cross-Modal Person ReID），成为提高识别准确性和鲁棒性的关键。本文主要研究的是如何设计和实施基于自注意力模态融合网络的跨模态行人再识别方法。自注意力机制是一种强大的神经网络组件，它能够自动学习输入序列中的重要部分，有助于捕捉不同模态数据之间的潜在联系。在这个框架下，研究者可能采用以下步骤： 1. **数据预处理**：首先，通过行人检测技术从RGB和IR图像中提取出行人包围框，这些包围框包含了目标个体的关键特征。这一步对于后续的跨模态特征提取至关重要。 2. **模态融合**：针对不同模态的数据（RGB和IR），使用自注意力机制来融合特征。自注意力模型能够对来自两种不同视觉模式的信息进行加权，优先关注对识别最有帮助的部分，忽略无关或干扰信息。 3. **特征提取**：通过深度卷积神经网络（CNNs）或其他高级特征提取技术，从RGB和IR图像中分别提取出高维特征向量，然后将这些特征向量通过注意力机制整合。 4. **模态一致性**：确保两个模态下的特征表示在跨模态匹配中具有一致性。这可以通过联合损失函数实现，如softmax交叉熵损失，同时考虑RGB和IR模态的识别结果。 5. **模型训练与优化**：在大规模标注的跨模态行人再识别数据集上进行模型训练，通过迭代优化调整网络参数，提升模型的识别性能和泛化能力。 6. **评估与应用**：通过实验验证模型在公开的跨模态行人再识别数据集上的表现，包括Casia-IR, SYSU-MM01等，对比传统方法，展示其在复杂场景和跨模态匹配中的优势。该研究旨在解决跨模态行人再识别中的挑战，利用自注意力模态融合网络来提高识别精度和适应各种照明条件，为公共安全监控系统的智能化提供技术支持。这项技术的应用不仅有利于提高犯罪侦查效率，还能为未来的智能监控系统提供更全面、更精确的人体识别解决方案。

资源详情

资源推荐

Zheng 等

[9]

利用一个孪生网络

[10]

, 结合分类问题与验证问题, 一次输入一对行人图片,

对于输入的一对行人图片, 网络一方面要预测两幅图片中行人各自的 ID, 另一方面要判断

输入的两幅图片中的行人是否为属于同一行人. 在分类问题中, 他们使用 SoftMax 损失进

行行人类别分类. 在验证问题中, 利用一个二维 SoftMax 损失进行一个二分类.

Zhang 等

[11]

提出了一种端到端的方法 AlignedReID, 让网络自动地去学习人体对齐.

在 AlignedReID 中, 深度卷积神经网络不仅提取全局特征, 同时也对各局部提取局部信息,

在提取局部信息时采用动态匹配的方法选取最短路径, 从而进行行人对齐, 在训练时, 最短

路径长度被加入到损失函数, 辅助学习行人的整体特征.

Zhao 等

[12]

提出了一种基于人体关节点对人体进行区域划分的网络(Spindle net), 首先

定位人体的 14 个关节点, 通过区域提取网络来产生 7 个身体区域, 再通过 FEN (Feature

extraction net)特征提取网络和 FFN (Feature fusion net)特征融合网络以身体区域为基础进行

人体特征提取与融合.

Dai 等

[13]

提出了一种批特征擦除 BFE (Batch feature erasing)方法, 对于一个批量的特征

图, 随机遮挡住同样的一块区域, 强迫网络在剩余的区域里面去学一些细节的特征. 这样训

练得到的网络不会太过于关注那些显而易见的全局特征.

Zhong 等

[14]

通过引入 Camera style adaptation 来解决相机差异导致的行人图片变化(光

线、角度等)的问题. 作者首先利用 CycleGAN

[15]

实现不同相机风格的转化, 在得到不同相机

风格下的图片后, 将这些生成的图片放入网络中进行训练, 其中原始图像利用 SoftMax 损失

进行有监督的训练, 生成图像利用 LSR (Label smoothing regularization)损失进行训练. LSR

损失用于解决生成图像产生较多噪音的问题. 通过在训练数据中增加相机风格图片, 一方面

增加了训练集数据量, 另一方面通过增加各个相机风格图片, 使得网络能够集中学习与相机

无关的特征.

1.2 跨模态行人再识别方法

跨模态行人再识别的方法目前集中于深度学习的方法. 包括通过设计卷积神经网络来

更好地学习跨模态行人的特征以及利用损失函数来更好地度量不同模态的行人之间的相似

度.

2017 年, Wu 等

[16]

提出了一种基于 Deep zero-padding 的跨模态行人再识别方法, 并且

建立了一个大规模跨模态行人再识别数据集 SUSU-MM01. 作者对输入的 RGB 图和 IR 图

在通道上进行了填充. RGB 图先转换为第 1 通道的灰度图, 之后在第 2 通道填充大小与灰

度图一样的全 0 值. 对 IR 图, 在第 1 通道填充大小与 IR 图一样的全 0 值. 接着将填充后的

RGB 图和 IR 图统一的放入网络中进行训练, 通过 SoftMax 损失对行人标签进行有监督的

训练.

Ye 等

[17]

提出 BDTR (Bi-directional dual-constrained top-ranking)方法来解决跨模态行人

再识别. 作者通过一个孪生网络对 RGB 图片和 IR 图片分别进行特征提取, 利用 SoftMax

损失和提出的双向排序损失(Bi-directional ranking loss)进行有监督的训练. 双向排序损失包

剩余19页未读，继续阅读

罗伯特之技术屋

粉丝: 4139
资源: 1万+

会员权益专享

图片转文字

全年可省5，000元立即开通

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈