RGB-D融合技术提升人员再识别性能：一种不相似空间融合策略

PDF格式 | 17.67MB | 更新于2025-01-16 | 150 浏览量 | 举报

RGB-D融合技术在人员重新识别中的应用是一项前沿的计算机视觉研究，特别是在安防监控领域。它旨在通过结合RGB（颜色）图像和深度信息（Depth）来提升人员识别的精度和鲁棒性，尤其是在复杂的光照条件下。RGB-D传感器如Microsoft Kinect和Intel RealSense提供了多模态数据，包括RGB图像、深度图以及骨骼信息，这些数据对于创建不变于光照变化的特征至关重要。当前的深度学习模型在多模态融合上已经取得了一定进步，然而，这些方法往往缺乏动态选择最具辨别力卷积滤波器的能力，导致可能在融合过程中引入噪声，影响最终的特征嵌入和识别性能。本文作者提出了一种创新的方法，即在不相似空间中融合RGB和RGB-D信息。通过训练两个独立的CNN，分别针对RGB和RGB-D输入，生成独特的特征嵌入。不相似度分数被用来整合这两种模态的证据，从而减少冗余和噪声的影响，提高匹配的准确性。为了解决数据稀缺的问题，作者还贡献了一个新的RGB-D Re-id数据集——SUCVLRGBD-ID，该数据集包含58个不同身份的RGB和深度图像，来自三个摄像头的不同位置和光照环境。这使得研究人员能够在实际场景下评估和优化他们的算法。通过对SUCVLRGBD-ID和其他公开数据集的实验，结果证实了提出的融合策略的有效性，并证明了其在多种RGB-D应用中的通用性。 RGB-D融合技术在人员重新识别中的应用不仅关注深度学习模型的改进，还着重于数据集的建设与合理融合策略的设计，以适应实际场景中的复杂性和多样性。通过这种方法，智能监控系统的性能得到了显著提升，为安防监控领域带来了新的可能性。

y 12 (2021) 100089

从两个不同的训练模型中提取的特征嵌入。然后在不相似空间中融合两个单独模式

的计算出的不相似性，以获得查询和库之间的最终匹配分数。在这项工作中，我们

采用RGB和深度信息以RGB和RGB-D的形式用于两个单独的模型。因此，我们有特

权在不相似空间中获得基于RGB和RGB-D的训练模型的集成。在这种情况下进行集

成有助于我们克服过拟合问题，而传统的特征融合方法可能会因融合嘈杂/异质特

征点而遭受过拟合的困扰。一般来说，深度信息对于光照变化是稳健的。

国家、视角和分辨率。在我们的工作中，我们使用RGB-D图像，与RGB图像相比，

它包含了深度信息的一个通道（见图2），并利用了具有额外通道的优势，即具有

一个光照不变的深度图像，并且我们还在我们的Re-id框架中使用了4通道自适应C

NN的4通道RGB-D输入。本文的主要贡献如下：

•

首先，我们提出了一种利用多模态数据在差异空间融合的新型Re-id技术，在Re-i

d框架中设计了一个4通道RGB-D图像输入。•其次，我们提出了一个RGB-D

Re-id数据集，包括58个身份。对于每个身份，IntelRealSenseDepthCamera

D435

[24]在三个不同的室内位置以不同的照明条件捕获了一系列RGB和深度图像。•

最后，对我们提出的数据集和两个公开数据集的实验分析表明，在差异空间中的

融合有助于提高识别准确性，而不是在特征空间中的融合。

本文的其余部分组织如下。在第2节中，我们介绍了基于多模态（即RGB图像、深

度图像和骨架信息）的现有重新识别技术的相关工作，这些技术是从RGB-D传感器

获取的。在第3节中，我们描述了我们基于差异的Re-id框架，使用3通道RGB和4通

道RGB-D传感器数据，以及我们提出的数据集SUCVL

RGBD-ID。在第4节中，我们报告了我们的方法在不同数据集上的实验结果，并与

最先进的方法进行了比较。在第5节中，讨论了一般观察和典型失败案例。最后，

在第6节中，我们提出了结论性的意见。

2.相关工作

大多数当前的Re-id方法侧重于基于传统RGB摄像头匹配个体。但是，一些限制，

如光照和服装变化，无法通过RGB摄像头正确解决。在RGB-D传感器到来后，Re-i

d研究人员利用了其他模态，如深度和骨架信息，以解决上述问题，并提高Re-id的

准确性。在本节中，我们将概述基于RGB-D传感器的人员重新识别方法，这些方法

与我们的工作最相关。在基于RGB-D的Re-id文献中，一些重新识别方法是基于深

度图像、点云和人体测量提出的，以解决服装变化（即长期重新识别）和极端光照

的问题[11-15,25-27]。尽管RGB-D传感器可以同时捕获RGB、深度和骨架信息，

但是当人们出现在过度照明的环境中或更换衣服时，在这种情况下，一些作者只考

虑基于深度的人员Re-id[25,26]方法来解决这些约束。在参考文献[25]中，Haque

等人提出了一种用于基于深度视频的人员识别的循环注意模型，其中3D

RAM模型适用于静止的3D点云，而4D

RAM模型适用于3D点云序列。然而，Haque的方法不适合解决当没有

在训练和测试中身份重叠。在参考文献[26]中，作者提出了一种长期人员重新识别

的方法，该方法使用深度视频，其中他们使用局部三阶张量模型开发了稀疏典型相

关分析，以执行多级人员重新识别。在一些作品中，作者提出了基于骨架的人体测

量用于人员重新识别[12,14,15]。Barbosa等人[15]使用基于骨架的特征，这些特

征基于选定身体部位之间的欧几里德距离，例如腿、手臂和整体高度，以及身体表

面上的测地距离。测地距离是从预定义的关节集合计算的（例如从躯干到右髋部）

。在参考文献[14]中，作者提出了两种描述符，其中第一个描述符包含从身体关节

点计算的人体测量，另一个描述符包含人体模型的点云模型。在参考文献[12]中，

Munaro等人修改了参考文献[15]中提出的工作，通过结合点云匹配（PCM）和基

于骨架的特征。尽管这些作品使用基于深度的点云和骨架信息来解决人的姿势变化

，但它们没有执行任何特征级融合或分数级融合技术。除此之外，一些作品[11,13,

27]提出了从给定深度图像和骨架关节点提取的两种不同类型的特征，然后最终通

过分数级融合来获得高的重新识别准确性。Wu等人[11]提出利用深度信息提供深

度体素协方差描述符和旋转不变深度形状描述符，称为特征。为了丰富深度形状描

述符，他们还使用基于骨架的特征作为补充物理信息。在这项工作中，他们计算了

基于骨架的特征之间的欧几里德距离，以及体素协方差矩阵内和体素协方差矩阵之

间的测地距离。最后，他们通过对两个距离求和来衡量两个主体的相似性。在参考

文献[13]中，Imani等人从深度图像中提取了三种直方图特征（局部二值模式（LBP

）、局部导数模式（LDP）和局部四元模式（LTrP）），首先将深度图像分成头部

、躯干和腿部三个区域，然后使用骨架数据。然后，这些直方图特征与人体测量特

征（从骨架关节点计算的人体测量特征）融合，使用分数级融合。在参考文献[27]

中，作者介绍了两种新颖的特征：边缘权重直方图（HEW）和节点强度直方图（H

NS），这些特征适用于单拍和多拍人员重新识别。然后，这些特征与骨架特征结

合，使用分数级融合。上述作品在不同数据集上的性能显示在表1中。一些作者提

出了一些传统的Re-id方法，将RGB外观线索与其他模态（如深度、热数据、步态

和人体测量）相结合。表2显示了不同数据集上传统方法的性能。在参考文献[10]

中，作者提出了骨架标准姿势（SSP）和来自RGB-D数据（彩色点云）的颜色描述

符。通过SSP计算分区网格以通过SSP提取基于颜色的特征。然后，使用所研究的

分区网格重新投影数据库中提取的特征。最后，这些提取的特征用于确定人们的差

异。Pala等人[19]将服装外观描述符与从深度数据中提取的人体测量融合，以提高

重新识别准确性。他们还提出了一种基于差异的框架，用于构建和融合行人图像的

多模态描述符，这是分数级融合的一种替代方法。在参考文献[20]中，Mogelmos

e等人提出了一种三模态重新识别方法，将RGB、深度和热特征结合起来。这些模

态以后期融合策略结合在一起，能够根据组合规则成本预测场景中的新主体，以及

识别以前的主体。Kawai等人[21]引入了一种视角相关的分数级融合方法，将颜色

和步态特征结合起来。在参考文献[22]中，作者提出了一种基于度量模型更新的在

线重新识别方法，用于机器人应用。在这种方法中，每个

M.K.Uddin等人

剩余12页未读，继续阅读

cpongm

粉丝: 6

RGB-D融合技术提升人员再识别性能：一种不相似空间融合策略

基于RGB-D传感器的不相似空间人重新识别方法研究

稀疏原子融合提升RGB-D场景图像识别效率

RGB-D室内语义分割：局部敏感的门控融合反卷积网络

Employing-Bilinear-Fusion-and-Saliency-Prior-Information-for-RGB-D-Salient-Object-Detection:利用双线性融合和显着性先验信息进行RGB-D显着目标检测

RGB-D图像序列的人类活动识别：多特征与核学习融合

室内深度补全：RGB-D融合GAN提升精准度

多特征融合的RGB-D动作识别方法

深度与色彩融合：提高人体行为识别的RGB-D方法

RGB-D点云技术驱动的下肢康复外骨骼楼梯几何参数实时识别

RGB-D对象识别的融合色彩与深度信息的四元数型特征矩方法

最新资源