
0
从两个不同的训练模型中提取的特征嵌入。然后在不相似空间中融合两个单独模式
的计算出的不相似性,以获得查询和库之间的最终匹配分数。在这项工作中,我们
采用RGB和深度信息以RGB和RGB-D的形式用于两个单独的模型。因此,我们有特
权在不相似空间中获得基于RGB和RGB-D的训练模型的集成。在这种情况下进行集
成有助于我们克服过拟合问题,而传统的特征融合方法可能会因融合嘈杂/异质特
征点而遭受过拟合的困扰。一般来说,深度信息对于光照变化是稳健的。
0
国家、视角和分辨率。在我们的工作中,我们使用RGB-D图像,与RGB图像相比,
它包含了深度信息的一个通道(见图2),并利用了具有额外通道的优势,即具有
一个光照不变的深度图像,并且我们还在我们的Re-id框架中使用了4通道自适应C
NN的4通道RGB-D输入。本文的主要贡献如下:
0
•
首先,我们提出了一种利用多模态数据在差异空间融合的新型Re-id技术,在Re-i
d框架中设计了一个4通道RGB-D图像输入。•其次,我们提出了一个RGB-D
Re-id数据集,包括58个身份。对于每个身份,IntelRealSenseDepthCamera
D435
[24]在三个不同的室内位置以不同的照明条件捕获了一系列RGB和深度图像。•
最后,对我们提出的数据集和两个公开数据集的实验分析表明,在差异空间中的
融合有助于提高识别准确性,而不是在特征空间中的融合。
0
本文的其余部分组织如下。在第2节中,我们介绍了基于多模态(即RGB图像、深
度图像和骨架信息)的现有重新识别技术的相关工作,这些技术是从RGB-D传感器
获取的。在第3节中,我们描述了我们基于差异的Re-id框架,使用3通道RGB和4通
道RGB-D传感器数据,以及我们提出的数据集SUCVL
RGBD-ID。在第4节中,我们报告了我们的方法在不同数据集上的实验结果,并与
最先进的方法进行了比较。在第5节中,讨论了一般观察和典型失败案例。最后,
在第6节中,我们提出了结论性的意见。
0
2.相关工作
0
大多数当前的Re-id方法侧重于基于传统RGB摄像头匹配个体。但是,一些限制,
如光照和服装变化,无法通过RGB摄像头正确解决。在RGB-D传感器到来后,Re-i
d研究人员利用了其他模态,如深度和骨架信息,以解决上述问题,并提高Re-id的
准确性。在本节中,我们将概述基于RGB-D传感器的人员重新识别方法,这些方法
与我们的工作最相关。在基于RGB-D的Re-id文献中,一些重新识别方法是基于深
度图像、点云和人体测量提出的,以解决服装变化(即长期重新识别)和极端光照
的问题[11-15,25-27]。尽管RGB-D传感器可以同时捕获RGB、深度和骨架信息,
但是当人们出现在过度照明的环境中或更换衣服时,在这种情况下,一些作者只考
虑基于深度的人员Re-id[25,26]方法来解决这些约束。在参考文献[25]中,Haque
等人提出了一种用于基于深度视频的人员识别的循环注意模型,其中3D
RAM模型适用于静止的3D点云,而4D
RAM模型适用于3D点云序列。然而,Haque的方法不适合解决当没有
0
在训练和测试中身份重叠。在参考文献[26]中,作者提出了一种长期人员重新识别
的方法,该方法使用深度视频,其中他们使用局部三阶张量模型开发了稀疏典型相
关分析,以执行多级人员重新识别。在一些作品中,作者提出了基于骨架的人体测
量用于人员重新识别[12,14,15]。Barbosa等人[15]使用基于骨架的特征,这些特
征基于选定身体部位之间的欧几里德距离,例如腿、手臂和整体高度,以及身体表
面上的测地距离。测地距离是从预定义的关节集合计算的(例如从躯干到右髋部)
。在参考文献[14]中,作者提出了两种描述符,其中第一个描述符包含从身体关节
点计算的人体测量,另一个描述符包含人体模型的点云模型。在参考文献[12]中,
Munaro等人修改了参考文献[15]中提出的工作,通过结合点云匹配(PCM)和基
于骨架的特征。尽管这些作品使用基于深度的点云和骨架信息来解决人的姿势变化
,但它们没有执行任何特征级融合或分数级融合技术。除此之外,一些作品[11,13,
27]提出了从给定深度图像和骨架关节点提取的两种不同类型的特征,然后最终通
过分数级融合来获得高的重新识别准确性。Wu等人[11]提出利用深度信息提供深
度体素协方差描述符和旋转不变深度形状描述符,称为特征。为了丰富深度形状描
述符,他们还使用基于骨架的特征作为补充物理信息。在这项工作中,他们计算了
基于骨架的特征之间的欧几里德距离,以及体素协方差矩阵内和体素协方差矩阵之
间的测地距离。最后,他们通过对两个距离求和来衡量两个主体的相似性。在参考
文献[13]中,Imani等人从深度图像中提取了三种直方图特征(局部二值模式(LBP
)、局部导数模式(LDP)和局部四元模式(LTrP)),首先将深度图像分成头部
、躯干和腿部三个区域,然后使用骨架数据。然后,这些直方图特征与人体测量特
征(从骨架关节点计算的人体测量特征)融合,使用分数级融合。在参考文献[27]
中,作者介绍了两种新颖的特征:边缘权重直方图(HEW)和节点强度直方图(H
NS),这些特征适用于单拍和多拍人员重新识别。然后,这些特征与骨架特征结
合,使用分数级融合。上述作品在不同数据集上的性能显示在表1中。一些作者提
出了一些传统的Re-id方法,将RGB外观线索与其他模态(如深度、热数据、步态
和人体测量)相结合。表2显示了不同数据集上传统方法的性能。在参考文献[10]
中,作者提出了骨架标准姿势(SSP)和来自RGB-D数据(彩色点云)的颜色描述
符。通过SSP计算分区网格以通过SSP提取基于颜色的特征。然后,使用所研究的
分区网格重新投影数据库中提取的特征。最后,这些提取的特征用于确定人们的差
异。Pala等人[19]将服装外观描述符与从深度数据中提取的人体测量融合,以提高
重新识别准确性。他们还提出了一种基于差异的框架,用于构建和融合行人图像的
多模态描述符,这是分数级融合的一种替代方法。在参考文献[20]中,Mogelmos
e等人提出了一种三模态重新识别方法,将RGB、深度和热特征结合起来。这些模
态以后期融合策略结合在一起,能够根据组合规则成本预测场景中的新主体,以及
识别以前的主体。Kawai等人[21]引入了一种视角相关的分数级融合方法,将颜色
和步态特征结合起来。在参考文献[22]中,作者提出了一种基于度量模型更新的在
线重新识别方法,用于机器人应用。在这种方法中,每个
0
M.K.Uddin等人