没有合适的资源?快使用搜索试试~ 我知道了~
Array 12 (2021) 100089(http://creativecommons.org/licenses/by-nc-nd/4.0/).Md Kamal Uddin a,b,*, Antony Lam c, Hisato Fukuda a, Yoshinori Kobayashi a, Yoshinori Kuno a Array 0ss article under the CC BY-NC-ND license0在RGB-D人员重新识别中的不相似空间融合0a 埼玉大学理工学研究科,日本埼玉 b 诺阿克利科技大学,孟加拉国诺阿克利 c Mercari,Inc.,日本东京0文章信息0关键词:重新识别RGB-D传感器不相似空间 三元损失0摘要0人员重新识别(Re-id)是在摄像头网络的不同非重叠传感器之间识别人员的任务。尽管最近深度学习(DL)模型在多模态融合方面取得了进展,但最先进的Re-id方法未能利用深度引导的上下文信息来动态选择最具辨别力的卷积滤波器,以实现更好的特征嵌入和推断。感谢低成本的现代RGB-D传感器(例如Microsoft Kinect和IntelRealSense深度摄像头),使我们可以同时获得照明不变的高质量深度图像、RGB图像和骨架信息等不同模态。最先进的Re-id方法利用特征空间中的多模态融合,其中融合的嘈杂特征在最终识别过程中占主导地位的可能性很高。在本文中,我们通过利用在不相似空间中使用有效的融合技术来解决这个问题。给定一个个体的查询RGB-D图像,我们分别用3通道RGB和4通道RGB-D图像训练两个CNN,以产生所需的用于与参考图像进行配对匹配的两个不同特征嵌入,其中关于两种模态的参考图像的不相似度分数被融合在一起进行最终排名。此外,缺乏适当的RGB-D Re-id数据集促使我们贡献一个名为SUCVL RGBD-ID的新的RGB-DRe-id数据集,其中包括来自三台摄像头的58个身份的RGB和深度图像,其中一台摄像头安装在光照条件较差的环境中,其余两台摄像头安装在两个不同的室内位置,具有不同的室内照明环境。对我们的数据集和两个公开可用的数据集进行了广泛的实验分析,结果表明我们提出的方法的有效性。此外,我们提出的方法是通用的,可以应用于多种不同的基于RGB-D的应用。01. 引言0人员重新识别是智能监控系统中最重要的部分之一0智能监控系统可以在非重叠的摄像头视图之间识别个体。它在一系列视频序列的法医搜索、多摄像头跟踪、门禁控制和体育分析等方面有几个实际应用。最近,它还被应用于服务机器人和人机交互,用于监测和协助老年人执行个性化任务[1]。由于个体的视觉外观因视角变化、照明强度、姿势、遮挡和背景杂乱等变化而改变,人员重新识别在计算机视觉中仍然是一个具有挑战性的任务。针对这些问题,基于传统RGB摄像头[2-9]和最近发明的现代RGB-D传感器[10-16]已经提出了许多解决方法。基于传统RGB0在Re-id研究中,摄像头,Re-id研究人员执行RGB-RGB匹配,这是最常见的情况。虽然RGB模态已被广泛使用,但其他模态(即深度和骨架)也可以作为额外信息使用,通过利用RGB-D传感器来解决一些约束(例如照明),并通过与视觉特征(即RGB)相结合形成稳健特征。上述大多数基于RGB-D传感器的Re-id工作都是这样的0姿势手工制作方法从深度和骨架关节点中提取新类型的特征。这些类型的特征对许多变化(如光照变化)是不变的。一些重新识别研究人员将这些特征与外观特征相结合,使用特征级融合[19]和分数级融合[20-22]技术来增强重新识别准确性。在最近的文献中,一些研究人员已经开始使用深度学习方法进行RGB-D人员重新识别[17,18,23]。这些深度学习重新识别方法结合了基于RGB-D传感器的0*通讯作者。埼玉大学理工学研究科,日本埼玉。 电子邮件地址:kamal@cv.ics.saitama-u.ac.jp(M.K. Uddin),antonylam@mercari.com(A.Lam),fukuda@cv.ics.saitama-u.ac.jp(H. Fukuda),yosinori@hci.ics. saitama-u.ac.jp(Y. Kobayashi),kuno@cv.ics.saitama-u.ac.jp(Y. Kuno)。0ScienceDirect提供的内容列表0期刊主页:www.sciencedirect.com/journal/array0https://doi.org/10.1016/j.array.2021.100089收到日期:2021年3月10日;修订后收到日期:2021年7月2日;接受日期:2021年8月24日y 12 (2021) 10008920使用特征级融合策略提取多模态特征(见图1(a))[17,18],其中[17]使用多模态融合层来融合深度和RGB外观特征,而[18]在其提出的深度网络的顶层设计了统一和变分多模态自动编码器。然而,这些方法使用单个训练模型来提取多模态特征(即RGB和深度),其中它们使用3通道RGB和处理后的深度图像(即转换为3通道图像)来提高重新识别性能。在参考文献[23]中,两个CNN流( RGBCNN和深度CNN)分别处理RGB图像和深度图像,然后从两个CNN的最后一个全连接层提取的特征进行融合,以共同学习重新识别框架。尽管这些方法实现了更高的重新识别准确性,但特征级融合可能导致模型过度拟合,因为嘈杂/异质特征的融合导致特征的嘈杂部分在决策过程中占主导地位。在我们的工作中,我们通过利用多模态图像(即RGB-D)在不相似空间中的融合来解决这个问题,以提高重新识别准确性。在本文中,我们专注于两个单独的模式,而不是单个模式的RGB-D人员重新识别(见图1)。与大多数现有的基于学习的RGB-D人员重新识别方法不同,这些方法利用了来自两个不同通道的RGB和深度信息,但0在联合学习框架下在单个融合层中融合,我们强调基于3通道RGB和4通道RGB-D图像的两个单独训练的模型,并使用图2中的查询(即RGB/RGB-D)和库(即RGB/RGB-D)之间的不相似性进行计算0图1。(a)典型的深度学习重新识别框架示意图。当前方法侧重于使用单个训练模型的特征级融合策略。(b)与它们不同,我们使用两个单独训练的模型分别从3通道RGB和4通道RGB-D图像中提取特征。0图2。形成用于人员重新识别输入的4通道RGB-D图像。0M.K. Uddin等人y 12 (2021) 10008930从两个不同的训练模型中提取的特征嵌入。然后在不相似空间中融合两个单独模式的计算出的不相似性,以获得查询和库之间的最终匹配分数。在这项工作中,我们采用RGB和深度信息以RGB和RGB-D的形式用于两个单独的模型。因此,我们有特权在不相似空间中获得基于RGB和RGB-D的训练模型的集成。在这种情况下进行集成有助于我们克服过拟合问题,而传统的特征融合方法可能会因融合嘈杂/异质特征点而遭受过拟合的困扰。一般来说,深度信息对于光照变化是稳健的。0国家、视角和分辨率。在我们的工作中,我们使用RGB-D图像,与RGB图像相比,它包含了深度信息的一个通道(见图2),并利用了具有额外通道的优势,即具有一个光照不变的深度图像,并且我们还在我们的Re-id框架中使用了4通道自适应CNN的4通道RGB-D输入。本文的主要贡献如下:0•首先,我们提出了一种利用多模态数据在差异空间融合的新型Re-id技术,在Re-id框架中设计了一个4通道RGB-D图像输入。 • 其次,我们提出了一个RGB-DRe-id数据集,包括58个身份。对于每个身份,Intel RealSense Depth CameraD435[24]在三个不同的室内位置以不同的照明条件捕获了一系列RGB和深度图像。 •最后,对我们提出的数据集和两个公开数据集的实验分析表明,在差异空间中的融合有助于提高识别准确性,而不是在特征空间中的融合。0本文的其余部分组织如下。在第2节中,我们介绍了基于多模态(即RGB图像、深度图像和骨架信息)的现有重新识别技术的相关工作,这些技术是从RGB-D传感器获取的。在第3节中,我们描述了我们基于差异的Re-id框架,使用3通道RGB和4通道RGB-D传感器数据,以及我们提出的数据集SUCVLRGBD-ID。在第4节中,我们报告了我们的方法在不同数据集上的实验结果,并与最先进的方法进行了比较。在第5节中,讨论了一般观察和典型失败案例。最后,在第6节中,我们提出了结论性的意见。02. 相关工作0大多数当前的Re-id方法侧重于基于传统RGB摄像头匹配个体。但是,一些限制,如光照和服装变化,无法通过RGB摄像头正确解决。在RGB-D传感器到来后,Re-id研究人员利用了其他模态,如深度和骨架信息,以解决上述问题,并提高Re-id的准确性。在本节中,我们将概述基于RGB-D传感器的人员重新识别方法,这些方法与我们的工作最相关。在基于RGB-D的Re-id文献中,一些重新识别方法是基于深度图像、点云和人体测量提出的,以解决服装变化(即长期重新识别)和极端光照的问题[11-15,25-27]。尽管RGB-D传感器可以同时捕获RGB、深度和骨架信息,但是当人们出现在过度照明的环境中或更换衣服时,在这种情况下,一些作者只考虑基于深度的人员Re-id[25,26]方法来解决这些约束。在参考文献[25]中,Haque等人提出了一种用于基于深度视频的人员识别的循环注意模型,其中3DRAM模型适用于静止的3D点云,而4DRAM模型适用于3D点云序列。然而,Haque的方法不适合解决当没有0在训练和测试中身份重叠。在参考文献[26]中,作者提出了一种长期人员重新识别的方法,该方法使用深度视频,其中他们使用局部三阶张量模型开发了稀疏典型相关分析,以执行多级人员重新识别。在一些作品中,作者提出了基于骨架的人体测量用于人员重新识别[12,14,15]。Barbosa等人[15]使用基于骨架的特征,这些特征基于选定身体部位之间的欧几里德距离,例如腿、手臂和整体高度,以及身体表面上的测地距离。测地距离是从预定义的关节集合计算的(例如从躯干到右髋部)。在参考文献[14]中,作者提出了两种描述符,其中第一个描述符包含从身体关节点计算的人体测量,另一个描述符包含人体模型的点云模型。在参考文献[12]中,Munaro等人修改了参考文献[15]中提出的工作,通过结合点云匹配(PCM)和基于骨架的特征。尽管这些作品使用基于深度的点云和骨架信息来解决人的姿势变化,但它们没有执行任何特征级融合或分数级融合技术。除此之外,一些作品[11,13,27]提出了从给定深度图像和骨架关节点提取的两种不同类型的特征,然后最终通过分数级融合来获得高的重新识别准确性。Wu等人[11]提出利用深度信息提供深度体素协方差描述符和旋转不变深度形状描述符,称为特征。为了丰富深度形状描述符,他们还使用基于骨架的特征作为补充物理信息。在这项工作中,他们计算了基于骨架的特征之间的欧几里德距离,以及体素协方差矩阵内和体素协方差矩阵之间的测地距离。最后,他们通过对两个距离求和来衡量两个主体的相似性。在参考文献[13]中,Imani等人从深度图像中提取了三种直方图特征(局部二值模式(LBP)、局部导数模式(LDP)和局部四元模式(LTrP)),首先将深度图像分成头部、躯干和腿部三个区域,然后使用骨架数据。然后,这些直方图特征与人体测量特征(从骨架关节点计算的人体测量特征)融合,使用分数级融合。在参考文献[27]中,作者介绍了两种新颖的特征:边缘权重直方图(HEW)和节点强度直方图(HNS),这些特征适用于单拍和多拍人员重新识别。然后,这些特征与骨架特征结合,使用分数级融合。上述作品在不同数据集上的性能显示在表1中。一些作者提出了一些传统的Re-id方法,将RGB外观线索与其他模态(如深度、热数据、步态和人体测量)相结合。表2显示了不同数据集上传统方法的性能。在参考文献[10]中,作者提出了骨架标准姿势(SSP)和来自RGB-D数据(彩色点云)的颜色描述符。通过SSP计算分区网格以通过SSP提取基于颜色的特征。然后,使用所研究的分区网格重新投影数据库中提取的特征。最后,这些提取的特征用于确定人们的差异。Pala等人[19]将服装外观描述符与从深度数据中提取的人体测量融合,以提高重新识别准确性。他们还提出了一种基于差异的框架,用于构建和融合行人图像的多模态描述符,这是分数级融合的一种替代方法。在参考文献[20]中,Mogelmose等人提出了一种三模态重新识别方法,将RGB、深度和热特征结合起来。这些模态以后期融合策略结合在一起,能够根据组合规则成本预测场景中的新主体,以及识别以前的主体。Kawai等人[21]引入了一种视角相关的分数级融合方法,将颜色和步态特征结合起来。在参考文献[22]中,作者提出了一种基于度量模型更新的在线重新识别方法,用于机器人应用。在这种方法中,每个0M.K. Uddin等人4DVCov +SKL [11] RGBD-ID [15] 71.74 88.45 – ED + SKL [11] BIWI RGBD-ID [14] 39.38 72.13 – ED + SKL IAS-Lab RGBD [12] 63.29 91.21 – BIWI RGBD-ID 67.9 – – +Skeleton IAS-Lab RGBD 81.8 – – 76.58 99.35 72.58 – 95.91 52.0 – – APC-USG [10] RGBD-ID 89.34 – – [41] – – DPI-T [25] 90.36 – – CVPR-2018 MAT [28] OPR 49.06 89.06 95.62 TVPR 82.98 93.62 94.68 DPI-T 92.37 99.6 100 02(2021)1000890人员通过外观和几何特征使用骨架信息进行描述。然后提出了一种名为特征漏斗模型(FFM)的融合技术,以有效地融合多模态特征。最近,基于深度学习方法的一些作品[17,18,23,28]已经提出了RGB-D多模态人员重新识别。深度学习方法在不同数据集上的性能如表3所示。在参考文献[17]中,作者提出了一种多模态统一深度学习方法,用于提取RGB外观特征和从处理后的深度图像中提取人体测量特征。该方法使用两个CNN分别分析深度和RGB图像。之后,他们设计了一个多模态融合层,将从深度图像和RGB图像提取的这些特征与统一的潜在变量相结合。在参考文献[18]中,Ren等人提出了一种统一和变分的深度学习方法,用于RGB-D对象识别和人员重新识别。该方法从深度和RGB图像中分别提取深度特征和外观特征,然后在他们提出的深度网络的顶层使用变分自动编码器将深度特征和外观特征结合起来。Lejbolle等人[23]提出了一种多模态CNN,该0使用深度和RGB模态进行训练,以提供融合特征。稍后,作者们通过使用多模态注意力网络[28]改进了他们的方法,其中他们添加了一个注意力模块来提取局部和有区别的特征,这些特征与全局提取的特征融合。与上述工作相反,我们使用两个分别针对RGB-D人员重新识别进行训练的模型,其中模型分别使用3通道RGB和4通道RGB-D图像进行训练。然后,使用从训练模型中提取的特征嵌入计算不相似度分数,最后在不相似度空间中融合两个分数。由于一些最先进的Re-id方法在特征空间中使用多模态融合,这可能会因为嘈杂/异质特征而导致过拟合问题。与它们不同,我们在不相似度空间中利用基于RGB和RGB-D的训练模型的集成,这有助于克服由于噪声而导致的过拟合问题。03. 提出的方法和材料0在本节中,我们介绍我们提出的人员重新识别方法,以及我们使用RGB-D传感器(即英特尔RealSense深度摄像头)获取的数据集。首先,我们描述我们方法的整体框架,然后介绍我们获取的数据集。03.1. 整体框架0我们提出的流水线在图1(b)中用流程图表示。我们将整个Re-id框架分为两个阶段。在第一阶段,我们使用RGB和RGB-D图像分别在相同的训练数据集上训练两个模型M1和M2。我们分别将这些模型称为“RGB CNN”和“RGB-DCNN”。具体来说,RGB-DCNN将RGB图像及其对应的深度图像组合成4通道图像作为输入。在第二阶段,我们分别在相同的测试数据集上计算探针和库的不相似度分数,然后最终在不相似度空间中融合两个分数。在我们提出的工作中,RGB图像被输入到三个具有共享参数和三元损失的深度CNN中,由Weinberger和Saul [31]引入。我们使用ResNet50[30]作为RGB CNN的骨干,并且参数在ImageNet[29]上进行了预训练。理想情况下,ResNet50接受3通道输入,但是我们的Re-id框架还需要接受4通道输入。在图3中,我们展示了我们的带有4通道RGB-D图像输入的Re-id训练框架。3通道RGB图像可以很容易地与传统的预训练CNN模型一起使用。但是我们需要4通道RGB-D图像作为具有共享参数的模型的输入,这些参数也在ImageNet上进行了预训练。因此,我们修改了ResNet50的第一个卷积层(通过添加额外的2D卷积层),以便将模型与4通道RGB-D图像一起输入(见图4)。通常情况下,ResNet50应首先在ImageNet数据集上进行预训练,以初始化大量的参数。在这项工作中,我们复制RGB模型的层的参数,然后进行微调0表1基于深度图像、点云和人体测量的现有Re-id方法的性能。在所有表格中,“-”表示无结果。0参考 方法 数据集 排名1 排名5 排名100IEEE图像处理交易20170IEEE ICRA-2014 面部 + 骨架 + SVM[ 12 ]0IEEE传感器- 2016 SGLTrP3 +分数级别 [ 13 ]0RGBD-ID(Walking1和Collab. group)0RGBD-ID(Walking2和backward group)0ACVPR,Springer- 2014 面部 +骨架 [ 14 ]0CVPR-2016 4D RAM [ 25 ] BIWI RGBD-ID 45.3 – – IAS-Lab RGBD 64.4 – –RGBD-ID 43.0 多媒体工具和应用- 20200表2 具有RGB外观线索和人体测量的现有Re-id方法的性能。0参考 方法 数据集 排名1 排名5 排名100模式 识别 20190多模态 [ 19 ] RGBD-ID 77.7 94 990CVPR-2013 三模态Re-ID [ 20 ] RGB-D-T [ 20 ] 82 – –0CAAI交易。 2017 FFM [ 22 ] RobotPKU [ 22 ] 77.94 – –0表3 基于深度学习方法的现有Re-id作品的性能。0参考 方法 数据集 排名1 排名5 排名100模式识别 2017 MMUDL [ 17 ] RGBD- ID 76.7 87.5 96.10IEEE图像处理交易−2019 UVDL [ 18 ] RGBD- ID 76.7 92 98.20BIOSIG-2017 多模态 OPR [ 23 ] OPR [ 23 ] 74.69 – –0M.K. Uddin等Array 12 (2021) 1000895M.K. Uddin et al. 0具有相同权重(w)的RGB通道和第4通道(深度通道)的RGB-D模型使用第3分量的权重(见图4)初始化,以开始网络训练。与RGBCNN模型一样,我们也使用三元损失函数训练RGB-DCNN模型。我们描述了整个训练过程,其中包括三个4通道自适应CNN块(见图3),所有CNN块共享参数(即权重和偏差)。对于给定的RGB图像Irgb和相应的深度图像Id,我们创建一个4通道RGB-D图像Irgbd作为输入。在训练期间,三个4通道自适应CNN0采用三元组示例(即三个Irgbd图像),表示为Ti=(Tai,Tpi,Tni)并形成第i个三元组,其中上标‘a’表示锚图像,‘p’表示硬正图像,‘n’表示硬负图像。‘a’和‘p’来自同一个人,而‘n’来自另一个人。RGB-D图像被馈送到4通道自适应CNN模型,并将三元组Ti从原始图像空间映射到学习嵌入空间Fi=(Fai,Fpi,Fni)。具体而言,当样本图像被馈送到CNN模型时,它被映射到特征嵌入空间F = ϕ(x),其中ϕ(�)表示整个CNN模型的映射函数0图3.重新识别的三元训练框架。它由两个阶段组成:1)使用3通道RGB和1通道深度图像形成4通道图像,2)将4通道图像馈送到具有共享参数的三个4通道自适应CNN模型中,其中三元损失旨在将相同人的实例拉近,同时将不同人的实例推远到学习嵌入空间中。0图4. 将ResNet50适应为4通道RGB-D图像输入。6LBHtrp =∑Pi=1∑Ka=1⏞̅̅̅̅̅⏟⏟̅̅̅̅̅⏞all anchors[m +maxp=1 ... K⃦⃦Fai − Fpi⃦⃦2⏞̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅⏟⏟̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅⏞KPj∕=i⃦⃦⃦Fai − Fnj⃦⃦⃦2̅̅̅̅̅⏟⏟̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅⏞ ]+(1) 3:0 9:update the parameters wn = wn−1 − μn∂LBHtrp∂w 10:end while 11: return M2 02(2021)1000890x 是相应图像 I rgbd的输入表示。对于三元组示例中的每个图像,我们使用标准的前向和后向传播来计算梯度0∂ w,可以通过分别运行标准的前向和后向传播来获得。03.2. 三元损失0RGB-D CNN以及RGBCNN网络都使用三元硬损失技术进行训练。在这种技术中,当网络训练时,三元损失函数减小了来自同一人(即锚点‘a’和硬正例‘p’)的特征嵌入的距离,并放大了不同人(即锚点‘a’和硬负例‘n’)之间的距离(见图3)。三元组的生成对系统的最终性能至关重要。当网络使用大规模数据集的三元组输入进行训练时,可能会有大量的三元组输入组合(因为三元组组合呈立方增长),使得训练所有可能的三元组变得不切实际。为解决这个问题,我们遵循了引用文献[32]中介绍的Batch-hard三元组挖掘策略。其主要思想是通过随机抽样P个身份,然后从每个身份中随机抽样K个实例,从而形成一个批次,结果小批量总共包含P×K个图像。Batch-hard三元损失(BHtrp)可以被公式化为0最难的正样本0− 最小0最难的负样本0其中F a i,F p i和F ni分别是锚点、正样本和负样本的归一化特征嵌入,m是预定义的边界,[ . ] + =max ( ., 0)。我们的整个训练过程如算法1所示,它遍历每个小批量中的所有三元组,累积每次迭代的梯度,并获得RGB-D图像的模型M 2。0算法1显示了我们针对RGB-D图像的训练过程的整体实现。0输入:4通道RGB-D图像的训练样本{ T i }。初始化学习率μ,边界m,网络参数{ w }和迭代次数n ←0。 输出:模型M 2 1:当n < N时 2:n ← n + 104:从随机抽样的P个身份和每个身份中随机抽样的K个实例中形成所有训练三元组样本T i;5:对于所有训练三元组样本T i: 6:通过前向传播计算ϕ ( F a i ),ϕ ( F p i ),ϕ ( F n i );07: 计算ϕ(Fai)0∂w,ϕ0∂w,ϕ0通过反向传播计算∂w;08: 结束循环0除了初始化网络参数外,我们按照算法1的相同过程获得RGB图像输入的模型M1。03.3. 融合技术0我们使用从训练模型(M1和M2)提取的特征嵌入计算给定的库(G)和查询(q)图像集的不相似度分数(即表示两个样本之间的欧氏距离)。然后我们对两者求和0使用分数级别融合策略(因为大多数现有的多模态情况下的工作都遵循这个规则)在不相似度空间中使用融合权重α计算不相似度分数。融合策略表述为0DFusion(q,G) = αDrgb(q,G) + (1 - α)Drgbd(q,G) (2)0其中Drgb(q,G)和Drgbd(q,G)分别是使用RGB和RGB-D特征嵌入计算的每个查询样本(q)和库集(G)之间的不相似度分数,DFusion(q,G)是每个查询样本(q)和库集(G)之间的最终分数。算法2显示了不相似度空间中的融合技术。0算法20输入:查询q,库集G和初始化不相似度融合权重α 输出:不相似度分数DFusion(q,G) 1:加载模型M1,并提取RGB图像的查询和库特征嵌入。 2: 对于每个RGB查询图像和库集 进行 3:计算不相似度分数Drgb = argmin0IDiD(q,IDi),IDi∈G04: 结束循环 5: 加载模型M2,并提取RGB-D图像的查询和库特征嵌入。 6:对于每个RGB-D查询图像和库集 进行 7: 计算不相似度分数Drgbd = argmin0IDiD(q,IDi),IDi∈G08: 结束循环 9: 根据方程(2)计算最终的不相似度分数DFusion(q,G)03.4. 提议的数据集描述0在本节中,我们描述了我们收集的RGB-DRe-id数据集。据我们所知,目前有五个公开可用的RGB-D数据集,包括RGBD-ID[15],KinectREID [19],BIWI RGBD-ID [14],IAS-Lab RGBD-ID[12]和RobotPKU[22],这些数据集是使用微软Kinect相机收集的。上述记录的数据集主要强调观看角度的变化。一些序列是在不同的照明条件下记录的[12,19]。尽管大多数这些数据集适用于传统的RGB-DRe-id方法,但由于规模较小,很难为深度学习方法训练出一个良好的模型。只有RobotPKU数据集具有相当数量的实例和大量帧数的不同视角变化,尽管深度图像存在噪音(有时某些帧中缺少身体部位)。在我们提出的数据集中,我们强调记录环境中不同的照明条件,并且RGB和深度图像之间没有对齐问题。我们的RGB-DRe-id数据集名为SUCVL RGBD-ID,其中包含使用Intel RealSense深度相机D435[24]收集的58人的172个视频序列,每个人在大约74个序列的帧下被捕获。视频序列是在同一天在三个不同的室内位置录制的,但照明条件不同。三台摄像机,标记为Cam1,Cam2和Cam3,安装在建筑物的同一楼层,但在三个不同的位置。为了产生照明变化,Cam1安装在阳光透过两扇玻璃窗并改变环境照明条件的位置。Cam2安装在我们的实验室,具有室内照明环境。第三台摄像机的位置在一个走廊上,那里的室内灯光被关闭,结果照明条件很差。所有个体被要求正常向前走向摄像机。这些视频以30fps录制。该数据集包括同步的RGB图像(以1280×720像素的分辨率捕获)和深度图像。尽管IntelRealSense深度相机D435可以捕获高达10米范围内的图像[24],但我们将所有视频录制在5米范围内,以获得高质量的深度图像。深度传感器可以通过使用红外传感器捕获每个像素的深度信息,在室内环境中不受行人的颜色外观和照明条件的影响。0这使得从三个摄像头中识别人员更具挑战性0M.K. Uddin等702(2021)1000890不重叠的摄像头。我们可以在图6中看到,Cam1的RGB图像受到来自玻璃窗外的阳光的影响,改变了室内开放空间的照明环境。在图7中,我们展示了在室内和低照明环境中使用Cam2和Cam3分别记录的一些示例RGB及其对应的深度图像。尽管由于照明变化,两个摄像头的RGB图像之间存在视觉差异,但深度图像没有这样的差异(见图6),因为深度传感器可以捕获不变光照的高质量深度图像。在我们的数据集中,大约一半的人穿着夹克,一些人戴着口罩。我们的数据集旨在进行短期人员重新识别,因此同一个人在不同的采集中穿着相同的衣服。0个体戴着口罩。我们的数据集旨在进行短期人员重新识别,因此同一个人在不同的采集中穿着相同的衣服。04. 实验0我们的提出方法在三个RGB-D Re-id数据集上进行评估:RGBD-ID[15],RobotPKU RGBD-ID [22]和我们新提出的SUCVLRGBD-ID数据集。尽管还有其他一些可用的RGB-DRe-id数据集,但我们选择了RobotPKU和RGBD-ID数据集进行实验评估,因为它们的规模较大。04.1. 数据集0RobotPKU RGBD-ID。该数据集是使用Microsoft KinectSDK的Kinect传感器收集的。共有90个人的180个视频序列,每个人的静止和行走序列分别在两个室内位置进行了收集。然而,在一些序列中,一些深度帧是嘈杂的,图像中的身体部分经常缺失。0图5. 我们提出的Re-id方法的最终匹配分数计算0图6.RGB及其对应的深度图像示例。所有图像都是在同一天和地点拍摄的,但在不同的时间。第1、2和3列显示了在正常照明下不同视野距离的同一个人。第4和5列显示了另一个人在同一天的不同时间玻璃窗户透过阳光的情况。0M.K. Uddin等802(2021)1000890可能是因为基于深度传感器的摄像头可以在特定范围内捕获一个人的深度图像。在深度传感器无法正确捕获深度帧的情况下,我们使用引用[16]中介绍的预处理技术丢弃所有这些帧。因此,在我们的实验中,我们只考虑那些具有正确深度图像的RGB帧。RGBD-ID。该数据集包含79个人的RGB和深度数据0个体,每个个体有四次采集(行走1、行走2、协作和向后),一个后视图(向后)和三个前视图(行走1、行走2和协作)。在每次采集中,为每个个体提供了四到五个RGB和3D帧(3D点云)。一些个体在不同的采集中更换衣服。由于我们使用3通道RGB图像和4通道RGB-D图像进行实验,因此我们首先计算所有3D帧的深度值。04.2. 评估协议0我们使用累积匹配特性(CMC)曲线和平均精度(mAP)进行定量评估,这在Re-id文献中是常见的做法[38-40]。对于所有实验数据集,我们随机选择大约一半的人进行训练,剩下的一半进行测试。在测试阶段,对于每个查询图像(RGB/RGB-D),我们首先计算查询图像与所有图库图像(RGB/RGB-D)之间的不相似度(不相似度是欧氏距离的向量),使用训练网络(RGB/RGB-D模型)提取的特征嵌入。然后在不相似度空间中融合两个分数(RGB和RGB-D)。最后,我们的Re-id系统返回与图库集中查询图像的不相似度最低的前n个图像。如果返回的列表中包含与查询图像中的人相同的图像,则将此查询视为排名k。我们重复实验10次,并报告排名1、5和10的平均准确度以及mAP。本文报告的所有结果都是在单一查询设置下的。04.3. 实施细节0我们对RGB和RGB-D模型都应用了数据增强技术,以增加数据集的变异性并提高网络性能。所有图像都被调整为256×192。在我们的实现中,我们遵循了在训练过程中使用随机水平翻转的常见做法[33]。我们采用在ImageNet上预训练的ResNet50作为RGB模型的骨干网络,我们在3.1节中提到了如何为4通道图像输入训练RGB-D模型。我们使用带有动量0.9、权重衰减5×10-4和初始学习率0.01的随机梯度下降来训练我们的两个模型。在我们的工作中,我们设置了边距m=0在我们的所有实验中,我们使用了Eq.(1)中的α=0.3来训练两个模型。我们在所有实验中使用欧氏距离,而不是平方欧氏距离,因为参考文献[32]中的作者注意到使用平方欧氏距离会使优化更容易崩溃,而使用实际(非平方)欧氏距离更稳定。批量大小设置为20×4=80,在每个小批量中有20个不同的人和每个人4个实例。我们在Pytorch[34]平台上实现了我们的框架。04.4. 实验评估0在本节中,我们报告了我们自己的SUCVLRGBD-ID数据集以及上述两个数据集的实验结果。为了证明我们方法的有效性,首先我们将我们基于差异性的融合模型的结果与两个基线模型(RGB和RGB-D)以及它们的特征级融合进行比较。其次,我们将我们的Re-id方法与给定数据集的现有最先进方法进行比较。与基线模型的比较。这个实验的目标是检查我们提出的方法(差异空间中的融合)的有效性,并与基线模型进行比较。在SUCVLRGBD-ID、RGBD-ID和RobotPKU数据集上,不同基线模型和我们的方法的CMC曲线如图8所示。表4-6总结了所有实验数据集的排名1、排名5、排名10的准确性和平均准确率。从CMC曲线可以看出,我们提出的融合模型在所有实验数据集的排名靠前处表现优于所有基线模型和特征级融合方法,这证实了我们的主张,即在差异空间中的多模态融合可以提高重新识别的准确性。0表4显示,RGB模型的mAP和排名1准确率分别为71.14%和84.56%,RGB-D模型分别为70.11%和83.58%。而我们基于差异性的融合模型将mAP提高到76.94%,分别增加了5.8%和6.83%,排名1准确率提高到87.65%,分别增加了3.09%和4.07%。表5给出了完整的RGBD-ID数据集上的比较结果,其中RGB和RGB-D基线模型的mAP分别为69.11%和68.32%,排名1准确率分别为79.74%和78.65%。通过我们的融合机制,mAP提高到71.86%,分别增加了2.75%和3.54%,排名1准确率提高到82.05%,分别增加了2.31%和3.4%。表6报告了RobotPKU数据集上的结果,RGB模型的mAP/排名1为86.29%/91.35%,RGB-D模型为84.27%/89.63%。我们的融合模型分别比RGB和RGB-D基线模型提高了+3.2%/+1.98%和+5.22%/3.7%的mAP/排名1准确率。如表4-6所示,我们的融合方法的性能也优于特征级融合方法,考虑到所有实验数据集的排名靠前和mAP。0图7. 列1、2和3显示了在室内光照条件下由Cam2捕获的RGB和对应的深度图像,列4和5显示了在不同室内位置由Cam3捕获的同一人在低光环境中的图像。0M.K. Uddin等人902(2021)1000890我们提出的融合方法相对于单独模式以及特征级融合方法在所有实验数据集上都表现良好。这意味着当来自两个单独模型(RGB和RGB-D)的不相似度分数向量在不相似度空间中融合时,可以提高重新识别的准确性。参数α的影响。对于所有实验数据集,我们重复了10次实验,并估计了排名1、5和10以及mAP的平均准确性。为了分析方程(2)中不相似度融合权重α的影响,我们从10次试验中随机选择一次试验,并观察α的有效性。我们将α的值从0变化到1,间隔为0.1,以查看性能如何变化。不同参数设置下的排名-1准确性和mAP分别在SUCVLRGBD-ID、RGBD-ID和RobotPKU数据集中报告在图9(a)、(b)和9(c)中。可以看到,对于所有数据集,排名-1的性能在α=0.2到α=0.6的范围内显著提高,但SUCVLRGBD-ID将范围扩展到0.8。另一个评估指标mAP,图9显示,当α=0.5时获得了最佳性能,因为mAP是计算所有查询图像的平均精度的平均值。在我们的实验评估中,我们将α=0.5设置为获得排名-1和mAP的最佳性能。与最新方法的比较。我们进一步比较了我们在RGBD-ID和RobotPKU数据集上的提出模型与最新方法的性能。RGBD-ID:
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功