没有合适的资源?快使用搜索试试~ 我知道了~
Array 12 (2021) 100089(http://creativecommons.org/licenses/by-nc-nd/4.0/).Md Kamal Uddin a,b,*, Antony Lam c, Hisato Fukuda a, Yoshinori Kobayashi a, Yoshinori Kuno a Array 0ss article under the CC BY-NC-ND license0在不相似空间中融合RGB-D人员重新识别0a 埼玉大学理工学研究科,日本埼玉 b 诺阿克利科技大学,孟加拉国诺阿克利 c Mercari,Inc.,日本东京0文章信息0关键词:重新识别RGB-D传感器不相似空间 三元损失0摘要0人员重新识别(Re-id)是在摄像头网络的不同非重叠传感器之间识别人员的任务。尽管最近深度学习(DL)模型在多模态融合方面取得了进展,但最先进的Re-id方法未能利用深度引导的上下文信息来动态选择最具辨别力的卷积滤波器,以实现更好的特征嵌入和推断。感谢低成本的现代RGB-D传感器(例如微软Kinect和英特尔RealSense深度摄像头),使我们可以同时获得照明不变的高质量深度图像、RGB图像和骨架信息等不同模态。最先进的Re-id方法利用特征空间中的多模态融合,其中融合的嘈杂特征在最终识别过程中占主导地位的可能性很高。在本文中,我们通过利用在不相似空间中使用有效的融合技术来解决这个问题。给定一个个体的查询RGB-D图像,我们分别使用3通道RGB和4通道RGB-D图像训练两个CNN,以产生用于与参考图像进行配对匹配所需的两种不同特征嵌入,其中与两种模态的参考图像的不相似度分数被融合在一起进行最终排名。此外,缺乏适当的RGB-DRe-id数据集促使我们贡献一个名为SUCVL RGBD-ID的新的RGB-DRe-id数据集,其中包括来自三个摄像头的58个身份的RGB和深度图像,其中一个摄像头安装在光照条件较差的环境中,其余两个摄像头安装在两个不同的室内位置,具有不同的室内照明环境。对我们的数据集和两个公开可用数据集的广泛实验分析显示了我们提出的方法的有效性。此外,我们提出的方法是通用的,可以应用于多种不同的基于RGB-D的应用。01. 引言0人员重新识别是智能监控系统中最重要的部分之一0智能监控系统中的重要部分,可以在非重叠的摄像头视图之间识别个人。它在一系列视频序列的法医搜索、多摄像头跟踪、门禁控制和体育分析中有几个实际应用。最近,它还被应用于服务机器人和人机交互,用于老年人监测和协助执行个性化任务[1]。由于个体的视觉外观因视角、照明强度、姿势、遮挡和背景杂乱的变化而发生变化,因此人员重新识别在计算机视觉中仍然是一项具有挑战性的任务。针对这些问题,基于传统RGB摄像头[2-9]和最近发明的现代RGB-D传感器[10-16]已经提出了许多解决方法。基于传统RGB0在Re-id研究中,摄像头,研究人员进行RGB-RGB匹配,这是最常见的情况。虽然RGB模态已被广泛使用,其他模态(即深度和骨架)也可以作为额外信息使用,利用RGB-D传感器克服一些限制(例如照明),并通过与视觉特征(即RGB)结合形成稳健特征。上述大多数基于RGB-D传感器的Re-id工作0姿势手工方法从深度和骨骼关节点中提取新类型的特征。这些类型的特征对许多变化(如光照变化)是不变的。一些重新识别研究人员将这些特征与外观特征相结合,以提高重新识别准确性,使用特征级融合[19]和分数级融合[20-22]技术。在最近的文献中,一些研究人员开始使用深度学习方法进行RGB-D人员重新识别[17,18,23]。这些深度学习重新识别方法结合了基于RGB-D传感器的0*通讯作者。埼玉大学理工学研究科,日本埼玉。 电子邮件地址:kamal@cv.ics.saitama-u.ac.jp(M.K. Uddin),antonylam@mercari.com(A.Lam),fukuda@cv.ics.saitama-u.ac.jp(H. Fukuda),yosinori@hci.ics. saitama-u.ac.jp(Y. Kobayashi),kuno@cv.ics.saitama-u.ac.jp(Y. Kuno)。0ScienceDirect提供的内容列表0期刊主页:www.sciencedirect.com/journal/array0https://doi.org/10.1016/j.array.2021.100089 收到日期:2021年3月10日;修订后收到日期:2021年7月2日; 2021年8月24日接受日期y 12 (2021) 10008920使用特征级融合策略(见图1(a))[17,18]提取多模态特征,其中[17]使用多模态融合层来融合深度和RGB外观特征,而[18]在其提出的深度网络的顶层设计了统一和变分的多模态自动编码器。然而,这些方法使用单个训练模型来提取多模态特征(即RGB和深度),其中它们使用3通道RGB和处理后的深度图像(即转换为3通道图像)来提高重新识别性能。在参考文献[23]中,两个CNN流(RGBCNN和深度CNN)分别处理RGB图像和深度图像,然后从两个CNN的最后一个全连接层提取的特征被融合以共同学习重新识别框架。尽管这些方法实现了更高的重新识别准确性,但特征级融合可能导致模型过度拟合,因为嘈杂/异质特征的融合导致特征的嘈杂部分在决策过程中占主导地位。在我们的工作中,我们通过利用多模态图像(即RGB-D)在不相似空间中的融合来解决这个问题,以提高重新识别准确性。在本文中,我们关注两个单独的模式,而不是单个模式的RGB-D人员重新识别(见图1)。与大多数现有的基于学习的RGB-D人员重新识别方法不同,这些方法利用了来自两个不同通道的RGB和深度信息,但是0在联合学习框架下在单个融合层中融合,我们强调基于3通道RGB和4通道RGB-D图像的两个单独训练的模型,并使用图2中的查询(即RGB/RGB-D)和库(即RGB/RGB-D)之间的不相似性进行计算0图1。(a)典型的深度学习重新识别框架示意图。当前方法侧重于使用单个训练模型的特征级融合策略。(b)与它们不同的是,我们使用两个单独训练的模型分别从3通道RGB和4通道RGB-D图像中提取特征。0图2。形成用于人员重新识别输入的4通道RGB-D图像。0M.K. Uddin等人y 12 (2021) 10008930从两个不同的训练模型中提取的特征嵌入。然后在不相似空间中融合两个单独模式的计算出的不相似性,以获得查询和库之间的最终匹配分数。在这项工作中,我们采用RGB和深度信息以RGB和RGB-D的形式作为两个单独模型。因此,我们有特权在不相似空间中获得基于RGB和RGB-D的训练模型的集成。在这种情况下进行集成有助于我们克服过拟合问题,而传统的特征融合方法可能会因融合嘈杂/异质特征点而遭受过拟合问题。一般来说,深度信息对于光照变化是稳健的。0国家,视点和分辨率。在我们的工作中,我们使用RGB-D图像,与RGB图像相比,它包含了深度信息的一个通道(见图2),并利用了具有额外通道的优势,以光照不变深度图像的形式,并且我们还在我们的Re-id框架中使用了4通道自适应CNN。本文的主要贡献如下:0•首先,我们提出了一种新颖的Re-id技术,利用多模态数据在不相似空间中融合的优势,在Re-id框架中设计了一个4通道RGB-D图像输入。 •其次,我们提出了一个包括58个身份的RGB-DRe-id数据集。对于每个身份,Intel RealSense Depth Camera D435[24]在三个不同的室内位置以不同的照明条件捕获了一系列RGB和深度图像。 •最后,对我们提出的数据集和两个公开数据集的实验分析表明,在不相似空间中的融合有助于提高识别准确性,与特征空间中的融合相比。0本文的其余部分组织如下。在第2节中,我们介绍了基于多模态(即RGB图像,深度图像和骨架信息)的现有重新识别技术的相关工作,这些技术是从RGB-D传感器获取的。在第3节中,我们描述了我们使用3通道RGB和4通道RGB-D传感器数据的不相似空间Re-id框架,以及我们提出的数据集SUCVLRGBD-ID。在第4节中,我们报告了我们的方法在不同数据集上的实验结果,并与最先进的方法进行了比较。在第5节中,讨论了一般观察和典型失败案例。最后,在第6节中,我们提出了结论性的意见。02. 相关工作0大多数当前的Re-id方法侧重于基于传统RGB摄像头匹配个体。但是,一些约束,如光照和服装变化,无法通过RGB摄像头正确解决。在RGB-D传感器到来之后,Re-id研究人员利用了其他模态,如深度和骨架信息,来解决上述问题,并提高Re-id的准确性。在本节中,我们将概述基于RGB-D传感器的人员重新识别方法,这些方法与我们的工作最相关。在基于RGB-D的Re-id文献中,已经提出了一些基于深度图像,点云和人体测量的重新识别方法,以解决服装变化(即长期重新识别)和极端光照的问题[11-15,25-27]。尽管RGB-D传感器可以同时捕获RGB,深度和骨架信息,但是当人们出现在过度照明的环境中或更换衣服时,在这种情况下,一些作者只考虑基于深度的人员Re-id[25,26]方法来解决这些约束。在参考文献[25]中,Haque等人提出了一种用于基于深度视频的人员识别的循环注意模型,其中3DRAM模型用于静态3D点云,而4DRAM模型用于3D点云序列。然而,Haque的方法不适用于在没有0训练和测试中身份重叠。在参考文献[26]中,作者提出了一种长期人员重新识别的方法,该方法使用深度视频,其中他们使用局部三阶张量模型开发了稀疏典型相关分析,以执行多级人员重新识别。在一些作品中,作者提出了基于骨架的人体测量用于人员重新识别[12,14,15]。Barbosa等人[15]使用基于骨架的特征,这些特征基于选定的身体部位之间的欧几里德距离,例如腿,手臂和整体高度,以及身体表面上的测地距离。测地距离是从预定义的关节集(例如从躯干到右髋)计算的。在参考文献[14]中,作者提出了两种描述符,其中第一个描述符包含从身体关节点计算的人体测量,并且另一个描述符包含人体模型的点云模型。在参考文献[12]中,Munaro等人修改了参考文献[15]中提出的工作,方法是通过结合点云匹配(PCM)和基于骨架的特征。尽管这些作品使用基于深度的点云和骨架信息来解决人的姿势变化,但它们并没有执行任何特征级融合或分数级融合技术。除此之外,一些作品[11,13,27]提出了从给定深度图像和骨架关节点中提取的两种不同类型的特征,然后最终通过分数级融合来获得高的重新识别准确性。Wu等人[11]提出利用深度信息提供深度体素协方差描述符和旋转不变深度形状描述符,称为特征。为了丰富深度形状描述符,他们还使用基于骨架的特征作为补充物理信息。在这项工作中,他们计算了基于骨架的特征之间的欧几里德距离,以及体素协方差矩阵内部和体素协方差矩阵之间的测地距离。最后,他们通过对两个距离求和来测量两个主体的相似性。在参考文献[13]中,Imani等人从深度图像中提取了三种直方图特征(局部二值模式(LBP),局部导数模式(LDP)和局部四元模式(LTrP)),首先将深度图像分为头部,躯干和腿部的三个区域,然后使用骨架数据。然后,这些直方图特征与人体测量特征(其中人体测量特征是从骨架关节点计算的)融合,使用分数级融合。在参考文献[27]中,作者引入了两种新特征:边缘权重直方图(HEW)和节点强度直方图(HNS),这些特征适用于单次拍摄和多次拍摄的人员重新识别。然后,这些特征与骨架特征结合,使用分数级融合。上述作品在不同数据集上的性能显示在表1中。一些作者提出了一些传统的重新识别方法,将RGB外观线索与其他模态(如深度,热数据,步态和人体测量)相结合。表2显示了不同数据集上传统方法的性能。在参考文献[10]中,作者提出了骨架标准姿势(SSP)和来自RGB-D数据(彩色点云)的颜色描述符。通过SSP计算分区网格以通过SSP提取基于颜色的特征。然后,使用正在调查的分区网格重新投影来自数据库的提取特征。最后,这些提取的特征用于确定人们的差异。Pala等人[19]将服装外观描述符与从深度数据中提取的人体测量融合,以提高重新识别准确性。他们还提出了一种基于不相似性的框架,用于构建和融合行人图像的多模态描述符,这是分数级融合的替代方法。在参考文献[20]中,Mogelmose等人提出了一种三模式重新识别方法,以结合RGB,深度和热特征。这些模式以后期融合策略结合,能够根据组合规则成本预测场景中的新主体,并基于组合规则成本识别先前的主体。Kawai等人[21]引入了一种视角相关的分数级融合方法,以结合颜色和步态特征。在参考文献[22]中,作者提出了一种基于度量模型更新的在线重新识别方法,用于机器人应用。在这种方法中,每个0M.K. Uddin等人476.58 99.35 0 12 (2021) 1000890通过外观和几何特征使用骨架信息描述人员。然后提出了一种名为特征漏斗模型(FFM)的融合技术,以有效地融合多模态特征。最近,基于深度学习方法的一些作品[17,18,23,28]已经提出了RGB-D多模态人员重新识别。深度学习方法在不同数据集上的性能显示在表3中。在参考文献[17]中,作者提出了一种多模态统一深度学习方法,用于提取RGB外观特征和从处理后的深度图像中提取人体测量特征。所提出的方法使用两个CNN分别分析深度和RGB图像。之后,他们设计了一个多模态融合层,将从深度图像和RGB图像中提取的这些特征与统一的潜在变量相结合。在参考文献[18]中,Ren等人提出了一种统一和变分的深度学习方法,用于RGB-D对象识别和人员重新识别。该方法从深度和RGB图像中分别提取深度特征和外观特征。然后,在他们提出的深度网络的顶层,使用变分自动编码器将深度特征和外观特征组合在一起。Lejbolle等人[23]提出了一种多模态CNN,该0使用深度和RGB模态进行训练,以提供融合特征。稍后,作者们改进了他们的方法,使用了多模态注意力网络[28],其中他们添加了一个注意力模块,用于提取局部和有区别的特征,并将其与全局提取的特征融合。与上述工作相比,我们在RGB-D人员重新识别中使用了两个分别训练的模型,其中模型分别使用3通道RGB和4通道RGB-D图像进行训练。然后,使用从训练模型中提取的特征嵌入计算不相似度分数,最后在不相似度空间中融合两个分数。由于一些最先进的Re-id方法在特征空间中使用多模态融合,这可能会因为嘈杂/异质特征而导致过拟合问题。与它们不同,我们在不相似度空间中利用基于RGB和RGB-D的训练模型的集成,这有助于克服由于噪声导致的过拟合问题。03. 提出的方法和材料0在本节中,我们提出了我们的人员重新识别方法以及我们使用RGB-D传感器(即IntelRealSense深度摄像头)获取的数据集。首先,我们描述了我们方法的整体框架,然后介绍了我们获取的数据集。03.1. 整体框架0我们提出的流水线在图1(b)中用流程图表示。我们将整个Re-id框架分为两个阶段。在第一阶段,我们使用RGB和RGB-D图像在相同的训练数据集上分别训练两个模型M1和M2。我们分别称这些模型为“RGB CNN”和“RGB-DCNN”。具体来说,RGB-DCNN接受RGB图像及其对应的深度图像,形成4通道图像作为输入。在第二阶段,我们在相同的测试数据集上为每个单独训练的模型计算探针和库的不相似度分数,最后在不相似度空间中融合两个分数。在我们提出的工作中,RGB图像被馈送到三个具有共享参数的深度CNN中,并且使用Weinberger和Saul介绍的三元组损失来训练RGB CNN。我们使用ResNet50作为RGBCNN的骨干,并且参数在ImageNet上进行了预训练。理想情况下,ResNet50接受3通道输入,但是我们的Re-id框架还需要接受4通道输入。在图3中,我们展示了我们的具有4通道RGB-D图像输入的Re-id训练框架。3通道RGB图像可以轻松地与传统的预训练CNN模型一起使用。但是我们需要4通道RGB-D图像作为具有共享参数的模型的输入,这些参数也在ImageNet上进行了预训练。因此,我们修改了ResNet50的第一个卷积层(通过添加额外的2DConv层),以便将模型馈送到4通道RGB-D图像(见图4)。通常情况下,ResNet50应首先在ImageNet数据集上进行预训练,以初始化大量的参数。在这项工作中,我们复制RGB模型的层的参数,然后进行微调0表1基于深度图像、点云和人体测量的现有Re-id方法的性能。在所有表格中,“-”表示无结果。0参考方法数据集排名1排名5排名100IEEE图像处理交易20170DVCov+SKL [11] RGBD-ID [15] 71.74 88.45 -0ED+SKL [11] BIWI RGBD-ID [14] 39.38 72.13 -0ED+SKL [11] IAS-Lab RGBD [12] 63.29 91.21 -0IEEE ICRA-2014面部+Skeleton+SVM[12]0BIWI RGBD-ID 67.9 - -0PCM+Skeleton [12]0IAS-Lab RGBD 81.8 - -0IEEE传感器-2016SGLTrP3+得分级别[13]0RGBD-ID(Walking1和Collab.group)0RGBD-ID(Walking2和backwardgroup)072.58 - 95.910ACVPR,Springer-2014面部+Skeleton [14]0BIWI RGBD-ID 52.0 - -0CVPR-2016 4D RAM [25] BIWI RGBD-ID 45.3 - - IAS-Lab RGBD 64.4 - - RGBD-ID 43.0多媒体工具和应用-20200TSCCA [26] BIWI RGBD-ID 55.23 - - IAS-Lab RGBD 83.1 - -0表2 基于不同数据集的RGB外观线索和人体测量的现有Re-id方法的性能。0参考方法数据集排名1排名5排名100模式识别20190APC-USG [10] RGBD-ID 89.34 - -0多模式[19] RGBD-ID 77.7 94 990CVPR-2013三模式Re-ID [20] RGB-D-T [20] 82 - -0CAAI Trans. 2017 FFM [22] RobotPKU [22] 77.94 - -0表3 基于深度学习方法的现有Re-id作品的性能0参考方法数据集排名1排名5排名100模式识别2017 MMUDL [17] RGBD-ID 76.7 87.5 96.10IEEE图像处理交易-2019 UVDL [18] RGBD-ID 76.7 92 98.20BIOSIG-2017多模式OPR [23] OPR [23] 74.69 - -0TVPR [41] 77.66 - -0DPI-T [25] 90.36 - -0CVPR-2018 MAT [28] OPR 49.06 89.06 95.62 TVPR 82.98 93.62 94.68 DPI-T 92.37 99.6 1000M.K.乌丁等5M.K. Uddin et al. 0Array 12(2021)1000890具有相同权重(w)的RGB通道和第4通道(深度通道)的RGB-D模型使用第3分量的权重(见图4)初始化,以开始网络训练。与RGBCNN模型一样,我们也使用三元损失函数训练RGB-DCNN模型。我们描述了整个训练过程,其中包括三个4通道自适应CNN块(见图3),所有CNN块共享参数(即权重和偏差)。对于给定的RGB图像Irgb和相应的深度图像Id,我们创建一个4通道RGB-D图像Irgbd作为输入。在训练期间,三个4通道自适应CNN0取三元组示例(即三个Irgbd图像),表示为Ti=(Tai,Tpi,Tni),并形成第i个三元组,其中上标‘a’表示锚定图像,‘p’表示硬正图像,‘n’表示硬负图像。‘a’和‘p’来自同一个人,而‘n’来自另一个人。RGB-D图像被馈送到4通道自适应CNN模型,并将三元组Ti从原始图像空间映射到学习嵌入空间Fi=(Fai,Fpi,Fni)。具体而言,当将样本图像馈送到CNN模型时,它映射到特征嵌入空间F = ϕ(x),其中ϕ(�)表示整个CNN模型的映射函数0图3.重新识别的三元训练框架。它由两个阶段组成:1)使用3通道RGB和1通道深度图像形成4通道图像,2)将4通道图像馈送到具有共享参数的三个4通道自适应CNN模型中,其中三元损失旨在将同一人的实例拉近,同时将不同人的实例推远到学习嵌入空间中。0图4. 将ResNet50适应为4通道RGB-D图像输入。6LBHtrp =[m +maxp=1 ... K⃦⃦Fai − Fpi⃦⃦2⏞̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅⏟⏟̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅⏞KPj∕=i⃦⃦⃦Fai − Fnj⃦⃦⃦2̅̅̅̅̅⏟⏟̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅⏞ ]+(1) 3:0 9:update the parameters wn = wn−1 − μn∂LBHtrp∂w 10:end while 11: return M2 02(2021)1000890而 x 是相应图像 I rgbd的输入表示。对于三元组示例中的每个图像,我们使用标准的前向和后向传播分别计算梯0∂ w ,可以通过分别运行标准的前向和后向传播来获得。03.2. 三元损失0RGB-D CNN以及RGBCNN网络都使用三元硬损失技术进行训练。在这种技术中,当网络训练时,三元损失函数减小了来自同一人(即锚点‘a’和硬正样本‘p’)的特征嵌入之间的距离,并增大了不同人(即锚点‘a’和硬负样本‘n’)之间的距离(见图3)。三元组的生成对系统的最终性能至关重要。当网络使用大规模数据集的三元组输入进行训练时,可能会有大量可能的三元组输入组合(因为三元组组合呈立方增长),使得训练所有可能的三元组变得不切实际。为了解决这个问题,我们遵循了引用文献[32]中介绍的Batch-hard三元组挖掘策略。主要思想是通过随机抽样P个身份,然后从每个身份中随机抽样K个实例,从而形成一个批次,因此得到的小批量总共包含P×K张图像。Batch-hard三元损失(BHtrp)可以被公式化为0�������������� 所有锚点0最难的正样本0− 最小0最难的负样本0其中 F a i , F p i 和 F n i 分别是锚点、正样本和负样本的归一化特征嵌入, m是预定义的边距,[ . ] + = max ( ., 0)。我们的整个训练过程如算法1所示,它遍历每个小批量中的所有三元组,累积每次迭代的梯度,并获得RGB-D图像的模型M2。0算法1显示了我们针对RGB-D图像的训练过程的整体实现。0输入:4通道RGB-D图像的训练样本{ Ti }。初始化学习率μ,边距m,网络参数{ w }和迭代次数n←0。 输出:模型M2 1:当n < N时 2:n← n + 104:从随机抽样的P个身份和每个身份中随机抽样的K个实例中形成所有训练三元组样本Ti;5:对于所有训练三元组样本Ti 6:通过前向传播计算ϕ(F a i),ϕ(F p i),ϕ(F n i);07:计算ϕ(Fai)0∂w,ϕ0∂w,ϕ0通过反向传播计算∂w;08:结束循环0除了初始化网络参数外,我们按照算法1的相同过程获得RGB图像输入的模型M1。03.3.融合技术0我们使用从训练模型(M1和M2)提取的特征嵌入计算给定一组库(G)和查询(q)图像的不相似度分数(即表示两个样本之间的欧氏距离)。然后我们对两者求和0使用得分级别融合策略(因为大多数现有的多模态情况下的工作都遵循这一规则)在不相似度空间中使用融合权重α计算不相似度分数。融合策略表述为0DFusion(q,G) = αDrgb(q,G) + (1−α)Drgbd(q,G) (2)0其中Drgb(q,G)和Drgbd(q,G)分别是使用RGB和RGB-D特征嵌入计算的每个查询样本(q)和库集合(G)之间的不相似度分数,DFusion(q,G)是每个查询样本(q)和库集合(G)之间的最终分数。算法2显示了不相似度空间中的融合技术。0算法20输入:查询q,库集合G和初始化不相似度融合权重α 输出:不相似度分数DFusion(q,G)1:加载模型M1,并提取RGB图像的查询和库特征嵌入。2:对于每个RGB查询图像和库集合,计算不相似度分数Drgb = argmin0IDiD(q,IDi),IDi∈G04:结束循环 5:加载模型M2,并提取RGB-D图像的查询和库特征嵌入。6:对于每个RGB-D查询图像和库集合,计算不相似度分数Drgbd = argmin0IDiD(q,IDi),IDi∈G08:结束循环 9:根据公式(2)计算最终的不相似度分数DFusion(q,G)03.4.提议的数据集描述0在本节中,我们描述了我们收集的RGB-DRe-id数据集。据我们所知,目前有五个公开可用的RGB-D数据集,包括RGBD-ID[15],KinectREID [19],BIWI RGBD-ID [14],IAS-Lab RGBD-ID[12]和RobotPKU[22],这些数据集是使用微软Kinect相机收集的。上述所有记录的数据集主要强调观看角度的变化。一些序列是在不同的光照条件下记录的[12,19]。尽管大多数这些数据集适用于传统的RGB-DRe-id方法,但由于规模较小,很难为深度学习方法训练出一个良好的模型。只有RobotPKU数据集具有相当数量的实例和大量的每个实例的帧数,具有不同的视角变化,尽管深度图像存在噪音(有时一些帧中缺少身体部分)。在我们提出的数据集中,我们强调记录环境中不同的光照条件,并且RGB和深度图像之间没有对齐问题。我们的RGB-D Re-id数据集名为SUCVL RGBD-ID,其中包含使用IntelRealSense深度相机D435[24]收集的58个人的172个视频序列,每个人在大约74个序列的帧下被捕获。视频序列是在同一天在三个不同的室内位置录制的,但是在不同的光照条件下。三台摄像机,标记为Cam1,Cam2和Cam3,安装在建筑物的同一楼层,但在三个不同的位置。为了产生光照变化,Cam1安装在阳光透过两扇玻璃窗并改变环境的光照条件的位置。Cam2安装在我们的实验室,具有室内照明环境。第三台摄像机的位置在走廊上,室内灯光关闭,因此光照条件很差。要求所有个体正常向前走向摄像机。这些视频以30fps的速度录制。该数据集包括同步的RGB图像(以1280×720像素的分辨率捕获)和深度图像。尽管IntelRealSense深度相机D435可以捕获范围高达10米的图像[24],但我们在5米范围内录制所有视频,以获得高质量的深度图像。深度传感器可以通过使用红外传感器捕获每个像素的深度信息,而不受室内环境中行人的颜色外观和照明条件的影响。正如我们在三种不同的照明条件下设置了三台摄像机一样。0这使得从三个摄像头识别人员更具挑战性0M.K. Uddin等702(2021)1000890不重叠的摄像头。我们可以在图6中看到,Cam1的RGB图像受到来自玻璃窗外的阳光的影响,改变了室内开放空间的照明环境。在图7中,我们展示了在室内和低照明环境中使用Cam2和Cam3分别记录的一些示例RGB及其对应的深度图像。尽管由于照明变化,两台摄像机的RGB图像之间存在视觉差异,但深度图像没有这样的差异(见图6),因为深度传感器可以捕获光照不变的高质量深度图像。在我们的数据集中,大约一半的人穿着夹克,一些人戴着口罩。我们的数据集旨在进行短期人员重新识别,因此同一个人在不同的获取中穿着相同的衣服。0个体戴着口罩。我们的数据集旨在进行短期人员重新识别,因此同一个人在不同的获取中穿着相同的衣服。04. 实验0我们的提出的方法在三个RGB-D Re-id数据集上进行评估:RGBD-ID[15],RobotPKU RGBD-ID [22]和我们新提出的SUCVLRGBD-ID数据集。尽管还有一些其他RGB-DRe-id数据集可用,但我们选择了RobotPKU和RGBD-ID数据集进行实验评估,因为它们的规模很大。04.1. 数据集0RobotPKU RGBD-ID。该数据集是使用Microsoft KinectSDK的Kinect传感器收集的。共有90人的180个视频序列,每个人在两个不同的室内位置分别采集了静止和行走序列。然而,在一些序列中,一些深度帧存在噪声,并且图像中的身体部分经常缺失。0图5. 我们提出的Re-id方法的最终匹配分数计算0图6.RGB及其对应的深度图像示例。所有图像都是在同一天和地点拍摄的,但在不同的时间。第1、2和3列显示了在正常照明下不同视野距离的同一个人。第4和5列显示了在同一天的不同时间,阳光透过玻璃窗的时候的另一个人。0M.K. Uddin等802(2021)1000890可能发生的原因是基于深度传感器的摄像头可以在特定范围内捕获一个人的深度图像。在深度传感器无法正确捕获深度帧的情况下,我们使用引用[16]中介绍的预处理技术丢弃所有这些帧。因此,在我们的实验中,我们只考虑那些具有适当深度图像的RGB帧。RGBD-ID。该数据集包含79个人的RGB和深度数据0个体,每个个体有四次获取(行走1、行走2、协作和向后),一个后视图(向后)和三个正面视图(行走1、行走2和协作)。在每个获取中,为每个个体提供了四到五个RGB和3D帧(3D点云)。一些个体在不同的获取中更换衣服。由于我们使用3通道RGB图像和4通道RGB-D图像进行实验,因此我们首先计算所有3D帧的深度值。04.2. 评估协议0我们使用累积匹配特性(CMC)曲线和平均精度(mAP)进行定量评估,这在Re-id文献中是常见的做法[38-40]。对于所有实验数据集,我们随机选择大约一半的人进行训练,剩下的一半进行测试。在测试阶段,对于每个查询图像(RGB/RGB-D),我们首先计算由训练网络提取的特征嵌入产生的查询图像与所有图库图像(RGB/RGB-D)之间的不相似度(不相似度是欧氏距离的向量),然后在不相似度空间中融合两个分数(RGB和RGB-D)。最后,我们的Re-id系统返回与图库集中查询图像的不相似度最低的前n个图像。如果返回的列表中包含与查询图像中的人相同的图像,则将此查询视为第k名。我们重复实验10次,并报告第1、5和10名的平均准确度以及mAP。本文报告的所有结果都是在单一查询设置下的。04.3. 实施细节0我们对RGB和RGB-D模型都应用数据增强技术,以增加数据集的变化性并提高网络性能。所有图像都被调整为256×192。在我们的实现中,我们遵循常见的做法,在训练过程中使用随机水平翻转[33]。我们采用在ImageNet上预训练的ResNet50作为RGB模型的骨干网络,我们在3.1节中提到了如何为4通道图像输入训练RGB-D模型。我们使用带有动量0.9、权重衰减5×10-4和初始学习率0.01的随机梯度下降来训练我们的两个模型。在我们的工作中,我们设置边距m=0在我们的所有实验中,我们使用欧氏距离而不是平方欧氏距离,因为参考文献[32]中的作者注意到使用平方欧氏距离会使优化更容易崩溃,而使用实际的(非平方)欧氏距离更稳定。批量大小设置为20×4=80,在每个小批量中有20个不同的人和每个人4个实例。我们在Pytorch[34]平台上实现了我们的框架。04.4. 实验评估0在本节中,我们报告了我们自己的SUCVLRGBD-ID数据集以及上述两个数据集的实验结果。为了证明我们方法的有效性,首先我们将我们的差异融合模型的结果与两个基线模型(RGB和RGB-D)以及它们的特征级融合进行比较。其次,我们将我们的Re-id方法与给定数据集的现有最先进方法进行比较。与基线模型的比较。这个实验的目标是检查我们提出的方法(差异空间中的融合)的有效性,并与基线模型进行比较。在SUCVLRGBD-ID、RGBD-ID和RobotPKU数据集上,不同基线模型和我们的方法的CMC曲线如图8所示。表4-6总结了所有实验数据集的排名1、排名5、排名10的准确性和mAP。从CMC曲线可以看出,我们提出的融合模型在所有实验数据集的顶部排名特别是在所有实验数据集的顶部排名方面优于所有基线模型和特征级融合方法,这证实了我们的多模态融合在差异空间中增加了重新识别的准确性。0表4显示,RGB模型的mAP和排名1的准确性分别为71.14%和84.56%,RGB-D模型分别为70.11%和83.58%。而我们基于差异的融合模型将mAP提高到76.94%,分别增加了5.8%和6.83%,排名1的准确性提高到87.65%,分别增加了3.09%和4.07%。表5给出了在完整的RGBD-ID数据集上的比较结果,其中RGB和RGB-D基线模型的mAP分别为69.11%和68.32%,排名1的准确性分别为79.74%和78.65%。通过我们的融合机制,mAP提高到71.86%,分别增加了2.75%和3.54%,排名1的准确性提高到82.05%,分别增加了2.31%和3.4%。表6报告了RobotPKU数据集上的结果,RGB模型的mAP/排名1为86.29%/91.35%,RGB-D模型为84.27%/89.63%。我们的融合模型分别比RGB和RGB-D基线模型提高了+3.2%/+1.98%和+5.22%/3.7%的准确性。如表4-6所示,我们的融合方法的性能也优于特征级融合方法,考虑到所有实验数据集的顶级排名和mAP。0图7。列1、2和3显示了在室内光照条件下由Cam2捕获的RGB和相应的深度图像,列4和5显示了在不同室内位置由Cam3捕获的同一人在低光环境中的图像。0M.K. Uddin等人902(2021)1000890我们提出的融合方法相对于单个模式以及特征级融合方法在所有实验数据集上都表现良好。这意味着当来自两个单独模型(RGB和RGB-D)的不相似度得分向量在不相似度空间中融合时,可以提高重新识别的准确性。参数α的影响。对于所有实验数据集,我们重复了10次实验,并估计了排名1、5和10以及mAP的平均准确性。为了分析方程(2)中不相似度融合权重α的影响,我们从10次试验中随机选择一次试验,并观察α的有效性。我们将α的值从0变化到1,间隔为0.1,以查看性能如何变化。不同参数设置下的排名1准确性和mAP分别在SUCVLRGBD-ID、RGBD-ID和RobotPKU数据集的图9(a)、(b)和9(c)中报告。可以观察到,对于所有数据集,排名1的性能在α = 0.2到α =0.6的范围内显著提高,然而SUCVLRGBD-ID将范围扩展到0.8。另一个评估指标mAP,图9显示,当α =0.5时获得了最佳性能,因为mAP是通过对所有查询图像的平均精度进行计算的。在我们的实验评估中,我们设置α =0.5以获得排名1和mAP的最佳性能。与最新方法的比较。我们进一步比较了我们在RGBD-ID和RobotPKU数据集上的提出模型与最新方法。RGBD-ID:在这个数据集上,我们与几个当前的0最新方法。由于该数据集有四个不同的组,并且有些人在不同的获取中穿着不同的衣服,一些最新方法忽略了那些换衣服的人,而其他人则在实验中考虑了整个数据
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功