野外步态识别中基于密集的3D表示和基准的研究

104 浏览量更新于2023-10-25 收藏 17.77MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

(a) Silhouettes(c) 3D Meshes(GEIs) [10], 2D skeletons [61], as shown in Figure 1. How-ever, the human body is a 3D non-rigid object, so the 3D-to-2D projection discards a lot of useful information of shapes,viewpoints, and dynamics while presenting ambiguity forgait recognition. Therefore, this paper is focused on 3D gaitrecognition that is valuable yet neglected by the community.Recently, deep learning-based methods have dominatedthe state-of-the-art performance on the widely adopted2D gait recognition benchmarks like CASIA-B [36] andOU-MVLP [35] by directly learning discriminative fea-tures from silhouette sequences [5, 8, 55] or GEIs [44].Despite the excellent results on the in-the-lab datasets,these methods cannot work well in the wild scenarioswhich have more diverse 3D viewpoints of cameras andmore complex environmental interference factors like oc-clusions [61]. Although several works exploit 3D cylin-ders [3] or 3D skeletons [40], these sparse 3D models also1202280在野外使用密集的3D表示和基准进行步态识别0郑金凯1* 刘新辰2† 刘武2† 何凌霄2 严成刚1 梅涛201 杭州电子科技大学，中国杭州 2 京东探索学院，中国北京0{ zhengjinkai3, cgyan } @hdu.edu.cn, { liuxinchen1, liuwu1, helingxiao3, tmei } @jd.com0摘要0现有的步态识别研究主要集中在受限场景中的2D表示，如人体的轮廓或骨架。然而，人类生活和行走在无约束的3D空间中，因此将3D人体投影到2D平面上会丢失很多关键信息，如观点、形状和动态，对于步态识别来说是至关重要的。因此，本文旨在探索在野外环境中进行步态识别的密集3D表示，这是一个实际但被忽视的问题。具体而言，我们提出了一种新颖的框架，用于探索人体的3D Skinned Multi-PersonLinear（SMPL）模型进行步态识别，称为SMPLGait。我们的框架有两个精心设计的分支，其中一个从轮廓中提取外观特征，另一个从3DSMPL模型中学习3D观点和形状的知识。此外，由于缺乏合适的数据集，我们建立了第一个基于3D表示的大规模步态识别数据集，名为Gait3D。它包含4000个主体和超过25000个序列，从39个摄像机在无约束的室内场景中提取。更重要的是，它提供了从视频帧中恢复的3DSMPL模型，可以提供人体形状、观点和动态的密集3D信息。基于Gait3D，我们全面比较了我们的方法与现有的步态识别方法，反映了我们的框架的卓越性能和3D表示在野外步态识别中的潜力。代码和数据集可在以下网址获取：https://gait3d.github.io。01. 引言0视觉步态识别旨在通过视频中的行走模式来识别目标人物，已经研究了二十多年[29,41]。现有的方法和数据集主要以轮廓序列[54]、步态能量图像（GEIs）[10]、2D骨架[61]为主，如图1所示。然而，人体是一个3D非刚性物体，因此3D到2D的投影会丢失很多有用的形状、视点和动态信息，同时对于步态识别来说也会产生模糊性。因此，本文专注于3D步态识别，这是一个有价值但被学术界忽视的问题。最近，基于深度学习的方法通过直接从轮廓序列[5, 8,55]或GEIs[44]中学习判别特征，在广泛采用的2D步态识别基准数据集（如CASIA-B[36]和OU-MVLP[35]）上占据了最先进的性能。尽管这些方法在实验室数据集上取得了出色的结果，但在野外场景中，这些方法无法很好地工作，野外场景具有更多的摄像机3D视点和更复杂的环境干扰因素，如遮挡[61]。尽管有几项工作利用3D圆柱体[3]或3D骨架[40]，但这些稀疏的3D模型也会产生一些问题。0* 郑金凯在京东探索学院实习时完成了这项工作。† 通讯作者。0（b）骨架0图1.同一人的不同步态表示，来自两个视点。与轮廓和骨架相比，3D网格保留了人体在3D空间中的形状和视点。（最好在彩色中查看。）2202290失去了人体的有用信息，如观点和形状。幸运的是，参数化的人体模型的发展，如Skinned Multi-PersonLinear（SMPL）模型[27]和3D人体网格恢复方法[17, 19,33]，使得在视频帧中估计人体的精确3D网格和观点成为可能。3D网格在步态识别中的优势有两个方面：1）3D网格不仅可以提供人体在3D空间中的姿势，还可以提供人体的形状，这对于学习步态的区分特征至关重要；2）3D观点可以用来规范交叉视图匹配中人体的方向。为此，我们设计了一种基于新颖的3DSMPL模型的步态识别框架，即SMPLGait，用于探索人体识别的3D步态表示。我们的SMPLGait框架基于深度神经网络有两个分支。一个分支以一个人的轮廓序列作为输入，学习外观特征，如服装、发型和随身物品。然而，由于野外环境中的极端视角变化，人体的形状可能会变形，这使得外观模糊，如图1所示。为了克服这个挑战，我们设计了一个3D空间变换网络（3D-STN）作为另一个分支，从3D人体网格中学习视点和形状的3D知识。3D-STN以每帧的3DSMPL模型作为输入，学习一个空间变换矩阵。通过将空间变换矩阵应用于外观特征，不同视点的特征在潜在空间中被规范化。通过这种方式，相同人的步态序列在特征空间中会更接近。然而，目前没有适合的数据集提供野外环境中人体的3D网格。因此，为了促进研究，我们建立了第一个大规模的基于3D网格的步态识别数据集，名为Gait3D，该数据集是从野外高分辨率视频中捕获的。与表1中列出的现有数据集相比，Gait3D数据集具有以下特点：1）Gait3D包含4000个主体，由39个摄像机在无约束的室内场景中捕获的超过25000个序列，使其适用于研究和应用。2）它提供了从视频帧中恢复的精确的3D人体网格，可以提供人体的3D姿势和形状以及准确的观点参数。3）它还提供了传统的2D轮廓和关键点，可以用于多模态数据的步态识别。总之，本文的贡献如下：0•我们首次尝试在真实世界场景中进行3D步态识别，旨在探索用于步态识别的人体的密集3D表示。0•我们提出了一种基于SMPL模型的新型3D步态识别框架，名为SMPLGait，用于探索3D人体网格进行步态识别。0•我们建立了第一个大规模的3D步态识别数据集，名为Gait3D，提供了从无约束场景中收集的步态的3D人体网格。0通过全面的实验，我们不仅评估了现有的基于2D轮廓/骨架的方法，还展示了所提出的SMPLGait方法的有效性，这反映了3D表示在步态识别中的潜力。此外，3D和2D表示的结合进一步提高了性能，显示了多模态表示的互补性。02. 相关工作0步态识别。我们分别回顾了基于2D和3D表示的步态识别方法。2D步态识别方法可以分为基于模型和基于无模型的方法[41]。早期的方法主要属于基于模型的方法，定义了一个结构化的人体模型。然后，通过参数如肢体长度、关节角度和身体部位的相对位置来建模步态模式[3,46]。基于无模型的方法主要采用通过视频帧背景减法获得的轮廓[5, 8, 10, 14, 15, 21, 31, 44, 55,56]。特别是，Han等人提出将一系列轮廓聚合成紧凑的步态能量图像(GEI)[10]，这在后续方法中被广泛使用[31,44]。最近，由于深度学习在计算机视觉任务中的成功[23-25,48-52]，深度卷积神经网络(CNNs)也主导了步态识别的性能。例如，Shiraga等人[31]和Wu等人[44]提出了通过GEIs学习有效特征的方法，并显著超过了以前的方法。最近的方法开始直接从轮廓序列中学习有区别的特征，使用更大的CNNs或多尺度结构，并取得了最先进的结果[5, 8, 15,21]。尽管在实验室数据集（如CASIA-B和OU-LP）上表现出色，但这些方法在野外的表现通常不佳，如在GREW[61]和我们的Gait3D的实验中所示。从步态识别的早期年份开始，也研究了3D表示。例如，Urtasun和Fua[40]提出了一种依赖于3D时间运动模型的步态分析方法，使用关节骨架。Zhao等人[57]应用了一种局部优化算法来跟踪步态识别的3D运动。Yamauchi等人[47]提出了第一种使用从RGB帧估计的3D姿势进行行走人体识别的方法。Ariyanto和Nixon[3]使用复杂的多摄像机系统构建了一个基于3D体素的数据集3D-STNSMPLsentropy LossTrainingSimilarityFeature......3D Spatial Transformation Module......SP: Set PoolingHPP: Horizontal Pyramid PoolingFeature Maps 𝑭𝑖Transformed Feature ෡𝑭𝑖3202300SLN0轮廓0交叉0三元损失0余弦0推理0聚合0HPP SP0: 矩阵乘法 : 逐元素求和0变换矩阵 � �0图2. SMPLGait框架在野外进行3D步态识别的架构。0并提出了一个由每个关节具有3D自由度的关节式圆柱体的结构模型，以模拟人类下肢。然而，这些方法要么丢弃了丰富的3D信息，如视点和形状，要么受到了现实世界应用设备的限制。总之，为了克服2D方法的问题并在野外探索3D表示的步态识别，我们的目标是探索3D网格作为具有人体视点和形状的丰富表示。步态识别数据集。当前公开可用的步态识别数据集主要属于两个系列，即CASIA系列[36, 43,54]和OU-ISIR系列[1, 13, 16, 28, 38, 39,45]，如表1所示。CASIA系列是在步态识别的早期研究中建立的，它促进了对步态表示的RGB图像和轮廓的初步探索[10,36]。尽管CASIA-B[54]的受试者数量较少，但它仍然是评估基于轮廓的方法的最常用数据集。OU-ISIR系列是十年前首次建立的，并开发了包括不同速度[38]、服装风格[13]、包[39]、不同年龄的受试者[45]和2D姿势注释[1]在内的综合变体。由于受试者众多，OU-LP[16]和OU-MVLP[35]也成为当前研究中最受欢迎的数据集。然而，上述数据集是在受限场景下收集的，如实验室[16, 54]或校园内的一个小区域[30,43]。最近，研究人员开始缩小实验室研究与实际应用之间的差距。作为我们工作的同时研究，Zhu等人[61]从开放区域收集的自然视频构建了GREW数据集。然而，在野外提供丰富的3D表示的数据集还不存在。因此，我们需要建立一个新的数据集，该数据集是从复杂场景中收集的，并具有用于野外步态识别的密集3D网格。3D人体网格恢复。3D表示在计算机视觉社区引起了很多关注[26,59]。3D人体可以用点云[22]、体素[40]、参数化混合形状[2]等表示。其中，Skinned Multi-Person0线性（SMPL）模型[27]是一种基于顶点的蒙皮模型，可以准确地表示各种自然人体姿势中的身体形状。利用SMPL模型，可以通过一组形状、姿势、缩放和视角参数的线性组合来表示任意3D人体。基于SMPL模型，开发了一系列3D人体网格恢复方法，用于从自然图像中估计人体的准确3D形状、姿势和视角[17, 19, 33,34]。这些方法为我们提供了从野外视频中获取3D人体网格进行基于3D网格的步态识别的机会。03D步态识别方法03.1. 概述0提出的基于3DSMPL的步态识别框架SMPLGait的整体架构如图2所示。框架有两个分支。对于第一个分支，我们将轮廓序列作为输入，该序列具有丰富的外观知识，并使用基于CNN的模型从每帧提取2D空间特征。对于第二个分支，人体的SMPL被馈送到3D空间变换网络（3D-STN），旨在从3D视角和形状中学习潜在的变换矩阵。然后，3D空间变换模块使用学习到的变换矩阵在潜在空间中对2D外观特征进行对齐。最后，将每帧的转换特征聚合成序列级特征，用于训练或推断中的序列匹配。接下来，我们将详细介绍上述模块。03.2. 网络结构0轮廓学习网络（SLN）旨在从包含2D空间信息（如服装和发型）的轮廓中学习人类的外观知识。SLN具有六个卷积层，类似于GaitSet[5]的主干网络。如图2所示，轮廓序列被馈送到CNN中。我们将Xsil ={xi}Li=1表示为输入序列，其中xi ∈ RH × W4202310数据集年份主体 #序列 #摄像头数据类型速度野外 3D视角0CASIA-A [43] 2003 20 240 3 RGB，Silh. � � �0USF HumanID [30] 2005 122 1,870 2 RGB � � �0CASIA-B [54] 2006 124 13,640 11 RGB，Silh. � � �0CASIA-C [36] 2006 153 1,530 1 红外，Silh. � � �0OU-ISIR Speed [38] 2010 34 306 1 Silh. � � �0OU-ISIR-LP [16] 2012 4007 31,368 2 Silh. � � �0OU-LP Bag [39] 2018 62,528 187,584 1 Silh. � � �0OU-MVLP [35] 2018 10,307 288,596 14 Silh. � � �0OU-MVLP姿势[1] 2020 10,307 288,596 14 2D姿势 � � �0GREW [61] 2021 26,345 128,671 882 Silh.，2D/3D姿势，流 � � �0Gait3D - 4,000 25,309 39 Silh.，2D/3D姿势，3D网格和SMPL � � �0表1. 公开可用的步态识别数据集的比较。速度、野外和3D视角表示数据集是否包含不稳定的行走速度、是否在野外捕获以及在3D空间中是否具有视角变化。0第i帧是第i个二进制帧，L是序列的长度，H和W是轮廓图像的高度和宽度。对于帧xi，该过程可以表示为：0Fi = F(xi)，(1)0其中 F(∙) 是基于CNN的主干网络，Fi ∈ Rh × w是第xi1帧的帧级特征图。3D空间变换网络（3D-STN）用于解决真实3D场景中的视角变化。与3D视角、形状和姿势相关的3D SMPL参数是该模块的输入。假设Ysp ={yi}Li=1是输入的SMPL，其中yi ∈RD是第i帧的SMPL向量，D是SMPL向量的维度，包含24×3维的3D人体姿势、10维的3D身体形状和3维的相机缩放和平移参数。3D-STN由三个全连接（FC）层组成，神经元数量为128 � 256 � h ×w，其中h和w是来自轮廓学习网络的特征图的高度和宽度。每个FC层后面跟着批归一化和ReLU激活函数。我们在最后两个FC层上使用了dropout来消除过拟合。3D-STN的前向过程可以表示为：0g i = G(y i)，(2)0其中G(∙)是3D-STN，g i是帧级别的变换向量，用于对齐2D外观特征图F i ∈ Rh ×w，使用特征空间中的变换向量g i进行变换，如图2所示。我们首先将变换向量g i重塑为矩阵G i ∈ Rw ×h。然后，为了方便计算，我们通过在短边上进行零填充，将F i 和G i 扩展为方阵。然后，我们通过g i 将G i 应用于Fi。0F i = F i ∙ (I + G i)，(3)0为了方便表示，我们省略了特征图的通道。0其中I是单位矩阵，∙是矩阵乘法。最后，我们采用GaitSet[5]中的集合池化（SP）和水平金字塔池化（HPP）将�F i聚合成用于序列匹配的最终特征向量。有关SMPLGait框架的更多详细信息，请参阅补充材料。03.3. 训练和推断0我们的双分支3D步态识别框架以端到端的方式进行训练。我们的框架的网络通过具有两个组件的损失函数进行优化：0L = αL tri + βL ce，(4)0其中L tri 是三元组损失，L ce是交叉熵损失。α和β是权重参数。在推断过程中，我们分别使用轮廓和SMPL序列作为两个分支的输入。余弦相似度用于衡量查询-库对之间的相似度。04. Gait3D基准0为了促进3D步态识别的研究，我们提出了一个新的大规模数据集，名为Gait3D，与表1中现有数据集相比，具有几个特点。首先，Gait3D数据集包含4000个主体，25000多个序列，以及由任意3D视点的摄像头捕获的超过300万个边界框，这使得它更适合训练深度CNN。此外，它提供了从视频帧中估计的准确的3D人体网格，其中包含人体的姿势和形状以及在3D空间中的视点。此外，Gait3D还提供了通过在我们的数据集上微调的最先进的图像分割和姿势估计方法获得的2D轮廓和2D/3D关键点。因此，可以探索多模态数据进行步态识别。此外，Gait3D是在一个大型超市中收集的，人们通常以不规则的速度和路线行走，并且可能被其他人遮挡。5202320物体。上述特性也使得Gait3D成为一个可扩展但具有挑战性的步态识别数据集，这可以通过第5节中的评估来反映。04.1. 数据收集和预处理0为了收集一个高质量的适用于实际应用的野外数据集，我们从一个大型超市的39个摄像头中收集了为期七天的原始视频。摄像头的场景包括入口、货架区域、冷冻区域、就餐区域、结账柜台等。对于每天的视频，我们随机采样两个连续两小时的视频片段。最后，我们获得了大约1090小时的视频，分辨率为1920×1080，帧率为25FPS。请注意，我们已经得到了超市管理部门的授权，可以访问和处理这些数据用于研究目的。此外，所有被拍摄的人员都被告知这些数据仅用于研究目的。我们使用开源的FFmpeg2将原始视频解码为以25FPS保持步态序列连续性的帧。为了保证数据集的高质量，注释过程分为三个主要步骤，如下所示。04.2. 数据集构建04.2.1 从帧中检测和跟踪人物0对于从原始视频中提取的每一帧，我们采用在我们的数据集上微调的CenterNet [ 60]作为人物检测器，因为它是一种高效的无锚点目标检测器3。为了在视频中实现准确的人物跟踪，我们利用两个相邻帧中边界框的交并比（IoU）和人物重新识别（ReID）特征来衡量它们的相似性。ReID特征是由一个开源的人物ReID框架FastReID 4 [ 11]在几个公共人物ReID数据集上预训练得到的。当两个人高度重叠时，跟踪算法很容易将它们误判为一个人，即ID切换。为了解决这个问题，我们雇用人工标注员清理可能包含多个行人的序列。通过这种方式，我们确保每个序列只属于一个人。然后，我们丢弃长度小于25帧或大于500帧的序列，总共获得约50,000个序列。04.2.2 跨摄像头序列匹配0有了上述序列，我们应该在所有摄像头中对同一个人的序列进行聚类。为了实现有效和高效的跨摄像头匹配，我们还利用FastReID [ 11]获得的人物ReID特征。对于每个序列，我们首先使用一个姿势估计模型，02 http://ffmpeg.org/ 在GNU LGPL许可v2.1下。 34,000个人边界框被标记以进行检测器的微调。 4 https://github.com/JDAI-CV/fast- reid 在Apache 2.0许可下。0(d) 轮廓0(e) 2D骨架0(c) 3D骨架0(b) 3D网格0(a) RGB帧0图3. Gait3D数据集中步态表示的示例。大小已经归一化以进行可视化。（最好在彩色下查看。）0即HRNet 5 [ 42]在我们的数据集上微调，选择一个高质量的帧进行跨摄像头匹配。之后，我们利用FastReID提取所有序列的选定帧的特征。通过无监督聚类方法，即DBSCAN [ 7]，我们大致获得5,336个序列的聚类。然后，我们雇用人工标注员过滤掉每个组中的异常序列。通过丢弃只包含一个序列的组，我们最终获得4,000个主体和25,309个序列，用于生成步态表示。04.2.3 步态表示的生成0有了4,000个ID的干净序列，我们为每一帧生成3DSMPL参数、3D网格、3D姿势、2D轮廓和2D姿势。对于3DSMPL、3D网格和3D姿势，我们利用一种最先进的3D人体网格恢复方法ROMP 7 [ 33]，因为它可以在端到端的框架中高效地输出这三种表示。对于2D轮廓，我们使用语义分割方法HRNet-segmentation8 [ 42]获得每一帧中人物的轮廓。对于2D姿势，我们还利用HRNet估计每一帧中人物的2D关键点。我们保持帧的原始分辨率和长宽比，不进行调整或归一化。我们数据集中步态表示的一些示例如图3所示。值得注意的是，为了保护被试者的隐私，我们只会发布生成的步态表示，而不会发布任何RGB帧。05 https : / / github . com / HRNet / HRNet - 人体姿势估计在MIT许可下。 6 4,000张图像被标记以微调姿势估计器。 7https://github.com/Arthur151/ROMP 在MIT许可下。 8 https : / /github . com / HRNet / HRNet - 语义分割在MIT许可下。0100200300400500600020040060080010001101001000258 11 14 17 20 23 26 29 32 35 38 41 44 47 50[25, 30](40, 45](55, 60](70, 75](85, 90](100, 105](115, 120](130, 135](145, 150](160, 165](175, 180](190, 195](205, 210](220, 225](235, 240](250, 255](265, 270](280, 285](295, 300](310, 315](325, 330](340, 345](355, 360](370, 375](385, 390](400, 405](415, 420](430, 435](445, 450](460, 465](475, 480](490, 495]0200400600800100012006202330宽度0身高0(a) 帧大小的统计0序列号0(b) ID #超过序列号0序列长度0序列号0(c) 序列号超过序列长度0图4. Gait3D数据集的统计数据。04.3. 数据集统计和评估协议0关于帧大小、ID号码超过序列号和序列号超过序列长度的统计数据如图4所示。从图4(a)可以看出，大多数帧的范围在100�400×200�800之间，这比现有数据集中的人体边界框要大。图4(b)显示，大多数ID有2�25个序列，这保证了主体的高重复出现次数。图4(c)反映了大多数序列长度超过50帧（2秒），最长的序列有500帧，这反映了无约束场景中步态序列的复杂性。上述统计数据表明，Gait3D数据集在步态识别研究中具有可扩展性但具有挑战性。0为了方便研究，我们将Gait3D数据集的4,000个ID分为训练/测试子集，分别为3,000个ID和1,000个ID。对于测试集，我们进一步随机选择每个ID中的一个序列来构建查询集，共有1,000个序列，而其余序列则成为画廊集，共有5,369个序列。我们的评估协议基于开放集实例检索设置，类似于现有的步态识别数据集[16]和人物ReID任务[58]。给定一个查询序列，我们测量其与画廊集中所有序列之间的相似度。然后，按照相似度的降序返回画廊集的排名列表。我们报告所有查询序列的平均Rank-1和Rank-5识别率。我们还采用平均平均精度（mAP）和平均逆负面惩罚（mINP）[53]，考虑多个实例和困难样本的召回率。05. 实验0在实验中，我们首先评估了几种最先进的2D步态识别方法和我们的SMPLGait在Gait3D数据集上的表现。然后，我们分析了帧大小、序列长度和训练ID的规模对步态识别性能的影响。05.1. 现有方法的评估0在这里，我们评估了八种最先进的2D步态识别方法，包括六种无模型方法和两种基于模型的方法。我们还将我们的3D步态识别方法（SMPLGait）与这些方法进行了比较。05.1.1 无模型方法0无模型方法的详细信息如下：1）GEINet[31]是第一种采用四层CNN从GEIs中学习步态特征的方法之一，使用交叉熵损失进行训练。2）GaitSet[5]是代表性的方法，它利用10层CNN直接从轮廓序列中学习判别性步态特征。GaitSet使用批量全三元组损失进行训练。3）GaitPart[8]采用多尺度特征学习的思想。它将轮廓图像水平分割为固定部分，学习判别性的微动特征。4）GLN[14]是一种高效且有效的方法，可以从步态序列中学习紧凑的特征，仅使用256维特征即可达到最先进的性能。5）GaitGL[21]也是一种基于CNN的框架，可以从步态序列中学习全局和局部特征。6）CSTL[15]在序列的时间维度上应用多尺度学习，学习长期和短期运动的步态识别。实现细节：在训练期间，我们使用相同的配置训练上述模型，除了GLN。批量大小为32×4×30，其中32表示ID的数量，4表示每个ID的训练样本数，30是序列长度。模型经过1,200个epoch的训练，初始学习率（LR）为1e-3，第200个和第600个epoch时将学习率乘以0.1。优化器为Adam[18]，权重衰减设置为5e-4。对于GLN，我们按照[14]中的两阶段训练进行。第一阶段训练的模型用作第二阶段的预训练模型。两个阶段的训练都采用其他方法的相同配置。在测试期间，我们使用余弦相似度来衡量相似性。GEINet [31]ICB 20167.0016.306.053.775.4014.205.063.14GaitSet [5]AAAI 201942.6063.1033.6919.6936.7058.3030.0117.30GaitPart [8]CVPR 202029.9050.6023.3413.1528.2047.6021.5812.36GLN [14]ECCV 202042.2064.5033.1419.5631.4052.9024.7413.58GaitGL [21]ICCV 202123.5038.5016.409.2029.7048.5022.2913.26CSTL [15]ICCV 202112.2021.706.443.2811.7019.205.592.59PoseGait [20]PR 20200.241.080.470.34----GaitGraph [37]arXiv 20216.2516.235.182.42----9https://github.com/ShiqiYu/OpenGait7202340输入尺寸（W × H）88 × 128 44 × 64 方法发表 R-1（%） R-5（%） mAP（%） mINP R-1（%） R-5（%） mAP（%）mINP0SMPLGait w/o 3D 我们的 47.70 67.20 37.62 22.24 42.90 63.90 35.19 20.83 SMPLGait 我们的 53.20 71.00 42.43 25.9746.30 64.50 37.16 22.230表2. Gait3D上最先进的步态识别方法的比较。由于基于模型的方法PoseGait和GaitGraph的输入与帧大小无关，我们只报告一组结果。0计算每对查询和库序列之间的相似度。对于GaitSet、GaitPart、GLN和GaitGL模型，我们采用开源的OpenGait工具箱9中的实现，因为它们的性能优于原始代码。05.1.2 基于模型的方法0我们比较了两种代表性的基于模型的方法，它们使用2D或3D骨架作为输入。1）PoseGait [ 20 ] 首先使用OpenPose [4 ]从RGB帧中提取2D关键点，然后使用[ 6]中的方法估计人体的3D关键点。基于3D骨架，它定义了几个参数，如关节角度、肢体长度和关节运动，以及姿势特征作为步态表示。在我们的实现中，我们使用批量大小为128的训练集进行700个epoch的训练。学习率设置为1e-3。优化器为Adam [ 18 ]，权重衰减为5e-4。2）GaitGraph [ 37]是一种最新的基于模型的步态识别方法。它将2D骨架建模为图，并采用图卷积网络，即Res-GCN [ 32]，通过对比损失学习特征。我们分两个阶段训练GaitGraph。第一阶段的设置与PoseGait相同，并且第一阶段训练的模型用作第二阶段的预训练模型。在第二阶段，我们对其进行250个epoch的微调。05.1.3 SMPLGait的实现细节0对于我们的SMPLGait，我们使用Equ.4中的损失进行训练。在3D-STN中，我们将FC层的dropout率设置为0.2。Equ.4中的超参数设置为α=1.0和β=0.1。其他设置与第5.1.1节中的设置相同。05.1.4 实验结果0与实验室数据集（如CASIA-B [ 54 ]和OU-ISIR系列[ 16 ,35]）上的性能相比，模型无关方法、基于模型的方法和我们的SMPLGait的结果列在表2中。我们首先可以观察到模型无关方法的整体性能要远远低于其在实验室数据集上的性能。这反映了实验室研究与野外应用之间存在巨大差距。同时，模型无关方法的性能差异很大。例如，基于GEI的方法，即GEINet获得了最差的结果，这表明GEI丢弃了太多有用的步态信息。此外，考虑序列帧顺序的方法，如GaitPart、GLN、GaitGL和CSTL，获得了较低的准确性。这意味着野外场景中的时间信息很难学习，因为人们可能会停下来，然后以不同的速度和路线继续行走。相反，将帧视为无序集合的方法，如GaitSet，获得了更好的结果。对于基于模型的方法，我们可以发现它们在Gait3D数据集上远远不如模型无关方法。这是因为基于模型的方法的输入只有少数稀疏的人体关节，严重缺乏有用的步态信息，如身体形状、外观等。此外，真实场景中的行走速度和路线是不确定的，这也极大地影响了旨在建模人体时间动态的基于模型的方法的性能。最后，我们的SMPLGait在性能上超过了其他方法，这表明在野外环境中，3D表示对于步态识别具有潜力。05.1.5 SMPLGait的消融研究0我们还通过去除3D分支（SMPLGait w/o3D）对SMPLGait的关键组件进行了消融研究。结果列在表2中。这个比较表明，2D和3D表示的结合可以更好地解决野外步态识别的挑战。010 需要注意的是，SMPLGait w/o 3D等于OpenGait Baseline [9]。19.10 24.20 28.20 29.00 28.80 32.90 35.60 36.70 37.70 35.90 40.90 45.00 46.30 44.10 44.20 1520253035404550102030405016.50 22.40 25.40 26.80 26.00 28.20 23.50 29.90 32.10 34.60 35.00 36.70 29.10 37.80 38.00 42.80 44.70 46.30 51015202530354045500.511.522.538202350帧数0GaitPart GaitSet Ours0图5. 序列中帧数的影响。05.2. Gait3D数据集的更多分析0我们选择了两种SOTA步态识别方法，即GaitPart和GaitSet，以及我们的SMPLGait（我们的方法），来分析输入尺寸、序列中的帧数和训练ID数量对准确性的影响。所有模型都在整个Gait3D测试集上进行评估。输入尺寸。我们探索了两种输入尺寸，即88×128和44×64，用于比较的方法如表2所示。从结果可以看出，几乎所有方法的性能都随着输入尺寸的增大而提高。有一个例外，即GaitGL，它在输入尺寸较大时获得更低的准确性。这可能是因为GaitGL采用了3DCNN作为骨干网络。当使用较大的输入尺寸时，3DCNN会学习更多关于物理空间中帧的不对齐信息，这使得优化变得更加困难。训练帧数。我们在训练过程中随机采样10到50帧原始步态序列。图5展示了Rank-1准确率。结果显示，随着帧数的增加，性能首先增加然后减少，而最佳性能出现在每个序列约30帧左右。这表明更多的帧数并不能带来更高的准确性。原因可能是由于人的不确定速度和路径导致了大量冗余或噪音信息，这将为步态识别带来模糊的特征。训练ID数量的规模。我们固定其他设置，并使用0.5K到3K的ID进行训练，增量为0.5K。如图6所示，随着训练ID的增加，模型的性能稳定增长。这些结果反映了我们的Gait3D数据集的可扩展性。关于Gait3D的更多实验和示例结果可以在补充材料中找到。06. 讨论0伦理问题。本文存在两个主要的伦理问题：1）隐私问题，2）数据偏差问题。对于第一个问题，我们将尽力保护参与我们数据集的受试者的隐私。首先，我们不会发布任何人可理解的原始视频、RGB帧等人类可识别的数据。0训练ID（K）0GaitPart GaitSet Ours0图6. 不同训练ID数量的影响。0以及人的边界框。其次，该数据集仅用于研究目的，通过逐案申请和严格许可进行分发。为了消除数据偏差，受试者的性别和年龄相对平衡。未来的工作。尽管提出了一种用于3D步态识别的基线方法，但这个具有挑战性的任务还有许多潜在的方向。例如，一个方向是研究如何设计一个深度CNN，直接从3D网格中学习更具辨别力的特征。第二个方向是如何学习步态表示的时间信息，因为Gait3D中的行走速度和路径是不规则的，与实验室中构建的数据集有很大的不同。另一个有趣的方向是如何融合多模态信息，如轮廓、2D/3D骨架和3D网格，用于野外步态识别。关于限制和潜在的负面影响的更多讨论可以在补充材料中找到。07. 结论0在野外进行步态识别面临着极端视角变化、人体遮挡以及环境中的复杂杂乱等重大挑战。使用2D轮廓或骨架的现有方法在野外会失败，因为关键信息，如人体的3D视角和形状被丢弃。因此，本文提出了一种基于3DSMPL模型的框架（SMPLGait），这是第一种探索野外步态识别的密集3D表示的方法。为了促进研究，我们从大型超市部署的摄像头中构建了第一个大规模的3D步态识别数据集（Gait3D）。它提供了超过4,000个主体的25,000多个步态序列的多样化步态表示，包括3D网格、3DSMPL、3D姿势、2D轮廓和2D姿势。我们希望Gait3D能够为研究人员提供步态识别的新视角。致谢。本工作部分得到了中国国家重点研发计划（2020AAA0103800）、中国国家自然科学基金（61931008和U21B2024）的支持。[20] Rijun Liao, Shiqi Yu, Weizhi An, and Yongzhen Huang. Amodel-based gait recognition method with body pose andh

下载后可阅读完整内容，剩余1页未读，立即下载