野外步态识别：基准及其挑战

198 浏览量更新于2023-10-13 收藏 2.45MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

14789野外步态识别：基准郑珠1* 郭显达2*田洋2黄俊杰2邓建康3黄冠2杜大龙2陆继文1†周杰11清华大学2XForwardAI3伦敦帝国理工学院{zhengzhu，lujiwen} @ tsinghua.edu.cn{ xianda.guo，guan.huang，dalong.du} @xforwardai.com摘要步态基准使研究界能够训练和评估高性能的步态识别系统。尽管越来越多的努力致力于跨视图识别，但学术界受到受控环境中捕获的当前现有数据库的限制。t.在本文中，我们贡献了一个新的基准步态REcognition在野外（GREW）。GREW数据集由自然视频构建，其包含开放系统中的数百个摄像机和数千小时的流。通过大量的手动注释，GREW由26K身份和128K序列组成，具有丰富的属性，可用于无约束步态识别。此外，我们添加了一个分心物集超过233K的序列，使其更适合于现实世界的应用。与目前流行的预定义的跨视图数据集相比，GREW具有多样性和实用的视图变化，以及更多的自然挑战因素。据我们所知，这是第一个大规模的步态识别数据集在野外。配备了这个基准，我们解剖无约束的步态识别问题。探索了代表性的基于外观和基于模型的方法，并建立了全面的基线。实验结果表明：（1）GREW基准是训练和评估野外步态识别器的必要基准。(2)对于最先进的步态识别方法，存在很大的改进空间(3)GREW基准可以用作受控步态识别的 Benchmark网站为www.grew-benchmark.org/。1. 介绍步态识别旨在根据视频中的人的行走风格来识别他/她。与人脸、指纹、虹膜和掌纹相比，步态很难伪装，并且可以在很长的距离内工作，这使其在预防犯罪、法医鉴定和社会安全方面具有独特的潜力[2]这些作者对这项工作的贡献是相等的†通讯作者。(a) CASIA-B（b）OU-MVLP(c)在GREW中换衣服的主题（裁剪）图1：CASIA-B [74]、OU-MVLP [51]和拟议GREW的示例比较。前两个是在约束环境下捕获由于OU-MVLP [51]不发布RGB数据，因此采用其原始论文的可视化结果出于隐私考虑，人脸在GREW中被掩盖。由于深度学习的蓬勃发展，在受控环境下识别步态已经取得了重大进展最近的步态识别的基本引擎包括网络架构演进[20，9，62，65，16，72，71，72]。31，44，50，4，63，67，39]，损失函数设计[78，17，75，79]和生长步态基准[42，7，74，37，51，23]。尽管步态识别在过去几年中取得了令人印象深刻的进步，并且它具有远距离识别的独特优势一个值得注意的障碍是，几乎没有公开的基准来训练和评估步态识别器在野外。据我们所知，大多数步态数据集是在相对固定和受限的环境中捕获的，例如实验室或静态户外。CASIA-B [74]和OU-MVLP[51]是最近步态识别研究中最常用的数据集，如图1所示。CASIA-B包含124个主题和13，640个序列，于2006年构建。OU-MVLP由10，307个身份和288，596个行走视频组成，使其成为一个大型步态数据集。t至#受试者。显示更多数据集的统计信息14790表1：GREW与现有步态识别数据集关于统计、数据类型、捕获的环境、视图变化和挑战因素的比较。数据集按发布时间排序。编号ID。、#Seq. #Cam。是指身份、序列和摄像机的编号。席尔、Inf. 、D. 和A. 我是说轮廓红外线深度和音频VI、DIS、BA、CA、DR、OCC、ILL、SU、SP、SH和WD是视图、干扰物、背景、携带、穿衣、遮挡、照明、表面、速度、鞋和行走方向的缩写数据集出版物编号ID。#Seq.卡姆数据类型#牵引器环境视图变量挑战[12]第十二话CASIA-A [57]索顿[45]USF [42]CASIA-B [74]CASIA-C [52]OU-ISIR速度[54]OU-ISIR布料[19]OU-ISIR MV [38]OU-LP [23]ADSC-AWD [35][18]第十八话OU-LP年龄[68]OU-MVLP [51]OU-LP袋[55]OU-MVLP姿势[2]TR2001TPAMI2003ASSC2004TPAMI2005ICPR2006ICPR2006CVPR2010PR2010ACCV2010TIFS2012TIFS2014JVCIR2014CVA2017CVA2018CVA2018TBIOM2020252011512212415334681684,0072030563,84610,30762,52810,3076002402,1281,87013,6401,5306122,7644,2007,842803,37063,846288,596187,584288,59663221111125211114114RGB，Sil.RGBRGB，Sil.RGBRGB，Sil.信息：席尔席尔席尔席尔席尔席尔RGB，D.，A.席尔席尔席尔2D姿态无无没有一控制的控制的控制预定义的预定义的预定义的预定义的无无无预定义的预定义的无无无预定义的无预定义VI、CA、SP、SU VIVIVI，CA，SU，SH VI，CA，DR CA，SPSPDRVIVIWDCA、SH年龄VICAVI增长-26,345128,671882席尔流2/3D姿势233,857野生多样化VI、DIS、BA、CA、DR、OCC、ILL、SU它们主要在受控设置下构造并且被设计用于预定义的交叉视图步态识别。然而，在实际场景中，步态识别会遇到各种各样的挑战，如不同的视角、遮挡、不同的携带和穿着、复杂和动态的背景、光照、行走方式、表面影响等。现有的基准远远落后于实际步态识别的要求。考虑到人脸识别的显著成功[49，43，56，8，10]，21、70、3、13、24、84]和人员重新识别（ReID）[77，48，36，66，17，10，82，80，81，83，27，61]，是时候了移动到基准步态识别在野外。在本文中，我们提出了步态 Recognition 在野生（GREW）基准，这是第一次工作深入研究这个开放的问题，以我们所知的最好的。GREW数据集由具有多个相机的自然流构建，如图1所示。对来自原始视频的身份信息进行手动注释，从而产生26K受试者、128K序列和14M框，用于不受约束的步态识别。此外，丰富的人的属性，包括性别，年龄组，携带和穿着风格的标记细粒度的性能分析。在实际应用中，图库尺度是影响识别精度的一个重要问题。为此，我们添加了一个超过233 K序列的干扰器集，使其更适合于现实世界的应用-S.由于存在使用不同输入数据类型的一系列步态识别框架，因此GREW通过自动处理提供silhouettes、步态能量图像（GEI）[14]、光流、与控制步态数据集，如CASIA-B和OU-MVLP相比，我们的GREW是完全不受约束的，并有更多的多样性和实际的视图变化，而不是预定义的。同时，GREW也14791如干扰物设置、复杂背景、遮挡、搬运、包扎等。如表1和图2所示。配备建议GREW，无约束步态识别问题进行了深入研究。首先，在GREW上执行代表性的基于外观和基于模型的基线，这表明有很大的改进空间。例如，表现最好的GaitSet [4]在GREW测试集上获得46.28%的Rank-1准确度，而在CASIA-B和0 U-MVLP上得分超过80%。有了干扰项集，野外的步态识别将变得更具挑战性，而最佳模型的s-核心只有41.97%的秩-1。其次，研究了数据规模的影响，包括训练标识数和图库大小。随着训练样本数量的增加，识别效果得到了提高，但对于大规模的干扰项测试集，基于CNN的识别器仍然存在很大的困难。第三，报告了不同属性（性别、年龄组、携带和穿着）的表现，并给出了深入的分析结果。最后，我们验证了GREW预训练的有效性。在GREW上预训练的微调模型显示出跨数据集步态识别的优异性能。其主要贡献可归纳如下：一个大规模的基准构建的研究-搜索社区走向步态识别在野外。建议GREW由26 K主题和128 K序列具有丰富的属性，从灵活的数据流，这使得它的第一个数据集的unconon-紧张的步态识别，以我们所知的。为了构成GREW基准，我们从开放系统中的多个摄像机收集t小时的流。通过自动预处理和大量的手动身份标注，可以··14792×(a) 一个有遮挡、有变化、有视角、有搬运的(b) 一个有人群的(c) 分心物集中图2：GREW数据集的标识示例。前两行显示具有各种挑战的2个受试者。最后一行显示了干扰项集中的受试者。面具是为了保护隐私。超过1400万个盒子，同时提供sil-houettes和人体姿势。此外，我们丰富了GREW的干扰集与233K序列，使它更适合于现实世界的应用。在新基准的支持下，我们进行了广泛的步态识别实验，并建立了全面的基线，包括代表性方法，尺度影响，属性分析和预训练。结果表明，GREW是必要的和有效的步态识别在野外。此外，对于目前的SOTA方法来说，识别无约束步态是一个非常具有挑战性的任务.最后，建议的数据集可以作为有效的预训练数据的控制步态识别，以实现更高的性能。2. GREW数据集2.1. GREW概述GREW和代表性步态识别数据集之间的定性和定量比较分别在图1和表1中示出。GREW由26，345个主题和128，671个序列组成，这些序列来自开放环境中的882台相机。此外，我们还提出了步态研究界的第一个干扰器集，其中包含233，857个序列。如图3所示，为基于外观和基于模型的算法提供了剪影、GEI和2D/3D人体姿势数据类型。由于原始数据是在自然环境中捕获的例如，从复杂的动态背景中检测和分割人体是一项困难的任务，需要考虑遮挡、截断、光照等因素。如图2所示，无约束设置还为步态模式带来了新的挑战性因素，如不同视角、穿着、携带、人群和干扰物。2.2. 数据收集和注释这些原始视频是在2020年7月的一天从大型公共区域的882个摄像头中收集的。大约70%的摄像机具有非重叠视图，并且所有摄像机覆盖超过600个位置。我们得到管理部门的授权，所有涉及的受试者都被告知收集数据用于研究目的。使用了7，533个视频剪辑，包含近3，500小时1080 1920个流。在注释之前，执行HTC检测器[6]以提供初始人类框。然后，注释者从同一主题中选择框作为轨迹（序列）。由于存在多个摄像机并且某个人可以进入/离开相同的摄像机视图，所以一个身份总是具有多个序列。我们确保GREW训练、验证和测试集中的每个主题出现在多个摄像机上，这保证了视图的多样性。如第2.5节所示，其他序列用作牵开器集。在表1中，我们将GREW与之前的步态数据集进行了比较，涉及#身份、#序列、#相机、提供的数据类型、#干扰项集、环境、视图变化和挑战性因素。最后，总共128，671个序列被手动注释以获得26，345个身份，其包含 14 ， 185 ， 478 个人类框。 GREW 中的当前#identi- ties低于OU-LP Bag/Age [55，68]。此外，干扰项集由233，857个序列和9，676，016个人类框组成。这需要20个注释者工作3个月，这个巨大的标签，我们希望拟议的GREW基准将促进未来的研究无约束步态识别。值得注意的是，将仅利用和释放不包含任何个人视觉信息的轮廓、光流和姿势（图3和图4。与基于视频和长期人员ReID的比较。最相关的计算机视觉任务是视频中的人ReI-D和长期（换衣服）ReID。步态识别方法旨在通过轮廓（GEI）或姿势信息而不是ReID中的RGB输入来识别特定主体。该特征使得步态识别器在保护隐私方面更加友好，这可能更容易被公众接受同时，步态模式更难伪装。此外，与流行视频ReID [60，80，64，26，46，25]和长期ReID[76，73，69]数据集，我们的GREW具有更多的#身份和#相机，如表2和3所示。2.3. 自动预处理代表性的步态识别方法可以大致分为基于外观的[44，65，4，9，29，20]和基于模型的[53，32，30，2，28，34]类别，其中采取剪影（GEI）和人体姿势作为输入，分别为-·14793表2：与基于视频的人ReID数据集的比较。数据集#身份摄像头数量包装盒数量iLIDS-VID [60]300244K火星[80]1,26161M[64]第六十四话1,8128-Duke-Tracklet [26]1,7888-LPW [46]2,7314五九万LS-VID [25]3,772153M增长26,34588214M表3：与长期人ReID数据集的比较。数据集#身份摄像头数量包装盒数量CVID-reID [76]90-77K科卡斯[73]5,2663062K[69]221333K增长26,34588214M活泼地在GREW基准测试中，我们通过自动预处理提供了两种数据类型。具体地，通过分割前景人来产生2.4. 人类属性对于细粒度的识别分析，我们用丰富的属性注释每个序列。包括性别和年龄在内的软生物特征被标记用于所有受试者。年龄分为5组，成年组采用14岁间隔（即14岁）. 16至30、31至45、46至60）。儿童（16岁以下）和老年人（60岁以上）被视为单独的群体。性别和年龄组的统计数据见图5。在每个年龄组中，男女分布基本均衡由于携带和穿着对步态模式提取有影响，GREW基准进一步提供了5种携带条件（即：无、背包、单肩包、手提包和手提袋）和6种着装风格（即，上长袖、上短袖、上无袖、下长裤、下短裤和下裙子）。这些属性的详细统计如图5所示。70%以上的序列中的受试者携带物品，而上短袖和下长裤构成了大多数的布料样式。使用HTC [6]算法的主体我们也试过面具百分之六十百分之四十电梯材料肩膀百分百R-CNN [15]，导致步态识别准确性较差。值得注意的是，人体检测和分割-百分之四十百分之二十0%的百分比百分之三十百分之二十百分之十0%的百分比没有一手袋回来- 包装- 袋百分之八十百分之六十百分之四十百分之二十0%的百分比长袖短袖无袖长裤短裤裙子上身下身如图3所示，定位可能不太准确。与CASIA-B和OU-MVLP的接近完美的结果相比，(a) 年龄组和性别(b) 账面(c) 敷料在静态背景下，GREW使得能够评估较少启发式预处理对步态识别的影响。这是一个对实际应用非常感兴趣的话题，但在以前的数据集中很少考虑。对于GEI，我们不采用步态周期，由于在野外不完善的检测和对于人体姿态估计，我们通过[47]和[5]提供2D和3D关键点，如图所示3. 此外，提取光流[22，1]以用于潜在用途，如图4所示。(a) 轮廓（b）GEI(c)2D姿势（d）3D姿势图3：GREW数据集的轮廓、GEI、2D和3D人体姿势示例。图4：GREW数据集女性男性46-60<1631-45>6016-30短-长袖长裤长袖无袖短裤裙子14794图5：年龄组、性别、携带和着装特征变大了。在（c）中，上身着装风格包括长袖、短袖和无袖，而下身包括长裤、短裤和裙子。2.5. 牵引器套件在步态识别的实际应用中，图库规模是一个至关重要的因素。因此，我们进一步增加了一个额外的干扰集的GREW基准。该数据集包含233，857个序列和9，676，016个框，由不属于GREWtrain、val和test的额外步行轨迹组成。具体地，被标记但仅出现在1个相机处的标识将被分类到干扰项集合中。在第4.2节中，除了GREW测试集外，我们还报告了GREW测试+牵引集的基线结果。2.6. 评价方案GREW数据集分为3个部分：具有20，000个身份和102，887个序列的训练集、具有345个身份和1，784个序列的val集、具有6，000个身份和24，000个序列的测试集。3组中的身份在不同的相机中被捕获测试集中的每个主题此外，还有一个具有233，857个序列的干扰子集。拆分的详细统计数据见表4。如图6所示，在推断阶段，识别野外步态首先从原始视频中检测对象。14795×预处理识别画廊探头1剪影结果1增长牵引器探头2人体姿态原始序列检测结果2然后执行分割或姿态估计模块以获得步态输入。步态识别通常是一个1：N的搜索过程，其目的是从给定探测对象的图库中检索相同的人当在测试集上进行评价时，步态探头和图库都是配对的。当对某个属性进行评估时，选择一个探针子集（具有相应属性的我们采用流行的Rank-k作为评价度量，其表示在前k个等级中定位至少一个真阳性的可能性。图6：野外步态识别的流水线，由预处理和识别步骤组成。预处理部分从原始序列中检测人，并提供轮廓（GEI）或姿势信息。给定某个探测器，识别部分从图库中执行1：N搜索。表4：不同分割的统计。分裂#身份序列帧火车20,000102,88710,166,842Val3451,784238,532测试6,00024,0003,780,104牵引器-233,8579,676,0163. GREW基线为了建立基线，探索了代表性的基于外观的方法[44，65，4，9]和基于模型的方法[32，53]。输入类型、网络和损耗的概述如表5所示，具体描述如下。所有模型都使用Py-Torch [40]在一个代码库中重新实现，并在集群上训练（每个具有8个2080 TI G-PU，IntelE5-2630-v4@2.20GHz CPU，256 G RAM）。为GREW训练，我们训练两个模型进行250K迭代，批量大小为（p=32，k=8）和Adam。学习率从10−4开始，经过150K次迭代后降至10−5对于CASIA-B微调，模型将以10-5的恒定学习率进行额外的50 K迭代训练。没有层权重被冻结。3.1. 基于外观GEINet[44]直接从GEI学习步态表示特征，然后对应于身份。如表5所示，GEINet的网络具有4层，由2个卷积层和2个全连接（FC）层组成。采用Softmax loss进行优化，利用最后一个FC的输出计算探头与廊道之间的距离。表5：所采用的基线的概述，包括输入数据类型、网络层的数量、嵌入特征的维度和损失。GEINet的#嵌入中的N表示#训练身份。基线输入层数#嵌入。损失GEINetGEI4NSoftmaxTS-CNNGEI6-2-cls交叉熵步态设置席尔1015,872批处理全部三重步态部件席尔104,096批处理全部三重姿势步态3D姿态22512Softmax中心步态图2D姿态44256对比TS-CNN[65]框架采用双流CNN架构，其学习GEI对之间的相似性以进行步态识别。本文利用MT架构设置，其在顶层匹配中级特征TS-CNN也将GEI作为输入，并且具有6层。2-分类器在推理过程中表示两个被试是否为同一个被试的概率。GaitSet[4]使用多个卷积和池化层在无序轮廓集上提取卷积模板。采用Batch All triplet loss [17]进行优化，并在推理过程中使用15，872-d在OU-MVLP训练集之后，我们使用更多的通道卷积层和250 K迭代，具有2个学习速率计划。GaitPart[9]提出了一种基于部件的网络设计，专注于人体不同部位的细粒度表示和微运动GREW基准的训练和测试遵循大多数GaitSet设置。3.2. 基于模型PoseGait[32]探索3D人体姿势作为步态识别输入，其由[5]估计。并且利用从[47]提取的2D姿态来获得3D姿态信息。对于步态特征部分，训练具有512-d嵌入的22层（20卷积和2 FC）CNN用于提取，其通过Softmax和中心损失进行优化。GaitGraph[53]是一种最近的基于模型的步态识别方法，在CASIA-B上取得了有希望的结果。该工作结合二维人体姿态输入和图卷积网络来实现步态识别。采用监督对比损失法对图网络进行优化，并严格遵循其扩充和训练细节。在评估期间，提取256-d特征向量用于计算探针与廊道之间的距离。4. 实验在实验中，我们进行了广泛的基线和分析建议GREW数据集。首先，报告了6种方法的主要基线结果。然后，我们调查的规模，包括增加训练和测试身份，分心集大小的影响。第三，比较不同人的属性上的性能，14796表6：基线的1级、5级、10级、20级（%）。在GREW训练集上训练并在测试集上评估基线秩-1秩-5十阶二十阶GEINet6.8213.4216.9721.01TS-CNN13.5524.5530.1537.01步态设置46.2863.5870.2676.82步态部件44.0160.6867.2573.47姿势步态0.231.052.234.28步态图1.313.465.087.51包括性别、年龄组、携带情况和着装风格的准确性。第四，我们展示了我们的数据集用于预训练和实际应用的时间分析的有效性。最后是步态识别的成功和失败的样本结果。4.1. 主要基线结果6个基线的秩k准确度如图7所示，并在表6中进行了总结。GREW训练集和测试集分别用于训练和评估。结果表明，GaitSet [4]和GaitPart [9]是野外步态识别的优越方法，与约束CASIA-B [74]和OU-MVLP [51]的性能一致。更具体地，步态集合和步态部分在秩-1度量方面分别得分46.28%和44.01%。五品、二十品，都超过60%、70%由于TS-CNN [65]和GEINet [44]将GEI作为输入并且具有相对较少的层，因此它们在GREW基准上的准确性要低得多。GEI丢失了一些有用的时间信息，这对于无约束步态识别可能TS-CNN与GEINet相比，前者采用双流矩阵学习，克服了过拟合问题，获得了更高的精度。与基于外观的基线相比，基于模型的PoseGait [32]和GaitGraph [53]基线的性能较差考虑到GREW是第一个无约束步态基准，我们将结果与CASIA-B和OU-MVLP进行了比较对于表现最好的GaitSet和GaitPart，CASIA-B和OU-MVLP的Rank-1得分超过80%。由于GREW数据集上更具挑战性的因素，如不同的视图，携带和穿着变化，他们只能成功地识别46.28%和44.01%的序列的秩-1标准。当干扰项集被添加到图库中时，最好的准确率下降到41.97%，显示出现实世界步态识别的困难。实验结果表明，GREW算法对于无约束步态识别是必要和有效的，但仍有很大的改进空间4.2. 规模的影响在深度学习时代，大规模标记数据在对各种视觉任务进行基准测试方面发挥着重要作用70605040302010012345678910 11 12 13 14 15 16 17 18 19 20秩图7：基线的秩-k结果（%）。在GREW火车并在测试集上进行评估图例为一品→二十品的准确度。[41、33、13、81]。在本节中，我们将研究数据规模对GREW训练和测试的影响。在这个实验中，我们证明了步态识别的准确性与增加训练身份。准备了6种不同的子集大小，包括1K、2K、4K、8K、16K和最大20K。前5个训练子集是随机选择的，但对于不同的算法是固定的。对整个GREW测试集进行评价。如图8所示，对于现有技术的GaitSet和GaitPart，测试集上的秩-1随着更多的训练标识而稳定增长。因此，整个训练集的20 K大小达到最高的Rank-1准确率。特别地，GaitSet将Rank-1从1 K训练科目的28.0%实验结果表明，大规模GREW训练数据有助于步态识别的进一步研究。对于GEINet基线，训练数据的规模对性能没有明显影响。原因可能是GEINet中的网络架构从大数据中学习的能力有限。TS-CNN使用双流度量学习网络结构，并将成对的GEI作为输入，这可能较少遭受过拟合。因此，其一级准确率从9.50%略微增加到13.55%。基于模型的基线由于较差的准确性而对训练数据尺度不敏感4030201001K 2K 4K 8K 16K 20K培训ID图8：随着训练识别度的增加，测试集上的Rank-1准确率（%）图例显示了从1K到20K数据的性能变化。46.2876.82步态设置44.0173.47 GaitPart13.5537.01 TS-CNN6.8221.01 GEINet1.317.51步态图0.234.28姿势步态28.0026.399.5046.28 GaitSet 5.3244.01步态部分0.2513.55 TS-CNN0.136.82 GEINet1.31步态图0.23姿势步态准确度（%）准确度（%）14797一个足够的测试集是必不可少的评估性能的步态识别器。在这个实验中，我们研究了搜索空间规模和Rank-1准确度之间的关系，如图9所示。当测试恒等式从1K增加到6K时，几乎所有的方法都出现了精度下降的问题。更具体地说，GaitSet在1K测试身份上的得分为57.45%当受试者增加到6K时，步态集和步态部分的精度随着图库中身份的增加，主体间外观相似性的可能性变得更高，因此通过顶部检索来识别特定身份更具挑战性。对其他基线的评价结果得出了同样的结论。图10：随着图库大小的增加，等级-1准确度（%）添加了不同图例显示了从测试到测试+牵引器的性能变化。由于步行方式的不成熟，儿童的表现比其他组差此外，由于身体退化，老年人的识别准确率略低于成年人。携带和敷料的属性结果见表7。与正常行走（即无），各种携带总是降低步态识别的准确性。更具体地说，电梯材料是最困难的，因为它包含更多的多样性。对于着装风格，结果表明，裙子是更具挑战性的步态集的轮廓识别。图9：在测试集中具有不同身份的秩-1准确度（%）。图例显示了从1K到6K测试数据的性能变化。在步态应用中，考虑到许多不相关的身份，图库大小可能非常大。我们将构造的干扰项集添加到百分之五十百分之二十五0%的百分比<16 16-30 31-4546-60>60画廊来调查这个实际的设置。如图10所示，通过扩大具有干扰项集的图库，大多数方法获得较低的识别分数。当涉及所有使用干扰器组的准确性再次显示了GREW基准的必要性。4.3. 不同属性本节研究了步态识别在不同属性之间的性能差异，包括性别，年龄组，携带和穿着。我们采用步态[4]作为识别方法，因为它在基线实验中表现最好性别和年龄组的秩-1准确度如图11所示。研究结果表明，在大多数年龄段，女性的步态识别性能始终优于男性。我们认为，女性包含更多的不同的变化，如穿着和发型，这可能有助于个人识别的步态silhouettes。对于不同年龄组的结果，可以找到图11：性别和年龄组属性的1级准确度（%）。表7：携带和敷料属性的1级准确度（%）选择探针的子集（具有相应属性的序列）来执行步态识别。对于穿着的评估，所有手段步态探头和画廊配对，而不注意任何服装风格。短/长是指上半身和下半身的短/长穿着。账面秩-1敷料秩-1没有一52.36所有46.28背包48.83短48.16肩包46.68长44.92手袋47.02裙子44.30电梯材料45.66--4.4. GREW预培训为了验证使用GREW数据集的预训练模型的有效性，我们在本节中进行了跨数据集实验。原始（在CASIA-B上进行训练和测试）、直接跨数据集评估（在GREW上进行训练，在CASIA-B上进行测试）和女性男性14798微调（预训练14799通过GREW、CASIA-B的微调和评估，对步态集的性能进行了比较。具体而言，GaitSet通过三种设置在CASIA-B上获得83.64%，45.14%，84.48%。第二种位形由于畴隙明显而精度较低。通过对目标域进行微调，步态识别准确率显着优于原始的0.84%，这表明我们的数据集用于预训练的优越能力。4.5. 倍除了准确性之外，速度也是实用步态识别的关键因素，这在以前的文献中总是被忽视在本节中，我们比较了不同基线的推理时间，包括预处理，步态特征提取和在图库中搜索。通过平均所有序列持续时间，在GREW测试集上粗略测量时间。如表8所示，对于平均具有157个帧的序列，预处理（即，检测、分割、姿态估计等）花了大部分时间。步态特征提取（主网络推理）和搜索过程相对较快。计算了步态网络的FLOP和参数，并进行了比较。总之，当前的步态识别管道需要针对实际应用进行优化。表8：推断时间、FLOP和基线的参数（具有单个2080TI GPU）。由于TS-CNN对于某个序列需要多个前向步骤，因此不进行比较。基线预处理特征搜索总FLOPsParamsGEINet45.62s0.03s0.00066s45.65s0.02G7.68M步态设置45.62s2.89s0.00058s48.51s1.06G6.31M步态部件45.62s3.09s0.00234s48.71s0.92G6.01M姿势步态54.69s0.18s0.00046s54.87s0.08G7.74M步态图53.59s0.05s0.00041s53.64s0.06G527.95K4.6. 样本结果图12提供了GREW测试集上的几个样本结果，这些结果由GaitSet基线执行。对于第一次探测，GaitSet成功检索到Rank-1结果中的受试者，其具有变化的衣服和不同的行走方向。对于第二根穿刺针，由于类似的裙部敷料，等级-1的结果不正确，而在两次回收后，携带和部分闭塞，结果为真阳性。5. 讨论和结论讨论在建立GREW基准时，隐私和偏见问题是我们首先关注的问题. 为了保护隐私，只使用和发布，这些都不会透露任何个人视觉信息。我们将为签署许可证的申请人提供严格的访问权限，并尽最大努力保证其仅用于研究目的。对于数据集偏差，图12：GREW与GaitSet的样本结果。具有蓝色框的左侧部分显示探针（3个帧属于相同序列），而具有绿色框和红色框的结果分别为真阳性和假阳性。请注意，只有轮廓用于步态识别，RGB图像仅用于可视化。GREW的性别分布均衡，而一些专业（例如：种族、年龄组、着装）由于捕获位置和时间而不可避免地有由于我们的数据集是大规模和多样化的，人们可以对平衡的数据进行采样，以训练偏差较小的模型。此外，最近在生物识别领域的去偏见研究[59，11，58]也可以缓解这个问题。结论本文为野外大规模步态识别迈出了第一步。首先，GREW数据集包含26K主题的128K序列其次，我们手动注释来自数百个摄像机的数千小时流，产生具有自动轮廓和人类姿势的14M框此外，233K distractor集序列被收集用于实际评估。最后，进行了全面的基线，以定量分析无约束步态识别中的挑战，得出深入和建设性的见解。未来的工作将进一步研究步态识别的开放性问题，例如。预处理的影响，更深和现代的网络，解纠缠，软生物识别，非/半/自监督学习。鸣谢。这项工作得到了国家的部分支持-本论文由中国自然科学基金61822603、U1813218和U1713214资助，部分由北京人工智能学院（BAAI）资助，部分由清华大学国强研究所资助。14800引用[1] https://github.com/NVIDIA/flownet2-pytorch/. 4[2] Weizhi An，Shiqi Yu，Yasushi Makihara，Xinhui Wu，Chi Xu，Yang Yu，Rijun Liao，and Yasushi Yagi.基于模型的步态在多视图超大型人口数据库中的性能评估TBIOM，2020年。二、三[3] 曹琼，李申，谢伟迪，奥姆卡·M·帕克希，安德鲁·齐瑟曼.VGGFace2：用于识别姿势和年龄的人脸数据集在FG，2018年。2[4] Hanqing Chao，Yiwei He，Junping Zhang，and JianfengFeng. GaitSet：将步态视为用于跨视图步态识别的集合。在AAAI，2019年。一、二、三、五、六、七[5] 陈景航和德瓦·拉曼南。3D人体姿态估计= 2D姿态估计+匹配。在CVPR，2017年。四、五[6] 陈凯，庞江苗，王佳琪，熊宇，李晓曦，孙树阳，冯万森，刘紫薇，石建平，欧阳万里，等.实例分段的混合任务级联。在CVPR，2019年。三、四[7] Naresh Cuntoor，Amit Kale，and Rama Chellappa.结合多证据进行步态识别。见ICASSP，2003年。1[8] Jiankang Deng ， Jia Guo ， and Stefanos Zafeiriou.ArcFace：用于深度人脸识别的附加角余量损失。在CVPR，2019年。2[9] Chao Fan，Yunjie Peng，Chunshui Cao，Xu Liu，SaihuiHou ， Jianan Chi ， Yongzhen Huang ， Qing Li ， andZhiqiang He.GaitPart：用于步态识别的基于时间部分的模型在CVPR，2020年。一二三五六[10] Yang Fu，Yunchao Wei，Yuqian Zhou，Honghui Shi，Gao Huang，Xinchao Wang，Zhiqiang Yao，and ThomasHuang.用于人员重新识别的水平金字塔匹配在AAAI，2019年。2[11] Sixue Gong，Xiaoming Liu，and Anil K Jain.联合去偏人脸识别和人口统计属性估计。在ECCV，2020年。8[12] Ralph Gross和Jianbo Shi. CMU motion of body（MoBo）数据库。2001. 2[13] Yandong Guo，Lei Zhang，Yuxiao Hu，Jongdong He，and Jianfeng Gao. MS-Celeb-1M：大规模人脸识别的数据集和基准。在ECCV，2016年。二、六[14] 朱汉和比尔巴努。利用步态能量图像进行个体识别。TPAMI，2006年。2[15] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick.面罩R-CNN。InICCV，2017. 4[16] Yiwei He，Junping Zhang，Hongming Shan，and LiangWang.多任务GANs用于步态识别中的视图特定特征学习。TIFS，2019年。1[17] 亚历山大·赫尔曼斯、卢卡斯·拜尔和巴斯蒂安·莱布。为三胞胎的丢失辩护，进行人员重新鉴定。arX- iv：1703.07737，2017年。一、二、五[18] MartinHofmann，JuürgenGeiger，SebastianBachmann，B-joürnSchulle r，andGerhardRigoll. 来自音频、图像和深度（GAID）数据库的TUM g：主题和特征的多模态识别。JVCIR，2014. 2[19] Md Altab Hossain，Yasushi Makihara，Junqiu Wang，and Ya-sushi Yagi.使用基于部分的服装分类和自适应权重控制的服装不变步态识别。PR，2010年。2[20] Saihui Hou ， Chunshui Cao ， Xu Liu 和 YongzhenHuang。步态外侧网络：学习用于步态识别的有区别的和紧凑的表示。在ECCV，2020年。第1、3条[21] Yuge Huang，Yuhan Wang，Ying Tai，Xiaoming Liu，Pengcheng Shen ， Shaoxin Li ， Jilin Li ， and FeiyueHuang.课程表：深度人脸识别的自适应课程学习损失。在CVPR，2020年。2[22] Eddy Ilg ， Nikolaus Mayer ， Tonmoy Saikia ， MargretKeuper，Alexey Dosovitskiy，and Thomas Brox.Flownet2.0：深度网络光流估计的演变在CVPR，2017年。4[23] 岩间春之，奥村真由，牧原靖，八木靖。OU-ISIR步态数据库包括大规模的人群数据集和步态识别的性能评估。TIFS，2012年。一、二[24] Ira Kemelmacher-Shlizerman ， Steven M Seitz ， DanielMiller，and Evan Brossard. Me

下载后可阅读完整内容，剩余1页未读，立即下载