基于两阶段姿态估计的骨架信息提取与人体动作识别方法

19 浏览量更新于2023-12-05 收藏 2.56MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

仿生智能与机器人2（2022）100062基于两阶段姿态估计孙瑞琪a，张勤a，b，刘伟，罗闯a，郭嘉民b，柴辉ba济南大学电气工程学院，济南250022b山东大学控制科学与工程学院，济南250061A R T I C L E I N F O保留字：卷积神经网络人体检测人体姿态估计人体动作识别A B S T R A C T基于骨架信息的人体动作识别在人机交互等领域有着广泛的应用。本文通过构建两阶段人体姿态估计模型提取人体骨架数据，该模型将改进的单镜头检测器（SSD）算法与卷积姿态机（CPM）相结合，获得人体骨架热图。SSD算法的核心用ResNet代替，它可以有效地表征图像。此外，设计了CPM的多尺度转换规则，融合了不同尺度的信息，并设计了一个卷积神经网络对骨架关键点热图进行分类，完成动作识别。在Caster Moma移动机器人平台上进行了室内和室外实验，在没有外部遥控器的情况下，机器人的实时运动由领队通过指令动作进行控制1. 介绍复杂环境下人机合作的自主导航通常采用领导者-跟随者模型。因此，机器人能够准确、高效地识别领导者的命令动作是人机合作的重要前提。特征提取是人体动作识别的关键步骤。Johansson人体骨骼数据是高度鲁棒的，因为它们不受人类外观，背景和变化的照明条件的影响。目前，骨架数据主要通过运动捕捉系统（MoCap）[2 然而，MoCap由于其高成本和使用特殊标记点而只能在特定环境中使用，而深度相机由于其简单性和无标记属性而被广泛使用。 Shotton等人提出使用Kinect提供的深度图像来快速准确地估计骨骼关节的3D位置，为人类动作识别开辟了新的途径[5]。在上述研究的基础上，Vemulapalli等人计算了不同骨骼之间的旋转和平移关系，以描述身体部位之间的运动变化[6]。 Ke等人提取骨架序列的关键帧，计算每帧中关节与参考关节之间的相对位置，然后将其转换为灰度图像，以充分利用骨架序列的时空信息[7]。此外，Wang et al.所述局部∗ 通讯作者。电子邮件地址：cse_zhangq@ujn.edu.cn（Q. Zhang）。https://doi.org/10.1016/j.birob.2022.100062分别从深度图像和3D骨架点中提取占用模式和不变特征，并使用判别式学习方法从不同的模态特征中选择最有价值的行为特征[8]。深度学习已成为人类行为识别的主要方法，它可以利用深度神经网络从大量原始数据中自动学习具有较强区分力和表征能力的特征。Liu等人提出了一种Song等人为LSTM网络引入了一种时空注意力机制，允许网络自动挖掘视频帧和骨骼关节，这在很大程度上影响了动作识别[10]。在Yan等人的研究中，Shi等人将骨骼数据转换为具有关节的图作为顶点和边缘的骨骼，图卷积神经网络（GCNN）被设计用于对其进行建模[11，12]。提取的特征包含关于关节和骨骼以及它们之间的依赖关系的信息。随着计算机视觉技术的发展，基于深度学习的人体姿态估计模型已经被构建出来。例如，Wei et al.提出了卷积姿态机（CPM），它采用中间监督来防止由于非常深的网络层而导致的梯度消失[13]。Newell等人提出了堆叠沙漏网络来提取和整合图像中不同尺度的联合信息，以实现有效的捕获接收日期：2022年5月7日;接收日期：2022年8月3日;接受日期：2022年8月4日在线预订2022年2667-3797/©2022作者。由Elsevier B.V.代表山东大学出版。这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表仿生智能与机器人学期刊主页：www.elsevier.com/locate/birobR. 孙角，澳-地Zhang C.，中国古猿科Luo等人仿生智能与机器人2（2022）1000622Fig. 1. 动作识别方法的总体框架。图二. 人体探测网络与身体相关的各种空间关系[14]。此外，Sun等人提出了高分辨率网络（HRNet）来解决由于下采样和上采样而导致的信息丢失[15]。这些模型有效地降低了联合数据的噪声，适用于普通的单目相机。然而，人体关节定位的准确性受到早期人体检测完整性的限制。从本质上讲，不完整或冗余的人体检测将影响联合检测的准确性2.1. 基于改进SSD网络的人体检测为了准确地检测人体位置，如图2所示[16]。ResNet-50被用作骨干网络（图中的蓝色部分）。2）提取更丰富的图像特征，避免因网络层太深而导致的模型退化。五组特征提取模块（图中绿色部分）。2）串联在ResNet-50后面，提取不同尺度的图像因此，我们开发了一种人体动作识别方法，标注为“123456”的要素用于检测不同基于两阶段人体姿态估计模型。我们的方法的总体框架如图所示。1.一、我们的研究的主要贡献和新颖性总结如下：(1) 提出了一种改进的SSD目标检测算法，提取更丰富的图像特征，并在卷积层和ReLu层之间加入了Batch Normalization层，加快了训练速度。(2) 两阶段人体姿态估计模型结合了改进的SSD人体检测、多尺度变换、中心图和CPM，提高了人体位置输入的灵活性(3) 一系列的室内/室外实验进行了评估所提出的算法的各种数据集。2. 两阶段人体姿态估计针对CPM骨架关键点检测精度受人体检测不完全性限制的问题，设计了一种两阶段人体姿态估计模型。该模型首先构造基于ResNet的SSD算法获取图像中人的位置，然后设计CPM的多尺度变换规则融合不同尺度的图像信息。最后，将人体检测、多尺度变换、中心映射和CPM相结合，解决了CPM中人体位于图像中心的局限性，提高了人体位置输入的灵活性鳞片特征提取模块采用在Liu等人的“s [17]的研究，但在卷积层和ReLU层之间添加了一个额外的批量归一化层，以归一化批量特征矩阵数据，满足“均值-0-方差-1”的分布规则2.2. 结合多尺度变换的CPM骨架关键点检测基于Wei等人的研究建立了骨架关键点检测网络，以提取骨架关键点（图1）。[13]。CPM的第一级是CNN，即VGG-19的前13层和7个卷积层。最后两个1 × 1卷积层加深了网络深度，提高了网络Stage≥2采用相同的网络结构，包含9个卷积层，并使用Concat层拼接三种数据作为输入：(1) 图像特征：由阶段1提取的深度为128的特征图。(2) 空间特征：前一阶段的热图输出(3) 中心图：预先生成的高斯函数模板，大小为368 × 368（图4）。最后的输出是一张地图�� × ℎ ×，其中�� × ℎ是特征图的宽度和高度，��R. 孙角，澳-地Zhang C.，中国古猿科Luo等人仿生智能与机器人2（2022）100062361 22 ×122×08×（图三. 骨架关键点检测网络。见图4。中间的地图。特征图。骨架关键点检测网络通过级联来提高识别精度，每个阶段都有一部分在中间监督中，从而防止深度网络中的梯度消失[18，19]。由于CPM骨架关键点检测网络的输入图像大小是固定的，因此需要裁剪或图五. 作物和规模加工。并保持身体长宽比。因此，图像被处理通过以图像中心为原点的裁剪和填充操作，将其调整为规定的尺寸。多尺度公式如下：对数正态分布= 2[log2对数正态分布_对数正态分布∶1∶log2对数正态分布_对数正态分布]（ 1）缩放到指定的大小，然后再送入网络（图）。5）。然而，裁剪会导致一些信息的丢失，缩放会改变人体的长宽比，这会影响人体骨架关键点的识别精度。��_��=��.ℎ��_��=��..ℎ（二）（三）为此，我们设计了CPM网络的多尺度变换，在不影响识别目标的前提下，根据人体的高度将原始图像处理成多个其中boxsize是CPM网络的输入图像大小，h是由人体检测模型提供的人体高度。我们在log2范围内生成多个尺度，��R. 孙角，澳-地Zhang C.，中国古猿科Luo等人仿生智能与机器人2（2022）1000624[]��见图6。四尺度变换图像。类别得分。随后，使用非最大抑制（NMS）过滤掉重叠的预测，以获得所需的边界框，消除冗余的人体检测。最后，解码包围盒以获得其真实位置信息。使用以下转换方程将位置信息转换为CPM网络所需的坐标形式：��=←←←←←←←←←⟶←��=（，），（4）��见图7。骨架关键点错误检测示例。log2_），步骤为1。�� 多尺度变换图像是其中，（，）是边界框的左上（，）坐标，（，）是边界框的右下（，）坐标，（，）是边界框的宽度和高度��基于位置信息对输入图像进行多尺度变换，得到四种不同的图像尺度。多尺度变换中的填充操作确保裁剪的人体区域位于图像的中心。然后，将裁剪后的图像和中心图发送到CPM网络，以获得不同尺度下的骨架关键点热图。将不同尺度下对应于每个关键点的热图相加以获得最终热图。CPM的输出热图大小为46 × 46，因此需要将其反转以将热图恢复为原始大小。最后，找到热图中的最大值点，其对应的（X，X）坐标为骨架关键点的二维坐标图图9示出了应用两阶段人体姿态估计算法之前和之后的比较结果，其中图1A和1B示出了应用两阶段人体姿态估计算法之前和之后的比较结果，其中图1A和1B示出了应用两阶段人体姿态估计算法之后的比较结果。图9 a和图9 b是自收集的图像，图9 a和图9 b是自收集的图像。图9c两阶段人体姿态估计算法即使在人体不在图像中心的情况下也能校正骨架关键点检测的输出结果。此外，两阶段人体姿势估计算法可以准确地预测人体骨架关键点，尽管光线昏暗（图1A和1B）。9b和9c）或示于图第六章62.3. 骨架关键点的两阶段检测CPM作为一种单人位姿估计算法，主要通过中心图实现人体定位。由于中心图（图4）中的高斯响应位于中心，因此只有当人体位于图像中心时才能获得正确的人体姿势估计。然而，在实践中，人的位置是灵活的，并且不确定人是否总是处于中心。因此，在骨架关键点检测中将存在误差（图11）。7）。因此，我们提出了一个两阶段的人体姿态估计模型，结合人体检测，多尺度变换，中心图，CPM（图）。（八）。该模型包括三个模块：人体检测，人体区域处理，人体姿态估计。首先，图像被输入到人体检测网络中，图二、第二、的预测特征层的不同尺度使用3 × 3卷积核对对象1、对象2、��第三，确定对象是否为人，身体部分闭塞（图9d和9e）。该算法保证以原始大小输出图像，而不是将图像处理为指定的网络大小（368 × 368），如图中的“骨架关键点的错误检测”所示。第九章3. 人体动作识别在前一章中，通过两阶段人体姿态估计模型获得人体骨架关键点热图。热图只保留了人体骨架的信息，反映了图像中人体的整体姿态。然而，动作识别需要通过分析和提取人体骨架的关键点之间的关系特征来实现。考虑到CNN在图像分类中的优势，设计了一个八层CNN来分类骨架关键点热图。3.1. 命令动作数据集构造本文设计了六种简单易记的命令动作，用于（，）��R. 孙角，澳-地Zhang C.，中国古猿科Luo等人仿生智能与机器人2（2022）1000625图八、骨架关键点的两阶段检测流程图。图第九章两阶段人体姿态估计算法应用前后的比较。R. 孙角，澳-地Zhang C.，中国古猿科Luo等人仿生智能与机器人2（2022）1000626（）��∑∑（）表1命令操作及其含义。命令操作操作编号操作示例Heatmaps操作含义环境.动作的示例和含义如表1所示。我们使用RealSense D435i深度相机在室内和室外环境中收集数据集。受试者面对摄像机，并在表演过程中位于摄像机前1-2米处。对于每一个行动，500个样本收集从五个不同的人（四男一女）在两个环境。共采集样本3000份，形成自采指挥行动式中，R2是网络输出的第10类概率，�� 是对应于实际类别的标签概率，C是类别的数量。交叉熵描述了两个概率分布之间的相似程度。然而，CNN的输出不是概率分布。因此，我们使用Softmax函数将网络前向传播的结果转化为概率分布。Softmax函数如下：图像数据集（SCAID）。SCAID输出相应的数据-�� （��）=��.（六）通过两阶段姿态估计模型生成关键点热图其构成自收集的命令动作热图数据集��=1 ��（SCAHD）。3.2. 构建CNN考虑到CNN在图像分类中的优势，我们构建了CNN-8-一CNN-8网络结构如图所示。10，输入图像大小为227 × 227。前五层是卷积层，卷积核大小为11 × 11、5 × 5、3 × 3、3 × 3和3 × 3卷积核数分别为48、128、192、192和128。卷积层与最大池化层穿插，以使特征矩阵稀疏，可以减少网络中的参数和数据计算。最终的全连接层使用ReLU激活函数非线性地组合卷积和池化特征。在前两个完全连接的层中使用Dropout，以便在前向传播期间随机停用一些神经元，以避免过拟合。最后一个全连接层有六个输出神经元，对应于SCAID数据集中的六类命令动作我们选择了通常用于图像分类的交叉熵损失函数作为损失函数，其公式如下��L = −日本语简体中文繁体中文한 국 어��=14. 实验在本节中，介绍了用于实验的实验环境和数据集。然后进行了仿真实验对于人体检测，完成人体骨架关键点检测和人体动作分类。最后，将上述三个模块联动起来，形成一个完整的动作交互系统，并移植到一个真实场景中，验证其有效性和可行性的算法。4.1. 实验环境和数据集实验计算机配置有Intel Core i7- 8700处理器和NVIDIA GTX 1660图形卡。我们选择Ubuntu 18.04 LTS操作系统、PyTorch和TensorFlow作为开发环境。本文使用了三个基准数据集和一个自收集的数据集。人体检测实验在Pascal VOC 2007/2012上进行[20]。该模型基于VOC2012训练和有效数据集进行训练，这些数据集有11，540张图像，其中包括4374张包含人的图像。同样，该模型在VOC2007测试数据集上进行了验证，该数据集有4952张图像，其中包括2097张包含人物的图像。为了训练CPM-阶段6模型，骨架关键点检测基于来自MPII数据集的28，000个人类样本[21]，并在来自利兹运动姿势（LSP）数据集的2000个样本上进行验证[22]。命令动作识别是基于SCAHD数据集。站A1等待机器人预启动手臂侧放A2停止右臂侧举A3前进左臂侧举A4向后移动右臂A5右转左臂抬起A6左转R. 孙角，澳-地Zhang C.，中国古猿科Luo等人仿生智能与机器人2（2022）1000627见图10。 CNN-8网络结构。表2模型结果的比较检测器主干输入图像数据集mAPfpsSSD300 VGG-16 300 × 300 07 +12 73.6% 56SSD_ResNet50 ResNet-50 300 × 300 07 +12 75.6% 53SSD_VGG16_人VGG-16 300 × 300 07 +12/人79.4% 56SSD_ResNet50_PersonResNet-50 300 × 300 07 +12/人84.6% 554.2. 人体检测结果我们使用随机梯度下降训练模型，批量大小为16，初始学习率为10−3。我们用了一个动量0.9，重量衰减为0.0005。评估指标使用平均精度（mAP）和每秒帧数（fps）。培训结果见表2。与[17]相比，本文中基于ResNet-50的SSD（SSD_ResNet50）模型的检测准确度提高了2%。由于本文的检测对象是“人”，因此SSD300和SSD_ResNet50网络分别基于 VOC 数据集中的人类别进行训练。实验结果表明，SSD_ResNet50_Person模型比SSD300模型具有更高的人体图图11示出了SSD_ResNet50_Person的检测结果的比较（图11中的黄色框线）。 11）和SSD_VGG16_Person（图11中的绿色框线）。11）同一张图片的模型，蓝色框线是手动标记的“真实人类位置”。根据模型的预测结果，使用矩形框标记人体位置，并指示对象是人的概率。通过SSD_ResNet50_Person模型预测的人体位置显示为更好地拟合注释的真实区域;因此，选择该人体位置用于人体检测在这篇论文中。4.3. 人体骨架关键点检测结果对于模型训练，我们将最大迭代设置为320000，批量大小为16。学习率初始化为0.00008，学习策略为我们使用0.9的动量和0.0005的权重衰减，并且评估基于PCK@0.2度量。当预测和地面实况之间的距离小于图像中人体躯干的像素长度的20%时，它被认为是正确的。CPM-Stage 6模型的平均检测精度（87.4%）和每个关节的检测精度如表3所示。LSP数据集是包含多个运动的运动姿势数据集，例如羽毛球、足球、跑酷和体操。因此，在躯干位置中更稳定和可识别的头和肩关节具有92.4%和90%的更高检测准确率表3每个骨架关键点的检测精度。名称检测精度头92.4%肩关节90.0%肘关节85.0%手腕81.3%髋关节87.7%膝关节88.3%脚踝87.2%平均检测准确率87.4%分别然而，四肢中的关节更灵活，因此，它们不太准确。4.4. 命令动作的分类结果SCAHD数据集中每个命令动作的五分之一的数据SCAID数据集仅使用CNN-8网络进行分类作为比较实验。我们将批量大小设置为16，初始学习率为0.0002，epoch为20。上述两种方法的分类精度变化曲线如图所示。12，水平坐标是迭代次数，垂直坐标是分类精度。与SCAID数据集相比，SCAHD数据集去除了背景、光照等干扰信息，仅保留人体骨架信息，因此收敛速度更快。SCAID数据集没有经过任何处理，干扰信息较多，因此前期上升趋势较为平缓，收敛速度较慢。两种方法的分类混淆矩阵见表4和表5。CNN-8网络在SCAID数据集上的分类准确率为94.66%，在SCAHD数据集上的分类准确率为99.16%。分析得出结论，SCAHD数据集中的骨架关键点热图仅保留骨架信息，并且较少受到混杂因素的影响，从而获得更高的分类准确性。主要的分类错误是左手和右手动作之间的混淆，这主要是由于R. 孙角，澳-地Zhang C.，中国古猿科Luo等人仿生智能与机器人2（2022）1000628图十一岁两种模型检测结果的比较。见图12。不同方法分类精度的变化曲线。CPM-阶段6模型。左关节的识别与右关节的识别相反，因此所获得的热图的左动作和右动作相反。因此，需要进一步提高模型SCAID数据集既没有使用人体检测模型将人与背景分离，也没有提取表征人类行为的特征。因此，它具有低的分类精度，并受到诸如背景，光照变化和人类着装等因素的影响。在所有的命令动作中，“立”的分类正确率最高。我们的分析表明，这是由于这个动作和其他五个动作之间的最大差异。其他5个动作的分类准确率相对较低，分类错误主要发生在“上"和”侧举“两种动作之间（17次）。左手和右手动作之间的分类错误只发生了四次，这被认为是由于CAID数据集尚未被CPM-阶段6模型处理，因此保留了原始的左右骨骼关键点信息。表4SCAID数据集上CNN-8的混淆矩阵。True labels预测标签准确度A1 A2 A3 A4 A5 A6A1 98 1 0 0 0 1 98%A2 1 95 0 3 0 1 95%A3 0 1 95 2 1 1 95%A4 1 2 0 93 1 3 93%A5 1 1 3 0 93 2 93%A6 0 1 3 2 0 94 94%4.5. 基于Weizmann数据集为了进一步验证上述方法的有效性，我们选取常用的公共数据库-Weizmann数据集进行对比实验[23]。年选定了七套行动，R. 孙角，澳-地Zhang C.，中国古猿科Luo等人仿生智能与机器人2（2022）1000629表5SCAHD数据集上CNN-8的混淆矩阵。True labels预测标签准确度 A1 A2 A3A4 A5 A6A1 100 0 0 0 0 0 100%A2 0 100 0 3 0 1 100%A3 0 0 98 2 0 0 98%A4 0 0 1 99 0 0 99%A5 0 0 0 0 100 0 100%A6 0 0 0 0 2 98 98%图十三. 分类精度变化曲线。实验分为Jack（jumping-jack）、Jump（jump-forward-on- two-legs）、Pjump （ jump-in-place-on-two-legs ）、 Side （ gallop-sideways ）、Walk、Wave1（wave-one-hand）和Wave2（wave-two-hand）。由于原始数据集是视频格式，为了便于后续的基于图像的建模和动作识别，在视频转换过程中丢弃了一些不重要的图像信息。另外，在提取骨骼关键点时，会出现侧身、肢体遮挡等情况，这对卷积神经网络模型的构建会不利，而且这些图像需要删除，所以每组图像的数量不能统一。每个命令动作的五分之一的数据是从Weizmann数据集中随机选择的，作为测试集，其余的作为训练集。CNN-8用于模型训练。我们将批量大小设置为16，初始学习率为0.0002，epoch为20。 Weizmann数据集获得的分类精度变化曲线示于图13，其中横坐标是迭代次数，纵坐标是分类精度。由于数据集未经预处理，存在大量干扰信息，因此可以看出，准确率在早期有明显的上升趋势，但在后期收敛速度较慢。CNN-8基于Weizmann数据集的分类混淆矩阵如表6所示，平均准确率达到99.92%。结果表明，单手挥杆的识别错误主要是将单手挥杆误认为双手挥杆。主要原因是在提取热图关键点的过程中出现了身体遮挡等动作，使得热图大范围重叠，从而导致了上述识别错误。对于相同的7组动作，两种方法的具体分类精度对比结果见表7。与[23]相比，本文提出的改进卷积神经网络模型对其他数据集具有更好的识别效果图14. 卡斯特·莫玛机器人图15. 用于人体检测的可视化界面。4.6. 物理验证实验本文以Caster Moma移动机器人为实验平台。固定在机器人手臂上的RealSense D435i深度相机用于获取彩色图像。本文设计的人体动作识别算法对图像进行处理，输出动作标签，转换成相应的运动控制信号发送给CasterMoma移动机器人。实验平台如图所示。 14个。在该实验中，机器人的向前和向后移动速度被设置为0.2m/s，并且左和右转弯速度被设置为0.2m/s。设置为15ms。为了保证移动机器人的安全性，我们设置移动距离和旋转角度阈值，使得机器人在每个控制周期内在固定范围内最初，领队站在机器人前方1.5-2米处等待让程序初始化人类检测过程使用 OpenCV 进行可视化（图 1 ）。 15 ）。基于SSD_ResNet50_Person模型检测到的边界框绘制人体边界框。当可视化界面出现红色边框时，就意味着程序已经初始化，领导可以下达命令了。4.6.1. 室内试验在实验过程中，领导给出了随机的命令动作。两组指令动作的结果R. 孙角，澳-地Zhang C.，中国古猿科Luo等人仿生智能与机器人2（2022）10006210表6基于Weizmann数据集的分类混淆矩阵True labels预测标签准确性 Jack Jump Pjump侧走波1波2杰克167 0 0 0 0 0 100%跳0 100 0 0 0 0 0 100%Pjump 0 0 221 0 0 0 0 100%边0 0 0 101 0 0 0 100%步行0 0 0 0 100 0 0 100%波1 0 0 0 0 0 347 1 99.7%波2 0 0 0 0 0 0 249 100%图16. 右臂侧图17. 左臂向上-左转。和左臂向上-被选择用于演示（图16和17）。右边的图像显示了相机的视野对应于到左图中的场景，左下角显示了与领导者姿势对应的骨架关键点热图机器人和领队的位置用红色长方形方框标出，以便更直观地观察他们的动作变化。在真实的室内环境中，领导者通过右臂侧举来控制机器人的向前运动（图1）。 16）。R. 孙角，澳-地Zhang C.，中国古猿科Luo等人仿生智能与机器人2（2022）10006211图18. 左臂侧表7图19. 右臂向上，右转。4.6.2. 室外实验比较同一动作数据集的分类结果行动我们的方法参考文献[23]杰克100%跳100% 89.2%Pjump 100% 100%侧面100% 100%步行100% 100%第一波99.7% 94.8%第二波100% 97.2%随着机器人的前进，领导者在摄像机的视野中从“远”变成了“近”。机器人的左转弯是由左臂向上控制的（图1）。17）。室内环境中的系统设置在室外环境中保持不变。选择两组指令动作的结果--左臂侧举和右臂上举--进行演示（图1和图2）。18和19）。可见，首领由女变男。然而，虽然领导者的体格发生了变化，但本文设计的人体动作识别算法仍能准确识别出指挥动作。在真实的室外环境中，领导者通过左臂侧举来控制机器人的向后运动（图1）。18）。随着机器人的后退，摄像头的视野中，领头的人从“近”变成了“远”。图19示出了领导者通过右臂向上控制机器人的右转。当机器人右转到指定的角度时，一个未定义的人类动作出现在摄像机的视野中。机器人留下来了在无效的命令操作中，验证R. 孙角，澳-地Zhang C.，中国古猿科Luo等人仿生智能与机器人2（2022）10006212提出了一种在无效干扰姿态下的人体动作识别方法。5. 结论提出了一种基于人体骨骼信息的动作识别方法。该方法采用两阶段人体姿态估计算法获取骨架关键点信息，设计CNN对骨架关键点热图进行分类，完成动作识别。用具有更强表示能力的ResNet-50网络代替SSD目标检测算法的骨干网络。然而，SSD使用的大多数特征都是相对较深的语义特征。因此，可以考虑将高层特征图和低层特征图进行多尺度融合，进一步提高SSD算法的检测精度设计的CNN在自收集的数据集上达到了99.16%的准确率，表明该方法在识别设计的命令动作方面是有效的。最后，在真实场景中成功进行了室内和室外物理实验，验证了本文设计的方法能够在没有先验信息的情况下，仅利用领导者的指令动作和外部遥控器，实现移动机器人在室内和室外场景中的运动控制.然而，本文所选择的室内和室外场景相对简单。鉴于该领域中人机交互的复杂性，该算法的实时性有待进一步提高。例如，可以考虑自下而上的人体姿态估计模型来获得人体骨骼信息。竞合利益作者声明，他们没有已知的竞争性财务利益或个人关系，可能会影响本文报告的工作致谢本研究得到了国家自然科学基金（批准号： 91948201 和62073191）。附录A. 补充数据与本文相关的补充材料可以在网上找到上https://doi.org/10.1016/j.birob.2022.100062。引用[1]G. Johansson，生物运动的视觉感知及其分析模型，Percept。心理学。14（2）（1973）201-211。[2]I. Kapsouras，N. Nikola，使用dynemes和前向差异表示的运动捕获数据的动作识别，J. Vis。Commun.图像表示。25（6）（2014）1432[3]M. Barnachon，S.布瓦卡兹湾Boufama等人，正在进行的人类动作识别与动作捕捉，模式识别。47（1）（2014）238[4]H.T.妈，X。Zhang，H. Yang等人，基于SVM的人类日常运动识别方法，在：TENCON 2015-2015 IEEE Region 10 Conference，IEEE，2015，pp. 一比四[5] J.Shotton，A. Fitzgills，M. Cook等人，从单个深度图像中进行部分实时人体姿势识别，在：第24届IEEE计算机视觉和模式识别会议上，IEEE，Piscataway，NJ，2011年，第24页。公元1297-1304年。[6]R. Vemulapalli ， F. 阿拉特河 Chellappa ， Human action recognition byrepresenting-ing 3D skeletons as points in a Lie group，in：Proceedings of theIEEE ConferenceonComputer Vision and Pattern Recognition ， 2014 ， pp. 588-595[7]Q.克，M.贝纳蒙，S。An等人，骨架序列的一种新表示3D动作识别，在：IEEE计算机视觉和模式识别会议论文集，2017年，pp. 3288-3297。[8] J.Wang，Z. Liu，Y. Wu等人，Mining actionlet ensemble for actionrecognitionwith depth cameras ， in ： 2012 IEEE Conference on ComputerVision and PatternRecognition，IEEE，2012，pp. 公元1290-1297年。[9] J. Liu，中国粘蝇A. 沙鲁迪D.Xu等人，使用具有信任门的时空LSTM网络进行基于混沌的动作识别，IEEE Trans. 模式肛门。马赫内特尔40（12）（2017）3007-3021.[10] S.宋角，澳-地Lan，J. Xing，等人，从骨架数据识别人类动作的端到端时空注意力模型，见：AAAI人工智能会议论文集，第31卷，（1）2017年。[11] S. Yan，Y. 阿雄， D. 林，空间时间图卷积网络用于基于机器人的动作识别，在：第三十二届AAAI人工智能会议，2018年，pp. 7444-7452。[12] L. Shi，Y. Zhang，J. Cheng，等人，使用有向图神经网络进行基于以太网的动作识别，见：IEEE计算机视觉和模式识别会议，2019年，第10页。7912-7921。[13] S.E. Wei，V. Ramakrishna，T. Kanade等人，卷积姿态机，在：2016年IEEE计算机视觉和模式识别会议，CVPR，2016年，pp。4724-4732[14] A. 纽厄尔， K. 小杨， D. 贾，堆叠沙漏网络为人体姿态估计，欧洲会议对计算机远见， 2016年，页483-499.[15] K.孙湾，巴西-地Xiao、肖氏叶蝉D. Liu等人，深度高分辨率表示学习用于人体姿态估计，在：2019 IEEE/CVF计算机视觉和模式识别会议，CVPR，2019年，第10页。5686-5696。[16] Ruiqi Sun，Qin Zhang，Jiamin Guo，et al.，使用来自两阶段姿势估计模型的骨架数据进行人类动作识别，在：第14届智能机器人与应用国际会议，Springer，Cham，2021年，第14页。769 -779[17] W. Liu，L.安格洛夫，D。Erhan等人，SSD：单次发射多盒探测器，见：计算机视觉- ECCV 2016，第9905卷，2016年，第21-37号。[18] Y. Bengio，P. Simard，P. Frasconi，用梯度下降学习长期依赖是困难的，IEEETrans. 神经网络5（2）（1994）157[19] Y. Bengio，X. Glorot，理解训练深度前馈神经网络的难度，在：第13届人工智能和统计国际会议，2010年，第13页。249-256[20] M. 埃弗灵厄姆湖，澳 - 地 Van Gool ， C.K.I. Williams 等人， pascal visualobjectclasses（VOC）的挑战。 J. Comput. 目视88（2）（2010）303[21] M.安德里卢卡湖Pishchulin，P. Gehler等人，2D人体姿态估计：新基准和最新分析，在：IEEE会议论文集计算机视觉和模式识别，2014年，pp。3686-3693。[22] S. 约翰逊， M 。 Everingham ， Learning effective human pose estimationfromunaccurate annotation ， in ： Proceedings of the IEEE Conference onComputerVision and Pattern Recognition，2011，pp. 1465-1472年。[23] L. Gorelick，M. Blank，E. Shechtman等人，作为时空形状的动作，IEEETrans. 模式肛门。马赫内特尔29（12）（2017）2247

下载后可阅读完整内容，剩余1页未读，立即下载