墙后行为识别：使用RF信号探测人体行动及遮挡，解决可见界限局限

11 浏览量更新于2023-10-12 收藏 1.32MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

872使不可见的可见：通过墙壁和遮挡进行动作识别李天虹李丽杰范伟明敏赵英成刘迪娜卡塔比麻省理工学院CSAIL摘要理解人们的行为和互动通常取决于看到他们。从视觉数据中自动化动作识别过程一直是计算机视觉社区中许多研究但是如果光线太暗，或者这个人被挡住了，或者在墙后面怎么办？在本文中，我们介绍了一个神经网络模型，可以检测人的行动，通过墙壁和遮挡，并在光线不足的条件下。我们的模型以射频（RF）信号作为输入，生成3D人体骨架作为中间表示，并随着时间的推移识别多个人的动作和交互。通过将输入转换为中间的基于XML的表示，我们的模型可以从基于视觉和基于RF的数据集中学习，并允许这两个任务相互帮助我们表明，我们的模型在可见场景中实现了与基于视觉的动作识别系统相当的准确性，但在人们不可见的情况下继续准确地工作，从而解决了超出当今基于视觉的动作识别限制1. 介绍人体动作识别是计算机视觉的核心任务。它在视频游戏、监控、手势识别、行为分析等方面有着广泛的应用.动作识别被定义为从时间序列（视频帧、人体骨架序列等）中检测和分类人类动作。在过去的几年里，深度学习的进步以惊人的速度推动了动作识别的进步[30，40，36，31，48，10，18，8，11，23，17，20]。尽管如此，基于相机的方法本质上受到遮挡的限制，即，主体必须是可见的以识别其动作。以前的作品缓解了这个问题，改变相机的观点或插值帧随着时间的推移。然而，当摄像机是固定的或者人在相对长的时间段内被完全遮挡时，例如，该人走进另一个房间。从本质上讲，相机受到与我们相同的限制*表示平等捐款。由逆α-β顺序决定的顺序。图1：该图显示了我们系统的两个测试用例。在左边，两个人在握手，而其中一个人在墙后面。在右边，一个人躲在黑暗中，向另一个正在打电话的人扔东西。最下面一行显示了我们的模型生成的骨架表示和动作预测。人类，患有：我们的眼睛只感觉到可见光，因此不能看穿墙壁和遮挡物。然而可见光只是频谱的一端。WiFi频率中的无线电信号可以穿过墙壁和遮挡物。此外，它们反射出人体。如果可以解释这种无线电反射，就可以通过墙壁和遮挡进行动作识别。实际上，对无线系统的一些研究已经尝试利用该属性进行动作识别[33，39，19，1，37]。然而，现有的基于无线电的动作识别系统明显落后于基于视觉的系统。它们仅限于几个动作（2到10个），对新环境或培训期间未见过的人的泛化能力较差，并且无法处理多人动作（详见第2节）。在本文中，我们的目标是桥梁两个世界。我们介绍了RF-Action，这是一个端到端的深度神经网络，可以从无线信号中识别人类的动作。它实现了与基于视觉的系统相当的性能，但可以通过墙壁和遮挡工作，并且对照明条件不敏感。图1显示了RF-Action在两个场景中的性能。在左边，两个人在握手，但其中一个被挡住了。基于视觉873系统将无法识别该动作，而RF-Action很容易将其归类为握手。在右边，一个人正在打电话，而另一个人正准备向她扔东西。由于光线差，后一个人在视觉系统中几乎看不到。相反，RF-Action可以正确识别这两种操作。RF-Action基于多模态设计，允许其与无线信号和基于视觉的数据集一起工作。我们利用最近的工作表明推断人类骨骼的可行性（即，姿势），并采用骨架作为适用于RF和基于视觉的系统的中间表示。使用骨架作为中间表示是有利的，因为：（1）它使模型能够使用RF和视觉数据进行训练，并利用现有的基于视觉的3D骨架数据集，如PKU-MMD和NTU-RGB +D [26，31];（2）它允许对中间骨架进行额外的监督，这有助于指导学习过程，而不仅仅是过去基于RF的动作识别系统中使用的动作标签;以及（3）它提高了模型的能力，因为骨架表示受环境或主体身份的影响最小。我们通过两项创新进一步增强了我们的模型，以提高其性能：首先，骨架，特别是从RF信号生成的骨架，可能具有错误和误预测。为了解决这个问题，我们的中间表示除了骨架外，还包括每个关节上随时间变化的置信度得分。我们使用自我注意力来允许模型随着时间的推移不同地关注不同的关节，这取决于它们的置信度分数。第二，过去的动作识别模型在任何时候都会生成单个动作。然而，场景中的不同人可能参与不同的动作，如在图1中右侧的场景中，其中一个人正在打电话，而另一个人正在投掷物体。我们的模型可以使用专门设计用于解决此问题的多提案模块来解决此类情况为了评估RF-Action，我们使用无线设备和多摄像头系统从不同环境中收集动作检测数据集。该数据集跨度为25小时，包含30个执行各种单人和多人操作的个体。我们的实验表明，RF- Action在可见场景中实现了与基于视觉的系统相当的性能，并且在完全遮挡的情况下继续表现良好。具体而言，RF-Action在无遮挡的情况下实现了87.8的平均精度（mAP）我们的研究结果还表明，多模态训练提高了视觉和无线方式的动作检测。使用我们的RF数据集和PKU-MMD数据集训练我们的模型，我们观察到RF数据集的测试集mAP的性能从83.3增加到87.8（无oc-clusion ）， PKU-MMD 数据集（跨学科）从 92.9 到93.3，这显示了使用电子元作为中间共同表示的价值。贡献：该文件有以下贡献：• 它提出了第一个模型，为基于行动识别，利用无线电信号;实验结果表明，该模型能够准确地识别动作，仅使用RF信号（如图1所示），可通过墙壁和极差的照明条件进行操作• 本文提出跨模式的识别，并以经验证明这种知识转移可以提高绩效。• 本文提出了一种新的时空注意模型，改进了基于时间序列的动作识别方法。无论骨架是从RF还是基于视觉的数据生成的。• 它还提出了一种新的多建议模块，扩展了基于机器人的动作识别，以检测同时，多人的亲密行为和互动。2. 相关作品(a) 基于视频的动作识别：在过去的几年里，从视频中识别动作一直是一个热门话题。早期的方法使用手工制作的特征。例如，HOG和SIFT等图像描述符已扩展到3D [6，27]，以从视频中提取时间线索。此外，像改进的密集轨迹（iDT）[35]这样的描述符专门设计用于跟踪视频中的运动信息。最近的解决方案基于深度学习，分为两大类。第一类通过利用3D卷积网络联合提取运动和外观特征[5，30]。第二类通过使用双流神经网络分别考虑空间特征和时间特征[32，36]。(b)基于骨架的动作识别：基于骨架的动作识别最近得到了很多关注[12，4]。这种方法具有多个优点。首先，骨架提供了一种针对背景噪声的人体动力学的鲁棒表示其次，与RGB视频相比，骨架更简洁，这减少了计算开销，并允许更小的模型适合移动平台[20]。基于骨架的动作识别的先前工作可以分为三类。早期的工作使用递归神经网络（RNN）对骨架数据中的时间依赖性进行建模[9，31，48]。然而，最近，文献转向卷积神经网络（CNN）来学习时空特征，并取得了令人印象深刻的成绩[8，23，20]。另外，也有一些论文将神经网络表示为图，并利用了图神经网络（GNN）.874YZX图2：同时记录的RF热图和RGB图像。用于动作识别[38，13]。在我们的工作中，基于CNN的方法，并通过引入时空注意力模块来处理从无线信号生成的骨架，以及多建议模块来同时实现多个动作预测，从而扩展分层同现网络（HCN）模型[23]。(c) 基于无线电的动作识别：无线系统中的研究已经探索了使用无线电信号的动作识别，特别是对于隐私问题可能排除使用相机的家庭应用[37，14，29，1]。这些作品可分为两类：第一类类似于RF-Action，它分析从人体反射的无线电信号。他们使用动作标签进行监督，并使用简单的分类器[37，14，29，1]。他们只能识别简单的动作，如走路、坐着和跑步，最多只能识别10个不同的动作。此外，他们只处理单人场景。第二类依赖于传感器网络。它们或者针对不同的动作部署不同的传感器（例如，冰箱门上的传感器可以检测进食）[19，39]，或者在每个身体部位上安装可穿戴传感器，并根据身体部位的移动来识别受试者这样的系统需要对环境或个人进行大量的检测，这限制了它们的实用性和鲁棒性。3. 射频信号入门我们使用一种在过去基于RF的动作识别工作中常用的无线电[45，24，41，7，28，33，16，42，46，44]。无线电产生一种称为FMCW的波形，工作频率在5.4到7.2 GHz之间。该设备具有垂直和水平组织的两个天线阵列。因此，我们的输入数据采用二维热图的形式，一个来自水平数组，一个来自垂直数组。如图2中所示，水平热图是无线电信号在平行于地面的平面上的投影，而垂直热图是信号在垂直于地面的平面上的投影（红色指的是垂直于地面的平面）。大值，而蓝色表示小值）。直观地说，较高的值对应于来自位置的信号反射的较高强度无线电以30FPS的帧速率工作，即，它每秒产生30对热图。如图2所示，RF信号具有与视觉数据不同的属性，这使得基于RF的动作识别成为一个难题。特别是• 穿过墙壁的频率中的RF信号具有比视觉数据更低的空间分辨率。在我们的系统中，深度分辨率为10cm，角度分辨率为10度如此低的分辨率使得难以区分诸如挥手和梳头之类的活动。• 人体在穿过墙壁的频率范围内是镜面反射的[2]。RF镜面反射是一种物理现象，当波长大于表面粗糙度时出现的现象。在这种情况下，物体就像反射器一样起作用，即，镜子-与散射体相对。我们无线电的波长大约是5厘米，因此人类起着反射器的作用。根据每个肢体表面的方向，信号可能会反射到我们的传感器或远离它。将信号从无线电反射出去的肢体对设备来说是不可见的。即使信号被反射回无线电，具有小表面的肢体（例如，手）反射较少的信号，因此更难跟踪。• 虽然RF信号可以穿过墙壁，但它们穿过墙壁时的衰减明显大于穿过墙壁时的衰减。空气结果，当人在墙后面时，从人体反射的信号较弱，因此在存在墙和遮挡的情况下，检测动作的精度降低。4. 方法RF-Action是一个端到端的神经网络模型，可以通过遮挡和不良照明来检测人类的动作。模型架构如图3所示。如图所示，该模型将无线信号作为输入，生成3D人体骨架作为中间表示，并随着时间的推移识别多个人的动作和交互。该图进一步显示了RF-Action也可以采用从视觉数据生成的3D骨架这允许RF-Action使用现有的基于骨架的动作识别数据集进行训练在本节的其余部分中，我们将描述我们如何将无线信号转换为3D骨架序列，以及我们如何从这样的骨架序列推断动作图3中的黄色和绿色框。将来自多摄像机系统的视觉数据转换为3D骨架可以通过使用类似AlphaPose的算法从图像中提取2D骨架，然后对2D关键点进行三角测量以生成3D骨架来完成，如文献[15，45]中通常所做的那样。875无线流媒体独立于模态的动作检测框架第1人提案人物1特征没有一手抖动互动建议…视觉流人物2功能………没有一…人物N特征互动建议AlphaPose+3D三角测量刷牙注意力特征人级学习网络特征N人提案多方案模块动作预测3D骨架序列摄像机系统视频帧3D骨架序列无线信号RF装置网络一代骨架图3：RF-Action架构。RF-Action从无线信号中检测人类行为。它首先从原始无线信号输入（黄色框）中提取每个人的3D骨架。然后，它对提取的骨架序列（绿框）执行动作检测和识别。动作检测框架还可以将从视觉数据生成的3D骨架作为输入（蓝色框），这使得能够使用RF生成的骨架和现有的基于骨架的动作识别数据集进行训练。4.1. 从无线信号生成骨架为了从无线信号生成人体骨架，我们采用[45]的架构。具体来说，骨骼生成网络（图3中的橙色框）以图2所示的水平和垂直热图的形式接收无线信号，并生成多人3D骨架。网络的输入是水平和垂直热图的3秒窗口（90帧）。该网络由三个模块组成，通常用于姿态/骨架估计[45]。首先，包括时空卷积的特征网络从输入RF信号中提取特征。然后，提取的特征通过区域建议网络（RPN），以获得几个建议的可能的骨架包围框。最后，将提取的建议馈送到3D姿态估计子网络中以从它们中的每一个提取3D骨架。4.2. 模态独立动作识别如图3所示，模态无关动作识别框架使用从RF信号生成的3D骨架来执行动作检测。输入：我们首先在时间上关联骨架，以获得多个骨架序列，每个骨架序列来自一个人。每个骨架都由关键点（肩膀、手腕、头部等）的3D坐标表示。由于无线电信号属性，不同的关键点在不同的时间情况下反映不同量的无线电信号，导致关键点位置的置信度变化（跨时间和跨关键点两者）。因此，我们使用骨架生成网络的预测置信度作为每个关键点的另一个因此，每个骨架序列都是大小为4×T×Nj的矩阵，其中4是指空间尺寸加上置信度，T是序列，并且Nj对应于骨架中的关键点的数量模型：我们的动作检测模型（图中的大绿框）图3）有三个模块，如下所示：1）基于注意力的特征学习网络，其从每个骨架序列提取高级时空特征。2)然后，我们将这些特征传递到多提案模块以提取提案每个时间窗口对应于动作的开始和结束。我们的多提案模块由两个提案子网络组成：一个用于生成针对单人操作的建议，另一个用于生成针对两人交互的建议。3)最后，我们使用生成的建议来裁剪和调整相应的潜在特征，并将每个裁剪的动作片段输入到分类网络中。分类网络首先通过执行双向分类来细化时间建议，以确定该持续时间是否包含动作。然后预测相应动作片段的动作类。接下来，我们详细描述了注意模块和多建议模块。4.2.1时空注意模块我们使用基于时空注意力的网络来学习动作识别的特征。我们的模型建立在分层共现网络（HCN）[48]上。HCN使用两个卷积流：一个空间流对骨架关键点进行操作，一个时间流对骨架关键点的位置随时间的变化进行操作。HCN连接这两个流的输出以从输入骨架序列中提取时空特征然后，它使用这些特征来预测人类的行为。然而，从无线信号预测的骨架可能不像人类标记的那样准确此外，不同的关键点可以具有不同的预测误差。为了使我们的动作检测模型以更高的预测置信度关注身体关节具体来说，我们定义一个学习-876因为骨架动作识别不能处理多个人同时执行不同动作的情况。当场景中有多个人时，他们只需对从每个人中提取的特征进行最大化因此，他们一次只能预测一个动作。然而，在我们的数据集中，当场景中有多个人时，他们可以随时自由地做任何动作或相互交互。因此，有许多场景中，多个人正在做的行动和互动的simulatively。我们用一个多提案模块来解决这个问题具体地，表示N为同时出现的人数。而不是执行最大-pooli。ng对N个特征进行排序，我们的多建议模块输出来自这N个特征的N+N个提议，对应于2N个可能的单人动作，.NΣ2可能的相互作用，图4：时空注意模块。我们提出的注意力模块（黄色框）学习面具，使模型更专注于身体关节，具有更高的预测置信度。它还使用了一个多头atten- tion模块，以帮助模型更多地关注有用的时间实例。能够掩码权重Wm，并在每一步将其与潜在空间特征fs和时间特征ft进行Mask= Conv（concat（f s，f t），Wm）.然后，我们在潜在特征上应用Mask，如图4所示通过这种方式，面具可以学习为不同的关节提供我们还在特征提取后的时间维度上添加了一个多头注意力模块[34]，以学习不同时间戳上的注意力。我们提出的注意力模块有助于模型学习更多的代表性特征，因为学习的掩码杠杆由空间流和时间流提供的信息，并且多头注意力有助于模型更多地关注有用的时间实例。这种时空关注改变了原始HCN设计，其中空间和时间路径仅使用后期融合彼此交互。实验表明，时空注意力模型不仅有助于提高基于无线信号预测骨架的动作检测精度，而且有助于提高基准视觉动作识别数据集的性能这进一步表明，所提出的注意力模块有助于更有效地结合空间和时间表示，并将导致更好的特征表示。4.2.2多方案模块大多数以前的动作识别数据集在任何时候都只有一个动作（或交互），无论数量如何。每两个人之间。我们的多提案模块使我们能够同时输出多个动作和交互。最后，我们采用了一个优先级策略，优先于单个人的行动互动。例如，如果同时预测4.3. 多模式端到端培训由于我们希望以端到端的方式训练我们的模型，因此我们不能再使用arg max来提取3D关键点位置，就像过去基于RF的姿势估计[45]一样。因此，我们使用回归器来执行arg_max的函数以提取每个关键点的3D位置。这使得模型是可微的，因此动作标签也可以充当骨架预测模型的监督。我们的端到端架构使用3D骨架作为中间表示，这使我们能够利用以前的基于骨架的动作识别数据集。我们结合不同的模式，以以下方式训练我们的模型：对于无线信号数据集，梯度反向传播通过整个模型，并且它们用于调整骨架预测模型和动作识别模型的参数;对于先前的基于骨架的动作识别数据集，梯度反向传播直到骨架，并且它们被用于调整动作识别模块的参数。如实验部分所示，这种多模态训练显著增加了数据多样性，并提高了我们模型的性能。5. 实验5.1. 数据集由于没有可用的动作检测数据集支持-在场的人。因此，以前的方法vide射频信号和相应的骨架，我们收集时间差fs$mft……关注模块…多头注意力空间流时间流Conv4Conv4序列骨架特征ConcatConv2Conv2掩模ConvConv1Conv1877图5：定性结果。图中显示了RF-Action在各种场景下的输出。上面的两行显示了模型在可见场景中的性能。底部两行显示了我们的模型在部分/完全遮挡和光照条件差的情况下的性能。显示的骨架是由我们的模型生成的中间3D骨架的2D投影。我们自己的数据集，我们称之为RF多模态数据集（RF-MMD）。我们使用无线电设备来收集RF信号，并使用具有10个不同视点的摄像机系统来收集视频帧。无线电设备和摄像机系统同步到10 ms内附录A包括我们的数据收集系统的更详细描述。我们收集了30名志愿者25小时的数据，10个不同的环境，包括办公室，休息室，走廊，演讲室等.我们从PKU-MMD的动作集中选择了35个动作（29个单个动作和6个交互）[26]。对于每10分钟的数据，我们要求最多3个volun- teers从上面的集合中随机执行不同的动作。平均每个样本包含1.54名志愿者，每个志愿者在10分钟内完成43个动作，每个动作耗时5.4秒。我们使用20小时的数据集进行训练，5小时用于测试。该数据集还包含2个穿墙场景，其中一个用于训练，另一个用于测试。对于这些穿墙环境，我们在墙壁的每一侧放置摄像头，以便摄像头系统可以与无线电设备校准，并使用那些可以看到人的摄像头来标记动作。RF-MMD上的所有测试结果仅使用无线电信号，没有基于视觉的输入。我们利用多视图相机系统[45]。我们首先将AlphaPose [12]应用于我们的相机系统收集的视频，以提取多视图2D骨架。由于场景中可能有多个人，因此我们将每个视图的2D骨架关联起来，以获得每个人的多视图2D骨架之后，由于我们的相机系统已经校准，我们可以对每个人的3D骨架进行三角测量。这些3D骨架充当由我们的模型生成的中间3D骨架的监督最后，我们利用PKU-MMD数据集[26]提供额外的训练示例。该数据集允许动作检测和识别。它包含由66个分公司执行的51个类别的近20,000项行动。这个数据集允许我们展示RF-Action如何从基于视觉的示例中学习。5.2. 设置公制。与基于视频的动作检测[25，47，3]和基于视频的动作检测[26，22，23]的文献中常见的情况一样，我们使用不同相交-合并（IoU）阈值θ下的平均精度（mAP）来评估模型的性能。我们报告了θ = 0时mAP的结果。1，θ= 0。五、878地面真相标签。为了对我们提出的RF-Action模型进行端到端训练，我们需要两种类型的地面真值标签：3D人体骨架来监督我们的中间表示，动作开始-结束时间和类别来监督我们的模型的输出。使用AlphaPose和前面描述的多视图相机系统对于动作5.3. 定性结果图5显示了定性结果，说明了各种场景下RF-Action的输出。该图显示，即使不同的人同时执行不同的动作，RF-Action也能正确检测动作和相互作用，并且可以处理遮挡和不良照明条件。因此，它解决了当今动作识别系统的多个5.4. 不同模型我们比较了RF-动作的性能，以最先进的模型，基于信标的动作识别和基于RF的动作识别。我们使用HCN作为计算机视觉中最高性能的基于机器人的动作检测系统的代表。它目前在这项任务上达到了最佳的准确性。我们使用Aryokee [33]作为基于RF的动作识别的最新技术的据我们所知，这是过去唯一一次基于RF的行动，穿墙场景这表明，骨架的额外监督以及RF-Action神经网络设计对于使用RF数据提供准确的性能非常重要。5.5. 不同模式接下来，我们研究了在基于RF的骨架与基于视觉的骨架上操作时RF动作的性能我们在训练集上训练RF-Action，如前所述。然而，当执行推断时，我们要么向其提供来自测试集的输入RF信号，要么向其提供使用我们的相机系统获得的可见的地面实况骨架。表2示出了不同输入模态的结果该表显示，对于可见场景，在来自相机系统的地面实况骨架上操作仅导致精度提高百分之几这是预期的，因为RF骨架是用基于视觉的骨架作为地面实况来训练的此外，如我们在实验设置中所描述的，基于相机的系统使用10个视点来估计3D骨架，而仅一个无线设备用于基于RF的动作识别该结果表明，基于RF的动作识别可以实现接近于具有10个视点的仔细校准的摄像机系统的性能。该系统在穿墙场景中继续工作良好，尽管由于信号在穿过墙壁时经历一些衰减，精度低了几个百分点。可见场景穿墙识别系统执行动作检测，关于分类。1所有模型都是在方法/步骤图mAPθ=0.1θ =0.5θ =0.1θ =0.5我们的射频动作识别数据集既然HCN能吸收-吨作为输入（与RF信号相反），我们为它提供由RF-Action生成的中间骨架。这使我们能够比较RF-Action与HCN在动作识别方面基于相同的骨架。可视场景广告墙RF-Action/RF-MMD 90.1 87.8 86.5 83.0RF-Action /G.T. 骨架93.290.5--表2：具有基于RF的骨架（RF-MMD）和基于视觉的骨架（G.T. 不同IoU下的骨架）阈值θ5.6. 动作检测方法图mAPθ=0.1θ =0.5θ =0.1θ =0.5在图6中，我们显示了我们在测试集上的动作检测结果的代表性示例两个人参加了这个实验。它们有时独立地做动作，或相互作用。第一行显示表1：RF-MMD数据集的模型比较。该表示出了在不同IoU阈值θ下可见和穿墙场景中的mAP。由于HCN在骨架上操作，并且为了公平比较，我们向其提供由RF-Action生成的基于RF的骨架。表1显示了在可见场景和穿墙场景下的测试结果，其中无线信号作为输入。如表所示，RF-Action在两种测试条件下均优于HCN这表明了我们提出的模块的有效性此外，我们还可以看到，RF-Action在可见光和可见光上的表现都大大优于Aryokee[1]原始的Aryokee代码适用于两个类。所以我们扩展支持更多的类。第一行显示第一个人的动作持续时间，第二行显示第二个人的动作持续时间，第三行显示他们之间的交互我们的模型可以检测每个人的行为和他们之间的互动，以高精度。这清楚地表明，我们的多提议模块在多个人独立执行某些操作或相互交互的场景中具有良好的性能。5.7. 消融研究我们还进行了广泛的消融研究，以验证我们提出的ap的每个关键组成部分RF-动作90.187.886.583.0[23]第二十三话82.580.178.575.9阿约基[33]78.375.372.970.2879P1：P2：P1 P2：地面实况预测地面实况预测地面实况预测骨架作为中间表示允许模型从RF数据集和基于视觉的骨架数据集学习。为了说明这一优势，我们通过将PKU-MMD的训练集添加到我们的RF-Action模型的训练中来执行多模式训练更具体地说，我们使用我们的数据集来训练整个RF-Action端到端模型，并使用PKU-MMD数据集来训练RF-Action这两个数据集在训练期间交替使用。如表5所示，比较-图6：测试集上的动作检测结果示例，其中两个人们在做动作的同时也在相互交流。地面实况动作片段以蓝色绘制，而使用我们的模型检测到的片段水平轴是指帧编号。通过对分别在两个数据集上训练的模型的检测结果进行分析，我们发现多模态训练可以提高模型的性能，因为它引入了更多的数据进行训练，从而可以获得更好的泛化能力。接近为了简单起见，以下实验是一致的-在0.5 IoU阈值下计算了RF-MMD和mAP中可见场景上的导频注意模块。我们在表3中评估了我们提出的时空注意力模块的有效性。我们的动作检测性能与或没有我们的注意力模块上的RF-MMD和PKU-MMD。结果表明，我们的注意力对两个数据集都是有用的，但在RF-MMD上操作时特别有用。这是因为从RF信号预测的骨架可能具有不准确的关节。我们还在NTU-RGB +D[31]数据集上进行了实验。与允许动作检测的PKU-MMD和RF-MMD不同，该数据集仅对动作分类有效。该表表明，我们的注意力模块在这种情况下也很有用。数据集（公制）RF-Action RF-Action w/o Attention RF-MMD（mAP）87. 880. 1PKU-MMD（mAP）92.6/94.2NTU-RGB+D（Acc）86.5/91.1表3：在有和无注意力的情况下，不同数据集上的RF操作性能。对于PKU-MMD和NTU-RGB+D（跨主体/跨视图），我们测试了动作识别网络（没有骨架生成网络）。对RF-MMD的测试是跨学科和环境的。多方案模块。我们提出一个多方面的建议训练集\测试集RF-MMD PKU-MMDRF-MMD+PKU-MMD87.8 93.3/94.9RF-MMD 60.1/60.4北京大学-MMD表5：多模式培训的好处。该表示出了将PKU-MMD添加到训练集显著提高了RF-MMD的性能。使用PKU-MMD的跨学科训练集，实现了RF-MMD+PKU-MMD对RF-MMD的mAP仅使用RF-MMD进行训练在PKU-MMD上的性能较差，因为RF-MMD的动作集只是PKU-MMD动作集的子集端到端模型。RF-Action使用端到端模型，其中动作识别的丢失通过骨架生成网络反向传播。在这里，我们展示了这样一种端到端的方法可以改进骨架本身。表6报告了两个系统的骨骼关节位置的平均误差：我们的端到端模型和其中骨架与动作分开学习的替代模型-即，动作损失不通过骨架生成网络传播。该表表明，端到端模型不仅提高了动作检测任务的性能，而且减少了估计基于RF的骨架中关节位置的误差。这是因为动作检测损失为从RF信号生成的3D骨架提供了正则化。模块，用于同时时间我们评估我们的模型的性能与或不与多建议模块。如表4所示，添加的多提案模块显著提高了per-task。这是因为我们的数据集包含了很多人们同时执行不同动作的情况。我们的模型在这些情况下使用单建议的准确性非常差，而使用多建议，我们的模型可以实现更高的性能。方法RF-MMDMulti-Proposal 87.8单一提案65.5表4：多提案模块的好处。该表显示添加多建议模块大大提高了RF-MMD多模式培训。如前所述，使用方法mAP骨架错误。（cm）端到端87.8 3.4分开的表6：具有和不具有端到端训练的测试数据上的mAP和中间3D骨架误差。6. 结论本文提出了第一个基于无线电信号的动作识别模型新模型可以在由于隐私问题或能见度差而难以使用摄像头的环境中进行动作识别因此，它可以将动作识别带到人们880引用[1] Heba Abdelnasser ， Moustafa Youssef ， and Khaled AHar- ras. Wigest：一个无处不在的基于WiFi的手势识别系统。在2015年IEEE计算机通信会议（INFOCOM），第1472-1480页。IEEE，2015年。[2] 彼得·贝克曼和安德烈·斯皮齐奇诺。电磁波从粗糙表面散射。马萨诸塞州诺伍德，Artech House，Inc.，1987年，第511页。，1987年。[3] Fabian Caba Heilbron、Victor Escorcia、Bernard Ghanem和Juan Carlos Niebles。Activitynet：人类活动理解的大规模视频基准。 IEEE计算机视觉与模式识别会议（CVPR），2015年6月。[4] 曹哲、吉内斯·伊达尔戈、托马斯·西蒙、魏世恩和亚瑟·谢赫。OpenPose：使用部件亲和场进行实时多人2D姿态估计。在arXiv预印本arXiv：1812.08008，2018。[5] Joao Carreira和Andrew Zisserman。你好，动作识别？新模型和动力学数据集。在IEEE计算机视觉和模式识别会议的论文集，第6299-6308页[6] 陈明宇和亚历山大·豪普特曼。Mosift：在监控录像中识别人类行为。2009年[7] Kevin Chetty，Qingchao Chen，Matthew Ritchie，andKarl Woodbridge.用于远距离作战和活动探测的低成本穿墙fmcw雷达。在Radar Sensor Technology XXI中，第10188卷，第1018808页。国际光学与光子学会，2017年。[8] 雍都、云浮、梁王。基于骨架的卷积神经网络动作识别。2015年第三届IAPR亚洲模式识别会议（ACPR），第579-583页。IEEE，2015年。[9] 雍都、魏王、梁王。用于基于骨架的动作识别的分层递归神经网络在IEEE计算机视觉和模式识别会议论文集，第1110-1118页[10] Lijie Fan ， Wenbing Huang ， Chuang Gan ， StefanoErmon，Boqing Gong，and Junzhou Huang.用于视频理解的运动表示的端到端学习。在IEEE计算机视觉和模式识别会议论文集中，第6016-6025页，2018年[11] 范立杰，黄文兵，甘闯，黄俊州，龚伯庆。可控的图像到视频转换：脸部表情产生之案例研究。在AAAI人工智能会议论文集，第33卷，第3510-3517页[12] 方浩树，谢淑琴，戴玉荣，陆策武。区域多人姿态估计。在IEEE计算机视觉国际会议论文集，第2334-2343页，2017年[13] Xiang Gao，Wei Hu，Jiaxiang Tang，Pan Pan，JiayingLiu，and Zongming Guo.用于基于卷积的动作识别的广义图卷积网络。 arXiv 预印本 arXiv ： 1811.12013 ，2018。[14] Linlin Guo，Lei Wang，Jialin Liu，Wei Zhou，BingxianLu Tao Liu，Guangxu Li，and Chen Li.一个新的基准对人体活动识别使用wifi信号。在2017 IEEE第19届电子健康网络，应用和服务国际会议（Healthcom），第1-6页。IEEE，2017年。[15] Richard Hartley和Andrew Zisserman。计算机视觉中的多视几何学。剑桥大学出版社，2003年。[16] Chen-Yu Hsu ， Rumen Hristov ， Guang-He Lee ，Mingmin Zhao，and Dina Katabi.使用无线电反射实现家庭中的识别和无线电感测。在2019年CHI计算机系统人为因素会议上，第548页。ACM，2019年。[17] Gao Huang ， Danlu Chen ， Tianhong Li ， Felix Wu ，Laurens Van Der Maaten，and Kilian Q Weinberger.用于高效预测的多尺度密集卷积网络。arXiv预印本arXiv：1703.09844，2，2017。[18] Wenbing Huang ， Lijie Fan ， Mehrtash Harandi ， LinMa，Huaping Liu，Wei Liu，and Chuang Gan.走向有效的动作识别：训练双流网络的主要反向传播IEEETransactions on Image Processing，28（4）：1773[19] TLKasteren，GwennEnglebienne和BJKr？ose。使用生成和判别模型的老年人护理行为监测系统。个人和无处不在的计算，14（6）：489[20] Qiuhong Ke ， Mohammed Bennamoun ， Senjian An ，Ferdous Sohel，and Farid Boussaid.一种新的用于三维动作识别的骨架序列表示方法。在IEEE计算机视觉和模式识别会议论文集，第3288-3297页[21] Matthew Keally，Gang Zhou，Guoliang Xing，JianxinWu，and Andrew Pyles. Pbn：基于智能手机的身体传感器网络的实践活动识别。第九届ACM嵌入式网络传感器系统会议论文集，第246-259页。ACM，2011年。[22] Chao Li，Qiaoyong Zhong，Di Xie，and Shiliang Pu.基于骨架的动作识别与卷积神经网络。2017年IEEE多媒体博览会研讨会国际会议（ICMEW），第597-600页。IEEE，2017年。[23] Chao Li，Qiaoyong Zhong，Di Xie，and Shiliang Pu.从骨架数据中学习共现特征用于分层聚合的动作识别和检测。arXiv预印本arXiv：1804.06055，2018。[24] Jaime Lien ， Nicholas Gillian ， M Emre Karagozler ，Patrick Amihood ， Carsten Schwesig ， Erik Olson ，Hakim Raja，and Ivan Poupyrev. Soli：无处不在的手势感应与毫米波雷达 . ACM Transactions on Graphics（TOG），35（4）：142，2016。[25] 林天威，赵旭，郑寿。单次拍摄的节奏动作检测。第25届ACM国际多媒体会议论文集，第988-996页。ACM，2017。[26] 刘春晖，胡跃宇，李阳浩，宋思杰，刘洁英. Pku-mmd：一个大规模的连续多模态人类行为理解的基准。arXiv预印本arXiv：1703.07475，2017。[27] Joe Yue-Hei Ng ， Jonghyun Choi， Jan Neumann ，andLarry S Davis.Actionflownet：学习运动表示881动作识别在 2018 年 IEEE 计算机视觉应用冬季会议（WACV）中，第1616-1624页。IEEE，2018年。[28] 正宇阿鹏：何塞·马里亚穆尼奥斯-费雷拉斯，RobertoG o'mez-Gar c'ıa和ChangzhiLi。利用rcs、距离和多普勒特性的基于isar处理的Fmcw雷达fall检测2016年IEEE MTT-S 国际微波研讨会（ IMS ），第 1-3页。IEEE，2016.[29] 朴启凡，古普塔，高拉科塔，帕特尔.使用无线信号的整个家庭手势识别。在第19届移动计算网络年度国际会议的会议记录中，第27-38页ACM，2013年。[30] 赵凡秋，姚婷，陶梅。用伪三维残差网络学习时空表示。在IEEE计算机视觉国际会议论文集，第5533-5541页[31] Amir Shahroudy，Jun Liu，Tian-Tsong Ng，and GangWang.Ntu rgb+ d：用于3D人类活动分析的大规模数据集在IEEE计算机视觉和模式识别会议论文集，第1010-1019页[32] Karen Simonyan和Andrew Zisserman双流卷积网络用于视频中的动作识别。在Advances in neural i

下载后可阅读完整内容，剩余1页未读，立即下载