基于WiFi信号的细粒度人员感知

117 浏览量更新于2023-10-12 收藏 2.24MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5452Person-in-WiFi：使用WiFi的细粒度人员感知王飞<$周三平<$StanislavPanev<$Jinsong Han<$ 董煌<$†浙江大学网络科学与技术学院卡内基梅隆大学机器人研究所西安交通大学人工智能与机器人研究所§阿里巴巴-浙江大学前沿技术联合研究院{feiwang，spanev，donghuang}@ cmu.eduhanjinsong@zju.edu.cnsanpingzhou@stu.xjtu.edu.cn图1.个人WiFi上图：WiFi天线作为感知传感器。接收器天线将WiFi信号记录为Person-in-WiFi的输入。其余行是用于注释WiFi信号的图像，以及两个输出：人物分割掩码和身体姿势。摘要诸如身体分割和姿态估计的细粒度的人感知已经利用许多2D和3D传感器来实现，诸如RGB/深度相机、雷达（例如，RF Pose）和激光雷达。这些解决方案需要人体的2D图像、深度图或3D点云作为输入。在本文中，我们向前迈出了一步，以表明即使使用1D传感器，细粒度的人感知也是可能的：WiFi天线具体地，我们使用两组WiFi天线来获取信号，即，一个发射器组和一个接收器组。每套包含三个水平排列的天线，就像普通的家用WiFi路由器一样。WiFi信号-王飞在CMU做访问博士生时所做的工作由发射机天线产生的nal，穿透人体、家具和墙壁并在其上反射，然后在接收机天线处叠加为1D信号样本。我们开发了一种深度学习方法，该方法使用2D图像上的注释，将接收到的1D WiFi信号作为输入，并以端到端的方式执行身体分割和姿势估计。据我们所知，我们的解决方案是第一个基于现成的WiFi天线和标准IEEE802.11n WiFi信号的工作。通过展示与基于图像的解决方案相当的结果，我们基于WiFi的人员感知解决方案比雷达和LiDAR更便宜，更普遍，同时与相机相比，对照明不变，并且几乎没有隐私问题。5453⇥1. 介绍为了进行细粒度的人感知，如人体分割和姿态估计，已经使用了三种主要类别的传感器：相机（2D图像）、雷达（深度图）和LiDAR（3D点云）。这些方法需要传感器输出的最小空间分辨率。例如，相机的像素分辨率为300 300像素[30]，雷达的深度分辨率为2cm[59]，或与32束LiDAR相当的角分辨率[54，33]。此外，基于相机的解决方案受到诸如服装、背景、照明和遮挡的多样性的技术挑战以及诸如隐私问题的社会限制的限制。雷达传感器需要专用硬件，例如、RF-Pose [59]和RF-Capture [1]通过调频连续波（FMCW）技术产生深度图，其需要具有非常宽的带宽（1. 78GHz）。高清激光雷达价格昂贵，耗电量大，难以应用于日常和家庭使用。在本文中，我们提出了一个细粒度的人识别的解决方案，使用流行的WiFi天线和标准的IEEE 802.11n WiFi信号。这样的WiFi设备在仓库、医院、办公室、家庭中广泛使用，其中低照明、盲点、隐私问题使得相机不适用，而雷达和LiDAR安装起来太昂贵且耗电。挑战在于WiFi天线只能接收作为电磁（EM）波的振幅/相位的信号。接收到的幅度是3D空间的一维汇总。从一维摘要中重建细粒度的空间信息是一个严重不适定的问题。它甚至更符合人的感知：（1）人体和环境通过多传播路径效应对WiFi信号的联合干扰[57]。(2)由于骨骼、肌肉和脂肪分布，身体之间的EM特性多种多样[51]。(3)由于呼吸和心跳而引起的时间物理变化[52]。由于这些挑战，WiFi天线仅在检测存在或粗糙的身体质量方面进行了初步探索，即使使用大型天线阵列[23，22]。根据我们的调查，使用WiFi设备对细粒度人的感知从未得到解决。为了解决上述不适定问题，我们的解决方案从环境和人体的许多一维样本中学习。具体地，我们使用两组现成的WiFi设备，一组作为发射机组（T），另一组作为接收机组（R）。每组中有三个天线排列，类似于标准WiFi路由器（如图1所示）。在30个频率下记录了WiFi信号，2.4 GHz（IEEE 802.11n WiFi通信标准）。我们记录了RGB视频，并计算了身体分割掩码和身体关节来注释信号。该设置在T和R天线之间提供9个传播对，每个天线对的1D叠加模式，以及人体的多个2D空间注释。我们开发了一种深度学习方法，该方法使用来自RGB视频的注释，WiFi样本作为输入，并重建2D身体分割掩码和身体关节坐标。实验表明，我们的方法具有与计算机视觉方法相当的人感知能力2D图像。图1显示了我们的Person-in-WiFi方法的示例。据我们所知，这是第一个工作，证明：1. 细粒度的人感知可以使用普适WiFi天线来实现。2. 为了在2D中感测人体，传感器的物理空间布局可以低至一维。3. 深度学习解决方案，将WiFi信号映射到人体分割掩码和关节坐标。2. 关于Person Perception的基于摄像头。深度学习在单目相机捕获的图像以及具有光流和运动捕获的图像上显著地改进了人类姿势估计[48，47，10，14，37，55，55，9][24，16，36，61]。最近流行的方法[20，11，15，35，56]使用强大的人物检测器，如Faster R-CNN [42]，SSD [30] Yolo [41]，FPN [29]从图像特征图中裁剪每个人的感兴趣区域。然后，在裁剪的特征图上独立地完成身体姿态估计。这种两阶段模式比基于全局联合热图（如OpenPose [9]）的先前方法获得更高的性能。不幸的是，我们不能从这种两阶段方案中受益，因为不可能从WiFi信号中裁剪人体的2D像素。受[9]的启发，我们开发了一种深度学习方法，直接从WiFi信号生成联合热图（JHM）和部分亲和场（PAF）。每个JHM编码所有人的一种类型的关节，并且每个PAF编码人肢体的方向和长度。然后，从类似于[9]的JHM和PAF计算个人姿势。基于雷达Adib等人[2]介绍了一种频率调制连续波（FMCW）雷达系统，具有5. 56 GHz至7. 25 GHz的室内人体定位，获得定位分辨率为8。8厘米。该系统采用软件定义雷达（SDR）工具包和T形天线阵列构建。此外，该系统是良好同步的，以使得能够在接收之前计算经历传输、折射和反射的EM波的飞行时间（ToF）。ToF然后用于生成环境的深度图。在[1]中，他们通过专注于移动来推广该系统545411112233⇥⇥⇥图2.在单人移动和多人互动期间记录的WiFi CSI样本约320秒。橙色曲线包含一个发射器天线和一个接收器天线之间的一个WiFi信号频率的CSI样本人，并生成一个粗略的单个人的轮廓与序列的深度图。最近，他们应用深度学习方法，使用类似的系统（称为RF-Pose）进行细粒度的人体姿势估计[59]。基于LiDAR LiDAR捕获3D点云，并已广泛用于自动机器人，用于同步定位和映射（SLAM）[21，13]，人员检测[54，33]，跟踪[45，28]和监视[7，8，44]。LiDAR传感器提供的空间分辨率低于相机。设置��（）（一）CSI方程��1=��（��，��，��1，1��，1）��1×1×1=��例如，具有90°对角视场的全高清摄像机，��=视图提供的角分辨率为0的情况。03.如果2×2×302230⇡��=��（，，，，）��市场上最先进的激光雷达可以提供到2000。08○分辨率。经济实惠的激光雷达通常具有（b）第（1）款3×3×303330角分辨率比更便宜的相机低至少一个数量级。此外，LiDAR具有5-20Hz范围内的采样率，这远低于其他传感器，例如相机（20-60Hz）或WiFi适配器（100Hz）。为了提高鲁棒性，许多研究人员将LiDAR与RGB相机[38，32，19]或运动传感器[12]结合起来进行行人检测。基于WiFi。WiFi仅被探索用于粗粒度感知，诸如利用EM传播模型的室内定位[3，27]和对封闭的活动集合进行分类，诸如开门[39]、开门[4]和手动控制[50]。Wision [23]使用8 × 8WiFi天线阵列生成气泡状2D热图，以对单个静态人进行成像。[22]通过在2D空间中扫描WiFi天线并记录信号来生成静态物体的全息图，这实际上模拟了2D天线阵列。到目前为止，细粒度的人的感知与WiFi信号，如身体分割和姿态估计，还没有得到很好的探索。在本文中，我们向前迈出了一步，使这一点成为现实。3. 人的感知与WiFi信号3.1. 方法我们首先考虑WiFi传感系统的最简单设置W（·）（图3（a））：一个发射天线，一个发射天线，一个发射天线。接收天线和一个EM频率。一个人站在两个天线之间，一个脉冲信号从发射天线广播。由于人体的电磁特性与地板、天花板、皮毛不同，图3. WiFi传感系统。H：CSI样本，P：人体，E：环境，T：发射天线，R：接收天线，F：EM频率。等，信号在身体上的无数点和方向上穿透、折射和反射。这个过程可以探测人体（P）和环境（E）的丰富的空间信息，供人感知。不幸的是，当穿透、折射和反射的信号到达接收天线时，它们叠加为单个信号样本，然后将其提取为信道状态信息（CSI）[18]。结果，WiFi信号探测到的例如，如果我们想要从一个CSI信号（由H表示）感知100 × 100 px图像坐标（由I（P）表示）中的人体，则我们必须在给定一个I（P）= f（H）等式的情况下求解104个未知数。我们通过使用以下两种解决方案来缓解此问题：（1）增加方程的数量。在我们的个人感知设备中，如图3（b）所示，我们使用3个发射天线（T）、3个接收天线（R）和30个EM频率（F）。作为奖励，天线之间的3 3 = 9传播对可以捕获来自不同路径的信号。30个EM频率在接收器天线处生成30个不同的叠加模式。这是因为不同波长的信号可以感知不同尺度的物体。此外，我们将I记录为20FPS的视频帧，并且将CSI信号H记录为100Hz，使得每个5455⇥ ⇥⇥⇥⇥⇥⇥⇥⇥I对应于5个连续CSI样本。结果，图3（b）中的系统针对人（P）和环境（E）的一个设置W（·）生成3 330 5 = 1350个H方程。我们的问题被简化为学习一个不适定较小的函数I（P）=f（H），有1350个方程和104个未知数. 注意，天线的数量，EM频率，Cies和CSI采样率受制于IEEE 802.11n/ac WiFi通信标准，并且不能明确地增加。(2)限制映射复杂性。我们从I（P）生成人体的多个空间表示，并学习使用多任务DNN将CSI映射到它们。所有这些表示共享相同的空间布局，同时突出不同的身体结构，如身体面具，关节和四肢。这种方法基本上增加了数据标签，并进一步缓解了不适定问题。3.2. WiFi信号、CSI和硬件在流行的IEEE 802.11n/ac WiFi通信系统中，数字包由具有多个频率的EM波并行承载，称为正交频分复用（OFDM）技术。这些数据包在多个天线对之间传输，称为多输入多输出（MIMO）。CSI是从每个频率处的每对天线之间的信号计算的CSI样本ci被计算为ci=yi/xi，其中xi和yi是发送和接收的数字分组。因此，ci与包装的数字内容无关，而是由于人体和环境对EM波的反射、折射、吸收而使用WiFi的CSI，人的感知是有趣的。为了记录CSI样本，我们使用英特尔5300 WiFi网卡并利用开源工具[18]记录了 30个EM波，带宽为20 MHz，以标准2为中心。4GHz WiFi。了2. 4GHz的电磁信号具有大约12. 5厘米类似于标准的家用无线路由器，我们在一个波长内均匀地间隔三个接收天线，12. 5厘米该设置最大化了在不同接收器天线处捕获的CSI的差异。图2示出了对应于相同场景下的不同人姿势和位置的CSI样本。4. 深度学习在Person-in-WiFi4.1. 数据和注释我们从接收器天线以100Hz记录CSI，并从连接有接收器天线的RGB相机以20FPS记录视频。视频仅用于注释CSI。我们根据时间戳同步CSI样本和视频帧。为了减少人体与环境之间的相关性，我们在实验室办公室的6个场景和教室的10个场景下收集了数据，如图4所示。八名志愿者被要求图4.16个室内场景下的数据采集图5.来自视频帧的注释示例：由Mask R-CNN [20]计算的身体分段掩码，由OpenPose [9]计算的JHM和PAF。#P12345总#F99,36613,03020,47620,2141,541154,627表1.数据统计：并发人数（#P）和视频帧数（#F）。进行日常活动，同时视频中的人数从1到5不等（见表1）。从每个视频帧，我们生成CSI的地面实况符号，如下所示。对于身体分割，我们使用Mask R-CNN [20]来生成人的分割掩码（SM），4682张量，其中46和82分别是高度和宽度。对于姿态估计，如在第2节中解释，我们不能使用像Faster R-CNN [42]，SSD [30]或Yolo [41]这样的人检测器来从输入CSI中裁剪一个人。我们使用OpenPose的最新Body-25模型[9]来输出身体关节热图（JHM）和部分亲和场（PAF）。对于每个帧，JHM是264682张量，其中26对应于25个关节和1个背景。PAF是52 - 46 - 82张量，其中52是26个肢体的x和y坐标。图5示出了视频帧上的注释的示例。4.2. 网络我们的深度神经网络（图6）将CSI张量映射到三个输出张量：SM、JHM和PAF，其中JHM和PAF稍后用于联合关联，如[9]所示。输入张量（150 3 3）包含5个CSI样本，5456⇥⇥⇥⇥⇥⇥⇥⇥⇥2⇥⇥1×46×82GTSMU-NQMask R-CNN150×3×312125×46×82JHM323CSI张量U-NQPAFs52×46×82OpenPose图6.用于Person-in-WiFi的深度神经网络：从CSI映射到身体分割掩码（SM）、关节热图（JHM）和部分亲和场（PAF）。响应于一个视频帧。输出为SM、JHM和PAF，大小均调整为c46 82。首先将输入张量上采样到1509696，馈送到剩余卷积-[43]第43话然后，使用高度上步幅为2且宽度上步幅为1的内核对U网输出进行下采样以匹配地面实况。我们发现SM（全身热图）和JHM（局部关节/四肢热图）是高度互补的，SM和JHM的一个U网产生了与两个独立U网相似的结果。我们在这里深入讨论空间信息是如何0000-1-0.5 0 0.5 1图7.左：JHM和PAF值的CDF右图：三个Matthew权重函数的例子。CSI中嵌入的信息被重构并映射到SM、JHM和PAF。我们以雷杰普的观点来解释其中LSM，LJHM和LPAF 是身体SM、JHM的损失卷积运算的有效域（RF）[46]。观察到堆叠CSI的维度分别表示时间信息（5）、EM频率（30）和天线之间的发射对（33）。由于发射天线和接收天线之间的相对距离和角度不同，3个传输对捕获9个不同的同一场景的1D摘要。尽管由于与到人体的距离相比间隔较小，因此差异很小，但这些1D摘要是由传感器的空间布局直接引起的。通过重新组织和重新加权，这9个数字可以潜在地重建场景的2D信息。这就是为什么我们沿着输入张量的3 - 3维执行2D卷积的原因。观察到，U-Nets的下采样部分之后的特征图具有140的RF大小，其大于上采样的150 96 96张量的高度和宽度。这确保了U-Net中的特征图观察到发射器和接收器天线之间的所有9个视图。在注释的监督下，U-网中的特征图被迫匹配SM、JHM和PAF的2D空间布局。4.3. 损失和马修重量和PAF s，尊重我。λi， i1、2、3是标量权重，这三种损失的平衡。我们使用二进制交叉熵损失来计算LSM，如[20，43，31]中所示。在[9]之后，我们将λ2和λ3设为1。λ1根据经验设定为0.1，以平衡LSM与LJHM和LPAF。接下来，我们将详细介绍我们在优化LJHM和LPAF时遇到的问题，以及我们提出的解决方法。以JHM损失为例，直接使用流行的L2损失[11，15，35，56]无法生成良好的JHM，请参见图8的中间部分。这是因为身体关节仅占据图像中非常少的像素，而L2损失倾向于在所有像素上平均回归误差。图7显示了一个JHM张量（26 46 82= 98072 标量）的累积分布函数（CDF），显示98%的像素被背景占据，只有不到2%的像素用于关节。这个问题可以通过OpenPose或StackedHourglass Networks等多个级联回归阶段部分缓解。这两种解决方案都使网络变得更加沉重。领先的自上而下的方法专注于裁剪的个人特征。但是不能直接从CSI张量中裁剪人物。我们使用一个简单但有效的损失，使网络更关注身体关节而不是背景：（i，j，c）？？2该网络是在多个损失的总和上训练的L=λ1LSM+λ2LJHM+λ3LPAF（1）LJHM=w（i，j，c）·<$y<$（i，j，c）-y（i，j，c）<$2，（2）其中w（i，j，c）是在inde x处的逐元素权重10.98.8.6.4.2y（i、j、c）0JHMsPAFsCDFk=1，b=1k=2，b=1k=1，b=0.5w（i，j，c）y（i，j，c）-0.50.55457p2p⇥⇥⇥p我我222 k-k图 8.Matthew Weight （ MW ）改进了姿态估计。左：OpenPose的地面实况[9];中：L2损失的结果;右：L2损失加MW的结果。（i，j，c），用于调整JHM上的优化关注度;y（i，j，c）和y（i，j，c）是JHM在（i，j，c）处的预测和注释。我们建议使用马修权重（MW）来实现注意机制。图9.对齐身体关节和人的边界框计算PCK指标。姿态估计：正确关键点的百分比（PCK）[6，58，34]。我们做了一点小小的修改如公式5所示，考虑到我们有注释。w（i，j，c）=k·y（i，j，c）+b·（y（i，j，c）），（3）1个P.！kpdi-gtik2其中（·）输出+1，当y（i、j、c）≥0，否则为-1。PCKi@a=Pp=1p2wp2+hp2a、（五）图7是三个MW示例。注意，MW较高JHM中较大的元素（身体关节）。同样，我们应用MW计算PAF损失LPAF。图8示出了与直接使用L2损失相比，MW显著改进姿态估计的示例。4.4. 实现细节我们在PyTorch中实现了网络。批量大小为32，初始学习率为0.001。亚当优化器，β1=0。9，β2=0。999W用于训练。我们在计算L JHM时使用a k=1，b=1MW，并且a k=1，b=0。3MW时，计算LPAF。这些网络被训练了20个时期。我们使用OpenPose Python API进行多人联合联想，给出JHM和PAF。输出张量为p25 3，其中p表示网络检测到的个人数量，25 3表示x轴，y轴和25个身体关节的置信度。5. 实验按受试者分组收集数据（每组1-5人）。每个小组被要求在场景中执行一个连续的动作。我们在与CSI样本同步的单摄像机图像上使用了分割（Mask R-CNN）和姿势（OpenPose）的自动注释。请注意，这是一个概念验证实验，可以通过高质量的手动注释和多相机图像（针对遮挡或墙后）进一步改进。身体分割： COCO 挑战中使用的联合平均交点（mIoU）和mAP（AP@50至AP@95），其中：式中与公式4相同。P是测试帧中的人数。i表示身体关节的索引，并且i{1，2，.，25}。pdpgtp2是预测和地面实况之间的欧几里得像素距离，由人的边界框的对角线长度，wp2+hp2归一化。为了获得人物边界框，我们将OpenPose [9]中的身体关节坐标与Mask R-CNN [20]中的边界框对齐（见图9）。我们做不使用的对象关键点类似-OKS）AP@a的COCO关键点检测的挑战有两个原因：（1）我们的25个身体关节需要25个超参数来计算OKS，但COCO数据集只提供了18个;(2)COCO数据集超级-参数基于COCO数据的统计，可能会在评估我们的数据集时引入偏差。在第一个实验中，每个受试者组的前80%的样本用于训练，后20%用于试验.训练样本和测试样本在运动和身体姿势上不同，但共享个人身份和环境。训练/测试样本的数量分别为123631和309965.1. 身体分割的性能身体分割的AP@50-AP@95的mAP为0的情况。38（见表2）。AP@50-AP@70的高值意味着可以从WiFi信号中正确检测到个人配置文件。AP@80-AP@95的低值表明微妙体面具没有被很好地检测到。图10定性地显示了与Mask R-CNN [20]的注释相比，WiFi的掩码。大多数身体位置，躯干，腿部可以很好地分割，这对于安全应用来说是足够好的1AP@a= NXNn=1（100·IOUn≥a）（4）例如检测老年人跌倒[53]和人与人之间的身体冲突。其中N是测试帧的数目，并且是逻辑运算，如果为真则输出1，如果为假则输出0。所有指标都是越高越好。5.2. 姿态估计由于我们使用OpenPose的Body-25模型来标注姿势，因此为25个身体计算了25个5458图10.身体分割和姿势估计的Peson-in-WiFi结果与Mask R-CNN和OpenPose的注释进行比较Miou地图AP@50AP@55AP@60AP@65AP@70AP@75AP@80AP@85AP@90AP@950.650.380.910.850.750.590.400.200.070.0100表2.身体分割的mIoU、mAP和AP所有指标都是越高越好。接头.我们在图11中绘制了4组中的PCK，并分析了姿态估计的性能。4组关节的实例是头部 { 鼻、 REye 、 LEye 、 REar 、LEar}、躯干臂{颈、右肩、肩、腕、肩、膝、腕}、腿{中髋、髋、膝、髋、膝}和脚{踝、踝、大脚趾、小脚趾，Mask-RCNNOpenPose我们Miou0.83-0.66mPCK@0.20-89.4878.75表3.Person-in-WiFi（接受过基于摄像头的方法注释的培训）和基于摄像头的方法之间的差距接收器天线和无数的信号反射路径可以LHeel，RBigToe，RSmallToe，RHeel}。如图11所示，大多数关节的估计在低（0. 1）标准化距离误差（水平轴）。换句话说，大多数关节位于小于0。1的人边界框的对角线长度。通常，躯干臂组和腿组中的大型身体部位的关节具有较高的PCK，而头部组或脚部组中的关节往往具有较低的PCK。我们将在下一小节中分析失败案例。图10示出了使用WiFi实现的姿态估计与来自OpenPose的注释的比较。5.3. 失败案例在我们目前的结果中存在几种失败情况（见图12）（1）缺乏空间分辨率（见图12（a-b））。由于衍射效应，小分支可以被绕过或混合在WiFi EM波中。例如，二、4 GHz的波长约为12。5厘米，并可能错过小于12的对象。5cm的传播路径，但也有3个不同的传播路径捕捉细小肢体的痕迹。图10显示了许多成功的案例。通过对小分支回归误差的加权、数据量的增加和时间平滑可以改善失效。(2)罕见姿势（图12（c-d））。数据的多样性和硬示例挖掘可以改善结果。(3)注释不完整：摄像头的视野比360度广播信号的WiFi天线更窄（水平70度）。在闭塞的身体部位上，单个摄像头的注释不完整（图12（e-f））。使用多个相机进行注释可以解决这些问题。5.4. 基于相机的方法上面的Person-in-WiFi模型是在上面训练的，因此受到使用Mask R-CNN和OpenPose生成的注释的限制。仍然有可能评估两种感知方法之间的差距。表. 3比较了从上述测试集中统一选择并手动注释的160个样本的结果[49]。定量差距是明显的，但可以减少更多的数据和高质量的注释，考虑到掩模R-5459鼻子Reye乐业后李尔髋关节中段RHipRKneeLHip膝关节OpenPose我们一BCDeF10010010010080 8080 8060 6040 4060 6040 4020 2020 2000.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.45归一化距离误差00.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.45归一化距离误差00.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.45归一化距离误差00.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.45归一化距离误差图11.姿态估计的PCK水平轴：关节的归一化距离误差（见图9）。垂直轴：25个身体关节的PCK分为四组：（1）头部，（2）躯干臂，（3）腿部，（4）足部。PCK越高越好。图12.失败案例示例：（a-b）缺乏空间分辨率;（c-d）罕见姿势;（e-f）摄像机视图注释不完整CNN和OpenPose使用大量数据进行训练5.5. 在未经培训的环境WiFi包含人体和场景的耦合散射图案。为了使系统与场景无关，我们希望抑制场景信息，并保留网络中的身体信息。我们发现解决这个问题的一些工作是活动分类[25，60]，这是一个比个人WiFi简单得多的任务。作为将Person-in-WiFi部署到未经训练的环境中的初步尝试，我们构建了一个GAN来将原始CSI张量转换为无法通过其场景区分的新张量。步骤1：预训练二进制环境判别器（D），其将随机的CSI张量对作为输入，并且如果成对的张量来自相同的环境则产生1，否则产生0;13.步骤1中的固定化（D）;更新Unet发电机网络（G），使得任何对发电机输出（GCSI）产生1s（相同环境）。同时，GCSI张量被用作Person-in-WiFi网络的输入张量（见图2）。（六）。发生器和Person-in- WiFi网络同时更新。我们对14个训练场景和2个测试场景进行了初步实验。上述训练方法将分割mIoU从0. 12比0 24，从19改进了姿态估计mPCK@0.20。34比3106.当然，进一步改善未经培训的环境，CSI1CSI2D？3c？p？o？？GCSI1（RQ 3NQ18）GQ µ q（UµGCSI2Pq3o--WF图13.环境不变性的对抗训练需要更多的数据和注释。5.6. 潜在的扩展• 时间扩展：时间稳定性和加速可以在[56，17，40]之后从姿势跟踪挑战[5]引入。• 3D和全捕获[26]扩展：使用多个校准良好的相机来提供3D注释，我们的系统可以产生3D姿态和体素分割。6. 结论作为感知传感器的WiFi设备与相机相比对照明和隐私友好是不变的，同时比雷达和LiDAR更便宜、更小并且更节能。在本文中，我们提出了第一个工作，给定的一维数据接收在WiFi天线，它是可能的，以重建二维细粒度的空间信息的人体。我们的Person-in-WiFi方法基于外壳外的WiFi天线，这些天线与常规的家用WiFi路由器一样排列在一起，使得在任何室内环境（如仓库、医院、办公室和家庭）中开发感知应用变得非常容易。鸣谢：这项工作得到了国家自然科学基金RI-1617953、国家自然科学基金61872285和61572396以及中央大学基础研究基金的部分支持。王飞和周三平得到了国家留学基金委的资助。Jinsong Han和Dong Huang为通讯作者。内容完全由作者负责，不一定代表支持机构的官方观点。脖子肩雷尔博RWristL肩勒博LWrist激怒兰克尔LBigToe小脚趾LHeelRBigToeR小脚趾RHeelPCKPCKPCKPCK5460引用[1] Fadel Adib，Chen-Yu Hsu，Hongzi Mao，Dina Katabi，and Fr e´ doDurand. 透过墙捕捉人体。TOG，34（6）：219，2015. 2[2] Fadel Adib，Zachary Kabelac，Dina Katabi，and RobertC Miller. 通过身体无线电反射进行3D跟踪在NSDI，第14卷，第317-329页2[3] Fadel Adib 和 Dina Katabi 。透过 WiFi 看墙！SIGCOMM COMPUT. Commun. Rev. ，43（4）：752013年8月。3[4] Kamran Ali，Alex X Liu，Wei Wang，and MuhammadShahzad.使用WiFi信号的击键识别。在莫比-Com，第90ACM，2015.3[5] Mykhaylo Andriluka，Umar Iqbal，Eldar Insafutdinov，Leonid Pishchulin ， Anton Milan ， Juergen Gall ， andBernt Schiele. Posetrack ：人体姿态估计和跟踪的基准。在IEEE计算机视觉和模式识别会议论文集，第51678[6] MykhayloAndriluka ， LeonidPishchulin ， PeterGehler，and Bernt Schiele.2D人体姿态估计：新的基准和最先进的分析。CVPR，第3686-3693页，2014。6[7] 贝内德克先生旋转激光雷达距离数据序列上的三维人监视。 Pattern Recognition Letters ， 50 ： 149-158 ，2014。3[8] Csaba Benedek ， BenceGa' lai ， Bala' zs Nagy 和 ZsoltJanko'。4d监视系统中基于激光雷达的步态分析和活动识别。TCSVT，28（1）：101-113，2018。3[9] 曹哲、托马斯·西蒙、魏世恩和亚瑟·谢赫。利用局部仿射场进行实时多人二维姿态估计。在CVPR，2017年。二、四、五、六[10] Xianjie Chen和Alan L Yuille.通过具有图像相关成对关系的图形模型的铰接姿态在NIPS，第1736-1744页，2014年。2[11] Yilun Chen，Zhicheng Wang，Yuxiang Peng，ZhiqiangZhang，Gang Yu，and Jian Sun.用于多人位姿估计的级联金字塔arXiv预印本，2018年。二、五[12] Arthur Daniel Costea，Robert Varga，and Sergiu Nedevschi.基于尺度不变多模态多分辨率滤波特征的快速提升检测。在CVPR中，第6674-6683页，2017年。3[13] 大卫·德鲁舍尔和斯文·本克。基于三维激光雷达的在线地图绘制的高效连续时间slam。ICRA，第1-9页，2018年。3[14] 范小川，康正，林跃伟，王松。结合局部外观和整体视图：用于人体姿势估计的双源深度神经网络CVPR，第1347-1355页，2015年2[15] 方浩书，谢淑琴，戴玉荣，陆策武。区域多人姿态估计。在ICCV，第2卷，2017年。二、五[16] 卡特琳娜·弗拉基亚达基，谢尔盖·莱文，潘纳·费尔森，和吉坦德拉·马利克.用于人体动力学的循环网络模型在ICCV，第4346-4354页，2015中。2[17] Rohit Girdhar 、 Georgia Gkioxari 、 Lorenzo Torresani 、Manohar Paluri和Du Tran。检测和跟踪：高效视频中的姿态估计在IEEE计算机视觉和模式识别会议论文集，第350-359页8[18] Daniel Halperin，Wenjun Hu，Anmol Sheth，and DavidWetherall.工具释放：收集带有信道状态信息的802.11n跟踪。 ACM SIGCOMM Computer CommunicationReview，41（1）：53-53，2011. 三、四[19] 韩晓峰，陆剑锋，泰英，赵春霞基于激光雷达和视觉的无人驾驶车辆行人实时检测ACPR，第635IEEE，2015年。3[20] Kai m ing He，Geo r gia Gkioxari，Piotr Doll a'r ，andRoss Gi r-shick. 面具R-CNN 。ICCV，第2980IEEE ，2017年。二、四、五、六[21] Wolfgang Hess ， Damon Kohler ， Holger Rapp ， andDaniel Andor.二维激光雷达实时闭环。见ICRA，第1271-1278页。IEEE，2016. 3[22] Philipp M Holl和Friedemann Reinhard。wi-fi辐射的全息图。物理评论快报，118（18）：183901，2017。二、三[23] Donny Huang，Rajalakshmi Nandakumar，and ShyamnathGollakota.无线成像的可行性和局限性。在SenSys，第266-279页中。ACM，2014年。二、三[24] Arjun Jain ， Jonathan Tompson ， Yann LeCun ， andChristoph Bregler.Modeep：一个使用运动特征进行人体姿势估计的深度学习框架在ACCV中，第302- 309315. Springer，2014. 2[25] JiangWenjun ， ChenglinMiao ， FenglongMa ，Shuochao Yao ， Yaqing Wang ， Ye Yuan ， HongfeiXue，Chen Song，Xin Ma，Dimitrios Koutsonikolas，et al.面向环境无关设备的自由人类活动识别. 在莫比-Com，第289ACM，2018。8[26] Hanbyul Joo Tomas Simon和Yaser Sheikh Total capture-ture：用于跟踪面部、手部和身体的3D变形模型在IEEE计算机视觉和模式识别会议论文集，第83208[27] Manikanta Kotaru ， Kiran Joshi ， Dinesh Bharadia ， andSachin Katti. Spotfi：使用wifi的分米级定位。SIG-通信计算Commun. Rev. ，45（4）：269-282，Aug. 2015. 3[28] 安格斯·利，乔勒·皮诺，尼古拉斯·奥尔梅多，张红。使用2d激光扫描仪进行人员跟踪。见ICRA，第726-733页。IEEE，2015年。3[29] 林宗义、彼得·多尔、罗斯·格希克、何开明、巴拉特·哈里哈兰和塞尔日·贝隆吉.用于目标检测的特征金字塔网络。在IEEE计算机视觉和模式识别会议论文集，第2117-2125页，2017年。2[30] Wei Liu ， Dragomir Anguelov ， Dumitru Erhan ，Christian Szegedy ，Scott Reed ，Cheng-Yang Fu ，andAlexander C Berg. Ssd ：单发多盒探测器。在ECCV中，第21-37页。施普林格，2016年。二、四[31] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分段的全卷积网络。在CVPR，第3431-3440 页，2015年。5[32] Damien Matti，Hazim Kemal Ekenel，and Jean-PhilippeThiran. 结合激光雷达空间聚类和卷积，5461用于行人检测的神经网络。CoRR，abs/1710.06160，2017。3[33] Daniel Maturana和Sebastian Scherer。Voxnet：用于实时对象识别的3D卷积神经网络在IROS中，第922-928页。IEEE，2015年。二、三[34] Alejandro Newell，Kaiyu Yang，and Jia Deng.用于人体姿态估计的堆叠沙漏网络参见ECCV，第483-499页施普林格，2016年。五、六[35] George Papandreou 、 Tyler Zhu 、 Nori Kanazawa 、Alex

下载后可阅读完整内容，剩余1页未读，立即下载