没有合适的资源?快使用搜索试试~ 我知道了~
无设备人类活动识别中的深度学习和迁移学习的最新进展
自动化与智能学报1(2022)100007深度学习和迁移学习用于无设备人类活动识别:一项调查JianfeiYang,YuecongXu,HaozhiCao,HanZou,LihuaXie新加坡南洋理工大学电子电气工程学院A R T I C L E I N F O保留字:人类活动识别深度学习迁移学习领域自适应动作识别免设备A B标准无设备活动识别在智能建筑、安全和人机交互中起着至关重要的作用,这显示了其便利性和成本效益的优势。传统的机器学习通过启发式手工特征和统计模型取得了很大的进步,但它受到局限性手动特征设计。深度学习通过自动高级特征提取克服了这些问题, 由于需要大量带注释的数据和跨站点问题,其性能降低。为了解决这些问题,迁移学习有助于从现有数据集中转移知识,同时处理背景动态的负面影响。本文综述了深度学习和迁移学习在无设备活动识别中的最新进展。我们从深度学习和迁移学习的动机开始,然后介绍主要的传感器模式。 然后介绍了用于无设备人类活动识别的深度学习和迁移学习技术。最后,对现有的工作和重大挑战的见解进行了总结和提出,以促进未来的研究。1. 介绍人类活动识别(Human Activity Recognition,HAR)[1]是指利用人工智能(Artificial Intelligence,AI)从各种传感器源收集的人类数据中识别人类活动的技术[2],在过去的几十年中发展迅速成功的HAR应用包括视频监控[3]、人员识别(例如步态识别)[4]、智能家居自动化(例如手势识别)[5]和目前针对HAR的解决方案主要依赖于各种传感器,这些传感器将HAR分为两种类型:基于设备的HAR和无设备的HAR。基于设备的HAR利用可穿戴传感器,例如手机中配备的惯性测量单元(IMU)。一个常见的例子是基于XYZ加速度计的步态计数算法无器械HAR不需要用户携带传感器。无设备传感器部署在周围环境中,可以检测人体运动,主要包括摄像机,物联网射频(RF)和WiFi。随着无设备HAR越来越普遍和方便,基于各种传感器的HAR的研究迅速膨胀。因此,本文主要研究无设备HAR及其深度学习解决方案.与基于设备的HAR类似,无设备HAR也被公式化为模式识别问题。传统的机器学习算法在无设备HAR的早期研究通过提取手工制作的特征,经典的分类器,如支持向量机,随机森林,朴素贝叶斯,取得了显着的成果。虽然这些方法在受控环境或小数据集中产生了很好的结果,但这些模型无法处理更复杂和动态的真实世界场景。这些缺陷部分是由用于特征工程的有限的人类知识引起的。手工制作的特征在面对复杂的场景(如人类活动的异质性)时不能很好地概括。此外,与基于设备的传感器相比,环境因素可以产生更大的影响 在无设备传感器上,例如视频中的背景杂波。传统的机器学习方法无法应对这些挑战。最近,深度学习技术已经迅速发展成为HAR的强大工具。在反向传播的支持下,深度模型能够通过设计目标函数(例如HAR分类问题的交叉熵损失)来自动学习鲁棒特征。以这种方式,深度学习在计算机视觉,自然语言处理和大数据分析方面取得了显着的表现。无设备HAR系统经过改进,可以获得更细粒度的结果,因为它们采用了深度学习模型。而且,与经典机器学习不同,深度学习的优点更好地体现在各种更真实的学习场景中,这项工作得到了新加坡南洋理工大学总统博士后奖学金“智能城市鲁棒感知和识别的自适应多模态学习”项目基金的支持∗ 通讯作者。电子邮件地址:yang0478@e.ntu.edu.sg(J. Yang),xuyu0014@e.ntu.edu.sg(Y.Xu),haozhi001@e.ntu.edu.sg(H.Cao),zouh0005@ntu.edu.sg(H.Zou),elhxie@ntu.edu.sg(L.Xie)。https://doi.org/10.1016/j.jai.2022.100007接收日期:2022年8月8日;接收日期:2022年8月18日;接受日期:2022年10月22日2949-8554/©2022作者。 由Elsevier B. V.代表KeAi Communications Co. Ltd.发布。这是CC BY-NC-ND下的开放获取文章 许可证(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表自动化与智能杂志期刊主页:www.keaipublishing.com/en/journals/journal-of-automation-and-intelligence/J. Yang,Y.Xu,H.Cao等人自动化与智能学报1(2022)1000072|���=1数据和标签,如无监督学习,迁移学习,少量学习,在线学习和增量学习,这使得强大的HAR系统能够以较低的注释成本执行为了克服实践中标注数据的缺乏,迁移学习被广泛应用于无设备HAR,并发布了大量公共数据集。深度学习模型在现有数据集上进行预训练,然后在特定应用程序或下游任务上进行微调。 然而,由环境动态和数据集偏差引起的域转移严重阻碍了深度模型的性能。领域自适应作为一种重要的迁移学习技术,其目的是通过弥补领域迁移的空白,将知识从已知的源领域迁移到未标记的目标领域。如图1,它有助于深度HAR模型适应更具挑战性的情况,例如黑暗中的HAR [7]和跨站点WiFi人体感知[8],这在现实世界的无设备HAR应用中起着至关重要的作用。虽然在深度学习[9,10]中有一些针对基于设备的HAR或视觉HAR[11,12]的调查,但还没有具体的调查基于深度学习和迁移学习来调查无设备HAR。据我们所知,这是第一篇总结深度学习和迁移学习在无处不在的无设备HAR系统中的最新进展的文章。本调查介绍了无设备HAR系统的工作原理,以及深度学习和迁移学习如何促进无设备HAR应用。通过对现有文献的总结,提出了未来研究的方向和展望.本次调查中的论文使用Semantic Scholar和Google Scholar进行选择,关键词为活动识别,视觉动作识别,迁移学习,深度学习和无设备。 我们主要考虑在顶级会议上的高影响力论文,包括CIMCOM,CIMSys,Ubicomp,PerCom,CVPR,ICCV,ECCV,NeurIPS和同行评审期刊。对于数据集论文,我们在Mendeley Data,Github和IEEE Dataport中搜索学术数据集。 硬标准保证了这次审查中论文的质量本文的其余部分组织如下。第二节介绍了 无设备HAR的背景,如何利用深度学习以及为什么迁移学习有效。在第3节中,我们总结了无设备HAR系统的主要传感器模式。在第4节中,我们回顾了基于深度学习的HAR方法,而基于迁移学习的方法将在第5节中进行回顾。还介绍了相关数据集。然后,我们总结了现有的工作,并提出了一些见解在第6节。第7节讨论了未来的方向。 本文在第8节中结束。2. 背景2.1. 无设备活动识别人类活动识别的目的是根据特定的需求来理解和预测人类的行为。无设备HAR利用部署在周围环境中的各种传感器。对于特定时间戳,无设备传感器捕获 人类的动作������= {���1,���2,������Fig. 1. 使用深度神经网络和迁移学习技能的无设备HAR的说明。深度神经网络具有从各种数据模式中识别人类活动的强大能力。然而,由于训练和测试阶段之间的分布差异,深度模型可能会降级。无监督领域自适应利用未标记的目标数据进行知识转移,在实际的HAR场景中实现了显著的改进。其中������是������和������∈ {������= 1,2,.,}的活动标签���。���是标签空间的活动数 对于HAR任务,我们的目标是建立一个模型,它可以���根据传感器数据预测活动标签������(���).(四)样本级HAR问题可以扩展到帧级分类或活动分割问题。在这里,我们只关注样本级HAR和回顾其最新进展。2.2. 基于深度学习的HAR的优点和缺点与传统的机器学习相比,基于深度学习的HAR可以产生更好的结果,并有助于识别更复杂的人类活动。深度学习HAR方法的优点如下:(1) 深度学习使用海量数据提取更强大的特征。虽然人类专家知识帮助我们为HAR设计有效的手工特征[14],但当面对动态环境或更复杂的人类活动(例如包含一系列不规则人类运动的健身房运动)下的数据时,这些特征可能无法保持良好的泛化能力。深度学习方法通过新颖的网络架构和反向传播自动学习主要有助于任务的特征空间[15],这克服了手工特征的缺点[10]。(2) 深度学习仍然可以以无监督的方式学习表示。基于互信息和对比学习的无监督学习的最新进展[16,17]解决了需要大量昂贵的注释良好的数据的问题。然而,在现实世界的应用中,深度模型仍然面临挑战:(1) 深度学习模型仍然需要足够的标记HAR数据,���������获得良好的分类器。 实际上,这些数据要么很昂贵,其中,������是在时间的传感器数据���,������表示���传感器的第一维,���表示的总���维数���。例如,���是基于相机的HAR的RGB像素数[11],而���是基于WiFi的HAR的子载波数[13]。人类活动的每个样本可以持续一段时间,其被写为���������={���1,���2,������其中样本的维数������为���∈ R��� ×���。无设备HAR数据集由样本组成���,{������,������}��� 、(3)很难收集或记录。(2) 对于无设备HAR,动态和复杂的环境可能会降低深度学习性能[5,8]。尽管深度学习的功能很强大,但统计学习方法仍然遵循训练和测试数据独立且同分布的假设。当环境动力学改变HAR数据分布时,这可能会被打破。例如,在视觉HAR中,训练样本大多来自光照条件良好、人体目标清晰的理想环境,但在现实世界中,测试场景可能是在夜间,目标被严重遮挡。J. Yang,Y.Xu,H.Cao等人自动化与智能学报1(2022)10000732.3. 为什么迁移学习?为了应对特定任务缺乏大量注释数据的挑战,迁移学习应运而生[18]。最常见的技术是预训练[19]和微调。基于现有的公共数据集,人们可以提前预训练模型,然后重新使用特征提取器(例如深度卷积神经网络[20])的参数来进一步训练该特征空间中的分类器。这也适用于无器械HAR字段[21]。使用预先训练的参数,深度模型只需要少量的注释数据进行微调。预训练对于我们面临标记HAR数据短缺的场景取得了显着的改善,但它并不适用于所有应用。它的使用范围应该依赖于预训练数据与测试场景相似的假设,跨不同领域的知识转移是无效的,甚至会导致负转移[22,23]。例如,现有的视觉HAR数据集大多是在光照良好的白天收集的,但目标任务是在黑暗中进行HAR [7]。另一个例子是基于跨站点WiFi的HAR [24,25]。这种差异的一部分可以用公式表示为分布差异(即,主要偏移),这可以通过领域适应方法来解决[26]。 领域自适应(DA)可以将知识从标签丰富的源领域转移到标签稀缺或未标记的目标领域。使用DA,深度HAR模型可以适应各种看不见的场景,而无需专家注释。在接下来的章节中,我们将从各种无设备传感器模式开始,然后回顾深度学习和迁移学习模型在鲁棒HAR方面的最新进展。3. 无器械传感器模态已经开发了各种无设备传感器模态,以提供用于人类活动识别的不同粒度的感测解决方案。这些技术的主要特征(例如成本、粒度和隐私保护)总结在表1中。3.1. 相机如今,摄像头无处不在,因为CCTV被广泛部署用于安全。可以通过相机捕获大量图像和视频,随着深度学习的发展,已经开发出精确的视觉HAR系统[27]。视觉传感具有高粒度的传感材料,但也引起了隐私问题,例如医院或智能家居中的HAR。此外,在某些特定情况下,照明和遮挡也会严重影响视觉感知的性能[7,28],这需要其他传感技术进行补充。3.2. LiDAR激光雷达能够通过照射来测量到目标的距离。 用激光照射目标,然后测量反射光。使用激光返回时间和波长,可以获得目标的3D表示。其感测粒度非常高,这使得基于激光雷达的物体识别[29]和HAR [30]成为可能。尽管有高维激光雷达数据,但深度学习模型有足够的能力捕获HAR的判别特征[31]。然而,激光雷达价格昂贵,其数据的处理需要高计算资源,这使得它不适合边缘侧HAR应用,如智能家居中的HAR。3.3. 雷达基于雷达的HAR更具吸引力,因为它具有成本效益和隐私保护[32]。与使用激光的激光雷达不同,表1主要传感技术概述。技术粒度成本隐私保护相机高中等否红外线低低是RF中中等是雷达中等是激光雷达高高否ES低低是WiFi高低是雷达利用基于收发器天线的无线电波,例如毫米波雷达[33]。点云可以在一系列变换之后获得[34]。雷达可以探测到更远距离的人体运动,并且不受照明或天气的影响。但数据粒度不如激光雷达高,带来更多挑战to model模型design设计.3.4. 热释电红外(PIR)热释电红外传感器(PIR)可以检测指定区域内的人体运动。当PIR传感器暴露于红外辐射形式的热时,其产生表面电荷。范围红外线波长的范围是从700 nm到1 mm,并且这比可见光长,这使得基于PIR的感测比视觉感测侵入性更小。PIR广泛用于智能建筑中的HAR应用,包括占用检测[35]和入侵者检测[36]。然而,PIR的感知粒度不高,因此它不必依赖于深度学习,不能用于细粒度的活动识别或其他高级任务。3.5. 环境传感器(ES)环境传感器主要包括光、风、空气质量、温度、湿度和CO2传感器.它们被部署在室内环境中,通常反映人类的生活舒适度。ES通常用于改善热舒适性和节约能源[37]。 ES收集的数据也用于预测入住人数[38]。自然,随着更多的人导致更多的热量和二氧化碳浓度,简单的统计学习方法,如线性判别分析(LDA)和随机森林(RF)可以产生令人满意的结果。ES的缺点是ES的大规模部署带来了高成本,并且ES不能提供用于细粒度感知的高分辨率数据。3.6. 射频(RF)射频识别(RFID)属于基于无线电的传感[39]。其他基于无线电的方法包括ZigBee无线电和WiFi无线电。RF信号以被动方式捕获人类活动传统的统计学习模型,如K-最近邻(KNN),实现了令人满意的性能,基于RF的活动识别。部署多个RF传感器可实现无设备HAR,以进行同步活动[40]。RF传感器的缺点是感测范围相当有限,因此RF传感器应该大规模使用,这可能导致更高的成本和额外的部署过程。3.7. 无线局域网(WiFi)如今,WiFi接入点已经部署在大多数商业和剩余建筑中,附近的每个物联网设备,如条形音箱,电视,恒温器和电源开关,都配备了WiFi 模 块 。 近 年 来 , 从 无 线 通 信 的 物 理 层 提 取 信 道 状 态 信 息(CSI),其反映了无线通信系统的性能。J. Yang,Y.Xu,H.Cao等人自动化与智能学报1(2022)1000074室内环境中无线信号的多径传播的情况。基于WiFi的感测以无设备的方式进行,并且CSI数据的粒度中等高。 最近的文献已经见证了CSI测量在各种HAR应用中的许多成功应用,例如无设备室内定位[41]、动作识别[42,43]、手势识别[8]、人类识别[4]、吸烟检测[44]和人群计数[45,46]。 然而,由于个体异质性和环境动态性,深度模型可能捕获CSI数据中的固有噪声,这降低了性能。3.8. 超宽带(UWB)超宽带是指具有大于500MHz的大有效带宽的无线电通信,这意味着它可以在短距离内传输大量数据。同时,超宽带雷达是由大量的快速短脉冲,占据整个带宽。此外,由于高时间分辨率,它对多径效应不敏感。基于UWB的HAR在智能家居自动化和室内定位服务中越来越受欢迎[47,48]。苹果iPhone 11已经配备了UWB信标[49]。4. 深度学习实现无设备HAR4.1. 深度神经网络受生物神经系统[50]的启发,已经提出了基于深度神经网络(DNN)的深度学习方法,以自动方式提取数据特征在各种类型的DNN中CNN由多个层组成,包括卷积层、池化层、激活层和全连接层。LeNet [51]是一个开创性的工作,它已成功地应用于手写数字分类。在过去的几年里,随后引入了更深更复杂的CNN [52-对于HAR应用,1D或2D CNN可以提取空间和时间特征,但限制是卷积核的大小仅关注局部模式。如果模式的长度很长,例如时间数据,那么CNN可能不够有效。为了捕获长期和短期模式,提出了递归神经网络(RNN)[20]。长短期记忆(LSTM)[57]是RNN的一种特殊设计,它使用多个门单元来忘记或记忆特定信号。 LSTM适用于序列数据的表示学习,广泛用于自然语言处理[58]和时态数据建模[59]。然而,LSTM需要足够的训练数据,与CNN相比,其训练的计算复杂度很高。对于CSI数据,当长期模式很重要时,LSTM是学习的灵丹妙药 从时间轴上记住这些模式。 然后,我们回顾了CNN和LSTM在HAR中的应用,以及最近先进的架构(例如,变压器也包括在内。4.2. 基于摄像头的HAR视觉HAR通常通过视频执行,视频可以被视为跨时间顺序放置的多个图像的集合。作为最常用的DNN之一,CNN已被广泛应用于视觉HAR。根据所使用的CNN类型,视觉HAR的深度学习方法通常可以分为两类:基于2D-CNN的方法[60,61]和基于3D-CNN的方法[62图二. 双流网络的典型结构。资料来源:Simonyan et al. [65].4.2.1. 基于独立时空特征提取的HAR特征学习早期用于动作识别的深度学习方法,例如[60,65]中提出的方法,利用2D-CNN从视频中提取特征。在这两种方法中,视频帧被采样并用作2D-CNN的输入以进行特征提取。同时,之前的研究人员认为人类也会以双流的方式处理视频:背流处理对象属性,如对象外观和对象颜色;而背流处理对象的运动和位置[66]。受此类研究的启发,添加了一个单独的流来提取嵌入在视频中的时间特征,利用使用TV-L1 [67]等算法计算的光流[60,65空间流和时间流的结构通常是相似的或者甚至是相同的(例如,[65]但他们是分开训练的。每个单独流的softmax分数与后期融合策略相结合。双流网络的典型结构如图所示。二、随后,多个网络被提出来改进早期的双流网络。一种改进涉及空间和时间流之间的融合策略[60],其中从每个流中提取的特征在获得softmax分数之前进行融合;另一种改进是在ST-ResNet [68]中提出的,其中ResNet [54]用作特征提取主干。时间段网络(TSN)[61]改进了以前的工作 通过将视频分割成片段,提取片段的空间和时间特征,通过分段一致性融合获得整体视频特征。DOVF [69]通过采用两阶段分类策略从TSN扩展而来,而TRN [70]将视频分割成片段多个时间尺度。 或者,手工制作的功能,如iDT与双流网络聚合,以实现更好的性能[71]。同时,光流计算需要高计算能力和大的存储资源。此外,光流需要预先计算,这禁止了完全的端到端训练。为了解决这些限制,后续的工作提出通过可训练的神经网络来估计光流。FlowNet [72]从合成的地面真实数据中学习光流就是一个例子。随后,MotionNet [73]通过预测连续帧来估计光流,LMoF [74]构建了一个可学习的方向滤波层,而TVNet [75]展开了TV-L1 [67]算法并使用神经网络对其进行了公式化[76]第七十六话通过构建光流卷积层扩展TVNet估计。还有其他基于2D-CNN构建的方法,同时避免使用光流。一个典型的策略涉及使用递归神经网络(RNN)及其变体以序列信息的形式对时 间 特 征 进 行 建 模 。 一 项 开 创 性 的 工 作 是 长 期 递 归 卷 积 网 络(LRCN)[77],它使用2D-CNN提取每帧的特征,而整体视频特征通过长短期记忆(LSTM)风格的RNN建模[57]。最近,Shi等人提出了ShuttleNet [78],它由环路连接的门控递归单元[79](GRU)构建J. Yang,Y.Xu,H.Cao等人自动化与智能学报1(2022)10000754.2.2. 基于时空联合特征提取的HAR特征学习将深度学习应用于视觉HAR的更直接的方法是联合提取时间特征和空间特征,在空间和时间维度上应用卷积操作3D-CNN在[80]中首次引入,在用硬连线层预处理的视频上执行。 [80]中使用的卷积核是3D核,其中滤波器沿着时间维度扩展。从经验上讲,3D-CNN在没有光流的情况下明显优于2D-CNN。随后,在[81]中提出了一种缓慢融合策略,该策略利用3D-CNN逐步融合从多个剪辑中获得的视频特征此外,C3D [82]被引入作为通用视频特征提取器,使用完整的视频帧作为输入,同时采用均匀卷积核。随着VGG [52],ResNet [54]和ResNext [55]等更大更深的网络的引入并取得了出色的性能,这一进展也被用于3D-CNN的视觉HAR。I3 D [62],3D-ResNet [83]和3D-ResNext [84]是通过将其2D-CNN对应物的卷积核扩展到时间维度来构建的,与C3 D相比,它们都是更深更大的3D-CNN尽管3D-CNN能够用空间特征特征联合而没有光流,它们的参数大小比它们的2D对应物大得多,导致计算量增加和训练困难。 为了解决这些问题,I3 D [62]提出通过增加为图像分类训练的2D-CNN的权重来初始化3D-CNN。同时,R(2+1)D[83]提出通过将空间卷积操作与时间卷积操作分离来提高3D-CNN效率。这一策略由S3D [85]和P3D [86]共享。或者,离散卷积网络(CSN)[87]表明,3D-CNN的效率和有效性也可以通过单独执行跨通道的卷积操作来提高。MFNet [88]也采用这种策略,同时包括多路复用器模块以促进跨通道的信息流。 最近,提出了SlowFast Network [89],以包括用于分别建模空间和时间语义的慢速和快速路径。此外,嵌入在视频中的相关信息可以与3D-CNN相结合,以进一步提高性能,如ACTF [63]中所建议的那样,它利用帧间区域相关性,以及KPSEM [64],它利用时空关键点之间的相关性。4.2.3. 用于HAR特征学习的自注意最近,在利用自我注意作为通过输入数据内的相关性进行特征提取的手段方面,已经出现了研究兴趣的上升。自我注意在自然语言处理(NLP)中被证明是有效的,并且随后被用于视觉HAR。一项开创性的工作涉及非局部网络(NLNet)[90],它将自注意力扩展到时空特征并提取长距离时空相关特征。NLNet的变体从网络泛化[91,92]和网络效率[93,94]的角度进行了改进。 上述模型仍然需要CNN作为特征提取的主干。随着最近纯自我注意力网络的成功,如Transformer [95],这种策略也被应用于视觉HAR。[964.2.4. 基准数据集各种基准数据集的开发是视觉HAR中深度学习方法快速发展的关键驱动力。为了评估第4.2节中介绍的各种方法的性能,建立了一些数据集。早期的基于视觉的动作识别基准数据集包括KTH [99],Weizmann[100]和IXMAS [101]。通常,这些数据集包含相对少量的动作类,并且在不使用公共可用视频的情况下离线收集。这些以前的数据集的性能大多是饱和的,部分原因是它们的规模很小。更大的数据集例 如 Hollywood2 [102] 、 Olympic Sports dataset [103] 、 HMDB51[104]、UCF50 [105]和UCF101 [106],其中视频是从YouTube等公共视频平台收集的。HMDB51和UCF101仍然被认为是合格的基准,在过去十年中不断取得进展。最近,更大规模的数据集被进一步引入,以包括更多的类和视频。其中包括Kinetics数据集[107]这是就行动类别数量而言最大的数据集之一。它以其规模成为动作识别研究的首选。与此同时,随后,视觉HAR数据集的规模进一步增加,推出了这些更大数据集的引入有助于推动基于视觉的动作识别的边界,并导致更复杂模型的提出。然而,大型数据集需要大量存储并且在没有强大的计算工具的情况下是耗时的(即,GPU或TPU)。为了适应这些限制,缩小规模的数据集,如MiniKinetics[85],引入了更少的动作类别和视频。最近,关于不利环境中的计算机视觉任务的研究兴趣迅速增加,例如黑暗中的人脸识别[110在不利环境下的视觉任务的研究已经进一步扩展到视频领域。对于不利环境中的视觉HAR,ARID [7]被引入作为黑暗中HAR的第一个公共数据集。实验结果表明,目前的深度学习方法无法在恶劣环境中应对视觉HAR,并建议应用其他技术。表2总结了上述所有数据集4.3. 物联网支持的HAR4.3.1. 支持深度学习的HAR系统与视觉HAR不同,从第3节中提到的物联网传感器收集的其他形式的数据没有精细的粒度,导致数据维度更小。通常来说,非常深入的模型不会被用于支持物联网的HAR系统。可以看出,深度学习方法已成功应用于大多数无设备传感器模态。 对于基于RF的HAR,Chen等人提出了一种基于逐点分组卷积和深度可分离卷积的轻量级CNN模型[113]。同时,LSTM被用于基于红外运动传感器的HAR [114]。 由于LSTM具有从序列中提取时间数据的强大能力,因此它也适用于基于环境传感器的HAR [115],其粒度较低,但具有更多的感知视角。对于毫米波雷达,其多普勒特征和生成的点云都可以被馈送到深度HAR模型中[32]。多普勒特征(如微多普勒频谱图[116])可以被视为图像并由2D-CNN处理,而点云数据需要深度模型的特殊设计,如PointNet和图形神经网络(GNN)[117]。Meng等人利用CNN,GNN和PointNet进行基于雷达的步态识别,并达到90%的准确率[118]。基于UWB的HAR系统依赖于高分辨率通道脉冲响应(CIR)[119],其基于2D-CNN实现了复杂活动的高识别精度。WiFi CSI数据也是CIR的估计,但它受到多径效应的影响[120]。即便如此,基于WiFi的HAR系统仍然具有较高的识别性能,并且基于纯CNN模型[8]或长期递归卷积网络(LRCN)[121]的成本较低。深度学习已经实现了许多基于WiFi的HAR应用,包括占用检测[46],手势识别[8,121J. Yang,Y.Xu,H.Cao等人自动化与智能学报1(2022)1000076||表2当前可视化HAR数据集的概述。数据集#类#视频收集方法年份下载链接KTH [99] 6 2,391离线2004网站[100] 10 90离线2007网站IXMAS [101] 11 1,148离线2007网站好莱坞2 [102] 12 3,669在线2009网站奥林匹克体育[103] 16 800在线2010网站HMDB51 [104] 51 6,849在线2011网站[105]第105话最后一次见面UCF 101 [106] 101 13,320在线2012网站Something–SomethingSomething–SomethingKinetics-400 [107] 400 160,000在线2017网站MiniKinetics [85] 200 85,000在线2018网站[109] 2019年1,000,000在线网站ARID [7] 11 3,784离线2020网站表3物联网支持的HAR数据集概述(h:小时; frs:帧)。数据集传感器模态采样率#类#主题#样本年份下载链接Kasteren [134] RF NA 8 1 245 2008网站SBR-WiFi [135] WiFi 1000 Hz 6 720 2017网站SignFi [126] WiFi 200 Hz 276 5 8280 2018网站WiAR [136] WiFi 30 Hz 16 10 4800 2018网站Widar-Gait [137] WiFi 1000 Hz 16 16 12000 2019网站mmGait [118] mmWave Radar NA 95 95 30 h 2019网站LboroHAR [132] Lidar,RGBD NA 9 16 136710 frs 2019 NACI4R [138]毫米波雷达NA 11 6 2640 2020网站IR-UWB [139] UWB NA 6 8 4230 2020网站LAMAR [133] Lidar NA 7 3 NA 2020 NA一个更重要的因素是由于边缘设备的约束而导致的计算复杂度的限制提供了两种解决方案。第一个是设计和使用具有更少参数和计算负担的轻量级模型,这可以通过模型压缩来实现[127]。例如,基于RF的HAR利用压缩感知来学习紧凑且去噪的表示[128]。网络修剪还有助于通过削减冗余连接来加速深度HAR模型,这在高分辨率模态(即点云)中起着重要作用,例如基于雷达和基于激光雷达的HAR[129,130]。第二种方案是将数据传输到云服务器进行模型推理。然而,边缘HAR设备需要更高的通信流量。这可以通过自动编码器和量化来解决例如,Ef- ficientFi是为大规模无线传感而开发的,它由压缩和解码HAR传感数据的量化自动编码器和进行活动识别的联合训练分类器组成[131]。自动编码器学习的离散特征空间对于云集中式计算来说是通信友好的。4.3.2. 基准数据集物联网支持的HAR系统的深度学习并不像视觉HAR那样蓬勃发展这部分是由于缺乏各种模态的高质量注释HAR数据集造成的我们从传感器模态、活动数量、样本数量、采样率、受试者数量和采集年份的角度对这些数据集进行了广泛的有些数据集还没有划分样本,所以样本号是按其采集时间填写的。数据集总结见表3。其中两个数据集尚未公开,可能需要其作者访问[132,133]。5. 无设备HAR5.1. 迁移学习和领域适应虽然深度学习具有很强的拟合能力,但它仍然需要大量的标记数据,这些数据对于某些任务来说很难收集,而且收集起来很昂贵。预训练通过学习先验知识来处理这个问题在现有的数据集上,然后在下游任务中重用这些参数。然而,它仍然不能推广到分布与训练集不同的域。原因在于统计学习算法中的一个主要假设,即训练数据和未来的测试数据共享相同的特征空间,因此具有相同的分布。在许多现实世界中,这种假设并不成立。这可以通过域适应来解决,域适应旨在将知识从标签丰富的源域转移到标签稀缺甚至未标记的目标域[140]。P表示源分布,Q表示目标分布。问题是,这()()。���对于相同的任务,域自适应的假设是条件输出分布是不变的,即()=(),其中,分别是输入数据和输出标签[18]。������������因此,大多数领域自适应算法处理同一任务的训练数据和未来测试数据对于HAR应用程序,DA解决了两个重要问题:缺乏数据 在测试场景中以及训练数据和测试数据之间的数据集偏差。总之,DA在经过良好训练的模型和新的测试场景之间架起了一座桥梁。例如,在无线感测中,传感器数据是人类运动和环境的叠加。 环境变化对HAR模型的性能不利[124],这需要我们应用DA。目前,DA的主流包括基于概率的DA[141],对抗DA [142],语义DA [143]和熵最小化[144]。DA场景包括闭集DA [145],部分DA [146],开集DA [147],多源DA [148]和无源DA[149,150]。在这里,我们回顾了视觉和支持物联网的HAR系统的预训练和DA应用。5.2. 跨域可视HAR的应用5.2.1. 预训练和微调跨域视觉HAR的早期工作试图以完全监督的方式在图像域中检索预训练的成功。具体来说,网络首先在大规模标记数据集上进行预训练,以学习一般表示,然后在目标数据集上进行微调。由于视频是由多个J. Yang,Y.Xu,H.Cao等人自动化与智能学报1(2022)1000077沿着时间维度的图像帧,对于完全监督的预训练有两种替代方案:一种是直接利用来自图像域的预训练模型进行视频动作识别,而另一种是在早期的大规模视频数据集上预训练模型(例如Kinetics-400 [107],Sports-1 M [81])。其中一项主要工作[62]比较了这两种预训练方案之间的差异,并建议在大规模视频数据集上进行预训练可能会产生更强大的时间特征,从而比图像预训练策略实现更好的性能。[84]进一步扩展了深度模型的范围,并证明了预训练策略在使用更深的模型时会带来卓越的改进。随着更大规模的标记数据集和更深层次的网络的出现,在大规模视频数据集上进行预训练成为以下工作中的一种流行策略[85,89],以提高不同目标数据集的性能以完全监督的方式对大规模数据集进行预训练带来了一致的改进,但它需要资源昂贵的手动注释来生成标签信息。为了克服这个缺点,最近的方法更加关注自监督学习,它在预训练阶段从更容易访问的未标记数据中获益。更具体地说,自监督学习的核心是设计借口任务,其中监督信号基于数据本身的特性自动生成。因此,网络可以在预训练阶段学习有效的表示而无需任何人工注释,随后将知识转移到微调阶段。基于文本前任务的设计,先前用于视觉HAR的自监督方法可以被分类为三种类型:(i)密集预测,(ii)时空推理,和(iii)对比学习。基于密集预测的自监督方法需要网络来预测视频的低级信息,包括视频帧[151,152]和帧补丁[153受生成网络的启发,[151]提出了一种密集预测任务,要求网络在给定最近帧的情况下预测未来帧作为输入。[152]通过引入额外的光流输入和前景-背景解纠缠,进一步扩展了这种文本前任务。以下工作试图阐述不同的模态作为输入或预测目标,例如3D视频[156]和RGB-D数据[157]。 受最近图像域中使用Transformer进行密集预测的成功启发,[158]采用Transformer来预测掩蔽块的方向相关性直方图(HOG),并实现了最先进的性能,甚至优于SOTA全监督HAR方法。尽管其出色的性能,密集的预测方法需要一个额外的发生器头,导致额外的计算成本。此外,直接预测低级别信息可能效率较低,因为这些高频细节对高级别任务(即,HAR)。时空推理方法不是直接预测低级信息,而是提出通过视频的相关性生成监督信号,例如时间顺序[159受视频沿时间维度的顺序关系的启发,[159]首先提出利用视频的时间顺序作为自我监督的监督信号。更具体地说,从相同的原始视频中采样几个剪辑,并且只有用连续帧构建的剪辑才被认为是正样本。因此,借口任务被设计为一个分类问题,其中网络被训练为基于其对视频的语义理解来识别阳性样本。类似地,[165]提出了一种基于对一系列混洗剪辑进行排序的时间验证任务,其中直接训练网络以预测输入剪辑的正确时间顺序。为了进一步提取更有效的时空特征,[161]首先采用3D CNN而不是2D CNN来执行时间顺序预测。除了时间顺序之外,最近的工作提出利用视频的回放速率作为监督信号。具体来说,Yao等人。[163]提出了第一个称为回放速率预测(PRP)的自监督借口任务,以学习长短期视频表示。给定一个原始视频,PRP会对视频片段进行采样,不同的采样率,导致具有不同回放率的短视频剪辑。该网络被训练来执行两个子任务,包括回放速率预测和视频片段重建。[162]通过用对比学习代替计算上昂贵的生成子任务来简化回放速率预测的设计。[164]通过将回放速率预测与其他时间增强方法相结合来进一步提高性能,其中训练网络以不仅预测回放速率,而且预测应用于增强输入的增强方法的类型。与密集预测方法相比,时空推理方法更有效,因为它们通常可以被视为不需要额外模块来执行的分类任务,而基于密集预测和对比学习的方法通常优于它们。对比学习在过去的十年中取得了很大的进步,逐渐超过了其他的自监督方法,甚至完全监督的方法。对比学习的核心是最大化正样本之间的互信息,这些正样本通常是在不同增强下从同一原始视频中生成的样本。例如,[162]尝试将相同动作或相同上下文的时空表示对齐为附加子任务,以便网络可以在不同增强下从视频中提取相互表示。虽然与PRP[163]共享类似的优化目标(即速度预测),但对比学习的引入带来了性能的显着改善。 为了充分
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功