迁移学习在基于视觉的人类活动识别中的应用：十年分析

86 浏览量更新于2024-01-02 收藏 1.09MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

International Journal of Information Management Data Insights 3（2023）100142审查迁移学习增强基于视觉的人类活动识别：十年分析Abhisek Raya，Maheshkumar H.科莱卡尔河Balasubramanianb，Adel Ha fianec，印度技术学院Patna，Bihta，801103，印度b印度理工学院Roorkee，Uttarakhand，247667，印度cINSA CVL，奥尔良大学，PRISME，EA 4229，Bourges 18022，法国aRT i cL e i nf o保留字：深度学习机器学习迁移学习人体行为识别a b sTR a cT几种机器学习和深度学习技术的发现为人类在各种现实世界应用中的扩展铺平了道路。经典的机器学习算法假设训练、验证和测试数据来自相同的域，具有相似的输入特征空间和数据分布特征。在一些现实世界的练习中，数据收集变得困难，上述假设并不成立。甚至，如果可能的话，合法数据的稀缺也会阻止模型的成功训练。补偿过时的数据，减少重新收集训练数据的需要和困难，避免许多昂贵的数据标记任务，并提高测试数据的预测准确性，是迁移学习在现实世界应用中的一些重要贡献。被引用最多的迁移学习应用包括活动识别、图像和视频分类、无线本地化、检测和跟踪、情感分析和分类以及网络文档分类中的分类、回归和聚类问题。人体活动识别在人与人、人与物的交互和人际关系中起着至关重要的作用。结合强大的深度学习算法和改进的硬件技术，人类活动的自动识别为构建智能社会打开了大门。据我们所知，我们的调查是第一个将机器学习、迁移学习和基于视觉传感器的活动识别联系在一起的调查。然而，这项调查通过回顾2011年至2021年约350篇相关研究文章，利用了上述联系。调查结果表明，每年与我们的主题相关的研究出版物增加了约15%。在这些综述的文章中，我们选择了大约150篇重要的文章，这些文章深入探讨了与迁移学习增强的基于视觉传感器的HAR相关的各种活动水平、分类技术、性能指标、挑战和未来方向1. 介绍人类已经进化成一种能够处理认知任务的重要资源，即使在许多恶意应用程序中也是如此。在许多工业实践中，人的干预仍然是不可避免的，即使是在二十一世纪这个机器驱动的世界里。对人类行为的认可Gupta（2021）;Imran和Raman（2020）已成为个人绩效评估的必要条件。对这些活动进行手工簿记可能是一项不整洁且容易出错的任务。因此，自动识别工具已经变得流行，并且成为人们感兴趣的领域。研究联谊会自动检测任何可疑或意外的人类行为将触发报警，以进行自我纠正或手动干预。对人类活动的自动识别-顺利和无差错的工业和机构运作所必需的天数。人类活动识别（HAR）数据集是通过获取三个基本领域特定方面的知识来(i)与传感器设备相关的数据，2（i）（ii）与主体/行动者相关的数据，以及（iii）与感测背景相关的数据。然而，上述三者的可变性定义了传统的机器学习假设，即源数据和目标数据必须属于同一个域。知识转移通过消除这种传统的机器学习假设来拯救人类。除此之外，由于传感器和环境的可变性，较旧的训练数据有时不适合实时识别。通过迁移学习的帮助，我们可以轻松地利用旧样本，并利用有价值的信息来增强分类，回归和识别任务。要收集一个通讯作者：Dr. Adel Ha Fiane，INSA center Val de Loire：Institut National des Sciences Institut National des Sciences Valquees center Val de Loire，88，BoulevardLahitolle，18022 Bourges，France.电子邮件地址：adel.ha insa-cvl.fr（A. Ha Fiane）。https://doi.org/10.1016/j.jjimei.2022.100142接收日期：2022年5月9日;接收日期：2022年11月19日;接受日期：2022年11月26日2667-0968/© 2022作者。出版社：Elsevier Ltd这是CC BY许可下的开放获取文章（http://creativecommons.org/licenses/by/4.0/）目录可在ScienceDirect国际信息管理数据见解期刊主页：www.elsevier.com/locate/jjimeiA.雷，M.H.科莱卡尔河Balasubramanian等人International Journal of Information Management Data Insights 3（2023）1001422迁移学习通过补偿旧数据，降低重新收集训练数据的要求和难度，避免许多昂贵的数据标记工作，并提高测试数据的准确性，为许多现实世界的应用做出了重大贡献。“到目前为止，大多数来自活动识别背景的综述文章都总结了与迁移学习或基于分类器的机器/深度学习相关的背景。这些调查涉及的活动是基于视觉或基于传感器的。然而，我们的调查只收集了那些机器/深度学习分类器利用迁移学习技术来提高识别性能的活动识别文章。在这项工作中，我们对基于视觉的活动识别进行了以数据为中心和分类特定的广泛调查。据我们所知，我们的调查是第一次回顾使用迁移学习增强机器/深度学习算法的基于视觉传感器的人类活动识别。我们的论文深入探讨了与迁移学习增强的基于视觉传感器的HAR相关的各种活动水平、分类技术、性能指标、挑战和未来方向。我们的论文提供了见解到各种动作识别数据集与规格和水平，在推断数据的上下文之后，与它们相关联的活动。我们还讨论了与迁移学习增强的基于视觉传感器的HAR相关的不同分类技术、性能指标、挑战和未来方向。我们的调查指导新的研究人员熟悉现有数据集的信息和管理以及有助于分析未来研究工作的差距和机会的学习方法。许多研究分别对迁移学习和活动识别进行了综述。然而，一些人已经回顾了迁移学习平台中的活动识别，并且在迁移学习增强平台中谈论基于传感器的HAR时，数量已经变得稀少。据我们所知，Cook，Feuzand Krishnan（2013）是最近发表的关于迁移学习领域中HAR的综述文章。本文列出了2011- 2021年的类似研究工作，但更多地面向HAR数据集和分类技术。Deng，Zheng and Wang（2014）研究了基于传感器和基于视觉的HAR，根据其优缺点对不同的HAR方法进行了广泛的分类。我们的论文包含类似的内容，但在迁移学习平台上。与以前的调查不同，本调查报告不遵守基于传感器的建模、基于架构的建模、基于分类器的建模或基于数据库的建模等约束，正如在其他调查中看到的那样本文将这些模型结合起来，一个完整的表面包，将提高初级和中级研究人员的创造力。本文的范围可以进一步扩展到迁移学习领域中基于可穿戴传感器和基于环境传感器的HARGupta（2021）。本文详细阐述了基于视觉传感器的HAR中的迁移学习技术、各个步骤和数据集。本调查还介绍了一种新的分类层次模型与该研究领域。我们可以找到许多分别描述迁移学习和活动识别的研究。据我们所知，很少有人基于迁移学习技术对HAR进行分析，在我们的研究领域中，这方面的研究还比较少。我们的论文的贡献总结如下。1. 据我们所知，我们是第一个将基于视觉的HAR的分类技术分为三个模块表示形式的人。我们分类详细讨论这些类，以供将来参考。2. HAR中使用的常用视觉数据集（源和目标数据集）根据其演变年份、表示模式、每秒帧数、分辨率、类别、主题和比较的视频数量进行组织。3. 我们按时间顺序总结了相关的研究文章，通过比较他们的底层架构，源/目标数据集，检测类的数量，以及他们各自的准确性。4. 我们试图找出潜在的研究差距和未来的方向，基于视觉的HAR。我们相信这将在节省调查时间后引导新的调查人员朝着正确的方向前进本文的其余部分组织如下。第二节讨论了研究方法迁移学习的概述，包括其定义和意义，以及与HAR相关的架构，在第三节中展示。第四节介绍了各种HAR数据集，它们的分类，以及具有规范的分层表格表示。第五节概述了基于视觉的HAR中使用的分类技术，采用三模块表示格式。第VI节总结了各种重要文章的性能。第七节简要阐述了这些挑战和未来方向的各个方面第八节简要讨论了这些贡献和实际意义。最后，第九节总结了本文以及可以进一步考虑的改进。2. 研究方法我们遵循系统性综述和荟萃分析方案的首选报告项目（PRISMA-P）Tricco et al.（2018），挑选出与我们研究领域相关的相关和重要文章。我们采用了三个方案来完成这项审查：检索方案，纳入和排除方案，以及范围审查方案。2.1. 搜索协议首先，我们设置搜索平台，即，搜索网站、图书馆或数字数据库。本综述中的大多数文章均来自Web of Science、IEEE Xplore和Google Scholar数字图书馆。我们通过把确切的或相关的关键词或它们的组合来接触相关的文章。其中一些关键词是“人类活动识别”，“视频动作分类”，“迁移学习”，“深度学习”，“机器学习”，“CNN”或不同活动识别数据库的名称。一些搜索的句子是一个以上的关键字与有效的含义的组合。我们在初步考虑进一步处理时下载了大约350篇文章2.2. 入选和排除方案我们只包括那些采用机器学习和迁移学习技术进行模型设计的基于视觉的活动识别文章。非英语论文被排除在外。我们在初步筛选过程中考虑了出版物的日期和类型（期刊或会议）、出版社和引用分数。此外，我们还将筛选过程扩展到了抽象构成层面，在此层面上，我们将检索文章的主题与我们的调查主题进行了验证。纳入了适当匹配的出版物。最后，我们筛选出150篇最有意义的文章供进一步审查。2.3. 范围审查方案在方法论的最后一步，我们在深入了解许多背景因素之后，系统地回顾了所选论文。首先，我们从摘要部分观察背景、目的、证据来源、合格标准、数据库、模型评估、结果和结论来构建摘要。之后，我们进入了论文的详细草图，考虑了上述因素以及一些细节。例如，计算复杂性，实时部署的可能性，限制，研究差距和机会。A.雷，M.H.科莱卡尔河Balasubramanian等人International Journal of Information Management Data Insights 3（2023）10014233. 概述3.1. 什么是迁移学习？迁移学习的定义可以在讨论以下四个术语后得到很好的说明。来源和目标。我们知道，迁移学习是利用大量可用数据中的知识来开发稀疏数据。大量可用且容易获得的数据是源数据，其他不常见的外来数据是目标数据。主要目标是减少目标数据收集和标记的工作量。域迁移学习为在获取有关源和目标数据分布以及特征空间的先验知识后智能地预测未来数据铺平了道路。域（D）是描述特征特性及其分布概率的完整知识集。特征空间描述源或目标数据域中存在的字符的数量和类型。所有特征中某个特定特征的边际概率被称为边际概率分布。源数据的特征空间及其边缘概率分布构成源域，在目标数据中，构成目标域。所以定义域D是特征由集合{x，P（X）}表示，其中x是特征空间，P（X）是边际概率分布;X= {x1，x2，x3，��两个不同的域可以在特征空间（S，T）或边际概率分布（P（XS），P（XT））方面变化。��S是源域特征空间，T是目标域特征空间，P（XS）是源域边缘概率，P（XT）是目标域边缘概率。任务源样本和目标样本的标签信息以及给定特定域特征的标签的条件概率构成了任务。标签空间（LabelSpace，简写为TAB）是与一组源或目标类对象相关联的类标签的集合，类对象在给定特定域特征空间的概率分布称为条件概率分布。因此，任务T由一个集合{X，P（Y/X）}表征，其中（X）是标签空间，（P（Y/X））是给定域特征的条件概率分布; Y = {y1，y2，y3，��两个不同的任务可以在标签空间方面变化��或者根据条件概率分布，即，P（YS/XS），P（YT/XT）。��S是源标签空间，T是目标标签空间，P（YS/XS）是源条件概率，P（YT/XT）是目标条件概率。上述讨论的结论是，迁移学习-已经释放了传统的机器学习假设障碍，以解决对性能和与网络相关的成本的日益关注3.2. 为什么迁移学习？研究人员必须在通过机器或深度学习架构之前分析训练和测试数据的性质。传统的机器学习方法假设训练、验证和测试数据都来自同一个领域，具有相似的数据分布和特征空间。然而，由于现实世界数据异质性的存在，上述命题未能证明其重要性。因此，我们需要为不同但相关的任务构建和训练一个单独的模型。然而，孤立的培训方法将使整个过程负担沉重，昂贵且耗时。即使我们进行单独的训练，正确训练数据的可用性也会使其路径变得困难。迁移学习来了。这种技术有助于提高在属于不同特征空间或不同分布的数据集上训练的测试/验证数据的性能。补偿过时的数据，减少重新收集训练数据的需要和困难，避免许多昂贵的数据标记任务，并提高测试数据的预测准确性，是迁移学习在现实世界应用中的重要贡献。Fig. 1. 参与人类活动识别的步骤。如今，迁移学习占据了类似机器学习知识迁移技术的主导地位，即，多任务学习，主适应，以及分类，回归，聚类和强化学习任务中的协变量转移。体育视频分类、网络文档分类、各个领域的图像分类、文本分类、情感分类Luo和Mu（2022）、异常检测Al-Sulaiman（2022）、情感识别Gonegandla和Kolekar（2022）以及基于Wi-Fi信号强度的是最重要的领域之一，其中不同的迁移学习技术的实践非常有益。3.3. 人体活动识别HAR是一个突出的研究领域，关于室内日常生活活动能力，户外日常生活活动能力，手势识别阿南德，乌拉金和米什拉（2021年）;查特吉，BhanDari和Kolekar（2016），体育活动识别Kolekar和Sengupta（2015），人-物交互，以及人-人交互。为了理解日常活动，我们需要一个系统的工具，可以区分和理解不同的活动。在不同的情况下，活动识别算法应该执行比平均水平更高的标准杆，以建立一个性能良好的识别设置。五个不同的模块融合在一起，形成HAR的框架，如图1所示。这五个模块分别是执行活动、传感类型、转换模块、HAR方法和性能测量。3.3.1. 活动人们一整天都在从事各种活动，从床上到床上，甚至在睡觉的时候.有些人类行为是单独进行的，而另一些则是在他人的帮助下进行的。这些活动根据其执行方式可分为三类(i) 单人活动张等。（2020 a）（ii）多人活动，Ji，Liu，Pang和Li（2020）和（iii）团体活动Tran，Bourdev，Fergus，Torresani和Paluri（2015）。我们通常在群体活动中面临的基本问题是量化人的角色，并将这些角色描述整合到推理技术中。室内ADL、室外ADL、手势和烹饪活动都可以归类为单人或多人活动。体育运动可以分为个人活动和团体活动。A.雷，M.H.科莱卡尔河Balasubramanian等人International Journal of Information Management Data Insights 3（2023）1001424电子邮件��电子邮件��+��+��+��3.3.2. 感测材料科学和工程的进步为开发大规模半导体器件打开了大门。这些单位帮助re-switches感测物理信号和switches这些到容易pro-switchable电输出。执行感测和转换操作的设备被称为换能器。在开发传导设备时，最低成本、更高的保真度和更高的可靠性是主要关注点。在将其传送到控制单元之前，可以通过传感器识别动态环境中任何物理事件的发生。多年来，许多先进的传感器已经发展，感测范围广泛的各种物理，化学和生物活动。它们中的大多数涉及测量物理特性，如视觉、听觉、触觉、感觉、光、声波、压力和温度。化学传感器处理物质的组成特性、浓度水平和化学性质，例如味道和顺序。作为化学传感器的子集，生物传感器或简称生物传感器是有助于揭示生物物质的生物状态和性质的分析装置。这些智能传感器通常与物联网设备一起使用，以执行智能任务。在这里，我们将这些传感器从活动识别的角度分为两类。首先，包括加速度计的身体上或可穿戴传感器计算动作的加速度，磁力计推算运动的方向和磁场，心率监测设备，心电图显示心脏功能，脑电图测量大脑活动，肌电图计算肌肉震颤，温度传感器校准身体上的温度和压力传感器，其指示动作过程中的身体上的压力。第二，人体或环境传感器包括图像传感器、视频传感器、用于运动和位移的射频传感器、用于红外图像和视频的IR传感器、用于检测的Wi-Fi信号传感器、用于定位的GPS跟踪传感器、温度传感器和压力传感器，测量各种环境参数。这两者一起可以为连续处理更新代理和环境的状态单位视觉传感技术，如CCTV和摄像头传感器，在监视人类活动方面非常有用。记录数据的质量是通过评估图像相关属性来决定的，这些属性包括视点、照明环境、照明变化、遮挡和图像分辨率。HAR数据以图像序列或音频数据格式存在，随后通过计算机视觉和音频信号处理技术Ghosal和Kolekar（2018）进行处理，以找到有意义的信息。不同的步骤可以包括预处理、特征工程、数据建模和活动推算。识别活动可以包括对感兴趣的对象或主体的分割、检测、分类或跟踪。这些活动通过附接到一个或多个行动者或一个或多个对象或环境的传感器被连续地跟踪。在这里，我们聚类HAR数据和环境相关的参数，考虑视觉传感器作为主要的。3.3.3. 转导传感器充当神经系统，而算法和处理单元充当活动识别的大脑。信号转换后，转换单元将传感器输出连接到处理单元输入，以进行进一步处理。将感知到的信号转换为适当且易于处理的形式称为转导。它旁边的处理单元极大地改善了输出信号的状况。传感和转换单元融合在一起，一个传感器。然而，制造商有时会发现将换能装置定位在传感器外部要容易得多，这被称为外建换能。3.3.4. 方法改善各种决策变量的愿望，如兼容性，流动性，成本，效率和准确性，推动研究人员追求新的想法。每一天，高科技世界都会出现一个新的通过整合先进的技术特征，使其成为比前代产品更高效、更有弹性的产品。为了更有效和准确地识别活动，正在开发各种技术和算法，其中一些已经不再使用，而另一些已经发展成为最先进的技术。在HAR中，概率和统计建模技术表达了对执行者活动、计划和目标的推理的不确定性。朴素贝叶斯分类器（NBC）、决策树（DT）和HMM是概率方法的一些示例。机器学习方法取代了概率方法，因为它依赖于其他独立的推理，这些推理使现实环境中的识别过程复杂化。K-Nearest Neighbors（KNN），贝叶斯分类器最小学习机（MLM），支持向量机（SVM），EX treme学习机（ELM）和多层感知器（MLP）是在不活动识别平台中实践的一些流行的ML技术。如今，深度学习方法在HAR领域已经变得流行，因为它们可以在真实场景中实现最高的成功率。与机器学习手工特征提取相比，深度学习技术为自动特征选择和学习设置了平台。深度神经网络（DNN），卷积神经网络（CNN），自动编码器Aslam和Kolekar（ 2022 ） ;Aslam ， Rai 和 Kolekar （ 2022 ），受限玻尔兹曼机（RBM），递归神经网络（RNN）和生成对抗网络（GAN）是一些常用的DL技术。这些方法可用于人类活动检测或识别、分类、回归和聚类。第5节详细讨论了不同的分类和检测技术。3.3.5. 表演每个用户都应该知道预测活动中预测结果的可接受程度。要做到这一点，我们必须首先确定正确的预测概率。它可以被认为是所有正确猜测与预测总数的比率。直觉上，预测模型的使用者想知道他们对预测结果的信任程度.另一方面，研究者设计了一套统计性能指标，用于定量描述各种条件下多个方面的预测性能。在讨论类时，我们会遇到两种类型的标签：真值标签和预测标签。预测标签是在验证或测试期间评估后的模型预测标签，而地面实况标签是该样本所属的实际类别标签。根据根据这些定义，真阳性（TP）样本是其中基础事实和预测标签都是阳性的样本，而真阴性（TN）样本是其中基础事实和预测标签都是阴性的样本。如果基础事实标签为负，但预测标签为正，则预测标签为假阳性（FP）;如果基础事实标签为正，但预测标签为负，则预测标签为假阴性（FN）。下面列出了最常用的活动确认业绩��=��+��的�� × 100%��=�� × 100%��=��× 100%��×��+��除此之外，在几篇文章中还引用了另外两种测量方法，即平均Levenshtein距离（MLD）评分和平均平均精度。我们在表2中对从2011年到2021年的迁移学习增强型基于视觉的AR算法进行了排序，其中我们仅将准确度作为性能参数。4. 可视化HAR数据集由于内容变化和技术突变，HAR数据集随时间发生演化。其中一些数据集是旧的，��1A.雷，M.H.科莱卡尔河Balasubramanian等人International Journal of Information Management Data Insights 3（2023）1001425表1受欢迎的HAR数据集与规范。数据集FPS/分辨率课程/科目/视频活动水平MP-II烹饪Rohrbach，Amin，Andriluka和Schiele（2012）29.4/1624 × 122465/12/44H-O水平Soomro，Zamir and Shah（2012）25/320 × 240101/-/13,320H-O/集团级别DMLSmart Action Mohsen Amiri等. （2013年）30/2HD+1VGA12/16/932原子/H-O好莱坞3DHad Field and Bowden（2013）24/1920 × 108014/-/650H-O/H-HYouTube Sports 1 M Karpathy et al. （ 2014年a）-/227 × 227487/-/11,33,158H-O/集团级别Thumos-/-101/-/18,000原子/H-O/基团水平西北-加州大学洛杉矶分校王，聂，夏，吴和朱（2014年）30/640 × 48010/10/1475原子/H-O能级UTD_MHADChen，Jafari and Kehtarnavaz（2015）30/640 × 480、320 × 24027/8/861原子/H-O能级ActivityNet CabaHeilbron，Escorcia，Ghanem and Niebles（2015）30/1280 × 720203/-/27,801H-O水平THUMOS-/-102/-/23,500原子/H-O/基团水平NTU RGB+D60Shahroudy，Liu，Ng and Wang（2016）30/1920 × 1080、512 × 42460/40/56,880原子/H-O/H-H能级YouTube8 M Abu-El-Haija et al. （2016年）1/-480/-/82,64,650H-O/集团级别Kay et al. （2017年a）-/658 × 1022400/-/3,06,245H-H/H-O水平北京大学-MMD刘，胡，李，宋和刘（2017）30/1920 × 1080、512 × 42451/66/20,000H-O/H-H水平Something-SomethingV2Goyal et al.（2017）12/96 × 96174/1133/2,20,847H-O水平AVAGu等人（2018 a）1/451 × 80880/-/230K原子/H-O能级电影Piergiovanni and Ryoo（2018）60/-20/-/4290H-O/集团级别Kinetics600Carreira，Noland，Banki-Horvath，Hillier和Zisserman（2018）-/658 × 1022600/-/4,95,547H-H/H-O水平SoccerNetZhou，Xu和Corso（2018）25/1280 × 7203/-/6637H-O/集团级别YouCook2YouCook2-/-89/-/2000H-O水平NTURGB+ D 120 Liu et al. （2019年）30/1920 × 1080、512 × 424120/106/1,14,480原子/H-O/H-H能级700Carreira，Noland，Hillier and Zisserman（2019）-/658 × 1022700/-/650KH-H/H-O水平MOD20Perera，Law，Ogunwa和Chahl（2020）29.97/720 × 72020/-/2324H-O/集团级别HAA-500Chung，Wuu，Yang，Tai and Tang（2021）-/1080 × 720500/-/10,000原子/H-O/基团水平EduNetSharma，Gupta，Kumar和Mishra（2021）30/1280 × 72020/-/7851H-O水平Gang等人（2021）-/720 × 5768/-/2048H-O水平帕玛和莫里斯（英语：Parmar and Morris）（2022）-/1080 × 7204/-/1634原子/H-O能级图2. 各种HAR数据集的活动水平。有的是现代化的，有的以速度，准确性，适应性成为标杆。与旧数据集相比，现代数据集有更详细的描述。这些描述或规范可以是物理上可感知的或不可感知的。每秒帧数（fps）、动作计数、演员计数、每次动作的视频计数、模态、分辨率、注释模式和视点的变化是物理可感知的参数。光照明和遮挡是物理上不可感知的参数的示例。这些因素决定了数据集的质量。更高质量的数据集有助于打开探索更多复合模型的大门，而具有挑战性的数据集有助于仔细检查模型的可推广性和鲁棒性。有几个因素有助于分析数据集，并从数据集应该属于哪里。我们可以将基于视觉的HAR数据集聚类成几个组后，推算的类型的行动，传感器模态，观点，和数据的性质。如表1所示，我们引用了与该领域相关的最广泛使用的数据集，并按活动类型对它们进行了分类。如图2所示，收集的数据集可以是活动分为五个级别：手势级别活动、原子级别活动、人-对象（H-O(a) 手势水平活动：手势被定义为有目的的人体运动，以传达某种意义或想法。一个手势通常是在很短的时间内完成的，可以被认为是五组动作中的基本动作。挥手、面部表情、眼球运动和摇头都是手势的例子。(b) 原子级活动：活动可以是单个原子动作，包括一系列相互关联的手势。这个层次的行动只由行动者执行，没有任何主体或客体的参与。因此，它有时被称为一个单独的活动。敲门、游泳、散步、慢跑和跑步都是原子级活动的例子。(c) H-O相互作用水平的活性：有些活性是H-O相互作用的结果。在两个代理人之间建立的行为当我们谈论人的活动时，其中一个代理人必须是人，另一个可以是人或物体。如果我们把物体作为第二个代理，这个动作可以称为人-物交互。人对物体的处理决定了H-O相互作用的类型所有的烹饪活动，踢，锤，吃，喝，扔，和体育活动，如举重，击球，保龄球可以在H - O互动类别下(d) H-H这种活动是两个人之间相互作用的结果;它被称为两个人的活动或人与人的相互作用。拥抱、摔跤和握手是人与人之间互动的一些例子。(e) 小组活动：小组活动是一种复合类型的活动，可能需要多个人或一个或多个对象之间的交互。它涉及许多手势、动作和交互的序列。小组学习、板球比赛、小组讨论和演讲是小组活动的一些例子。A.雷，M.H.科莱卡尔河Balasubramanian等人International Journal of Information Management Data Insights 3（2023）1001426图3.第三章。提取帧的样本和最先进数据集的公认活动。与这些活动水平相关的数据集总结在表1中，其中包含许多相关规范，各种最新数据集的框架如图所示。3.第三章。5. 基于视觉的硬件中的分类技术传感器和硬件技术的进步为机器和深度学习算法的背景增添了新的特征。新的算法总是取代以前的版本，同时实现具有优越性能的鲁棒模型。许多决定性的因素是负责性能增强。为了即兴发挥这些因素，如兼容性，便携性，成本，效率和准确性，迫使研究人员采用许多有效和准确的算法。有些已经过时，有些已经限制使用，有些随着时间的推移已经成为最先进的方法。在本文中，我们将它们分为三种基于学习的方法：（i）基于生成的方法，（ii）基于判别的方法，和（iii）基于图的方法，如图所示。第四章5.1. 生成方法生成模型是半监督概率方法，其确定训练数据样本（X）的条件概率分布P（X/Y），考虑其对应的标签（Y）。这些后验分布通过应用贝叶斯规则来预测测试输入的类概率这些强大的模型不太倾向于过度-在有限的数据环境中提供良好性能的拟合问题5.1.1. 隐马尔可夫模型隐马尔可夫模型（HMM）是一种概率和离散时间框架，它通过一系列隐藏状态来给出最终输出观测序列。每个层次的隐藏状态与三种类型的概率：开始概率，transi- tion概率，和发射概率。未观测状态的出现概率被称为隐藏状态的开始概率。一个隐藏状态发生跃迁的概率到另一个相同级别的隐藏状态或状态本身的转移概率称为转移概率。两个不同状态之间的状态转移概率称为发射概率。这些观测值首先发散，然后收敛，以给出最终输出概率。这个随机模型是通过马尔可夫过程运行的，因此，称为马尔可夫过程。Baum-Welch算法训练了一个HMM框架，该框架具有从左到右的五个状态，在MSRC-12 Kinect手势数据集Cabrera，Sanchez-Tamayo，Voyles和Wachs（2017）上产生了有希望的结果。通过计算通用背景模型（UBM）的MAP自适应，提出了一种快速单纯形隐马尔可夫模型（Fast-SHMM），图第四章基于视觉的HAR中使用的分类技术。每个训练样本Rodriguez，Orrite，Medrano和Makris（2017 a）。通过最小化UBM中的高斯数和快速估计EX期望最大化最优值来降低计算成本。与Cabrera等人（2017）一样，Rodriguez等人（2017 a）采用基于HMM的一次性学习（OSL）方法，但在Weizmann数据集上采用HMDB 51，Olympic Sports和Virat Release 2.0作为源域数据集。除了上述两个， Rodriguez ， Or- rite ， Medrano 和 Makris （ 2017b）;Wen和Zhong（2015）也是基于HMM的文章，采用实例迁移学习进行知识迁移。 Arif Ul Alam等. （2021）提出了自适应顺序HMM（AO-HMM）和交叉路径消歧算法（CPDA），以解决快速和多用户目标跟踪以及重新聚类用于目标活动识别的点云数据（PCD）等问题。隐马尔可夫模型的变化顺序取决于激活状态及其邻居的数量。Arif Ul Alam等. （2021）使用转导转移A.雷，M.H.科莱卡尔河Balasubramanian等人International Journal of Information Management Data Insights 3（2023）1001427学习在PALMAR和Benedek数据集上练习，以识别人与物体的交互活动。5.1.2. 高斯混合模型K-means聚类被认为是一种硬聚类方法或基于距离的聚类方法。因此，它不能在不可区分或多标签的数据环境中表达其意义。因此，我们转移到一个软聚类模型称为高斯混合模型（GMM），其中采用基于分布的聚类技术，而不是基于距离。在GMM中，D特征的数据集可以具有k个高斯分布的混合。每个分布表示由D长度均值和D×D协方差矩阵定义的簇头。期望最大化技术确定这些变量（均值和协方差），并相应地设置模型参数。Xing等人（2019）使用GMM算法分割小型和不可见目标数据集的原始RGB图像，并将分割的数据发送到CNN（AlexNet，GoogleNet和ResNet-50）模型进行活动识别。Xing等人（2018）使用基于GMM的分割和仅预训练的AlexNet模型，通过微调实现相同的感应传输学习。Ntalampiras和Potamitis（2018）使用时间、频谱和小波特征，使用GMM和KL发散算法识别邻近位置的类。类特定HMM和通用HMM使用这些基于距离的类特征进行类预测。采用基于ESN的迁移学习技术对七种人-物交互层次活动进行分类。变分贝叶斯推理（VI）是期望最大化方法的推广，它迭代地最大化可能性Jänicke，Tom- forde和Sick（2016 a）。VI用于确定GMM的潜在特征，负责降低模型复杂性，并取消对先验特定数量组件的需求。Transductive trans-费尔学习用于自我即兴创作，即，新节点插入。5.1.3. 受限玻尔兹曼机受限玻尔兹曼机（RBM）是一种无监督生成网络，具有跨层的完全连接节点（二分节点配置，因此称为“受限”），能够从可见数据中学习概率分布，以推断未可见数据。它具有与可见数据相关联的可见层或输入层（v）以及一个或多个隐藏层（h），所述隐藏层（h）指出不具有输出层的不可见推断数据。RBM是一种基于能量的模型，用于分类、回归、降维、特征学习、协同过滤和主题建模。从热力学中的统计力学出发，引入玻尔兹曼分布（Gibbs Dis-manndistribution）来解释熵对RBM中不同态的影响.它与两个偏置有关：（i）隐藏偏置，有助于在向前传递时产生激活;（ii）输入偏置，有助于在向后传递时产生激活。在训练过程中采用基于梯度的对比发散算法进行学习.多个RBM堆叠在一起形成深度信念网络（DBN）Kolekar（2011）来执行逐层训练。Roder et al.（2021）首先介绍了使用域自适应技术在HMBD-51和UCF-101 HAR数据集上的光谱DBN。提出了梯度DBN和聚集DBN算法，将图像梯度和帧间融合应用于视频HAR.提出了梯度DBN和聚合DBN算法，用于视频HAR中图像梯度和帧间融合。将二进制-二进制RBM和高斯-二进制RBM堆叠在一起，以优化权重并学习三轴加速度计HAR数据的信息特征Alsheikh etal.（2016）。为了训练和拟合模型参数，基础模型应经过预训练阶段（非监督和生成）和微调阶段（监督和区分）。5.1.4. Autoencoder自动编码器（AE）是一种无监督生成式ANN模型，它包含编码器层、代码层和解码器层（镜像到编码器层）。编码器层仅考虑表示输入的信息数据以生成低维代码并将其存储在代码层中，代码层是输入数据的潜在空间表示。解码器层稍后收集这些代码并将其重构以生成仅包含有价值特征的输出。这些生成的输出与输入相同且等维。正则化（稀疏、去噪和收缩）、具体和变分AE是许多机器学习任务中最常见的类型，如面部识别、活动识别、降维、异常检测、机器翻译、药物发现和流行预测。Khan和Roy（2018）使用了一个名为UnTran的预先训练的transfer学习框架，该框架将前两个层源代码的用户训练了深度稀疏自动编码器（DSAE），以与SVM分类器相结合，用于识别机会，WISDM以及日常和体育数据集上的人类活动。这种多层分类模型有助于推广模型，以克服用户相关、传感器相关和环境相关的障碍。一个组合模型在交叉数据集平台Sanabria和Ye（2020）中执行重新注释的域适应。该组合模型融合了两种用于

下载后可阅读完整内容，剩余1页未读，立即下载