基于CNN的实时检测“求救信号”的方法

80 浏览量更新于2024-01-02 收藏 1.34MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

智能系统与应用17（2023）200174为一个没有暴力的未来而战：实时检测Sarah Azimi*，Corrado De Sio，Francesco Carlucci，Luca SterneDipartimento di Automatica e Informatica，Politecnico di Torino，都灵，意大利A R T I C L EI N FO保留字：求救信号手势识别卷积神经网络A B S T R A C T2020年4月，随着全球开始隔离以对抗COVID-19的传播，对妇女和儿童的暴力行为被称为“阴影流行病”。为了打击这种现象，加拿大的一个基金会提出了“ 求救信号 “ 的手势，帮助处于危险中的人谨慎地提醒其他人处于危险之中。很快，这个手势就在周围的人中出名了。即使在COVID-19隔离之后，它也被用于公共场所，以提醒他们处于危险和滥用状态。然而，问题是，如果人们认识到它并知道它的含义，这个信号就会起作用。解决在这一挑战中，我们提出了一个基于两个轻量级CNN的实时检测“求救信号”的工作流程。体系结构，分别专用于手掌检测和手势分类。此外，由于缺乏“信号帮助“数据集，我们创建了第一个视频数据集，代表“信号帮助“手势检测和分类应用程序，其中包括200个视频。虽然手部检测任务基于预先训练的网络，分类网络使用公开可用的Jesture数据集进行训练，包括27个类，并通过迁移学习与“Signal for Help“数据集进行微调所提出的平台显示了91.25%的准确性，视频处理能力为16 fps，在机器上执行，Inteli9-9900K@3.6 GHz CPU，31.2 GB内存和NVIDIA GeForce RTX 2080 Ti GPU，而在Jetson Nano NVIDIA开发人员套件作为嵌入式平台运行时达到6 fps。所提出的方法的高性能和小模型尺寸确保了对资源有限的设备和嵌入式应用程序的极大适用性，这已经通过在Jetson Nano Developer Kit上实现开发的框架得到了证实。所开发的框架与最先进的手部检测和分类模型之间的比较显示，验证精度的降低可以忽略不计，约为3%，而所提出的模型需要的资源减少了4倍，并且在Jetson Nano平台上推理的加速比约为50%，这使得它非常适合嵌入式系统。开发的平台以及创建的数据集是公开的。1. 介绍一名来自北卡罗来纳州的16岁女孩于2021年11月22日失踪，这一事件引起了人们对手势信号的关注。在她的父母报告这名少年失踪两天后，一名司机注意到一个女孩在路过的汽车作出手势的“信号帮助”。的警方逮捕了绑架女孩的男子，幸运的是，女孩安全回到了家人身边。这名少年使用的手势是由加拿大妇女基金会创造的，作为一个“求救信号”，以提醒其他人处于危险之中。然而，这种解决方案只有在被人类观察和认可的情况下才有效此刻在场。因此，很多时候可能会发生这样的情况，一个处于危险中的人试图寻求帮助，但没有人看到本文旨在为这一问题的解决迈出一步，提出一个实时自动检测的平台，“Signal（CCTV）和公共场所的安全视频，例如公共交通工具、超市甚至道路。许多研究人员专注于通过监控视频实时自动检测暴力，依靠计算机视觉技术检测暴力相关特征，已经显示出有希望的结果（Ramzan等人，2019年）。但考虑到* 通讯作者。电子邮件地址：sarah. polito.it（S. Azimi），corrado.desio@ polito.it（C. De Si0）， s304910@studenti.polito.it （F. Carlucci）， luca. polito.it（L.Sternal）。https://doi.org/10.1016/j.iswa.2022.200174接收日期：2022年11月1日;接收日期：2022年12月7日;接受日期：2022年12月29日2023年1月8日上线2667-3053/© 2023作者。由Elsevier Ltd.发布。这是CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表智能系统及其应用杂志主页：www.journals.elsevier.com/intelligent-systems-with-applicationsS. Azimi等人智能系统与应用17（2023）2001742检测“求救信号”，这种方法是基于检测涉及暴力的场景的特征（例如，血或枪）是无效的。事实上，“求救信号”的检测和分类更接近于专用于基于视觉的手势识别的平台。目前，卷积神经网络（CNN）是基于图像和基于视频的手势识别的最先进的解决方案。然而，当考虑实时手势识别平台时，重要的是满足诸如分类精度、识别时间和可扩展性的要求。此外，在开发用于嵌入式系统的识别算法时，资源效率是需要考虑的另一个重要方面。因此，以前致力于利用CNN进行手势识别的大多数工作都不适合实时检测场景，因为它们专注于提高离线分类精度，而其他方法由于资源占用率高而不适用于嵌入式系统和应用程序。考虑到CNN平台，另一个需要研究的重要方面是合适数据集的可用性。通常，为了获得具有高精度的结果，需要大量的数据集。例如，许多致力于手势识别的工作利用了大量的数据集，诸如EgoGestureDataset（Zhang et al.， 2018）和NVIDIA Dynamic Hand手势数据集（Molchanov等人， 2016年）。虽然，关于“信号帮助”，由于最近创建的这个信号，甚至没有一个数据集是可用的，也没有太多的创建利用现有视频的数据集。在这项工作中，我们提出了一个基于CNN的轻量级，快速和准确的平台，适用于低可用资源的嵌入式系统用于实时检测“求救信号”。这项研究生成了一个“信号帮助”手势视频的数据集，用于训练以及验证和测试开发的基于CNN的识别平台1.1. 的主要贡献本论文的主要贡献分为以下两个部分：• 第一部分是面向创建第一个开源动态“信号帮助”视频数据集，这要归功于都灵理工大学学生的积极贡献。该数据集是公开的，供每个人使用。• 第二部分致力于开发能够通过监控视频执行实时“求救信号”手势的平台为了提出一个适当的模型，对于真实世界的场景，已经努力设计一种系统，该系统通过评估视频流在实时条件下工作，并且适合于具有低计算资源的系统，例如嵌入式和视频监视分布式系统。为此，我们利用两种CNN架构，即MediaPipe和MobileNet，利用它们的小模型和良好的手势识别性能，然后开发一个单一的，高性能的，轻量级的分层识别架构。我们想强调的是，尽管基于CNN的手势检测和识别平台得到了广泛的研究，但这项工作仍然是一项非常重要的工作。在第一个开发的实时检测“求救信号”的平台上运行。因此，提出了一种新颖的、更为重要的手势检测与识别技术的应用.我们真的希望我们能做出改变，即使是一个小的，朝着一个更安全的城市。本文的组织如下：第2节提供了相关工作的概述。第3节专门阐述了重要的-“Signal for Help最后，在第7中得出结论和未来的工作。2. 相关作品本节概述了以前开发的用于识别情绪（特别是暴力）以及通过静态图像和视频识别不同手势的策略和方法。情感是人类最基本的交流方式之一，对我们的生活有着重要的影响。因此，许多研究工作都集中在开发自动识别不同情绪的技术上（Kiruthiga Rajavel，&2021）。特别是，通过视频检测暴力行为，涉及诸如计算机视觉对象和运动检测和分类等技术，已经引起了人们的高度兴趣。由于暴力模式的复杂性和多样性，已经开发了许多方法（Fu等人，2019年）。Fu et al. （2016）提出了一种基于提取运动加速度和运动区域来检测战斗的模型，同时在其自定义数据集上实现了78%的准确率。在Sudhakaran和Lanz（2017）中，作者提出了一种模型，该模型由一系列卷积层组成，然后是一个最大池化操作，用于提取可区分的特征，从而将视频分类为暴力和非暴力视频，从而实现了非常高的准确率，约为97%。在Chen等人（2011）中，作者专注于通过寻找皮肤和血液区域并分析这些区域的快速运动来检测暴力。可以看出，大多数研究工作集中在通过识别一些与暴力相关的特征（例如血液、枪击、爆炸等）来检测暴力场景（Chen et al.，2011年）。然而，由于人体和暴力类型的差异，界定代表暴力的有效和有区别的特征是一项具有挑战性的任务。此外，这些方法导致了很高的错误检测率考虑到我们使用“求救信号”手势的情况，这种通过典型特征来检测暴力的方法是无效的，我们需要转向执行手势检测和识别的平台。手势作为一种非语言的交流方式，被认为是人机交互（HMI）的一个重要方面。最近，许多研究工作致力于手势识别（Agrawal&Gupta，2016; Tan等人，2021; Wahid等人，2018年），主要针对车辆内的手势控制、来自体育裁判的信号（Zememgulys等人， 2018年）和手语（Smith等人，2018; Ashwini等人，2020年）。这些任务已经通过利用CNN来执行，这导致了巨大的成功（Wang等人， 2016; Simonyan&Zisserman，2014; Athilakshmi等人， 2018年）。而许多研究人员已经研究了其中手执行静态姿势而没有任何移动的静态姿势的检测（Elliott等人，2021年1月），动态手势识别的变化在手指形状和弯曲角度的修改状态的手得到了较少的关注。在Athilakshmi等人（2018）中，研究了支持向量机算法用于基于静态图像数据集检测篮球裁判信号，准确率为97.5%，而Tan等人（2021b）使用CNN对美国手语（ASL）进行分类，在不同的静态图像数据集上训练，平均准确率为98.5%（Rahman等人，2019年）。由于用于检测静态手势的CNN架构的巨大成功，将它们也应用于动态手势的检测的趋势日益增长（Tran等人，2015），利用3D卷积和3D池化，将视频帧序列作为输入。反对暴力，特别是在COVID-19之后流行病第4节报告了创建“求救信号”的第一个视频数据集的方法。第5描述了开发的1 https://github.com/Polito-Reconfigurable-Computing/SFH/tree/main/dataset.S. Azimi等人智能系统与应用17（2023）2001743Fig. 1. “求救信号“的虽然有几项工作分别解决了检测和分类问题（Molchanov等人，2015年; Ohn-Bar &Trivedi，2014年），实时手势识别需要对连续视频流同时应用检测和分类。在Kopüklüet al. （2019），作者提出的架构由两个CNN模型组成，ResNet作为手部检测器，ResNext作为离线工作分类器，评估了两个公开数据集EgoGesture和NVIDIA Dynamic HandGesture Datasets上架构的准确性，离线模式下的分类准确率为94.04%。尽管该架构获得了较高的准确率，但在资源有限的嵌入式系统上实现效率不高。此外，该平台的效率进行评估的数据集，这是在一个单手在一个近距离的相机与平面背景，这是不匹配的目的，我们的方法。在我们的工作中，我们提出了一个层次结构，由两个轻量级CNN模型，适用于嵌入式应用，低可用资源和低功率要求。它是第一个致力于基于实时视频的“求救信号”识别的体系结构。此外，我们还为“Signal for 帮助“中这我们专注于包括视频，不同的可能场景，平面和非平面背景，而手位于近距离和远距离（最大4米）的摄像机记录的视频。3. COVID 19本节阐述COVID-19期间发生的暴力事件，导致“求救信号”手势的产生全世界每三名妇女中就有一名遭受过身体、性或情感暴力。自COVID-19疫情以来，报告显示，针对妇女和女孩的暴力行为发生率急剧上升，这一现象被称为“阴影大流行”。由于COVID-19大流行导致的社会隔离，对于那些面临虐待或暴力风险的人来说，安全地寻求帮助变得困难。为了解决这个问题，加拿大妇女基金会想出了一个新颖的解决方案，使用一个名为“求救信号”的手势。这个信号是通过举起你的手，拇指插入你的手掌，然后折叠你的手指，象征性地把你的拇指夹在你的手指中，如图1所示。它最初是作为一种工具创建的，以应对因与COVID-19疫情相关的隔离而导致的全球家庭暴力案件的上升后来，这个信号在TikTok和Twitter上流行起来，拥有数百万观众。尽管COVID-19导致的隔离正在消退图2. 表示数据集的异质性的“信号求助“数据集视频的示例和平面背景（b）有明亮的自然光和城市背景的单手（c）有黑暗的人造光的单手旋转90度（d）具有明亮的人造光的单手旋转0°（e）具有平面背景的多只手，距离接近相机（f）多只手具有平面背景且与摄像机的距离最大（g）具有城市背景的多只手（h）具有城市背景的单只手。S. Azimi等人智能系统与应用17（2023）2001744图3. 已制定的 “ 求救信号 ” 检测和分类工作流程。不幸的是，家庭暴力甚至街头和公共场所的暴力侵害妇女行为继续发生，使用求救信号正在成为打击暴力上升的宝贵工具。问题是，如果人们看到它或意识到它的含义，信号就会起作用，这并不常见，因为大多数时候信号是离散传输的，不会引起注意。因此，我们希望通过开发一个平台来解决这个问题，该平台适合利用智能城市每个角落的监控摄像头记录的大量监控视频来执行实时自动检测通知相关部门并寻求帮助4. “Signal for Help本节详细介绍了创建第一个“信号求助“视频数据集的步骤已经创建了几个手势数据集，主要是为了应用于手势识别应用。但关于“求救信号”，因为这个手势是最近创建的，还没有数据库。我们的目标是创建第一个“求救信号“手势数据库，这要归功于都灵理工大学学生的贡献。数据集的创建已在三个阶段：挖掘、验证和过滤。首先，在收集“求救信号“手势视频的挖掘阶段在收集视频的过程中，我们要求对以下内容进行修改参数：（a）从0到5到4m的距摄像机的距离（b）照明和背景条件（c）视频中存在的手的数量。我们开始与收集简单场景视频，与存在一只手执行与飞机闪电背景的照相机的距离。然后，我们转向了更复杂的视频，其中存在不止一个人，在城市背景中与摄像机的最大距离为4米，这是最接近真实情况的场景。图2示出了包括不同场景的所收集的视频的代表性样本。其次，我们进入验证阶段，选择在挖掘阶段正确执行的视频。我们识别了具有错误手势的视频，具有执行特征但在帧中不完全可见的手的视频，以及具有在视频中可见的面部的视频，而不考虑照明条件和与相机的距离，因为准确地评估这些特征是不可行的。数据集。最终，在挖掘阶段收到了大约250个视频，这导致了当前的“求救信号”数据集，其中包括大约200个由“求救信号”手势组成的视频。数据集是在室内和室外收集的，照明的变化，包括人造光和自然光。创建的“信号帮助“数据集可在线获取1。5. 开发的本节详细阐述了用于实时识别“求救信号“手势的开发平台本文的目标是面向开发一个计算平台，用于实时我们尝试使用基于深度学习的轻型模型，探索了用于手势检测和手势分类的媒体管道和移动网络两种体系结构的创新设计。开发的平台是开源的，可在网上查阅。25.1. 实现的硬件/软件平台本节详细阐述了用于识别“求救信号”的已实现平台开发的平台分为三个步骤：手部检测，内部数据处理和手势分类。图3中示出了概念性方案。请考虑平台的输入是3通道视频。手部检测步骤完全使用MediaPipe框架实现。MediaPipe用于检查视频帧中是否存在手，如果检测到一只或多只手，则将其提供给下一步。MediaPipe输出已扩展为提供二进制输出，以通知用于启用平台第二步的手检测。检测到手的帧由内部数据处理阶段操纵，以使它们适合用作手势分类步骤的输入。特别地，第三步骤的输入是时间排序的队列，处理视频帧。基于MobileNet网络的分类器检查“求救信号”手势的存在，并相应地在最后阶段，我们对不合适在验证阶段中通过将视频从2https://github.com/Polito-Reconfigurable-Computing/SFH/tree/main/src。S. Azimi等人智能系统与应用17（2023）2001745×表1图第四章“求救信号”识别流程的训练。在我们提出的方法中，我们利用了MediaPipe Hand使用Jesture进行训练的MobileNet的训练参数和用于微调的 “ 帮助信号 “ 数据集。参数Jesture（训练）帮助信号（微调）数据集大小148，092 200数据集的类[#] 27 2第39个时代批量40 18阻尼0.9 0.9重量衰减0.01 0.01训练时间[h] 26 2准确度[%] 91.71 91.255.2. 手部检测模型该框架的第一步致力于利用MediaPipe Hand平台检测视频中的手。MediaPipe是由Google开发的一个开源框架，最初是为了实时分析YouTube上的视频和音频而开发的。MediaPipe Hand是MediaPipe框架附带的预训练模型，专门用于跟踪手掌和手指。MediaPipe Hand由两个专用于Palm Detection和Hand Landmark的流水线CNN模型组成。它有许多应用，其中之一是专门用于识别手的形状和运动。该操作分两个阶段执行：第一阶段，称为手掌检测器，检测图像中的手并输出其边界框。第二步，层叠第一步，提供手的关键点。用于检测何时一只或多只手在视频中以允许下一步骤。视频的帧被单独评估并转发到下一步骤。由于MediaPipe体积小，重量轻，效率高，因此可以有效地在嵌入式物联网（IoT）设备（如手机或智能相机）上实现，同时通过过滤无价值的输入来显着减少平台第二阶段的计算负载。5.3. 内部数据处理如果第二和最后一个步骤由手检测模型启用，则内部数据处理步骤必须操纵输入视频以使其符合分类器输入要求。每个帧被缩放，保留原始的纵横比，以像素为中心，并裁剪为112 112的大小。视频被下采样到每秒10帧。时间连续的帧被累积在16元素队列中，并且它们被提供给SFH检测步骤。5.4. 实时手势分类模型在平台的最后阶段，我们采用了MobileNet模型。MobileNet是Google在2017年提出的一种架构（霍华德例如，2017年）。它是一种广泛用于移动视觉应用的CNN，特别是分类任务，适合在轻型系统上运行。特别是，它利用卷积因子分解来减少的重量。由于我们平台的目标是实时检测，我们采用了3D版本的MobileNet架构图五. 使用Jester Dataset训练的MobileNet在不同时期后获得的准确性。S. Azimi等人智能系统与应用17（2023）2001746见图6。在不同时期后获得的准确性，为移动网络微调与图7. 用于开发平台的混淆矩阵X，Kopuklu et al. （2019年）。事实上，3D CNN已经证明，与传统CNN相比，在处理视频帧时表现更好。该阶段负责评估视频中是否出现“求救信号“。该阶段的输入是16个时间连续帧的集合。由于输出是二进制的，因此在网络的最终版本中，最后一层已被双神经元层取代5.5. 培训方法MediaPipe Hand模型在出厂时已经经过训练，实现了95%以上的高准确度，因此无需额外的培训。因此，MobileNet需要使用合适的数据集进行训练大多数情况下，CNN分类器只有在大量数据可用时才是准确为了克服这一挑战，我们依靠基于微调的迁移学习方法。在迁移学习中，一个具有利用与实际数据集类似的特征来创建网络的预训练模型。使用大量数据训练模型-一个相似的集合，以便将其知识转移到更小的数据集。这一概念已被利用在我们的方法（图。（4）补偿for the small created “Signal for Help因此，MobileNet分类器的训练阶段分为两个阶段：首先，使用开源手势的传统训练阶段第二，基于我们在前一节中收集和介绍的开源“Signal for Help“数据集的微调训练阶段在第一阶段期间选择使用的数据集是Jester数据集（Materzynska等人，2019年）。在训练网络对手势进行分类后，我们进入了下一个阶段，微调“求救信号”的二进制识别网络手势为此，分类器的最后一个完全连接的层，以前由27个神经元组成（因为Jester有27个独特的手势），已经被替换为2个神经元层，用于支持“求救信号“手势的二进制分类在此之后，使用“信号帮助“数据集执行新的训练阶段。在此阶段，仅训练最后一层的权重，而网络的其它参数保持不变。6. 实验本节介绍了在配备Inteli9-9900K@3.6 GHz CPU和Jetson Nano NVIDIA开发工具包的机器上实施开发框架的结果，并报告了开发框架与最先进解决方案在资源使用和性能方面的比较。为了证明我们提出的实时识别“求救信号”的框架的效率，我们进行了不同的实验。我们首先在“信号帮助”数据集上训练了拟议的平台。此外，我们进行了比较，国家的最先进的模型，以确认我们提出的平台作为嵌入式轻量级系统的一个有价值的解决方案的效率。请注意，所有操作，包括模型的训练和测试，都是在配备Inteli9-9900K@3.6 GHz CPU的机器上进行的31.2 GB内存和NVIDIA GeForce RTX 2080 Ti GPU，同时验证开发的嵌入式应用程序框架相对于最先进技术的效率，建议的模型和最先进的选定模型在Jetson Nano开发工具包上实现。6.1. 平台培训成果如前所述，我们利用已经训练好的MediaPipe模型来执行手部检测任务。因此，我们直接从第二阶段开始训练阶段，即MobileNet手势分类模型。如前所述，由于创建的“求救信号”的尺寸很小，数据集，我们应用了迁移学习技术。因此，网络的训练分两个阶段进行。作为第一阶段，Jester数据集（Materzynska et al.，2019年，被剥削。它包含27个不同的类，用于训练机器学习模型来识别人类手势。共有148，092个视频。8：1：1的比率已用于在训练、验证和测试集。该数据集还包括两个“无手势“类，以帮助网络区分特定手势和未知动作。的部分。Jesture数据集的训练视频用于训练MobileNet分类器。MobileNet一次处理16帧，对空间和时间信息进行编码。我们使用Jester数据集在配备NVIDIA GeForce RTX 2080 Ti GPU的机器上对MobileNet模型进行了40个epoch的我们使用了SGD优化器，学习率从0.1开始，在第15、25和35个epoch被除以10，交叉熵损失函数，批大小为64，阻尼为0.9，权重衰减为0.001。请注意，Jester的平均视频长度约为3秒，36帧。因此，我们决定将视频降到每秒10帧，以满足我们架构的预期速率为了提高MobileNet的预测能力和防止过度拟合，我们应用了数据增强技术.要做到这一点，每个图像都被裁剪为112× 112，并通过0.5到1之间的随机参数重新缩放S. Azimi等人智能系统与应用17（2023）2001747×图8. 在开发的平台上执行的测试视频的不同场景（a）与具有平面背景的相机的近距离（b）与具有平面相机的相机的远距离（c）与具有城市背景的相机的远距离（d）与平面背景中的相机的多只手远距离（e）与城市背景中的相机的多只手远距离表2所开发平台与不同版本的“求救信号”数据集。数据集版本准确度[%]准确度降低[%]原始91.25低分辨率86 5.75黑色白色91 0.27&低分辨率和黑白85 6.84噪音76 16.71在验证和测试期间，图像被缩小，保留其纵横比，并裁剪为112 × 112图像大小。在第一阶段的训练结束时，MobileNet在Jester数据集的27个类上训练的准确率第二阶段包括应用迁移学习技术通过冻结MobileNet的预训练模型，并使用“Signal for Help“数据集微调最后一层在Jesture划分之后，我们保持了相同的比例，8：1：1将数据集划分为训练集、验证集和测试集。该模型在39个时期后收敛，学习率为0.0005，批量大小为40。在第二个训练阶段之后，该模型在“求救信号”测试集上达到了91.25%的准确率在训练和微调阶段期间用于MobileNet的训练参数在表1中报告，而图1和图2中报告。图5和图6表示在训练和精细训练的时期期间的准确度的趋势。调整步骤。正如从该图中可以预期和观察到的那样，准确度随着训练集和验证集的历元的增加而增加。6.2. 实时检测和分类结果在培训阶段之后，我们继续验证开发的工作流程的效率。我们评估我们的执行绩效，“信号求助“数据集测试集的每个视频的建议工作流程当没有手势时，我们的系统平均运行速度为62 fps，因此，只有MediaPipe手部检测器处于活动状态，而在手势的存在，因此，MediaPipe手检测器和MobileNet分类器都是活动的，它以16 fps运行。在数据集的测试集中测试视频，在94%的情况下，检测到真正的警报，而5%的假警报和1%的遗漏警报被检测到。S. Azimi等人智能系统与应用17（2023）2001748见图9。具有不同修改版本的开发平台的混淆矩阵X&&表3MediaPipe和ResNet-50手部检测模型的比较如图7所示，图7报告了利用“信号帮助“测试集的开发平台的混淆矩阵图8表示已经检测到“求救信号”的一些情况。CNN模型MediaPipe（建议的解决方案）ResNet-50（最先进的解决方案）通过视频，实时的可以看出，所示出的情况表示不同的场景，室外、具有自然光和人造光的室内、室内和室外。参数[#] 2M 23M性能~30 fps ~12 fps准确度[%]~96%~97%表4MediaPipe和ResNet-50手部检测模型的比较数据集类型训练时间[h]验证准确度[%]一只手或多只手的存在。此外，为了验证我们的方法考虑更现实的场景的效率，我们通过修改数据集来模仿CCTV视频创建四个新版本的数据集：&白色&“和“低分辨率和黑白“和“噪声”。我们用四个新修改的数据集测试开发的平台。表2报告了所开发的平台在测试这四个数据集中的每一个时的准确性，而图9表示混淆矩阵。MobileNet（提议）ResNeXt-101（最先进）MobileNet（提议）ResNetXt-101（最先进）每个测试的平台正如预期的那样，结果显示，相对于原始数据集的准确性，范围从0.27%到16.71%的减少。Jesture 26 33.4 91.71 93.8求救信号表5MobileNet和ResNext-101分类器在复杂度和性能方面的比较。在Jetson NanoNVIDIA开发工具包上评估性能。6.3. 与最新技术水平的为了确认我们提出的嵌入式系统解决方案相对于最先进模型的效率，我们在Jetson Nano开发工具包上实现了我们提出的解决方案以及两个选择的最先进模型，同时我们通过将它们与CNN模型MobileNet（建议的解决方案）ResNeXt-101（最先进的解决方案）最先进的模型我们选择ResNet-50作为手部检测算法，而ResNeXt-101被选为手部分类算法。参数[#] 14.1M 48.75M层[#] 28 101性能~6 fps ~4 fps租m作为两个最常见的国家的最先进的解决方案。与MediaPipe模型相同，我们选择了预训练的ResNet- 50手部检测模型。我们使用Jetson Nano NVIDIA开发人员套件，配备128核NVIDIA Maxwell GPU、四核ARM内核@1.43 GHz和2 GB内存，用于训练和测试所选模型。S. Azimi等人智能系统与应用17（2023）2001749表3显示了ResNet-50相对于我们在Jesture数据集上提出的平台中使用的MediaPipe模型的准确性之间的比较。从表中可以看出，MediaPipe需要的资源更少，更适合嵌入式应用，而MediaPipe和ResNet-50的精度几乎相同。在分类模型方面，我们按照与训练MobileNet分类器相同的策略训练了ResNeXt-101分类模型。因此，作为第一步，我们使用Jesture数据集训练了ResNeXt- 101。其次，我们应用了迁移学习技术，冻结了ResNeXt-101的预训练模型，使用“Signal for Help”数据集调整最后一层如表4所示，我们使用Jester数据集在配备NVIDIA GeForce RTX 2080Ti显卡的机器上训练ResNext 40个epoch，需要33.4小时。我们使用SGD优化器和交叉熵损失，学习率从0.1开始，在第15、25和35个时期除以10，批量大小为46，阻尼为0.9，权重衰减为0.001。在第一阶段，ResNext达到了93.8%的准确率。我们在第二阶段继续对ResNeXt-101进行“信号帮助”数据集的训练该模型在10个epoch后收敛，学习率为0. 01，批量大小为128，下采样为5。经过第二阶段的训练，该模型实现了在“求救信号“测试集上的准确率为94.9%从表5中可以看出，ResNext的准确性略高于MobileNet。但是，请注意，考虑到最终目标是开发一个这是一个重量轻，所需资源有限的模式，重要的是要考虑到每个模式的复杂性和资源限制。因此，我们通过比较两种模型的特性向前推进。如表5所示，ResNext-101被称为复杂而深入的CNN，需要许多资源。事实上，定义ResNeXt模型的参数数量是MobileNet的4倍，而它们都以相同的速度运行。这证实了选择MobileNet作为我们提出的“求救信号”识别工作流程的轻量级准确分类模型我们要强调，关于以下问题的拟议解决办法现有技术在“求救信号“的检测和分类上提供稍低的准确性7. 结论本文介绍了第一个实时平台的开发，用于检测该平台由两个基于CNN的3D模型组成，媒体-Pipe和MobileNet用于检测视频中的手和手势分类，已合并创建一个单一的分层手势识别架构。此外，由于都灵理工大学学生的贡献，第一个动态数据集“求救信号”，包括200个视频，公开。开发的平台已在两台机器，一台搭载 Inteli9-9900K@3.6 GHz CPU 和 Jetson NanoDeveloper Kit作为嵌入式系统的机器，性能速率分别为16 fps和6 fps，显示准确率为91.71%。即使开发的平台的准确性是在相同的范围内的国家的最先进的解决方案的手势识别平台，资源的使用是少4倍，推理有50%的加速，这为嵌入式系统提供了一个很好的选择。8. 未来的作品在未来，我们计划首先丰富创建的数据集，以便能够训练一个更准确，更高效的基于CNN的平台，并辅以不同的真实场景。其次，我们正在与意大利的一些公共和私人组织进行谈判，以便将开发的平台投入使用，利用意大利大城市市区的监控摄像头。就此而言，我们正与一个城市设计师团队合作，该团队正深入研究智慧城市保安摄像头的功能，以确定将开发的平台与监控摄像头整合的合适位置。竞争利益作者声明，他们没有已知的竞争性经济利益或个人关系，可能会影响本文报告的工作我们希望确认，本出版物不存在已知的利益冲突，也不存在可能影响其结果的数据可用性我们在GitHub上分享了数据，并在文章中插入了链接确认该项目于2022年3月在IEEE Women in Engineering举办的“Women toWomen Tech Ideas”比赛中获选为前三名提案此外，我们还要感谢都灵理工大学的所有学生，他们为创建“Signal for Help所有对手稿中报告的工作做出重大贡献的人（例如，技术帮助，写作和编辑援助，一般支持），但谁不满足作者的标准，在致谢中命名，并给予我们他们的书面许可被命名。如果我们没有包括鸣谢，那么这表明我们没有收到来自非作者的实质性贡献。引用阿格拉瓦尔河Gupta，N.（2016年）。实时手势识别计算机交互在IEEE第六届国际先进计算会议（IACC）上，470-475）。https://doi.org/10.1109/IACC.2016.93Ashwini，R Amutha，Rajavel，R.，&Anusha，D.（2020年）。使用可穿戴惯性传感器的日常人类活动分类。在国际会议记录中无线通信信号处理和网络（WiSPNET）（pp. 1-6）。Athilakshmi，Rajangam，Rajavel，Ramadoss，Jacob，Shomona Gracia（2018）. 关于深度学习架构的调查。计算与理论纳米科学杂志15（8），2577Chen，L.H、徐，H.-W.，王湖是的，苏，C.-W. （2011年）。电影中的暴力检测In.计算机图形、成像和可视化国际会议（CGIV）。埃利奥特，G.，Meehan，K.，&Hyndman，J.（2021）.使用CNN和tensorflow识别在IEEE第12届年度普适计算、电子移动通信会议（UEMCON）中，0515-0521）。https://doi.org/10.1109/UEMCON53757.2021.9666484Fu，E.是的，Va Leong，H.，Ngai，G.，Chan，S.（2016年）。自动战斗检测监控录像在第14届国际会议的进展，在移动计算和多媒体，系列。225-234）。计算机协会。https://doi.org/10.1145/3007120.3007129。A.G. Howard，M. Zhu，B. Chen，中国粘蝇D. Kalenichenko，W. Wang，T. Weyand etal.“MobileNets ： Efficient convolutional neural networks for mobilevision applications” ， in Computer vision and pattern recognition ，2017，arXiv ：1704.04861.克普克吕岛，O.，Gunduz，A.，Kose，N.，里&戈尔湾（2019年）。使用卷积神经网络的实时手势检测和分类。在14日的会议记录中IEEE International Conference on Automatic Face Gesture Recognition（FG 2019）（2019年IEEE国际人脸手势识别会议）1-8）。https://doi.org/10.1109/FG.2019.8756576Kiruthiga，P.，&拉贾韦尔河（2021年）。儿童的视听情绪识别。数字技术在社会赋权中的力量国际会议论文集，CHENCON2021。S. Azimi等人智能系统与应用17（2023）20017410科普克卢岛，Kose，N.，Cunduz，A.，&里戈尔湾（2019年）。资源高效的3D卷积神经网络。in.在计算机视觉国际会议上。Materzynska，J.，Berger，G.，巴克斯岛梅米舍维奇河（2019年）。The Jesterdataset：人类手势的大规模视频数据集在IEEE/CVF国际会议记录中计算机视觉研讨会（ICCVW）2874-2882）。https://doi.org/10.1109/ICCVW.2019.00349Molchanov，P.，Gupta，S.，Kim，K.，&Pulli，K.（2015年）。驾驶员手势识别的多传感器系统。In.在，1. 第11届IEEE国际会议和自动人脸和手势识别（FG）研讨会论文集。1-8）。 IEEE。Molchanov，P.，杨，X.，Gupta，S.，Kim，K.，Tyree，S.，&Kautz，J.（2016）.基于递归3D的动态手势在线检测与分类卷积神经网络In.在IEEE计算机视觉和模式识别会议论文集（pp. 4207-4215）。Ohn-Bar，

下载后可阅读完整内容，剩余1页未读，立即下载