视频中的手势对社交媒体参与的影响-基于深度学习

29 浏览量更新于2024-01-02 收藏 1.54MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

International Journal of Information Management Data Insights 1（2021）100036视频中的手势如何影响社交媒体参与-基于深度学习Kartik Ananda，Siddhaling Urolagina，b，Ram Krishn Mishraaa计算机科学系，BITS Pilani，Dubai Campus，Dubai International Academic City，PO Box 345055，DubaibAPP Centre for AI Research（APPCAIR），BITS Pilani，Dubai Campus，Dubai International Academic City，PO Box 345055，DubaiaRT i cL e i nf o保留字：计算机视觉手势深度学习手势识别神经网络卷积神经网络a b sTR a cT随着深度学习和计算机视觉的快速发展，人与计算机之间的交互变得越来越大。本研究工作的目的是识别手势并分析手势和用户参与度之间的关系。在这里，我们提出了一种基于深度学习的技术，卷积神经网络（CNN），用于从视频或图像输入中识别手势。ResNeXt-101模型用于手势的分类。在这里，我们还使用了来自Twenty Bn数据集的一些手势图像，同时我们还从TEDX视频中收集了手势图像。我们的实验获得了很高的准确率为95%至99%的训练和94.35%的测试手势识别。首先，在每个帧中识别手势，然后进行分类。我们还创建了一个count函数来帮助我们计算数字有时候，一个姿态的表现，帮助我们更好地分析这些会谈。两项实验研究的观众参与度进行了分析：一，观众计数的效果适当的手势，其次，观众的情绪适当的手势。有趣的结果观察到，适当的手势从说话者有影响，增加积极的评论和观众人数。介绍由于深度学习的进步和随着全球视频网络的扩展而扩展的视频数据的可访问性，视频分析已经改变了传统的计算机视觉以利用强大的深度学习技术。关于视频数据分析，深度学习技术用于教导系统区分视频中的个体和对象。通过这样做，视频情报安排可以使最终用户能够通过根据特定标准查看和筛选视频来加快调查和检查。智能视频分析通过考虑在视频和图像上使用的基于原则的警报来提供情景分析能力。此外，它允许通过将视频信息设想为仪表板、图形、识别模式和数学分析结果来推断操作知识。深度学习已被应用于许多研究领域，如时间序列预测、图像分割、视频分析、图像分类等。视频分析带来了许多实时应用.视频分析通常涉及对象检测、对象识别、人脸检测、人脸识别和手势识别。在这项研究工作中，我们使用深度学习算法进行手势识别，然后分析结果。手势的特点是手、手指、手臂和人体不同部位的实际运动，人可以沿着这些运动来表达自己的意图。传递彼此合作的意义。有两种独特的方法用于人类手势识别，信息手套方法（Lu等人，2016年）和基于愿景的方法论。手套方法必须使用带有大量电缆的设备，尽管它仍然具有良好的手势识别准确性和在随后的研究中，研究了基于视觉的方法，包括手势信号的识别和排序这种方法可以被认为是最实用的选择，因为它避免了使用额外的设备。对于任何手势识别小工具的基础设施来说，实际应用于现实生活场景是至关重要的。在这项工作中，我们开发了一个基于视觉的识别系统，使用深度学习来识别TEDX演讲中最常见的手势以及手势在视频中使用的次数。因此，在这种方法中，我们展示了卷积神经网络（CNN）在TEDX视频分析中的应用。CNN模型已被证明不仅在手势识别中而且在对象检测、活动识别和局部化中是性能最好的网络（Kopuklu等人，2018）（3）.许多不同的算法和方法已被用于手的分类和检测，例如在Nguyen等人（2015）中，使用主成分分析（PCA）选择属性，神经网络用于分类。在Simonyan和Zisserman（2014）和Karpathy et al. 2014年，许多视频*通讯作者。电子邮件地址：siddhaling@dubai.bits-pilani.ac.in（S. Urolagin）。https://doi.org/10.1016/j.jjimei.2021.100036接收日期：2021年7月13日;接收日期：2021年9月2日;接受日期：2021年9月2日2667-0968/© 2021作者。由Elsevier Ltd.发布。这是一个CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）可在ScienceDirect上获得目录列表国际信息管理数据杂志见解期刊主页：www.elsevier.com/locate/jjimeiK. Anand，S. Urolagin和R.K. 米什拉International Journal of Information Management Data Insights 1（2021）1000362帧被用作2D CNN的输入。许多其他方法被使用，这将在文献部分讨论。在我们的工作中，考虑了TwentyBN等图像数据集。此外，通过使用Python中的OpenCV库捕获TEDX视频的帧，将几个图像添加到图像数据集中。为了提高准确性，我们使用了数据增强技术来增加用于训练深度学习算法的图像数量对于数据扩充，我们使用Keras“ImageDataGenerator”使用不同角度、旋转、像素、缩放范围、缩放等捕获的图像生成几个新图像。这里，缩放、旋转和其他参数保持在一个小范围内，以避免额外的对于我们提出的方法，我们使用3DCNN和ResNeXt-101（Hara等人， 2018年）。在本文中，我们创建了一个系统，该系统使用这些方法来处理自定义创建的数据集，并使用双手执行新添加的手势。使用两只手执行的手势一直难以识别。通过我们提出的方法和工作流程，我们已经使我们的模型能够同时识别两个不同的手的手势，并识别在TEDX演讲中最常见的手势。这篇论文更多地关注于识别TEDX视频中的手势，这些手势可以帮助TEDX演讲者改善他们的演讲。在这些演讲中，手势被因此，适当的手势在使TEDX视频在观众中流行方面发挥着重要作用手势是一个人的思想和活动之间的神经这些手势帮助我们形象化单词，也有助于增加意义。说话时，做手势可以帮助别人记住你说的话，也可以帮助你说得更快更有效率。这些手势也有助于获得听者的注意力。它们是一种视觉辅助工具，其实用性无与伦比。最受欢迎的TED演讲者用他们的语言和他们的手来交流。在这项研究中，我们使用我们的架构来分析TEDX演讲，以识别手势，并发现这些手势如何帮助TEDX演讲者取得成功。在接下来的部分中，我们介绍了手势识别方面的文献调查和工作。拟议方法载于第三节，其中阐述了培训和其他进程。第IV节和第V节详细说明了实验设置、结果和统计分析，最后，结论见第VI节。文献综述社交媒体平台中的大量用户生成的数据正被用于许多应用。不同领域的研究人员正试图利用这些数据，建立一个坚实的大数据理论模型来解决多个问题并处理各种数据（Kar& Dwivedi，2020）。Twitter吸引了许多用户分享他们的观点，并提供了一个集中的空间来收集不同的全球情感数据。这些数据已被用于特定领域，以解决情感分析和分类等实际问题（Neogi等人，2021）和处理错误信息（Aswani等人，2019）和人格维度（Lakhiwal& Kar，2016）。手势识别是一个有利的主题，并且它被应用于几个合理的实现和实际工作（Kojima等人，2000年）。通过警察工作和安全来确定和确认手势样本，以防止犯罪行为（Cohen等人，2008年）。手势识别已经被用于构建若干应用，诸如手语识别（Mitra& Acharya，2007）和构建测谎应用（Bond等人，1990年）。在基于图像的手势识别系统中，由于图像区域的变量数量很大，提取基本选项是关键的图像。最近，随着CNN的发展，Simard等人成功地对文档图像进行了大量的分析。（2003年）。CNN在图像分类中幸运地解决了许多问题（Krizhevsky等人，2012年）。使用NLP和CNNLSTM架构的应用程序，在Agrawal和Uro中开发了Sing语言翻译器。lagin（2020）. Nasir等人（2021），介绍了一种新的混合深度学习模型，将CNN和RNN混合在一起用于虚假新闻分类。该模型得到有效验证，产生的检测结果远远优于非混合方法。此外，3D-CNN通过对图片进行分类并将其与时间选项相结合来提取CNN领域的特征。研究工作已经被预测为探索3D-CNN和RNN连接的组合（Molchanov等人，2016年）。已经提出了一种利用肤色模型和AdaBoost分类进行手势识别的策略（Sun等人， 2018年）。一项使用静态和动态手势命令计算机的研究，有三个主要进展，在Plou Pée和Pénu（2015）中提出。研究人员在Xie等人（2018）中使用精细的Inception V3模型开发了RGB-D静态手势识别在Liu et al.（2015）中，使用了一个深度CNN模型来处理单目图像问题的深度评估。这同样意味着研究深度CNN和持久限制随机场（CRF）的极限。所提出的图学习不间断CRF的一元和成对可能性此外，提出了一种依赖于卷积网络的模型和一种新的超像素池化技术，该技术的速度约为卷积网络的数倍。这个模型是一个性能优越的CNN设计。作者在He等人（2016）中使用了深度残差网络进行图像时间段网络（TSM）方法在Wang等人（2016）中使用，其中将视频分为几个小部分，并使用2D CNN进行动作识别。Tran等人（2017）使用3D CNN和3D池化来捕获不同维度的特征。3D CNN不是将视频划分为不同的帧，而是接收帧的序列。不同的新架构，如Covnet（Tran等人，2017），GTN（ LeCun 等人， 1998 ）、 Very Deep Convnet （ Simonyan&Zisserman ， 2014 ）、 ResC3D （ Miao 等人， 2017 ）， FOANet（Narayana等人，2018）和融合模型（Lin等人，2018）已经被用于检测和识别应用。集成算法也被广泛使用（He等人， 2016; Huang等人，2017; Szegedy等人，2015年），以协调来自各种模式的数据，并进一步发展执行，这促使不适当的培训和推导在实践中的时间。在Donahue etal.（2015）中，作者提出了突出CNN帧的特征，并将LSTM应用于全局时间建模。Molchanov等人（2016年）提出了一种类似的方法，其中使用递归CNN进行手势识别，再次使用3D CNN提取手部特征。许多其他方法使用马尔可夫模型（Vieriu等人，2011）用于实时静态手势识别。给出了改进最近邻分类器的分类性能（Athitsos Sclaro，2005）。利用Oprisescu等人提出的光静态手势识别时间给出的深度和强度信息。（2012年）。使用ResNext-101的实时手势识别在Köpüklü等人（2019）中使用。Chauhanet al.（2021）针对新型冠状病毒医学图像对深度网络进行了优化和微调。手势应用于人机交互在第七届国际会议在计算和通信的进展（2017年）。在2012年信息与电子工程国际研讨会上，基于多特征融合和模板匹配的手势识别方法得到了应用。 Lu（2019）分析了提高直播观众参与度和沟通效率的技术。分析包含点播视频、长视频和直播内容的视频的若干数据库以了解关于用户参与的视频的质量（Dobrian等人，2011年）。观众参与度的研究与赠送礼物的行为在Yu等人的视频。（2018年），并发现这种视频的参与是积极的。Chen et al.（2015）的研究人员他们在大学校园里使用自行部署的路由器，从在线视频传输中收集参与信息。Hoiles et al.（2017）使用了分布在2.5万个频道上的600万个视频的YouTube数据，并研究了社会动态和观众参与度。Garg等人（2021）使用一种基于人工智能的方法i-Pulse，可以审查和评估thou-K. Anand，S. Urolagin和R.K. 米什拉International Journal of Information Management Data Insights 1（2021）1000363Fig. 1. 整体工作流程图。调查的沙子。这可以帮助大型组织获得洞察力，以改善他们的工作文化。（Rautaray Agrawal，2015）研究旨在更深入地了解如何使用HCI技术改进流媒体在Tran et al. （2015），提出了使用3D CNN学习时空特征的技术。自我中心视觉中的主要困难是由于全局相机移动，这在Cao等人中得到了解决。（2017）使用循环3D CNN。Donahue等人提出了双深度长期回流卷积网络。（2015），并且它们具有提取空间和时间信息的能力。Wang等人（2016），研究人员提取帧之间的特征点匹配来表示运动视频。在Carreira和Zisserman（2017）中，使用了一个双流的3D CNN来学习动态人类动作视频数据集Liang等人（2015）使用多特征融合技术进行了复杂环境中的手势该方法本节介绍了我们使用CNN和ResNeXt-101在TEDX视频中进行实时手势识别的两种架构。此外，我们解释了视频检测的基本层次结构。随着大量数据集的可访问性，基于CNN的模型已经证明了它们在手势识别任务中的能力。3D CNN设计特别适合视频检查，因为它们利用了轮廓之间的世界关系图 1显示了模型的总体工作流程。首先，我们从不同的数据集和TEDX视频中收集图像此外，我们还使用数据增强技术来增加数据集的大小，这有助于提高模型的准确性。Pandas（1.3.1）库用于图像的预处理。我们使用ResNeXt-101来训练我们的模型。我们需要按照预定义的方法准备数据。这里ResNeXt-101从视频中接收64 × 96大小的目标帧，我们还将每秒的帧数预定义为15。一秒的跳跃值，用于训练模型在单个帧上工作。随机梯度下降（SGD）是使用ResNeXt-101训练模型时的优化算法。最后，执行分类步骤以分类-简化手势输出。此外，我们将更详细地解释工作流程的整个功能。在我们的体系结构中，实时手势识别过程中的处理步骤如图2所示。由于该算法不知道每个视频中何时执行手势，因此我们使用视频逐帧传递图像以获得最有效的输出。每个帧都被传递到检测算法中，检测算法进一步将帧发送到分类器以对所执行的手势进行分类。检测算法的主要目的是识别手势是否被执行，并使用训练的模型寻找类似的手势。如果未执行手势，则传递帧，并且不呈现输出。然后将下一帧作为检测算法的输入。该模型的整体性能高度依赖于检测算法。因此，该检测算法必须非常准确。这就是将每一帧都作为算法输入的关键原因。检测器还经过训练，以尽可能减少误报值如果识别出一个手势，则会为传递给分类器的帧分配一个编号分类器已经用手势和它们相应的数字预先定义。当分类器接收到具有特定编号的帧时，它会将该帧分类为一个几何图形，并移动到下一个帧。对于手势识别，ResNeXt-101（Hara等人，2018年，建筑被使用。该论文的作者重新制定了整个网络，以学习有关层输入的残差函数。残差网络解决了梯度变得非常小的问题。每当神经网络有很多层时，梯度就会被推回到前一层，最终使梯度达到最小值，从而进一步影响网络然而，随着残差网络的引入，这个问题得到了有效的解决。计数功能是我们算法的附加部分，可以帮助我们计算特定视频中执行的手势数量。我们使用Pandas Library（1.3.1）。我们使用了库中的Series和value counts函数，它从分类器中取出输出并分别将它们相加最后，它以列格式打印结果，其中手势的数量在图2中，虚线红色帧当前处于检测算法中，而虚线黄色帧是等待队列，并且是进入检测算法的下一帧。K. Anand，S. Urolagin和R.K. 米什拉International Journal of Information Management Data Insights 1（2021）1000364图三. 34层普通网络。图2. 工作流程的总体架构。见图4。 34层残留物。算法蓝色虚线框显示剩余的总帧。分类器根据蓝色虚线中的帧数保持激活状态。ResNet架构使用残差块的概念构建假设一个残留块开始于一些激活。第一步是通过乘以权重度量并将偏差添加到初始激活来应用线性算子。然后激活通过ReLU层。ReLU给出了图像的校正特征图。由于Resnets涉及多层网络，因此我们再次通过线性算子的第二层传递激活，同样再次通过ReLU层。而在Resnets中，我们跳过了第一步和第二步。我们跳过连接以避免梯度损失。这里建立了一个跳过连接。通过引入跳过连接，我们可以避免普通网络，而是使用Resnet，因为与其他网络相比，这些网络与理论误差相比具有较小的训练误差（Hara等人，2018年）。图图3和图4示出了普通网络和剩余网络之间的比较。在Hara et al.（2018）中，这些网络的工作，甚至是1000层网络的工作，都可以通过较小的训练误差来训练。我们使用这种架构和Köpüklü等人定义的ResNeXt-101。（2019）作为我们对数据集进行训练的基础。实验装置实验结果是使用实时视频作为输入获得的。首先，使用我们自己创建的图像数据集测试结果该数据集是通过从YouTube和不同的TEDX演讲中收集视频并捕获手势帧来构建的，以使用OpenCV（4.5.3）进行识别。如图5所示，以400× 400PIXel分辨率捕获图像。我们的最终图像数据集包含17个手势和总共130000个样本图像。许多肤色和各种形状帮助我们建立了一个通用模型。实验结果在训练和测试期间，所提出的模型的准确性和损失如图6所示。所提出的架构产生的测试数据的结果如表1所示。准确率为94.35%，F1评分为94.23%。该模型的召回率为93.73%，而准确率为97.83%。我们的模型的训练和测试是在定制的数据集上进行的。我们的数据集包括一些新的手势，这些手势的准确性低于K. Anand，S. Urolagin和R.K. 米什拉International Journal of Information Management Data Insights 1（2021）1000365图五. 示例收集的手势图像。表1检测结果。模型召回率精确度准确度F1得分Resnet 93. 73 97. 83 94.35 94. 23更常见的手势，但仍然具有整体高精度值。在进行实验并观察结果之后，很明显ResNeXt-101是性能最好的CNN之一。图7显示了我们在测试模型时记录的一些实时结果。TEDX视频作为输入，手势被模型非常准确地识别出来。然而，该模型并不完美，但表现良好。通过识别实时手势，我们还计算了每个视频中作为输入执行的手势数量打印在时间限制内执行的特定手势的具有最高准确度的帧如果在一定时间量之后执行相同的手势，则将其保存为另一手势并添加到该手势的计数中。因此，我们能够计算手势执行的次数。在count函数的帮助下，我们能够检测到TEDX视频中最常见的手势。图图8和图9展示了我们测试视频中最常见的手势。我们使用我们的模型结果和对图8（a），（b），（c）和（d）中4个此类视频的分析测试了大约25个视频。count函数帮助我们分析结果。如图所示，最常见的手势是分开。事实证明，这种姿态可以改善TEDX演讲的体验，使其更具互动性，并有助于以更好的方式传达想法或故事。视频中还使用了其他的手势。一些其他手势被识别为一个类别，其中所执行的手势不能被分类为训练集中的手势之一，因此被分类为一些其他手势以避免混淆并减少误报。在未来，我们可以使用不同的检测方法来提高准确性和性能，向数据集添加新的手势，并找到新的方法来识别和定位图像中的这些手势。图中显示了TEDX演讲者在演讲过程中所做的各种手势。上述结果显示了对用于测试目的的一些视频的分析。现在我们来分析一下，更多的手势表演是如何提高观众的参与度的。使用我们的架构，我们能够推导出手势和成功的TEDX演讲之间的关系。在一个实验性的设置中，我们提到我们给出了最著名的TEDX演讲作为输入。图9示出了该关系的输出。我们注意到，我们可以在5分钟长的视频中识别大约60个手势。现在我们将这个结果与不太受欢迎的TEDX视频进行了比较。不太受欢迎的TEDX演讲在一分钟的视频中平均有26个手势。这导致我们得出的结论是，有意义的手势可以吸引更多的观众。我们看到著名的TEDX演讲者使用的手势数量几乎是其他TEDX演讲的两倍。这里的表2和表3显示了以表格形式表示的count函数结果。该表显示了该模型在10个视频上的结果。测试视频是经过精心挑选的，因为TEDX视频涉及各种摄像头角度，导致误报和不良结果。因此，首先选择了用于测试的视频视频持续时间也被减少到视频中的摄像机角度适合模型的程度。图10描绘了在视图上执行手势的效果。图10（a）示出了随着手势的数量增加，视图的数量也增加。第一个图表以指数形式描述了观点：0.25等于0.25× 10 - 27次观看。图10（b）示出了相同的比较，但是具有较不受欢迎的视频和较少的观看。我们可以看到，所做的手势是流行视频中的两倍。即使在不太受欢迎的视频中，我们也可以看到增加手势的数量会增加观看次数。这展示了手势在TEDX演讲中是多么有效以下两个表格显示了在最受欢迎和最不受欢迎的视频中执行了多少手势，以及有多少不同的手势进行。图11比较了流行视频与不太流行视频中使用的不同手势。这张图说明了使用手势的重要性。手势经常在流行视频中使用，以突出特定的演讲点并巩固演讲者见图6。模型精度和损失。K. Anand，S. Urolagin和R.K. 米什拉International Journal of Information Management Data Insights 1（2021）1000366图7. 直播结果。图8. TEDX视频表2以%为单位计算热门视频的函数结果视频号双手分开停车标志紧握的手双手合十把手抽离140.24.168.332.772.772 27.6 6.15 4.61 6.152.98 2.98 2.98 2.984 32.3 7.6 6.15 7.6 4.615 34.9 14.2 11.11 3.176 24 7 3 4 37 34.7 7.2 11.598 44.6 6.3 6.3 6.3 4.29 42.8 0 3.8 3.8 010 37.9 8.6 1.7 8.6 6.8共计35.6 5.1 6.4 6.7 3.5与此同时，分析结果，我们也意识到，人们更喜欢TEDX演讲，更多的是基于演讲者的肢体语言和手势，而不是他们的实际话语。我们还发现，泰姆普尔·格兰丁、西蒙·辛内克和简·麦戈尼格尔在手势排行榜上名列前茅。图12显示了在最受欢迎和观看的TEDX演讲中使用我们的架构我们看到，双手分开是最常用的手势。这个字符-双手分开几英寸，手掌相对的特征性手势已经成为这些说话者的标志性动作。当深入讨论一个话题时，优秀的演讲者往往会这样做。因为手掌通常是在一个开放的立场，这是指挥，但坦率。我们注意到，在讨论一个重要的话题时，这样做。它从心理上使听众了解谈话中所表达内容的重要性。因此，双手分开，是最关键的手势，应该更常用K. Anand，S. Urolagin和R.K. 米什拉International Journal of Information Management Data Insights 1（2021）1000367图第九章测试视频中常见的手势。表3以%为单位计算不太受欢迎的视频的函数结果视频号双手分开停车标志紧握的手双手合十把手抽离121.055.2010.510.516.6 5.5 5.5 5.5330 515 5.14 9 4.54 13.6 9.095 5.88 5.88 5.88 17.64 11.966 15 0 5 20 07 33.3 12.5 4.168 20 15 15 10 02019 - 07 - 29 00：00：0010 23.6 0 5.88 5.88 0共计19.89 11 6.2 8.9 4.7见图10。手势和视图的数量（最受欢迎与不太受欢迎的TED X演讲）。与观众互动，做一个更有影响力的演讲。下一个最常用的手势是双手合十。我们的研究发现，第二个最常见的手势是双手合十，这意味着两种不同的力量开始结合并实现联系。在实验中也经常看到停止标志停车标志表示当有人行动时减速或停车而我们看到顺时针和逆时针旋转的手也经常使用。这个手势有一个完全不同的意义，因为谈话者正在探索一些想法。这与双手分开的姿势非常相似，而这是在TEDX演讲者通常问一个问题时完成的，比如怎么做？向左、向右和其他方向滑动手是一个宏伟的姿态。仿佛一个人正在扫过所有的K. Anand，S. Urolagin和R.K. 米什拉International Journal of Information Management Data Insights 1（2021）1000368图十一岁不太受欢迎的视频的计数功能结果图12. TEDX视频有能力支持的想法。这个表达也可以表示“清理石板”或“把东西移得很远”。“拇指上下也被多次使用。拇指上下意味着自信和合作。同时它也用于表达对收到的恩惠的感激之情而thumbs down通常用来否定某事。也经常被使用。TEDX演讲者通过握紧拳头、向某人摇晃拳头或向空中挥拳来展示强度。主要是配合一个关键点。虽然他们在使用这个动作时很谨慎，因为有时候这可能会让人感到愤怒。这显示了成功的TEDX演讲和手势是如何相互关联的。一个充满活力的演讲者比被动的演讲者对观众产生更大的影响没有手势，公众演讲将永远被认为是无聊和陈腐的，无论演讲是多么伟大。此外，在谈到与在线观众和观众的互动时，我们使用Selenium（3.141.0）和Beautiful Soup（4.9.3）来抓取热门TEDX演讲的评论，并使用文本挖掘对它们进行分类。我们将评论分为积极、中立或消极。我们发现，使用更多手势的流行TEDX演讲获得了更多积极和中立的反馈。可以说，有更多的观点会导致更多的评论，无论是积极的还是消极的。也可以说，听众的反馈/意见主要取决于演讲的内容和是的，积极的反应主要取决于主题，但我们也完全相信手势在使谈话更激动人心方面发挥着重要作用。因此，更多的观众将能够将自己与主题联系起来。谈话的内容是吸引人的，但叙述可能会或可能不会收到良好的反馈。这完全取决于演讲者如何向听众讲述。然而，通过我们的研究，我们已经发现了观点和手部动作之间的联系。因此，我们推断，使用更多的手势可以导致更成功的TEDX讲座，更多的意见和更积极的评论和想法的录音。图13（a）示出了具有更多视图如何导致更积极的反馈。因此，我们很想了解更多关于手势与积极评论和情绪之间的联系。图图13（b）描绘了更多的姿态与收到的积极评论数量之间的直接关系。我们使用分类器算法的分类输出，并将其与所使用的手势数量进行比较。它向我们展示了一种直接而决定性的相关性。讨论计算机视觉加速了许多不同领域的工作。医学领域数据已被深度学习方法广泛使用（Chen等人，2015年）。深度学习方法的最新进展为处理视频数据提供了一种更简单、更快速的方法。理论的贡献人工智能为解决实时问题提供了新的研究和方法。对群体智能进行了详细的算法审查，这为提出比现有算法更好的算法提供了新的方向（Chakraborty Kar，2017）。文本信息提供了更多的机会来建立一个有利于最终用户的理论，例如情感分析，用于向人们推荐新的酒店和旅游景点（Kar，2020）（Mishra等人，2020年）。基于移动支付系统上的用户生成内容，已经提出了满意度模型来增强数字服务（Mishra等人，2019年）。许多组织都面临着为用户生成的数据提供永久存储的大问题，在这种情况下，使用云服务需要一个灵活的定价模型（Kar&Rakshit，2015）。云服务还为主机提供实时应用程序和应用修改的机器学习方法，例如使用适当的优化技术检测电子邮件中的垃圾邮件（Batra等人， 2021年）。从视频数据中识别手势已经成为计算机视觉领域的一项重要任务。手势识别的主要目标是识别人使用他的手部动作所执行的动作。这些手部动作传达了微妙的信息，特别是在演示过程中。在我们的工作中，我们专注于TEDX视频分析。收集TEDX视频是为了识别演示期间人的手势深度学习模型Resnet是通过获取预训练模型，然后在130000帧TEDX视频图像上训练它来开发的Resnet模型在测试集上的准确率为94.35%。我们的模型可以识别17种不同的手势。最近的深刻学习模型的结果被用来识别不同的手势执行的专家在TEDX演示。在表4 中，总结了手势识别的最新工作的比较。 Köpüklü 等人（2019）使用ResNet和Resnet-X作为分类器给出了出色的结果。他们在公开可用的数据集上测试了他们的工作，例如EgoGesture Dataset和NVIDIA Dynamic Gesture Dataset。我们使用了类似的方法，但在更复杂的环境中使用自定义数据集。上表还显示了已进行的其他研究。在查看结果时，我们可以确信Resnet优于所有其他算法。我们发现我们的方法具有最高的准确性。准确性在很大程度上取决于所使用的数据集的特征，特别是每个视频的持续时间，质量和角度。在创建数据集时，我们考虑了所有这些重要参数。此外，有助于获得更高精度的关键因素之一是我们的算法的工作方式。我们发现，逐帧输入在实时评估中具有优越的结果，因为系统可以更准确地检测这有助于算法更稳健地检测手势的开始和结束。由于数据集和增加了用于逐帧检测的滑动窗口概念，我们能够实现更高水平的准确性。K. Anand，S. Urolagin和R.K. 米什拉International Journal of Information Management Data Insights 1（2021）1000369图13岁（ a）评论与意见，（b）评论与手势的数量表4结果比较参考文献分类算法网络使用的手势/数据集数量精度（Rautaray Agrawal，2015）CNNVGG16自我姿态百分之六十六点五（Tran等人， 2015）C3DC3D自我姿态89.7%（Cao等人，C3DC3D + LSTM + RSTM自我手势92.2%（Donahue等人， 2015）CNNVGG16 + LSTM自我手势81.4%（Wang等人， 2016）CNNMTUF多数据集93.87%（Carreira&Zisserman，2017）CNNI3DF自我手势92.78%（Köpüklü等人，3DCNNResNet和ResNeXtNVIDIA动态手势数据集94.03%我们的3DCNNResNeXt-101自定义数据集94.35%对实践的在手势识别中，使用诸如机器学习和深度学习的计算技术来识别人类手势。使用手势识别的视频分析揭示了关于手势运动的最关键信息。这些手势动作可以帮助向观看者传达想法和信息。TEDX是该领域专家在观众之间分享信息的主要平台之一。TEDX视频的手势分析有两个重要的意义。手势分析将有助于理解和研究专家如何使用手势来传达信息。其次，手势分析的结果可以被演示者利用，以提高他的演示技巧。在这项研究中，对25个TEDX视频进行了手势的统计分析，并给出了各种可视化。结论和今后的范围手势识别系统解决了各种问题，一直是计算机视觉领域的一个重要课题。手势在医疗、工业、辅助人类、虚拟现实、危机管理等方面有许多应用许多算法和方法已经被实现和测试用于手势识别。在我们的工作中，我们使用Resnet-101构建了一个手势识别系统。我们已经在从TEDX视频创建的定制数据集上训练了模型该数据集由130000个样本组成，模型在17个不同的手势上进行训练。在测试集上观察到94.35%的手势识别准确率系统一次分析每个帧。每当手势被执行，它被识别并被发送用于进一步处理。在下一个阶段，手势的分类发生。然后对视频进行统计分析，并收集各种手势频率。我们的count函数方法帮助我们分析了这些视频的输出我们准备了不同的可视化来以图形方式表示TEDX视频中收集的统计数据。我们发现，表达一些东西也是获得影响力和吸引更多观众的关键。在分析我们的结果时，我们发现描述自己或主题的最佳方式是使用你的手作为你的叙述工具。这表明，TEDX演讲者应该像关注他们的口头交流一样他们应该让他们的手为自己说话，这为TEDX演讲增加了更多的价值。因此，我们推断主题/内容是吸引观众的原因，但演讲者如何使用手势传达故事才是帮助他们成功的原因。我们的模型成功地检测到了手势，并帮助我们进行了分析，未来的TEDX演讲者可以使用它来改进他们的演讲。我们构建的模型非常准确，尽管如此，在复杂的环境中仍然可以进行一些扩展。例如，如果两个人在同一帧中执行手势，比如两个或更多个人出现在舞台上，这可能会混淆模型并导致较低的准确性。因此，在更复杂的环境中的手势识别因此，可以通过创建更复杂和拥挤的环境并使用新技术和架构训练模型来进一步改进这项研究。竞争利益作者声明，他们没有已知的竞争性经济利益或个人关系，可能会影响本文报告的工作。引用2012信息与电子工程国际研讨会（IWIEE）基于多特征融合和模板匹配的手势识别方法刘云，张立峰，张书军第七届国际计算机通信进展会议，ICACC-2017，22- 24八月（2017）。Cochin，IndiaHand Gesture Recognition for Human Computer Interaction Aashni Hariaa ，Archanasri Subramaniana ， Nivedhitha Asokdarara ， Shristi Poddara ， Jyothi SNayakaAgrawal，T.，Urolagin，S.（2020年）。使用CNNLSTM的双向阿拉伯语手语翻译器架构和NLP。在ACM，Ei Compendex和Scopus，ISI科学网，大数据工程和技术国际会议BDET-20（pp. 96-101）。阿斯瓦尼河Kar，A. K.，&Ilavarasan，P. V.（2019）.经验：管理社交媒体中的错误信息-来自Twitter分析的决策者见解。Journal of Data and Information Quality（JDIQ ），12（1），1K. Anand，S. Urolagin和R.K. 米什拉International Journal of Information Management Data Insights 1（2021）10003610Athitsos，V.，&Sclaro，S.（2005年）。提升最近邻分类器用于多类识别。2005年IEEE计算机协会计算机视觉和模式识别会议Batra，J.，Jain河，蒂基瓦尔河谷一、Chakraborty，A.（2021年）。全面研究使用生物启发优化技术检测电子邮件中的垃圾邮件 International Journal ofInformation Management Data Insights，1（1），Article 100006.邦德角F.、Omar，A.，Mahmoud，A.，&邦塞河N.（1990年）。跨文化测谎Journal of nonverbal behavior，14（3），189Cao，C.，中国植物志，张玉，吴，Y.，Lu，H.， &Cheng，J.（2017）. 使用带有时空变换器模块的递归3D卷积神经网络进行自我中心手势识别。在IEEEe计算机视觉国际会议上（pp. 3763-3771）。Carreira，J.，Zisserman，A.（2017年

下载后可阅读完整内容，剩余1页未读，立即下载