预训练深度学习模型的曲棍球活动识别

79 浏览量更新于2023-12-10 收藏 735KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

⃝可在www.sciencedirect.com在线获取ScienceDirectICTExpress 6（2020）170www.elsevier.com/locate/icte使用预训练的深度学习模型进行曲棍球活动识别Keerthana Rangasamya， Muhammad Amir Asa马来西亚新山马来西亚技术大学工程学院生物医学工程和健康科学学院b马来西亚新山马来西亚科技大学人类中心工程学院体育创新与技术中心（SITC）接收日期：2020年1月6日;接收日期：2020年4月15日;接受日期：2020年4月28日2020年5月21日网上发售摘要运动中的动作识别往往是一个复杂的任务，它是由运动员之间的快速动态交互引起的。在本文中，预-训练的VGG-16，提出了基于深度学习的曲棍球活动识别模型。由于没有现有的曲棍球数据集，因此构建了由自由击球、进球、罚角球和长角球四个主要活动组成的自有曲棍球数据集。实验结果表明，预训练的深度学习模型通过调整这个预训练模型的超参数c2020年韩国通信与信息科学研究所（KICS）。出版社：Elsevier B.V.这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。关键词：体育视频分析;深度学习;活动识别1. 介绍在这个时代，体育在娱乐领域发挥着重要作用[1]。因此，教练们正在寻找多种方法来提高球员的表现能力。这是不可能记住和洞察所有的运动和行动的球员在比赛结束时由教练利用这些信息来训练他们的球员在改善可能的错误。因此，性能分析师也被称为符号分析师，通过记录整个事件，收集数据，如识别球员的活动，球员运动，特定活动的时间，并将这些关键发现呈现给教练[2]。之后，教练将使用这些数据来训练他们的球员，提高球员的表现水平。但据对于性能分析人员来说，手动地逐个注释每个活动以努力标识玩家正在执行的因此，提出了自动活动识别系统来自动识别曲棍球球场上的球员的活动。本研究主要针对曲棍球运动，∗ 通讯作者。电子邮件地址：keerthana2@live.utm.my（K.Rangasamy），amir-asari@biomedical.utm.my（M.A.Asnazmina4@live.utm.myRahmad），fathiah5@live.utm.my（N.F. Ghazali）。同行评审由韩国通信和信息科学研究所（KICS）负责https://doi.org/10.1016/j.icte.2020.04.013在曲棍球中进行。近80%的体育相关研究集中在足球，篮球，棒球和网球[3]。上述活动识别是性能分析师开始任何体育分析。虽然有几个工具，如Dartfish，Sportcode可供性能分析师使用，但他们仍然需要观看整个体育视频，以便标记球员进行的活动，以便进一步分析，但教练和球员需要在更短的时间内输出分析结果[4]。因此，本文主要研究计算机视觉领域中的曲棍球运动识别，以方便教练员对运动员成绩的评价。已经开发了一个模型，它使用曲棍球视频图像作为输入，自动识别曲棍球比赛的四个主要活动。比赛项目有罚角球、球门、长角球和任意球。防守方如有犯规，将给予罚角球、长角球和任意球。这三个活动被认为是重要的曲棍球比赛，因为它有权力改变比赛的分数。另一方面，进球多的球队是比赛的胜利者。因此，分析运动员在这些活动前后的运动模式和位置，可以在提高比赛成绩方面发挥巨大作用为了实现本研究的目标，实施了深度学习方法。与传统的机器学习方法不同，使用深度神经网络能够直接从输入中2405-9595/2020韩国通信和信息科学研究所（KICS）。出版社：Elsevier B.V.这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。K. Rangasamy，文学硕士AsRahmad等人/ICT Express 6（2020）170171表1体育分析模型的传统方法文章建议模型运动类别表2运动分析模型的深度学习方法文章建议模型运动类别[6]提出了判别模型，以学习体育视频事件的层次结构。[7]设计了一种冰球比赛中场休息的[8]通过使用低层特征[9]利用等照度线曲率和判别特征建立足球比赛中的球检测模型[10]提出了一种基于兴奋建模曲棍球冰球足球篮球[12]使用基于CNN的深度迁移学习方法[13]使用CNN和RNN开发模型，绘制帧特征和帧时间关系[14]通过使用Segment-CNN[15]发现由VGG-16和LSTM组成的模型，在长时间的足球比赛中发现事件[16]基于RNN的[17]使用LSTM模型足球足球足球足球冰球排球其中要从所需的输入中提取的特征是手工制作的该模型利用预训练的VGG-16网络，该网络针对曲棍球活动（自由击球，进球，长角球和点球角球）进行了微调。曲棍球图像的数据集已经从YouTube上发现的广播曲棍球比赛中构建，因为没有公开访问的基准曲棍球数据集用于活动识别。在这个曲棍球数据集中，自由击球，进球，长角球和点球角球的活动被标记，这些活动将用于使用模型进行训练。本文的主要贡献是提出了自动活动识别模型，从自己的数据集组成的四个主要的曲棍球活动：自由打击，目标，长角，罚角广播曲棍球比赛。本文的其余部分组织如下，在第二节中是对体育相关活动识别相关工作的回顾。第3节重点介绍方法，第4节介绍结果和讨论，最后第5节是结论。2. 相关工作2.1. 体育视频分析随着大量可用的免费在线数据集和卷积神经网络（CNN）在计算机视觉领域的目标检测和图像分类方面的突破，体育分析已经成为许多研究人员感兴趣的当前主题[5]。虽然以前，体育视频分析是使用传统的机器学习方法进行的，但随着当前技术的发展，体育视频分析已经出现了新的演变，通过深度学习方法获得了优于结果的结果。体育分析是一个巨大的领域，每项运动都有自己独特的特点。在早期阶段，在深度学习的一系列开发之前，专家们设计每个功能，以提取特定游戏的期望功能。由于其复杂性和可扩展性，这些手工制作的机器学习模型仅限于特定的运动，如足球比赛，篮球，棒球和网球比赛[3]。表1显示了一些手工制作的运动分析模型的列表在CNN在目标检测和识别方面取得突破年龄分类，研究人员开始实施和发展使用深度学习方法的传统机器学习模型[11]。它从文本分类开始，慢慢发展到人体活动识别，简单动作识别，再到复杂群体活动识别和运动视频分析。在体育视频分析领域，可以分为轨迹跟踪、实现空间特征、时间特征以及时空组合特征等几类。然而，如前所述，本文仅关注通过CNN利用空间特征。表2显示了一些以前基于深度学习的体育视频分析研究。3. 方法3.1. 数据集准备由于没有公开可用的曲棍球数据集，因此从国际曲棍球联合会（FIH）YouTube视频（2018年曲棍球世界杯）中收集了自己的曲棍球数据集数据集由自由击球，进球，长角球和点球角球的视频帧组成，从12场广播的曲棍球比赛中收集，如图1所示。视频分辨率为1280x720。收集的视频被转换为视频帧。25 fps的帧速率用于视频帧提取，并且手动注释所有期望的活动。从提取的帧中，在这些数据集中仅收集了总共400个关键曲棍球活动帧，每类100个，以确保数据集均匀分布。这些曲棍球数据集是具有挑战性的数据集，因为它包括来自各种摄像机视角的视频帧，球员的比例，外观和位置的变化。3.2. 帧选择如上所述，曲棍球活动帧的数据集是从收集的12个YouTube视频中选择的。对于每个类别，仅选择100帧，因此在该实验中总共使用了400帧。这些RGB帧在VGG-16模型的输入尺寸下被调整大小为224 x224。数据集在传递给模型之前被标准化并保存为numpy数组。在这项研究中，使用了10倍交叉验证172K. Rangasamy，文学硕士AsRahmad等人/ICT Express 6（2020）1703.3. 框架级活动识别模型Fig. 1. 曲棍球数据集（a）自由命中，（b）进球，（c）长角球和（d）点球角球。在该帧级活动识别系统中，使用了由Imagenet预训练的VGG-16模型，如图所示。二、使用迁移学习方法来训练这些收集的数据集比从头开始使用CNN训练更有效。VGG-16模型参数是固定的，其中具有3个全连接层的16个卷积层后面是softmax层。删除了最后一个全连接（FC）层，并替换为该活动分类模型的新全连接（FC）层。考虑到收集的数据集接近Imagenet数据集，因此没有必要对整个层进行微调。在该分类模型中，曲棍球活动的视频帧是模型的输入。输入被传递到VGG-16模型，该模型针对该曲棍球活动识别任务进行了微调。输出是从softmax层的最高概率获得的。该模型从图像上的整个帧提取帧级特征。它从整个帧中学习模式，并通过连续的卷积和池化过程从第一个输入层到VGG-16模型的层末，从低级特征提取到高级特征。使用10倍交叉验证进行训练。使用分类交叉熵测量总体准确性。这个活动识别模型是使用 Keras （版本 2.3.1 ）和Tensorflow后端实现的。通过使用不同的epoch数100，200和300重复训练过程三次，以研究超参数之一epoch。批大小固定为默认值32.使用学习率为0.0001的Adam优化来优化模型，并且beta1和beta 2的值也被固定为默认值，分别为0.9和0.999。Adam是深度学习领域的一种流行算法，因为它可以快速获得出色的结果。该模型使用Nvidia GeForce GTX 1050 TiGPU进行训练。拟议模型的框架如图所示。3.第三章。4. 结果和讨论如前所述，所提出的模型识别曲棍球活动是自由击球，进球，长角球和点球角球。由于缺乏开放和高质量的曲棍球视频数据集，因此手动创建并标记数据集。分层的10倍交叉验证被用于这个曲棍球图二、建议的VGG-16模型的架构。K. Rangasamy，文学硕士AsRahmad等人/ICT Express 6（2020）170173图3.第三章。拟议分类模式的框架。表3建议模型的准确度矩阵时期数量精度召回F1-评分准确度免费点击1.000.800.89100目标0.930.930.930.90长角0.820.900.86点球角球0.861.000.92免费点击1.000.800.89200进球1.001.001.000.95长角0.831.000.91点球角球1.001.001.00免费点击1.000.900.95300进球1.001.001.000.98长角0.911.000.95点球角球1.001.001.00活动模式这里的分层是指每个类的数据是相等的。在该模型中，只有一个超参数，这是时代的数量调整。该研究使用相同的数据集和模型架构重复了三次，但具有不同的时期数，分别为100，200和300。表3和图4给出了本研究每个时期的精确度、召回率和F1得分以及混淆矩阵。 4分别。基于表3，我们列出了每个时期的模型的精确度，召回率和F1得分。精确度检查模型的准确性，召回率检查有多少实际的阳性结果被正确预测，而F1分数衡量精确度和召回率之间的平衡。由于在研究中，精确度和召回率都对准确率的测量起着至关重要的作用，因此我们考虑F1分数来评估模型。基于模型的F1得分，300的时代具有最高得分。它的准确率也最高，为98.0%。该模型在自由击球和长角球之间有点混乱，因为这两种活动在球员的位置和外观方面共享大多相似的视觉模式。图4显示混淆矩阵，用于评估模型在简单可视化方面的性能。5. 结论在这项工作中，提出了一种基于深度学习的迁移学习模型VGG-16，用于曲棍球中的活动识别。通过这个预训练的模型，从收集的曲棍球数据集中识别出四个主要的活动识别：自由击球，进球，长角球和点球角球该模型在曲棍球运动识别中的最高准确率为98.0%。这一发现是有希望的，未来的工作应该强调将更多类型的曲棍球活动，并包括空间特征与时间特征，见图4。混淆矩阵提出的方法，用于不同的时期（a）100，（b）200和（c）300。174K. Rangasamy，文学硕士AsRahmad等人/ICT Express 6（2020）170此外，我们还将LSTM模型结合起来，因为所提出的预训练VGG-16模型只是专注于帧级曲棍球活动识别的空间特征。CRediT作者贡献声明Keerthana Rangasamy：概念化，数据策展，撰写原始草案，方法论，调查。穆罕默德·阿米尔·阿里Nur AzminaRahmad：写作-评论编辑。Nurul Fathiah Ghazali：写作-审查编辑。竞合利益作者声明，他们没有已知的可能影响本文所报告工作确认作者感谢马来西亚技术大学（UTM）对本研究的资助，以及马来西亚高等教育部（MOHE）在Zakuah奖学金和研究补助金No. Q.J130000.2651.16J20.引用[1] M.A.鲁索A. Filonenko，K.H. Jo，使用CNN和RNN的连续帧中的体育分类，在：2018 Int。Technol. 机器人ICT-ROBOT 2018，2018，pp.一比三[2] M. Stein等人，把它带到球场：结合视频和运动数据，以加强团队运动分析，IEEE Trans.可见。Comput. 图形24（1）（2018）13-22。[3] H.C. Shih，内容感知的体育视频分析的调查，IEEETrans. 电路系统视频技术28（5）（2018）1212[4] D. Gu，基于智能提示自动完成算法的体育比赛战术信息收集分析35，2018，pp. 2927-2936。[5] G. Yao ， T. Lei ， J. Zhong ， A review of convolutional-neural-networks based action recognition ， Pattern Recognit. Lett. 118（2019）14-22.[6] T.兰湖，澳-地Sigal，G. Mori，人类活动识别分层模型中的社会角色，在：Proc. IEEE Comput。Soc. Conf. Comput. 目视模式识别，2012年，第页公元1354-1361年。[7] M.A.放大图片作者：A. Granger，G. Gagnon，使用上下文描述符在体育事件中的实时视觉播放中断检测，在：Proc. - IEEE Int.Symp.电路系统：2015年7月，第15页。2808-2811.[8] D.W.陈玉平，运动影像中的知识折扣事件侦测，IEEE Trans. A 40（5）（2010）1009-1024.[9] P.L. Mazzeo，P. Spagnolo，M. Leo，T.德马尔科角距离，使用等照度线的曲率和判别特征的足球图像中的球检测，模式分析。Appl.19（3）（2016）709[10] G.G. Lee，H.K.金，W.Y. Kim，Highlight generation for basketballvideo using probabilistic excitation，in：Proc. - 2009 IEEE Int. Conf.Multimed. Expo，ICME 2009，2009，pp.318-321[11] A.汗，A。苏海尔，美国Zahoora，A.S. Qureshi，深度卷积神经网络最近架构的调查，2019年，pp。1比62[12] Y.洪角，澳-地玲，Z. Ye，端到端足球视频场景和事件分类与深度迁移学习，在：2018 Int. Conf. Intell. 系统Comput. Vision，ISCV2018，Vol.2018- 2018年5月，pp.一比四[13] H. Jiang，Y. Lu，J. Xue，基于深度神经网络结合CNN和RNN的自动足球视频事件检测，在：Proc. - 2016 IEEE 28 th Int. Conf. Toolswith Artiff.内部：ICTAI 2016，2017，pp. 490-494.[14] T. Liu等人，足球视频事件检测使用3D卷积网络和镜头边界检测通过深特征距离，在：计算机科学讲义（包括子系列讲义人工智能和生物信息学讲义），在：LNCS，卷。10635，2017，pp.440-449[15] J. Yu，A. 雷，Y。胡，基于深度学习的足球视频事件检测，在：计算机科学讲座笔记（包括人工智能讲座笔记和讲座笔记子系列）inBioinformatics），in：LNCS，vol.11296，2019，pp.377-389.[16] M.R. Tora，J.J. Little，冰球中冰球拥有事件的分类，在：IEEE计算机视觉和模式识别研讨会会议，CVPRW，2017年，pp.147-154[17] M. G. Ibrahim M.S.，S. Muralidharan，Z. Deng，A. Vahdat，一种用于群体活动识别的分层深度时间模型，在：IEEE计算机视觉和模式识别会议论文集，2016年，pp. 1971-1980年。

下载后可阅读完整内容，剩余1页未读，立即下载