人体活动视频姿态跟踪标注工具（HAVPTAT）：提高人类活动识别和服务机器人的软件影响

188 浏览量更新于2024-01-25 收藏 540KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

软件影响12（2022）100278原始软件出版物HAVPTAT：一个人体活动视频姿态跟踪标注工具HaoQuan，Andrea Bonarini电子，信息和生物工程系，米兰理工大学，达芬奇广场32，米兰20133，意大利A R T I C L E I N F O保留字：数据标注人类活动识别深度学习机器人A B标准我们提出了一种新的半自动标注软件：人体活动视频姿态跟踪标注工具（HAVPTAT）。它可以自动检测和跟踪视频中的多个人及其姿势，以提高工作效率。HAVPTAT还提供了人体姿态、边界框、人物跟踪ID和可能的预测结果的动态可视化。轻量级的软件可以在几秒钟内启动，并且很容易分发。它的易用性将允许非专业人士快速入门。该软件将加速人类活动识别模型和服务机器人的开发代码元数据当前代码版本v1用于此代码版本的代码/存储库的永久链接https://github.com/SoftwareImpacts/SIMPAC-2022-33Reproducible Capsule的永久链接法律代码许可证GPL-3.0-or-later使用Git的代码版本控制系统使用的软件代码语言、工具和服务C#、EmguCV（OpenCV）、.NET Framework、Windows Forms编译要求、操作环境依赖性Visual Studio、MSWindows如果有开发人员文档/手册的链接https://github.com/AIRLab-POLIMI/HAVPTAT_annotation_tool/blob/master/README.md支持电子邮件，以解决问题hao. polimi.it，andrea.polimi.it1. 介绍人体活动识别正受到越来越多的关注。有大量的公开数据集[1它需要大量对视频数据集进行注释的劳动密集型工作。我们开发了一个新的半自动标注工具：人体活动视频姿态跟踪标注工具（HAVPTAT）。它可以帮助数据集创建者有效地注释大规模视频数据集。注释包括人员跟踪边界框、人员跟踪2-D骨架和活动标签。它还提供了人体姿势，边界框和人物跟踪ID的动态可视化。通过活动识别模型获得的预测结果也可以使用该工具可视化。2. 积极影响缺乏足够的软件来注释在公共空间中收集的大规模人类活动识别视频数据集（在The∗通讯作者。Wild–ITW 在日常生活中，人们的动作是连续的、有顺序的，至少持续几秒钟，而不是单帧。多个人或拥挤的场景经常出现在公共空间中。目前市场上RGB摄像机的帧率通常在15 fps到 30 fps。对剪辑进行逐人逐帧的手动注释需要巨大的工作量。如今，基于深度学习模型的人类活动识别很受欢迎[18单个人跟踪时空骨架数据对于模型学习和预测标签是必不可少的。新的半自动软件HAVPTAT可以填补这一空白。注释器不需要在时空人体姿态检测和跟踪上花费时间3. 相关工作贴标是一项耗时耗力的工作。一般来说，实验室收集的数据集，如NUCLA，SYSU，NTU-RGB+D，PKU-MMD [1，2，电子邮件地址：hao. polimi.it（H. Quan），andrea. polimi.it（A.Bonarini）。https://doi.org/10.1016/j.simpa.2022.100278接收于2022年3月18日;接受于2022年3月26日2665-9638/©2022作者。由Elsevier B.V.出版。这是一篇开放获取的文章，使用CC BY许可证（http://creativecommons.org/licenses/by/4.0/）。可在ScienceDirect上获得目录列表软件影响杂志首页：www.journals.elsevier.com/software-impactsH. Quan和A.博纳里尼软件影响12（2022）10027828，9，25]可能没有注释问题，因为数据集是脚本化的，由演员执行，并且只包含执行单个预定义动作的单个或少数人。一些研究人员提供预定义的标签，然后使用众包来标记数据集，就像Charades和Something Something [26，27]一样。对于不在受控设置中收集的数据集，标记工作将是痛苦的且容易出错。其中一些是手工注释的，如 Fine- Gym ， UAV-Human ， HOMAGE [11 ， 13 ， 28] 等。ActivityNet，AVA，Babel [12，17，29]）通过Amazon MechanicalTurk（AMT）[30]等商业众包平台进行标记，并向数据集创建者收取费用。此外，来自众包平台的注释者没有经过正式培训可能会影响注释质量。众包方法可能泄露机密。在文献中，有不同的开源视频注释工具[31其中只有一些具有“插值"功能（例如，VATIC [37]和CVAT [38]）用于跟踪移动目标。此功能通过自动跟踪注释而不是逐帧提供标签，帮助注释者节省大量时间。这些工具通常将目标检测和目标跟踪分为两个不同的阶段。在可以使用“插值"功能之前，它需要注释器手动地或通过使用其他对象检测方法来通过在视频关键帧的部分上绘制边界框来识别感兴趣的目标以执行插值。对象检测的质量取决于各个注释器/检测器。在拥挤的场景中，注释者可能很容易错过一些主题。此外，插值性能通常并不完美，因此需要花费额外的精力来手动调整边界框。此外，它们不提供人体姿势跟踪数据。因此，数据集创建者有必要单独使用其他姿势估计方法来提取骨骼数据[39，40，40最后，还需要对人体跟踪数据和骨架数据进行额外的详细说明，除了上面提到的缺点，如果视频有多个目标或拥挤的场景，这将是一个挑战，对视频进行检测和插值，这需要大量的硬件资源，这是目前市场上普通PC无法承受的。据我们所知，没有注释工具可以满足对大规模基于人工活动的视频数据集进行注释的需求。4. HAVPTAT功能HAVPTAT修正了当前开源标签工具的大部分问题。它可以自动检测和跟踪视频中的多个人及其姿势，而无需手动设置边界框和关键帧。注释器不需要一帧一帧地给出动作标签，而是可以在整个剪辑中为具有相同动作的人只标记一次。HAVPTAT需要注释器如果同一个人在剪辑中执行多个动作，则仅为每个不同的动作给出标签。带有注释数据的姿态跟踪已经准备就绪，无需进一步的集成工作。此外，它还提供了人体姿态，边界框，人跟踪ID的动态可视化，以及可能的预测结果一起。它的易用性和效率将允许非专业人士快速入门。HAVPTAT的界面如图1所示。它是由.NET Framework 4.6.1版开发的，使用C#编程语言进行编码，Windows Forms库用于UI，EmguCV库（ OpenCV 库用于 .NET 版本）用于图像 / 视频处理。它基于OpenPifPaf [42]模型产生的JSON格式数据。它在MS Windows中作为离线桌面应用程序运行。界面的上部包含由对应于粗略宏动作的可用动作标签组成的菜单：每个宏操作菜单Fig. 1. 人类活动视频姿势注释工具（HAVPTAT）界面和POLIMI-ITW-S剪辑的快照。2写出所需的操作名称。新添加的标签按钮将在菜单上可用。屏幕的中间部分专用于工具的主要功能。左侧区域显示帧的当前编号。插值模式使用户能够为多个帧的人分配活动标签在中间，有视频控制按钮，如“播放”，“播放”，“上一帧”，“下一帧”，“第一帧”和“最后一帧”。The ‘‘Import’’ button imports the JSON file for a specificvideo clip that was generated by OpenPifPaf [用户可以单击“导出”按钮将最终带注释的JSON文件导出到文件系统。此外，用户可以使用“添加"按钮添加自定义标签。错误的标签可通过“删除"按钮删除用户可以通过单击“评估”按钮查看注释的结果“预测”按钮用于可视化地面实况、预测标签和服务机器人关于是否接近人的决定，即“需要服务”、“可能不需要服务”和“不打扰”我们已经定义了这三个决策指令，用于开发服务机器人应用程序。用户还可以通过修改其特定应用程序的源代码来定义指令在右边，一些高频率使用的标签当前使用的视频和注释JSON文件此外，该工具还提供了一组键盘快捷键来操作视频，如播放/播放（CTRL+空格键），下一个/上一个帧（CTRL+右/左箭头键）。该工具的典型使用是沿着下述阶段发展的。首先，用户应该使用OpenPifPaf [42]来生成原始视频然后，用户使用注释工具打开一个视频文件，点击“导入”按钮，从文件系统中导入OpenPifPaf先前生成的相应关键点注释。然后，用户可以通过单击动作名称的边界框和按钮来在完成视频的动作标签关联之后，用户单击包含细粒度的详细操作，例如‘‘StandingWhileWatchingPhone’’2 https://airlab.deib.polimi.it/polimi-itw-s-a-shopping-mall-dataset-in-the-wild.H. Quan和A.博纳里尼软件影响12（2022）10027835. 重量轻，易于使用HAPVTAT的布局与MS Windows桌面应用程序的主要部分非常相似。它可以直接使用，无需复杂的设置。非技术用户可以快速学习如何使用它。完整的软件大小约为110兆字节。轻量级的软件可以很容易地部署和分发。该软件可以为大规模视频数据集的创建者减少大量的注释成本和时间，特别是对于基于骨架的人体活动识别任务，这有助于推进人体活动识别模型的发展。它还支持生产服务机器人系统，可以部署这种类型的模型。6. 用例我们已经使用HAVPTAT注释了一个大规模的In The Wild视频数据集，用于人类活动识别。7. 今后工作目前的HAVPTAT版本是半自动的。一旦训练出一个可靠的活动识别模型，我们想更新软件，使其成为一个全自动的标签工具。我们相信，这将进一步降低数据集注释的成本和时间。竞合利益作者声明，他们没有已知的竞争性财务利益或个人关系，可能会影响本文报告的工作确认这项工作得到了中国学术委员会的研究基金的支持。附录A. 补充数据与本文相关的补充材料可以在网上找到在https://doi.org/10.1016/j.simpa.2022.100278。引用[1]A. Shahroudy，J. Liu，T. T. Ng，G. Wang，NTU RGB+D：用于3D人类活动分析的大规模数据集，在：IEEE计算机视觉和模式识别会议，2016年。[2] J. Liu，A.沙鲁迪，M。佩雷斯湾，澳-地王湖，澳-地Y. Duan，A.C. Kot，NTURGB+D 120：A large-scale benchmark for 3D human activity understanding，IEEETrans.PatternAnal.马赫内特尔（2019）http://dx.doi.org/10.1109/TPAMI。2019.2916873。[3]W. Kay ， J.Carreira，K. 西蒙尼扬湾Zhang C.，中国古猿科Hillier ， S.Vijayanarasimhan，F. Viola， T.格林， T. Back， P. Natsev等人， The kinetics human action videodataset，2017，arXiv preprintarXiv：1705.06950.[4] J. Carreira，E. Noland，A.班基-霍瓦特角Hillier，A. Zisserman，关于动力学的简短说明-600，2018，arXiv预印本arXiv：1808.01340。[5] J. Carreira，E.诺兰角Hillier，A. Zisserman，关于动力学-700人类动作数据集的简短说明，2019，arXiv预印本arXiv：1907.06987。[6]L. Smaira ， J.a. Carreira ， E. Noland ， E. 克兰西 A.Wu ，中国茶条 A.Zisserman，关于动力学-700-2020人类行为数据集的简短说明，2020，arXiv预印本arXiv：2010.10864。[7] J.Jang，D.金角，澳-地公园，M。Jang，J. Lee，J. Kim，ETRI-activity3D：用于机器人识别老年人日常活动的大规模 RGB-D数据集，2020年IEEE/RSJ智能机器人和系统国际会议，IROS，IEEE，2020年，第100页。10990-10997。[8] J. Wang，X. Nie，Y. Xia，Y. Wu，S. Zhu，交叉视图动作建模，学习，2014年IEEE计算机视觉和模式识别会议，2014年，pp.2649http://dx.doi.org/10.1109/CVPR.2014.339[9] J.Hu， W. Zheng， J. Lai，J. Zhang， Jointly learning heterogeneousfeatures forRGB-D activity recognition，IEEE Trans. Pattern Anal.马赫内特尔39（11）（2017）2186-2200。[10] D. Damen ， H. 道蒂， G.M. Farinella ， A. Furnari ， E. Kazakos ， J. Ma ， D.Moltisanti，J. Munro，T. Perrett，W. Price等人，重新调整以自我为中心的愿景：收集，管道和 EPIC-KITCHENS-100 的挑战，国际 J 。目视 130 （ 1 ）（2022）33-55。[11] N. Rai，H. Chen，J. Ji，R. 德赛角 Kozuka，S. Ishizaka，E. Adeli，J.C.Niebles ， Homeactiongenome ： Cooperativecompositionalactionunderstanding，in：Proceedings of the IEEE/CVF Conference on ComputerVision and Pattern2021年，《明史》，页。11184-11193。[12] A.R. Punnakkal ， A. 钱德拉塞卡兰 N.Athanasiou ， A.Quiros-Ramirez ， M.J.Black， BABEL：Bodies，Action and Behavior with English Labels，收录于：ProceedingsIEEE/CVF计算机视觉和模式识别会议，2021年，pp. 722-731[13] D. 邵，Y.Zhao，B.Dai，D.Lin，Finegym：一个用于精细视频的分层视频数据集，grained action understanding ， in ： Proceedings of the IEEE/CVF ConferenceonComputer Vision and Pattern Recognition，2020，pp. 2616-2625。[14] S. 达斯河，巴西 - 地戴， M. 科佩尔斯基湖明丘略湖 Garattoni， F. 布雷蒙湾Francesca，Toyota smarthome：日常生活的真实世界活动，在：IEEE/CVF计算机视觉国际会议论文集，ICCV，2019年。[15] H. Zhao，中国粘蝇A.托拉尔瓦湖Torresani，Z. Yan，Hacs：用于识别和时间定位的人类动作剪辑和片段数据集，在：IEEE/CVF计算机视觉国际会议，2019年，pp。8668-8678。[16] Q.孔，智-地Wu，Z.邓，M.克林吉特湾唐，T. Murakami，MMAct：跨模态人类动作理解的大规模数据集，在：IEEE/CVF计算机视觉国际会议论文集，ICCV，2019年。[17] C. 古角，澳 - 地 Sun ， D.A. Ross ， C. 冯德里克角 Pantofaru ， Y. Li ， S.Vijayanarasimhan，G. Toderici，S.里科河苏克坦卡尔角 Schmid，J.Malik，AVA：时空局部化原子视觉动作的视频数据集，2018年IEEE/CVF计算机视觉和模式识别会议，2018年，pp.6047http://dx.doi.org/10.1109/CVPR.2018.00633[18] Z. Liu，H. Zhang，Z. Chen，Z. Wang，W. Ouyang，解纠缠和统一基于卷积的动作识别的图卷积，在：IEEE/CVF计算机视觉和模式识别会议论文集，2020年，pp. 143 -152.[19] L. Shi，Y. 首页-期刊主要分类-期刊细介绍-期刊题录与文摘. 鲁、双流自适应图卷积用于基于机器人的动作识别的传统网络，在：IEEE/CVF计算机视觉和模式识别会议论文集，2019年，pp. 12026 -12035。[20] Y. Chen，Z. Zhang C.，中国古猿科袁湾，澳-地Li，Y.邓，W。Hu，用于基于动作识别的逐行拓扑细化图卷积，在：IEEE/CVF计算机视觉国际会议论文集，2021年，第101页。13359 -13368。[21] W.彭、X。Hong，H. Chen，G. Zhao，通过神经搜索进行基于机器人的人类动作识别的学习图卷积网络，在：AAAI人工智能会议论文集，第34卷，2020年，第34页。2669-2676。[22] P. Zhang ， C. Lan ， J. Xing ， W. Zeng ， J.Xue ， N.Zheng ， View adaptiveneuralnetworksforhighperformancecandidatebasedhumanactionrecognition，IEEETrans. 模式肛门。马赫内特尔41（8）（2019）1963[23] P. Zhang，C.兰，W。Zeng，J. Xing，J. Xue，N. Zheng，Semantics-guidedneuralnetworks for efficient mathematical based human action recognition ，in：Proceedingsof the IEEE/CVF Conference on Computer Vision and PatternRecognition，2020，pp. 1112-1121。[24] M. Li，S. Chen，X. Chen，Y. Zhang， Y.王，英-地田，共生图神经网络用于基于3D模型的人体动作识别和运动预测，IEEE Trans.Pattern Anal.马赫内特尔（2021年）。[25] C. Liu，Y. Hu，Y. Li，S. Song，J. Liu，PKU-MMD：一个大规模的基准为基于物联网的人类行为理解，在：在智能和互联社区的视觉分析研讨会的会议记录，在：VSCC '17 ，计算机械协会，纽约，纽约，美国， 2017 年，页。 1http://dx.doi。org/10.1145/3132734.3132739。[26] G.A. Sigurdsson，G. Varol，X. Wang，中国山核桃A.法尔哈迪岛Laptev，A.Gupta ， Hollywoodinhomes ： Crowdsourcing data collection for activityunderstanding ， in ： EuropeanConferenceon Computer Vision ， Springer ，2016，pp. 510-526[27] R. Goyal，S.E. Kahou，V. Michalski，J. Materzynska，S. Westphal，H. 金姆，黑内尔岛Fruend，P. Yianilos，M. Mueller-Freitag等人，”某事”视频数据库用于学习和评估视觉常识，在：ICCV，卷。1，2017，p. 五、[28] T.李杰，刘杰，W. Zhang， Y. Ni，W. Wang， Z. Li，UAV-Human：A largebenchmarkfor human behavior understanding with unmanned aerial vehicles ，in ： Proceedingsof the IEEE/CVF Conference on Computer Vision and PatternRecognition，2021，pp. 16266-16275。[29] F. Caba Heilbron，V. Escorcia， B. Ghanem，J. Carlos Niebles，Activitynet：Alarge-scale video benchmark for human activity understanding，in：Proceedingsofthe IECHO Conference on Computer Vision and Pattern Recognition，2015，pp.961-970.[30] Amazon，Amazon mechanical turk（MTurk），https://www.mturk.com/.[31] J.L. da Silva，A.N. Tabata，L.C. Broto，M.P. Cocron，A. Zimmer，T.Brand-meier，开源多用途多媒体注释工具，在：图像分析和识别国际会议，Springer，2020年，第 1 0 0 页。356-367.H. Quan和A.博纳里尼软件影响12（2022）1002784[32] A.杜塔A。Zisserman，用于图像，音频和视频的VIA注释软件，在：第27届ACM国际多媒体会议论文集，2019年，第10页。2276-2279[33] T.A. Biresaw，T. Nawaz，J. Ferryman，A.I.戴尔，Vitbat：视频跟踪和行为注释工具，载于：2016年第13届IEEE高级视频和基于信号的监控国际会议，AVSS，IEEE，2016年，第 13 页。295-301[34] S.比安科湾Ciocca，P. Napoletano，R. Schettini，一种用于手动、半自动和自动视频注释的交互式工具，Comput。目视图像理解131（2015）88-99。[35] M. Riegler，M. Lux，V. Charvillat，A. 卡利耶河 Vliegendhart，M. Larson，Video-jot ： A multifunctional video annotation tool ， in ： Proceedings ofInternationalConference on Multimedia Retrieval，2014，pp. 534-537.[36] J.Yuen，B.拉塞尔角，澳-地 Liu，中国粘蝇A. Torralba，Labelmevideo：Building a videodatabase with human annotations，2009年IEEE第12届计算机视觉国际会议，IEEE，2009年，第100页。1451-1458年。[37] C. Vondrick， D.Patterson，D.Ramanan，Efficiently scaling up crowdsourcedvideoannotation，Int. J. Comput . 目视101（1）（2013）184[38] 英特尔，计算机视觉注释工具，https://github.com/openvinotoolkit/cvat。[39] Z. Cao，T.西蒙，S.- E. Wei，Y. Sheikh，使用部分亲和度字段进行实时多人2D姿态估计，载于：CVPR，2017年。[40] S.金湖，澳-地Xu，J. Xu，C. Wang，W. Liu，C. Qian，W. Ouyang，P. Luo，Whole-bodyhuman pose estimation in the wild，in：European Conference onComputer Vision，Springer，2020，pp. 196-214[41] K.孙湾Xiao、肖氏叶蝉 D. Liu，J. Wang， Deep high-resolution representationlearningfor human pose estimation ， in ： Proceedings of the IEEE/CVFConference onComputer Vision and Pattern Recognition ， 2019 ， pp. 5693-5703。[42] S.克赖斯湖贝尔托尼A. Alahi，OpenPifPaf：用于语义关键点检测和时空关联的复合字段，2021，arXiv预印本arXiv：2103。02440[43] B. Xiao，H. Wu，Y. Wei，用于人体姿态估计和跟踪的简单基线，在：欧洲计算机视觉会议论文集，ECCV，2018年，pp. 466-481[44] M. Kocabas，S. Karagoz，E. Akbas，Multiposenet：使用姿态残差网络进行快速多人姿态估计，见：欧洲会议论文集计算机视觉，ECCV，2018，pp. 417-433[45] R.A. Güler，N.内韦罗瓦岛Kokkinos，Densepose：密集人体姿势估计在野外，在：IEEE计算机视觉和模式识别会议论文集，2018年，pp. 7297-7306。[46] Y.蔡湖，加-地Ge，J. Liu，J. Cai，T.- J. Cham，J.Yuan，N.M. Thalmann，通过图形卷积网络利用时空关系进行3D姿态估计，在：IEEE/CVF计算机视觉国际会议论文集，2019年，第103页。2272-2281[47] M.安德里卢卡湾伊克巴尔，E。因萨富季诺夫湖 Pishchulin，A. Milan，J. Gall，B. Schiele，Posetrack：人体姿态估计和跟踪的基准，在：IEEE计算机视觉和模式识别会议论文集，2018年，pp. 5167-5176[48] B.成湾，澳-地Xiao，J. Wang，H. Shi，T.S. 黄湖，澳-地 Zhang，Higherhrnet：自下而上的人体姿势估计的尺度感知表示学习，在：IEEE/CVF计算机视觉和模式识别会议论文集，2020年，pp. 5386-5395。[49] J.Li ， C.Wang ， H.Zhu ， Y.毛， H.- S.芳角，澳 - 地Lu ，Crowdpose ： Efficientcrowdedscenesposeestimationandanewbenchmark ， in ： Proceedings of theIEEE/CVF Conference on Computer Visionand Pattern Recognition，2019，pp. 10863 -10872。[50] M. 贡献者， OpenMMLab 姿势估计工具箱和基准， 2020 ，https://github.com/open-mmlab/mmpose。

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

人体活动视频姿态跟踪标注工具（HAVPTAT）：提高人类活动识别和服务机器人的软件影响

人体跟踪程序 实现运动物体的跟踪

人脸跟踪之标注工具

人体跟踪系统，跟踪运动的人体

结合实训课程《服务机器人结构原理及组装技能实训》，叙述雄品服务机器人的结构及其组装过程

不分条详细说明服务机器人的研究现状综述

site:download.csdn.net stm32水下机器人

Delta机器人识别精度和轨迹速度的主要问题

分别在列举几中典型的工业机器人、服务机器人、娱乐机器人、探险机器人、安防机器人、并通过分析说明机器人发展趋势。

云深处绝影机器人使用什么传感器

计算机视觉：使用Python和计算机视觉技术，识别人体障碍物的位置和形状，以便机器人能够避开或翻越。

如何实现智慧养老服务机器人识别，抓取，和搬运生活用品的功能

python深度学习实战:基于tensorflow和keras的聊天机器人以及人脸、物体和语音识别

使用现成的聊天机器人服务

搭建一个工业机器人控制系统需要哪些软件模块

abb机器人工具姿态控制

建立一个简单的两轮差速机器人需要考虑机器人的什么特性

基于视觉识别机器人运动控制系统的核心技术

焊接机器人软件仿真设计

基于ROS的机器人智能物体识别系统设计

让pepper机器人检测人类活动的方向，向人类活动的方向移动并举手，然后与人类进行交互

最新资源

人体跟踪程序实现运动物体的跟踪