没有合适的资源?快使用搜索试试~ 我知道了~
软件影响12(2022)100278原始软件出版物HAVPTAT:一个人体活动视频姿态跟踪标注工具HaoQuan,Andrea Bonarini电子,信息和生物工程系,米兰理工大学,达芬奇广场32,米兰20133,意大利A R T I C L E I N F O保留字:数据标注人类活动识别深度学习机器人A B标准我们提出了一种新的半自动标注软件:人体活动视频姿态跟踪标注工具(HAVPTAT)。它可以自动检测和跟踪视频中的多个人及其姿势,以提高工作效率。HAVPTAT还提供了人体姿态、边界框、人物跟踪ID和可能的预测结果的动态可视化。轻量级的软件可以在几秒钟内启动,并且很容易分发。它的易用性将允许非专业人士快速入门。该软件将加速人类活动识别模型和服务机器人的开发代码元数据当前代码版本v1用于此代码版本的代码/存储库的永久链接https://github.com/SoftwareImpacts/SIMPAC-2022-33Reproducible Capsule的永久链接法律代码许可证GPL-3.0-or-later使用Git的代码版本控制系统使用的软件代码语言、工具和服务C#、EmguCV(OpenCV)、.NET Framework、Windows Forms编译要求、操作环境依赖性Visual Studio、MSWindows如果有开发人员文档/手册的链接https://github.com/AIRLab-POLIMI/HAVPTAT_annotation_tool/blob/master/README.md支持电子邮件,以解决问题hao. polimi.it,andrea.polimi.it1. 介绍人体活动识别正受到越来越多的关注。有大量的公开数据集[1它需要大量 对视频数据集进行注释的劳动密集型工作。我们开发了一个新的半自动标注工具:人体活动视频姿态跟踪标注工具(HAVPTAT)。它可以帮助数据集创建者有效地注释大规模视频数据集。注释包括人员跟踪边界框、人员跟踪2-D骨架和活动标签。它还提供了人体姿势,边界框和人物跟踪ID的动态可视化。通过活动识别模型获得的预测结果也可以使用该工具可视化。2. 积极影响缺乏足够的软件来注释在公共空间中收集的大规模人类活动识别视频数据集(在The∗通讯作者。Wild–ITW 在日常生活中,人们的动作是连续的、有顺序的,至少持续几秒钟,而不是单帧。多个人或拥挤的场景经常出现在公共空间中。目前市场上RGB摄像机的帧率通常在15 fps到 30 fps。对剪辑进行逐人逐帧的手动注释需要巨大的工作量。如今,基于深度学习模型的人类活动识别很受欢迎[18单个人跟踪时空骨架数据对于模型学习和预测标签是必不可少的。新的半自动软件HAVPTAT可以填补这一空白。注释器不需要在时空人体姿态检测和跟踪上花费时间3. 相关工作贴标是一项耗时耗力的工作。一般来说,实验室收集的数据集,如NUCLA,SYSU,NTU-RGB+D,PKU-MMD [1,2,电子邮件地址:hao. polimi.it(H. Quan),andrea. polimi.it(A.Bonarini)。https://doi.org/10.1016/j.simpa.2022.100278接收于2022年3月18日;接受于2022年3月26日2665-9638/©2022作者。由Elsevier B.V.出版。这是一篇开放获取的文章,使用CC BY许可证(http://creativecommons.org/licenses/by/4.0/)。可在ScienceDirect上获得目录列表软件影响杂志 首页:www.journals.elsevier.com/software-impactsH. Quan和A.博纳里尼软件影响12(2022)10027828,9,25]可能没有注释问题,因为数据集是脚本化的,由演员执行,并且只包含执行单个预定义动作的单个或少数人。一些研究人员提供预定义的标签,然后使用众包来标记数据集,就像Charades和Something Something [26,27]一样。对于不在受控设置中收集的数据集,标记工作将是痛苦的且容易出错。其中一些是手工注释的,如 Fine- Gym , UAV-Human , HOMAGE [11 , 13 , 28] 等 。ActivityNet,AVA,Babel [12,17,29])通过Amazon MechanicalTurk(AMT)[30]等商业众包平台进行标记,并向数据集创建者收取费用。此外,来自众包平台的注释者没有经过正式培训可能会影响注释质量。众包方法可能泄露机密。在文献中,有不同的开源视频注释工具[31其中只有一些具有“插值"功能(例如,VATIC [37]和CVAT [38])用于跟踪移动目标。此功能通过自动跟踪注释而不是逐帧提供标签,帮助注释者节省大量时间。这些工具通常将目标检测和目标跟踪分为两个不同的阶段。在可以使用“插值"功能之前,它需要注释器手动地或通过使用其他对象检测方法来通过在视频关键帧的部分上绘制边界框来识别感兴趣的目标以执行插值。对象检测的质量取决于各个注释器/检测器。在拥挤的场景中,注释者可能很容易错过一些主题。此外,插值性能通常并不完美,因此需要花费额外的精力来手动调整边界框。此外,它们不提供人体姿势跟踪数据。因此,数据集创建者有必要单独使用其他姿势估计方法来提取骨骼数据[39,40,40最后,还需要对人体跟踪数据和骨架数据进行额外的详细说明,除了上面提到的缺点,如果视频有多个目标或拥挤的场景,这将是一个挑战,对视频进行检测和插值,这需要大量的硬件资源,这是目前市场上普通PC无法承受的。据我们所知,没有注释工具可以满足对大规模基于人工活动的视频数据集进行注释的需求。4. HAVPTAT功能HAVPTAT修正了当前开源标签工具的大部分问题。它可以自动检测和跟踪视频中的多个人及其姿势,而无需手动设置边界框和关键帧。注释器不需要一帧一帧地给出动作标签,而是可以在整个剪辑中为具有相同动作的人只标记一次。HAVPTAT需要注释器 如果同一个人在剪辑中执行多个动作,则仅为每个不同的动作给出标签。带有注释数据的姿态跟踪已经准备就绪,无需进一步的集成工作。此外,它还提供了人体姿态,边界框,人跟踪ID的动态可视化,以及可能的预测结果一起。它的易用性和效率将允许非专业人士快速入门。HAVPTAT的界面如图1所示。它是由.NET Framework 4.6.1版开发的,使用C#编程语言进行编码,Windows Forms库用于UI,EmguCV库 ( OpenCV 库 用 于 .NET 版 本 ) 用 于 图 像 / 视 频 处 理 。 它 基 于OpenPifPaf [42]模型产生的JSON格式数据。它在MS Windows中作为离线桌面应用程序运行。界面的上部包含由对应于粗略宏动作的可用动作标签组成的菜单:每个宏操作菜单Fig. 1. 人类活动视频姿势注释工具(HAVPTAT)界面和POLIMI-ITW-S剪辑的快照。2写出所需的操作名称。新添加的标签按钮将在菜单上可用。屏幕的中间部分专用于工具的主要功能。左侧区域显示帧的当前编号。插值模式使用户能够为多个帧的人分配活动标签 在中间,有视频控制按钮,如“播放”,“播放”,“上一帧”,“下一帧”,“第一帧”和“最后一帧”。The ‘‘Import’’ button imports the JSON file for a specificvideo clip that was generated by OpenPifPaf [用户可以单击“导出”按钮将最终带注释的JSON文件导出到文件系统。此外,用户可以使用“添加"按钮添加自定义标签。错误的标签可通过“删除"按钮删除用户可以通过单击“评估”按钮查看注释的结果“预测”按钮用于可视化地面实况、预测标签和服务机器人关于是否接近人的决定,即“需要服务”、“可能不需要服务”和“不打扰”我们已经定义了这三个决策指令,用于开发服务机器人应用程序。用户还可以通过修改其特定应用程序的源代码来定义指令在右边,一些高频率使用的标签当前使用的视频和注释JSON文件此外,该工具还提供了一组键盘快捷键来操作视频,如播放/播放(CTRL+空格键),下一个/上一个帧(CTRL+右/左箭头键)。该工具的典型使用是沿着下述阶段发展的。首先,用户应该使用OpenPifPaf [42]来生成原始视频然后,用户使用注释工具打开一个视频文件,点击“导入”按钮,从文件系统中导入OpenPifPaf先前生成的相应关键点注释。然后,用户可以通过单击动作名称的边界框和按钮来在完成视频的动作标签关联之后,用户单击包含细粒度的详细操作,例如‘‘StandingWhileWatchingPhone’’2 https://airlab.deib.polimi.it/polimi-itw-s-a-shopping-mall-dataset-in-the-wild.H. Quan和A.博纳里尼软件影响12(2022)10027835. 重量轻,易于使用HAPVTAT的布局与MS Windows桌面应用程序的主要部分非常相似。它可以直接使用,无需复杂的设置。非技术用户可以快速学习如何使用它。 完整的软件大小约为110兆字节。轻量级的软件可以很容易地部署和分发。该软件可以为大规模视频数据集的创建者减少大量的注释成本和时间,特别是对于基于骨架的人体活动识别任务,这有助于推进人体活动识别模型的发展。它还支持生产服务机器人系统,可以部署这种类型的模型。6. 用例我们已经使用HAVPTAT注释了一个大规模的In The Wild视频数据集,用于人类活动识别。7. 今后工作目前的HAVPTAT版本是半自动的。一旦训练出一个可靠的活动识别模型,我们想更新软件,使其成为一个全自动的标签工具。 我们相信,这将进一步降低数据集注释的成本和时间。竞合利益作者声明,他们没有已知的竞争性财务利益或个人关系,可能会影响本文报告的工作确认这项工作得到了中国学术委员会的研究基金的支持。附录A. 补充数据与 本 文 相 关 的 补 充 材 料 可 以 在 网 上 找 到在https://doi.org/10.1016/j.simpa.2022.100278。引用[1]A. Shahroudy,J. Liu,T. T. Ng,G. Wang,NTU RGB+D:用于3D人类活动分析的大规模数据集,在:IEEE计算机视觉和模式识别会议,2016年。[2] J. Liu,A.沙鲁迪,M。佩雷斯湾,澳-地王湖,澳-地Y. Duan,A.C. Kot,NTURGB+D 120:A large-scale benchmark for 3D human activity understanding,IEEETrans.PatternAnal.马赫内特尔(2019)http://dx.doi.org/10.1109/TPAMI。2019.2916873。[3]W. Kay , J.Carreira,K. 西 蒙 尼 扬 湾Zhang C., 中 国 古 猿 科Hillier , S.Vijayanarasimhan,F. Viola, T.格 林 , T. Back, P. Natsev等 人 , The kinetics human action videodataset,2017,arXiv preprintarXiv:1705.06950.[4] J. Carreira,E. Noland,A.班基-霍瓦特角Hillier,A. Zisserman,关于动力学的简短说明-600,2018,arXiv预印本arXiv:1808.01340。[5] J. Carreira,E.诺兰角Hillier,A. Zisserman,关于动力学-700人类动作数据集的简短说明,2019,arXiv预印本arXiv:1907.06987。[6]L. Smaira , J.a. Carreira , E. Noland , E. 克 兰 西 A.Wu , 中 国 茶 条 A.Zisserman,关于动力学-700-2020人类行为数据集的简短说明,2020,arXiv预印本arXiv:2010.10864。[7] J.Jang,D.金角,澳-地公园,M。Jang,J. Lee,J. Kim,ETRI-activity3D:用 于 机 器 人识 别 老 年 人 日 常 活动 的 大 规 模 RGB-D数 据 集 ,2020年IEEE/RSJ智能机器人和系统国际会议,IROS,IEEE,2020年,第100页。10990-10997。[8] J. Wang,X. Nie,Y. Xia,Y. Wu,S. Zhu,交叉视图动作建模,学习,2014年IEEE计算机视觉和模式识别会议,2014年,pp.2649http://dx.doi.org/10.1109/CVPR.2014.339[9] J.Hu, W. Zheng, J. Lai,J. Zhang, Jointly learning heterogeneousfeatures forRGB-D activity recognition,IEEE Trans. Pattern Anal.马赫内特尔39(11)(2017)2186-2200。[10] D. Damen , H. 道 蒂 , G.M. Farinella , A. Furnari , E. Kazakos , J. Ma , D.Moltisanti,J. Munro,T. Perrett,W. Price等人,重新调整以自我为中心的愿景 : 收 集 , 管 道 和 EPIC-KITCHENS-100 的 挑 战 , 国 际 J 。 目 视 130 ( 1 )(2022)33-55。[11] N. Rai,H. Chen,J. Ji,R. 德赛角 Kozuka,S. Ishizaka,E. Adeli,J.C.Niebles , Homeactiongenome : Cooperativecompositionalactionunderstanding,in:Proceedings of the IEEE/CVF Conference on ComputerVision and Pattern2021年,《明史》,页。11184-11193。[12] A.R. Punnakkal , A. 钱 德 拉 塞 卡 兰 N.Athanasiou , A.Quiros-Ramirez , M.J.Black, BABEL:Bodies,Action and Behavior with English Labels,收 录于:ProceedingsIEEE/CVF计算机视觉和模式识别会议,2021年,pp. 722-731[13] D. 邵,Y.Zhao,B.Dai,D.Lin,Finegym:一个用于精细视频的分层视频数据集,grained action understanding , in : Proceedings of the IEEE/CVF ConferenceonComputer Vision and Pattern Recognition,2020,pp. 2616-2625。[14] S. 达 斯 河 , 巴 西 - 地 戴 , M. 科 佩 尔 斯 基 湖 明 丘 略 湖 Garattoni, F. 布 雷 蒙 湾Francesca,Toyota smarthome:日常生活的真实世界活动,在:IEEE/CVF计算机视觉国际会议论文集,ICCV,2019年。[15] H. Zhao,中国粘蝇A.托拉尔瓦湖Torresani,Z. Yan,Hacs:用于识别和时间定位的人类动作剪辑和片段数据集,在:IEEE/CVF计算机视觉国际会议,2019年,pp。8668-8678。[16] Q.孔,智-地Wu,Z.邓,M.克林吉特湾 唐,T. Murakami,MMAct:跨模态人类动作理解的大规模数据集,在:IEEE/CVF计算机视觉国际会议论文集,ICCV,2019年。[17] C. 古 角 , 澳 - 地 Sun , D.A. Ross , C. 冯 德 里 克 角 Pantofaru , Y. Li , S.Vijayanarasimhan,G. Toderici,S.里科河苏克坦卡尔角 Schmid,J.Malik,AVA:时空局部化原子视觉动作的视频数据集,2018年IEEE/CVF计算机视觉和模式识别会议,2018年,pp.6047http://dx.doi.org/10.1109/CVPR.2018.00633[18] Z. Liu,H. Zhang,Z. Chen,Z. Wang,W. Ouyang,解纠缠和统一基于卷积的动作识别的图卷积,在:IEEE/CVF计算机视觉和模式识别会议论文集,2020年,pp. 143 -152.[19] L. Shi,Y. 首页-期刊主要分类-期刊细介绍-期刊题录与文摘. 鲁、双流 自适应 图 卷积 用于基于机器人的动作识别的传统网络,在:IEEE/CVF计算机视觉和模式识别会议论文集,2019年,pp. 12026 -12035。[20] Y. Chen,Z. Zhang C.,中国古猿科袁湾,澳-地Li,Y.邓,W。Hu,用于基于动作识别的逐行拓扑细化图卷积,在:IEEE/CVF计算机视觉国际会议论文集,2021年,第101页。13359 -13368。[21] W.彭、X。Hong,H. Chen,G. Zhao,通过神经搜索进行基于机器人的人类动作识别的学习图卷积网络,在:AAAI人工智能会议论文集,第34卷,2020年,第34页。2669-2676。[22] P. Zhang , C. Lan , J. Xing , W. Zeng , J.Xue , N.Zheng , View adaptiveneuralnetworksforhighperformancecandidatebasedhumanactionrecognition,IEEETrans. 模式肛门。马赫内特尔41(8)(2019)1963[23] P. Zhang,C.兰,W。Zeng,J. Xing,J. Xue,N. Zheng,Semantics-guidedneuralnetworks for efficient mathematical based human action recognition ,in:Proceedingsof the IEEE/CVF Conference on Computer Vision and PatternRecognition,2020,pp. 1112-1121。[24] M. Li,S. Chen,X. Chen,Y. Zhang, Y.王,英-地田,共生图神经网络用于基于3D模型的人体动作识别和运动预测,IEEE Trans.Pattern Anal.马赫内特尔(2021年)。[25] C. Liu,Y. Hu,Y. Li,S. Song,J. Liu,PKU-MMD:一个大规模的基准为基于物联网的人类行为理解,在:在智能和互联社区的视觉分析研讨会的会议记录,在:VSCC '17 , 计 算 机 械 协 会 , 纽 约 , 纽 约 , 美 国 , 2017 年 , 页 。 1http://dx.doi。org/10.1145/3132734.3132739。[26] G.A. Sigurdsson,G. Varol,X. Wang,中国山核桃A.法尔哈迪岛Laptev,A.Gupta , Hollywoodinhomes : Crowdsourcing data collection for activityunderstanding , in : EuropeanConferenceon Computer Vision , Springer ,2016,pp. 510-526[27] R. Goyal,S.E. Kahou,V. Michalski,J. Materzynska,S. Westphal,H. 金姆,黑内尔岛Fruend,P. Yianilos,M. Mueller-Freitag等人,”某事”视频数据库用于学习和评估视觉常识,在:ICCV,卷。1,2017,p. 五、[28] T.李杰,刘杰,W. Zhang, Y. Ni,W. Wang, Z. Li,UAV-Human:A largebenchmarkfor human behavior understanding with unmanned aerial vehicles ,in : Proceedingsof the IEEE/CVF Conference on Computer Vision and PatternRecognition,2021,pp. 16266-16275。[29] F. Caba Heilbron,V. Escorcia, B. Ghanem,J. Carlos Niebles,Activitynet:Alarge-scale video benchmark for human activity understanding,in:Proceedingsofthe IECHO Conference on Computer Vision and Pattern Recognition,2015,pp.961-970.[30] Amazon,Amazon mechanical turk(MTurk),https://www.mturk.com/.[31] J.L. da Silva,A.N. Tabata,L.C. Broto,M.P. Cocron,A. Zimmer,T.Brand-meier,开源多用途多媒体注释工具,在:图像分析和识别国际会议,Springer,2020年,第 1 0 0 页。356-367.H. Quan和A.博纳里尼软件影响12(2022)1002784[32] A.杜塔A。Zisserman,用于图像,音频和视频的VIA注释软件,在:第27届ACM国际多媒体会议论文集,2019年,第10页。2276-2279[33] T.A. Biresaw,T. Nawaz,J. Ferryman,A.I.戴尔,Vitbat:视频跟踪和行为注释工具,载于:2016年第13届IEEE高级视频和基 于 信号的 监控国际会议,AVSS,IEEE,2016年,第 13 页。295-301[34] S.比安科湾Ciocca,P. Napoletano,R. Schettini,一种用于手动、半自动和自动视频注释的交互式工具,Comput。目视 图像理解131(2015)88-99。[35] M. Riegler,M. Lux,V. Charvillat,A. 卡利耶河 Vliegendhart,M. Larson,Video-jot : A multifunctional video annotation tool , in : Proceedings ofInternationalConference on Multimedia Retrieval,2014,pp. 534-537.[36] J.Yuen,B.拉塞尔角,澳-地 Liu,中国粘蝇A. Torralba,Labelmevideo:Building a videodatabase with human annotations,2009年IEEE第12届计算机视觉国际会议,IEEE,2009年,第100页。1451-1458年。[37] C. Vondrick, D.Patterson,D.Ramanan,Efficiently scaling up crowdsourcedvideoannotation,Int. J. Comput . 目视101(1)(2013)184[38] 英特尔,计算机视觉注释工具,https://github.com/openvinotoolkit/cvat。[39] Z. Cao,T.西蒙,S.- E. Wei,Y. Sheikh,使用部分亲和度字段进行实时多人2D姿态估计,载于:CVPR,2017年。[40] S.金湖,澳-地Xu,J. Xu,C. Wang,W. Liu,C. Qian,W. Ouyang,P. Luo,Whole-bodyhuman pose estimation in the wild,in:European Conference onComputer Vision,Springer,2020,pp. 196-214[41] K.孙 湾Xiao、 肖 氏 叶蝉 D. Liu,J. Wang, Deep high-resolution representationlearningfor human pose estimation , in : Proceedings of the IEEE/CVFConference onComputer Vision and Pattern Recognition , 2019 , pp. 5693-5703。[42] S.克赖斯湖贝尔托尼A. Alahi,OpenPifPaf:用于语义关键点检测和时空关联的复合字段,2021,arXiv预印本arXiv:2103。02440[43] B. Xiao,H. Wu,Y. Wei,用于人体姿态估计和跟踪的简单基线,在:欧洲计算机视觉会议论文集,ECCV,2018年,pp. 466-481[44] M. Kocabas,S. Karagoz,E. Akbas,Multiposenet:使用姿态残差网络进行快速多人姿态估计,见:欧洲会议论文集计算机视觉,ECCV,2018,pp. 417-433[45] R.A. Güler,N.内韦罗瓦岛Kokkinos,Densepose:密集人体姿势估计在野外,在:IEEE计算机视觉和模式识别会议论文集,2018年,pp. 7297-7306。[46] Y.蔡湖,加-地Ge,J. Liu,J. Cai,T.- J. Cham,J.Yuan,N.M. Thalmann,通过图形卷积网络利用时空关系进行3D姿态估计,在:IEEE/CVF计算机视觉国际会议论文集,2019年,第103页。2272-2281[47] M.安德里卢卡湾伊克巴尔,E。 因萨富季诺夫湖 Pishchulin,A. Milan,J. Gall,B. Schiele,Posetrack:人体姿态估计和跟踪的基准,在:IEEE计算机视觉和模式识别会议论文集,2018年,pp. 5167-5176[48] B.成湾,澳-地Xiao,J. Wang,H. Shi,T.S. 黄湖,澳-地 Zhang,Higherhrnet:自下而上的人体姿势估计的尺度感知表示学习,在:IEEE/CVF计算机视觉和模式识别会议论文集,2020年,pp. 5386-5395。[49] J.Li , C.Wang , H.Zhu , Y.毛 , H.- S.芳 角 , 澳 - 地Lu ,Crowdpose : Efficientcrowdedscenesposeestimationandanewbenchmark , in : Proceedings of theIEEE/CVF Conference on Computer Visionand Pattern Recognition,2019,pp. 10863 -10872。[50] M. 贡 献 者 , OpenMMLab 姿 势 估 计 工 具 箱 和 基 准 , 2020 ,https://github.com/open-mmlab/mmpose。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 十种常见电感线圈电感量计算公式详解
- 军用车辆:CAN总线的集成与优势
- CAN总线在汽车智能换档系统中的作用与实现
- CAN总线数据超载问题及解决策略
- 汽车车身系统CAN总线设计与应用
- SAP企业需求深度剖析:财务会计与供应链的关键流程与改进策略
- CAN总线在发动机电控系统中的通信设计实践
- Spring与iBATIS整合:快速开发与比较分析
- CAN总线驱动的整车管理系统硬件设计详解
- CAN总线通讯智能节点设计与实现
- DSP实现电动汽车CAN总线通讯技术
- CAN协议网关设计:自动位速率检测与互连
- Xcode免证书调试iPad程序开发指南
- 分布式数据库查询优化算法探讨
- Win7安装VC++6.0完全指南:解决兼容性与Office冲突
- MFC实现学生信息管理系统:登录与数据库操作
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功