Masked-Piper：保留行为信息的视频身份掩盖工具

29 浏览量更新于2024-01-25 收藏 587KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

软件X 20（2022）101236原始软件出版物Masked-Piper：在保留多模态信息的同时掩盖视频记录中的个人身份Babajide Owoyelea，James Trujillob，c，Gerard de Meloa，Wim Pouwb，a德国波茨坦大学哈索·普拉特纳研究所b荷兰奈梅亨Radboud大学Donders脑、认知和行为中心c荷兰奈梅亨马克斯·普朗克心理语言学研究所ar t i cl e i nf o文章历史记录：收到2022年收到修订版，2022年9月8日接受，2022年保留字：多模式通信运动学研究数据隐私开放科学掩蔽研究再现性a b st ra ct在这个数据日益丰富的世界中，由于对隐私的担忧，人类行为的视觉记录通常无法共享。因此，行为科学、多模式通信和人体运动研究等领域的数据共享往往受到限制。此外，在法律和其他非科学背景下，与隐私相关的问题可能会阻止视频记录的共享，从而消除人类招募来进行交流的丰富的多模式背景。最大限度地减少身份暴露的风险，同时保留关键的行为信息，将最大限度地利用公共资源（例如，研究补助金）和视听研究投入的时间。在这里，我们提出了一个开源的计算机视觉工具，掩盖了人类的身份，同时保持丰富的信息交流身体动作。此外，这种掩蔽工具可以很容易地应用于许多视频，利用计算工具来增强行为研究的可重复性和该工具是专为从事运动学和情感研究的研究人员和从业人员。应用领域包括教学/教育，通信和人类运动研究，CCTV和法律环境。©2022作者（S）。由爱思唯尔公司出版这是CC BY许可下的开放获取文章（http://creativecommons.org/licenses/by/4.0/）中找到。代码元数据当前代码版本v1用于此代码版本的代码/存储库的永久链接https://github.com/ElsevierSoftwareX/SOFTX-D-22-00110可复制胶囊的永久链接https://wimpouw.github.io/TowardsMultimodalOpenScience/Index法律代码许可证MIT许可证使用git的代码版本控制系统使用python的软件代码语言、工具和服务编译要求、操作环境和依赖关系MediapipeJupyter Notebooks如果可用，请链接到开发人员文档/手册https://github.com/google/mediapipe问题支持电子邮件wim. donders.ru.nl1. 介绍由于对保护隐私的担忧，人类行为的记录通常无法共享[1]。因此，在行为科学、多模式通信和人体运动研究等领域，数据共享往往有限。然而，数据共享在科学背景下至关重要，因为它DondersCenter for Brain，Cognition，and Behaviour，Radboud University，Nijmegen，Netherlands.电子邮件地址：wim. donders.ru.nl（Wim Pouw）。https://doi.org/10.1016/j.softx.2022.101236允许对所述数据的分析在计算上是可再现的[2，3]。对于敏感的定量数据，例如医疗记录，已经开发了新的方法来共享数据，而不会通过创建保留原始数据的某些统计方面的合成数据来暴露个人身份信息[4]。对于人类行为的敏感视觉数据，目前还没有广泛可用的可比解决方案[5]。由于缺乏技术解决方案，在多模式通信和其他运动学研究领域的研究中，放弃共享原始视频记录2352-7110/©2022作者。由Elsevier B.V.出版。这是一篇开放获取的文章，使用CC BY许可证（http://creativecommons.org/licenses/by/4.0/）。可在ScienceDirect上获得目录列表SoftwareX期刊主页：www.elsevier.com/locate/softxBabajide Owoyele，James Trujillo，Gerard de Melo et al.软件X 20（2022）1012362图1.一、输入帧（左）和掩码帧（右）示例（视频链接：https：//osf.io/4kj6a/）。1资料来源：Masterclass.com。图二、非成人说话者的输入帧（左）和掩蔽帧（右）的另一个示例。2资料来源：TedX。(e.g.、[6]或应要求有条件地分享，自-10个期刊政策要求[7，8]。不幸的是，研究人员很少批准共享请求，如以前的研究所示[9]。规避某些隐私问题的一种方法是仅共享量化的运动学数据。虽然这可能允许其他研究人员进行统计分析，但它掩盖了数据来源，使人们无法观察原始记录。相比之下，检查原始视频和音频的能力可以帮助研究人员了解量化结果与原始视频和音频数据中可观察到的真实世界背景它还使第三方能够评估记录的质量，其要求可能因具体的研究问题而异，例如，参见Pouw和同事[10，11]以及Rasenberg和同事[12]，以确定需要考虑的多模式通信的特定水平[12]。此外，展示实际的视频记录而不仅仅是图表和图表对于向同行进行最佳的研究交流非常重要，例如学术会议或公开讲座。因此，找到一个有效的中间立场是至关重要的，它允许数据尽可能匿名，同时保持与动态人类行为有关的上下文的相关视觉信息。基于计算机视觉和深度学习的进步使用MediaPipe [13]中安装的跟踪全身运动学信息的技术，我们将Masked-Piper作为一种工具，1 https://www.masterclass.com/classes/neil-degrasse-tyson-teaches-www.example.com2 https://www.youtube.com/watch? v=OMbNoo4mCcI应对上述匿名相关挑战。我们的工具利用MediaPipe跟踪手、身体和面部运动学，并将定量信息存储为逐帧时间序列，将人体与背景信息区分开，在保留背景信息的同时掩盖原始视频中的人体，• 将运动学投影到掩蔽视频上。图图1和图2提供了输入帧和结果输出的两个示例。研究人员可以通过将原始文件夹放置到处理文件夹中来对大量视频应用Masked-Piper（代码在这里）。Masked-Piper将迭代处理所有存储掩码视频和运动时间序列的视频。生成的运动学时间序列文件在可用关键点旁边包含时间戳信息（基于原始视频的帧速率）。对于身体姿态信息，33个关键点可与3D位置坐标和附加可见性变量一起使用，这有助于判断位置估计的可靠性。对于手部运动学，在3D中跟踪42个位置关键点;对于面部运动学，为面部网格提供3D位置坐标，包含与面部网格的指定区域相对应的478个关键点（更多信息请参见https://google.github。io/mediapipe/solutions/holistic.html）。Masked-Piper利用Me-diaPipe有关面部网格坐标、身体姿势和手部运动学的信息保留在视频中。···Babajide Owoyele，James Trujillo，Gerard de Melo et al.软件X 20（2022）1012363此外，MediaPipe的绘图模块在2D空间中呈现全身姿势，与每帧的原始视频对齐。因此，Masked-Piper掩盖了原始的视觉信息，并以去识别的形式恢复了视频中的关键身体信息。目前的工具已经超出了行为科学的应用。首先，它可以解决收集有关人类行为的不必要的多余信息的问题例如，考虑到许多（音频）视觉监视系统可能不需要记录人的身份，但仍然记录这样的使用我们的屏蔽工具，这样的系统可以用来监视某些活动（例如，跑步）或活动水平（例如，数量的人），这不需要积累可识别的信息。目前的工具可以解决这个问题，多余的信息，通过只维护有关人类行为的相关信息，同时减轻隐私风险膨胀的隐私风险。我们设想了当前工具的许多其他应用，例如在法律背景下，可以记录与证人的听证会，以减少身份暴露的风险，同时最大限度地提高人类沟通所固有的具体沟通2. 执行该工具目前用Python实现，补充材料中提供了所有用户需要安装所需的模块，将需要处理的文件复制到本地目录，并运行提供的笔记本（或批处理文件）。代码的开放性为工具的工作方式提供了额外的透明度，并允许用户进行自定义尽管如此，笔记本电脑以其目前的形式充分发挥作用，因此不需要太多的技术专长。如上所述，Masked-Piper为提供的每个视频执行几个处理步骤。首先，将MediaPipe运动跟踪应用于视频，使得手部、身体和面部关键点位于每个帧上，从而以x、y坐标（以像素为单位给出，在静止帧本地）提供每个关键点的时间序列。收集这些数据并作为输出提供在收集基于关键点的跟踪数据的同时，MediaPipe的整体模块自动检测视频帧中的人物轮廓，并将其从背景中提取出来。我们巧妙地将这个轮廓重新用作面具。为了实现这一点，Masked-Piper在当前视频帧的顶部用黑色绘制了这个轮廓。然后使用MediaPipe绘图模块将关键点位置绘制到相同的轮廓帧上。最后，轮廓（即，使用OpenCV将标记的帧保存为新的视频文件。这个新的视频文件是伪匿名化的输出视频，其保留了视频的整体上下文（例如，背景、背景内的人类主体），并且提供关于肢体和手指的位置、面部表情、嘴部运动等的更细粒度的信息。2.1. 框架的选择MediaPipe框架提供了对复杂和动态身体行为的分析，并且比基于 GPU 的重型方法更容易安装，以跟踪人体姿势，如FrankMocap [14]。使用MediaPipe的价值在于（1）资源消耗的良好平衡，（2）增量和迭代2.2. 基础工具我们对MediaPipe工具的修改包括重新使用轮廓来确定背景和身体以创建遮罩。然后，我们使用MediaPipes身体跟踪将运动学覆盖我们进一步修改原始代码，使时间序列数据提供所有的运动信息，每帧随时间的推移。因此，该工具便于研究人员使用下一代身体跟踪器屏蔽视频并提取运动学时间序列用于他们的研究，该跟踪器超越了较慢的2D跟踪系统，如OpenPose [15]。3. 讨论任何有暴露个人身份信息风险的工具都需要谨慎使用。有几种途径可能导致某人身份的暴露。由于我们保留了关于交流的身体动作和言语内容的信息，因此很明显，任何可识别的音频信息对于视听记录来说都是未掩蔽的此外，我们可以想象，在你认识某人的情况下，一个人所说的话或如何移动仍然足以检索某人并了解他们潜在的独特沟通方式。因此，掩蔽工具应被视为大大减少而不是完全消除身份暴露的风险。在行为科学中，由于熟悉而导致的身份暴露风险并不普遍适用，因为使用视频记录的研究人员通常与研究样本没有联系。实际上，身体运动数据不被认为是可由任何法律标准识别的（例如，GDPR指南）。当前工具的局限性在于每帧只能检测到一个实体。因此，将需要开发掩蔽工具的进一步迭代以掩蔽一个视频中的多个人。最后，任何基于计算机视觉的自动跟踪可能都不够精确，这取决于你的研究问题（但请参阅[7，17]，以比较基于视频的跟踪与基于设备的跟踪）。幸运的是，研究人员可以很容易地验证Masked-Piper制作的视频质量和跟踪性能。谨慎使用Masked-Piper有可能改善伦理研究实践，并最大限度地提高开放科学实践。我们相信这些类型的掩蔽工具将成为视听研究的重要组成部分。有趣的并行开发目前正在进行中，这将进一步促进掩蔽工具的使用，例如红母鸡Anchorizer（https：//sites.去吧。com/case.edu/techne-public-site/red-hen-anonymizer）。同样，Hukkelås和同事的深度隐私面部识别平台[18]掩盖了人们，认为它丢失了有关面部表情的所有信息然而，例如，红母鸡Anomalizer确实留下了一个更人性化的面具。这些工具可以一起定制不同类型的研究需求，并一起帮助研究人员屏蔽视频他们可以很容易地与他们的同伴分享。目前的工具是特别适合其易于使用和最大限度地保存运动信息（手，身体，脸）。总而言之，我们相信，像这样的掩蔽工具将间接地改善科学过程本身的核心，因为研究的可重复性通过允许其他工具来提高。处理，以及（3）支持工具包/库的广泛库供开发人员和研究人员选择和定制[13]。3 https://google.github.io/mediapipe/solutions/holistic.htmlBabajide Owoyele，James Trujillo，Gerard de Melo et al.软件X 20（2022）1012364研究人员容易访问视频记录中包含的原始研究背景。竞合利益作者声明，他们没有已知的竞争性财务利益或个人关系，可能会影响本文报告的工作数据可用性文章中描述的研究未使用任何数据致谢我们要感谢Linda Drijvers、Judith Holler、Asli Ozyurek及其附属研究小组对掩蔽工具的有益评论。我们也感谢Twitter上的多模式社区，鼓励我们探索这样一个工具及其价值。我们感谢马克斯·普朗克研究所、唐德斯研究所、哈索·普拉特纳设计思维研究计划，特别是乔纳森·埃德尔曼和华金·桑塔图的持续支持。HPI人工智能和智能系统主席 Victor Omolaoye 及其同事的合作推动，以及 HassoPlattner基金会的资助也得到了认可。资金这项研究得到了荷兰研究委员会（NWO）授予Wim Pouw（PI）的VENI赠款（VI.Veni.201G.047附录A. 补充数据与本文相关的补充材料可以在https://doi.org/10.1016/j.softx.2022.101236上找到。引用[1] Narayanan A，Huey J，Felten EW. In：Gutwirth S，Leenes R，De HertP ， editors. 移动数据保护。法律，治理和技术系列。 24 ， Dordrecht ：Springer; 2016，http://dx.doi.org/10.1007/978-94-017-7376-8_13.[2] Buchanan EM ， Crain SE ， Cunningham AL ， Johnson HR ， Stash H ，Papadatou- Pastou M ， et al. Getting started creating data dictionaries ：How to create可共享的数据集。Adv Methods PractPsychol Sci 2021;4（1）.网址：//dx.doi.org/10.1177/2515245920928007网站。[3]Gilmore RO，Kennedy JL，Adolph KE.分享心理学研究数据和材料的实用解决方案。 AdvMethodsPractPsycholSci2018;1 （ 1 ）： 121-30.http://dx.doi.org/10.1177/2515245917746500网站。[4]杨文，李文.使用深度学习的隐私保护合成数据发布。在：在计算机科学讲义（包括在人工智能和生物信息学讲义子系列讲义），11051 LNAI。2019，p.510-26. 网址：//dx.doi.org/10.1007/978-3-030-10925-7_31网站。[5]Joel S，Eastwick PW，Finkel EJ.开放共享亲密关系和其他敏感社会心理学主题的数据：挑战，工具和未来方向。Adv Methods PractPsychol Sci 2018;1（1）：86-94. http://dx.doi的网站。org/10.1177/2515245917744281。[6]Gawne L，Krajcik C，Andreassen HN，Berez-Kroeker AL，Kelly BF.期刊姿态中的数据Gesture2019;18（1）：83-109.http://dx.doi.org/10.1075/GEST.00034.GAW/CITE/REFWORKS网站。[7] Meyer MN. 道德数据共享的实用技巧 Adv Methods Pract Psychol Sci2018;1（1）：131http://dx.doi.org/10.1177/2515245917747656网站。[8]Wilkinson MD，Dumontier M，Aalbersberg IjJ，Appleton G，Axton M，Baak A，et al.评论：科学数据管理和管理的公平指导原则。Sci Data 2016;3.http://dx.doi.org/10.1038/SDATA.2016的网站。十八岁[9]萨维奇CJ维克斯AJ作者出版数据共享的实证研究发表在公共科学图书馆期刊上。PLOSONE2009;4（9）：e7078.http://dx.doi.org/10.1371/JOURNAL.PONE.0007078.[10]Pouw W，Trujillo JP，Dixon JA.手势-语音同步的量化：使用基于设备和基于视频的运动跟踪进行多模态数据采集的教程和验证。行为研究方法2020;52（2）：723-40。http://dx.doi.org/10.3758/S13428-019-01271-9/www.example.com[11]Pouw W，Dingemanse M，Motamedi Y，Özyürek A.在实验室中，在不断发展的手动语言中系统地演示手势运动学。 Cogn Sci 2021;45 （ 7 ）：e13014.http://dx.doi.org/10.1111/COGS.13014网站。[12] Rasenberg M，Özyürek A，Dingemanse M.多模态互动中的一致性CognSci 2020;44（11）. http://dx.doi.org/10.1111/COGS.12911。[13]Lugaresi C ， Tang J ， Nash H ， Mcclanahan C ， Uboweja E ， Hays M 等，MediaPipe：A framework for building perception pipelines.2019年，http：//dx.doi.org/10.48550/arxiv.1906.08172网站。[14]放大图片作者：Jong Y，Shiratori T. FrankMocap：通过回归和整合快速单目3D 手部和身体运动捕捉。 2020 年， http://dx.doi.org/10 。48550/arxiv.2008.08324。[15] Cao Z，Simon T，Wei SE，Sheikh Y.利用局部仿射场的实时多人2D姿态估计 In ： Proceedings-30th IEEE conference on computer vision andpattern recognition，CVPR 2017，2017-January.2017年，第1302-10页。http://dx.doi.org/10.1109/CVPR.2017.143网站。[16]Runeson S，Frykholm G.作为人与动作知觉信息基础的动力学运动学规范：期望、性别识别和欺骗性意图。实验心理学杂志：总论1983;112（4）：585。[17] 放大图片作者：Michael J. Richardson，David M.卡普兰基于深度学习的无标记 3D 姿态估计的验证。 Plosone2022;17 ： 10.http://dx.doi.org/10.1371/journal.pone的网站。0276258[18]Hukkelås H，Mester R，Lindseth F. DeepPrivacy：一个用于面部匿名化的生成对抗网络。 2019 ， CoRRabs/1909.04538 ， http ： //arxiv.org/abs/1909.04538。

下载后可阅读完整内容，剩余1页未读，立即下载