隐私保护动作检测的人脸识别

11 浏览量更新于2023-10-13 收藏 2.44MB PDF 举报

人脸识别

图像处理技术

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

用于隐私保护动作检测的人脸识别任中正1、2[0000−0003−1033−5341]，李勇在 1、2[0000−0001−9863−1270]，和Michael S. [0000−0002−5452−8332]1EgoVid Inc.，韩国2加州大学戴维斯{zzren，yongjaelee}@ ucdavis.edu，mryoo@egovid.com抽象。在计算机视觉装置中存在越来越多的关注，即，通过重新校正未被视觉化的装置，虚拟用户的预防性。一方面，我们希望摄像机系统能够识别重要事件，并通过理解其视频来帮助人类日常生活，但另一方面，我们又不能保证这些重要事件不会影响人们的日常生活。在这篇论文中，我们提出了一种新的原则性方法来学习视频人脸匿名器。我们使用一个对抗性训练设置，其中两个计算系统进行战斗：（1）视频匿名器，其修改原始视频以移除隐私敏感信息，同时仍尝试最大化空间动作检测性能，以及（2）鉴别器，其尝试从匿名化视频提取隐私敏感信息。最终结果是视频匿名器，其执行像素级模型化以不对称地细化用户的面部，同时最小限度地降低动作检测性能。我们通过实验证实了我们的方法与传统的手工匿名方法相比的好处，包括掩蔽，模糊和噪声添加。代码、演示和更多结果可以在我们的项目页面www.example.com上找到https://jason718.github。io/project/privacy/main.html。1介绍计算机视觉技术正在实现对大规模视觉数据的自动理解，并且正在成为具有无处不在的相机的许多社会应用的关键组成部分。例如，城市正在采用联网摄像系统进行警务和智能资源分配，个人正在使用可穿戴设备记录他们的生活，家庭和公共场所的服务机器人越来越受欢迎。同时，这些系统侵犯其用户隐私的问题日益受到关注;特别是不需要视频记录。一方面，我们希望摄像机系统通过理解其视频来识别重要事件并支持人类日常生活，但另一方面，我们不希望看到这些事件不受个人隐私的影响。大多数计算机视觉算法需要将可能包含隐私敏感数据的高分辨率图像/视频加载到CPU/GPU存储器以实现视觉识别。2Z. 任，Y.J. Lee和M.S. Ryoo身份：Alex动作：刷牙身份：？？？动作：刷牙Fig. 1.想象一下下面的场景：你想要一个私人助理，可以提醒你，当你可爱的孩子亚历克斯执行不良行为，如吃妈妈的mak-up或rdrinkingirtywateroutofcuriosity。然而，由于您已记录了机密信息，因此您不会看到您的所有摄像头都无法记录ALEX的面部，理想情况下，我们希望一个面是一个非对称的模型，它可以提供Alex的概率（例如，我认为他的行为是不合理的，但同时又不改变他的行为。在本文中，我们的目标是创建这样一个系统。(Real实验结果）。他们有时甚至需要网络访问高计算能力的服务器，发送潜在的隐私敏感图像/视频。所有这些都可能会对个人的隐私造成潜在的风险。在这种情况下，如果用户家中的摄像头/机器人被破解，则用户处于被黑客监视的风险之下。还可以存在由主机安装的隐藏后门，以防止在用户的家中看到访问权限。为了记录这些内容，我们使用了一种方法来复制所有的Miz on视频。现有的匿名化方法包括极端下采样[38]或图像掩蔽，以及使用图像分割的更先进的图像处理技术[4]。尽管这样的技术在试图保护隐私时去除图像/视频中的场景细节，但是它们是基于推理而不是学习的，并且不能保证它们是最佳的隐私保护。此外，由于信息丢失，它们可能会损害随后的视觉识别性能[38]。因此，一个关键的挑战是创建一种可以同时匿名化视频的方法，同时确保匿名化不会对识别性能产生负面影响;参见图1B。1.一、在本文中，我们提出了一种新的原则性的方法来学习视频匿名。我们采用对抗性训练策略;也就是说，我们将学习过程建模为两个竞争系统之间的斗争：（1）视频匿名器，其修改原始视频以移除隐私敏感信息，同时保留场景理解性能，以及（2）鉴别器，其从这样的匿名视频中提取隐私敏感信息。我们用胡-隐私保护动作检测3人脸识别作为代表性的私人信息-因为人脸是用于识别的一种重要的场景识别任务-并且将用户识别作为代表性为了实现我们的想法，我们使用生成式对抗网络（GAN）[11]公式的多任务扩展我们的脸匿名器作为gener- ator和修改视频帧中的人脸像素，以尽量减少人脸识别的准确性。我们的人脸识别器作为识别器，并试图最大限度地提高人脸识别的准确性，尽管修改。活动检测模型用作另一个组件，以支持导致最大活动检测的修改。我们通过实验证实了我们的方法在DALY [52]和JHMDB [19]数据集上进行隐私保护动作检测的好处，与传统手工制作的匿名化方法相比，包括掩蔽，模糊和噪声添加。最后，虽然超出了这项工作的范围，但我们的想法是，一旦我们有了学习的匿名器，我们就可以通过设计一个负责硬件级匿名化的嵌入式芯片组，将其应用于各种应用，包括监控、智能家居摄像头和机器人这将允许图像/视频在它们被加载到处理器或发送到网络进行识别之前丢失身份信息。2相关工作隐私保护识别很少有研究人类行为识别，保留身份信息。目的是恢复在不确定的视频中的个人操作的识别形式（这与保护训练数据中的人的隐私有点不同[ 1，57]），同时仍然能够从这种身份去除的视频中进行可靠的识别。Ryoo等人[38]致力于学习有效的低分辨率视频变换，以从极低分辨率视频中分类动作。Chen等人[7]针对低分辨率视频进行了扩展[ 50]，设计了一个双流版本。Ryoo等人[37]进一步研究了为这种非常低的分辨率学习更好的表示空间的方法（例如，16x12）视频。所有这些以前的工作都依赖于视频下采样技术，这些技术是手工制作的，因此不能保证对于隐私保护动作识别是最佳的。事实上，这些作品的低分辨率识别性能远低于高分辨率视频的最新技术水平，特别是对于大规模视频数据集。Jourabloo等人[21]通过融合具有相似属性的面部，在保留面部属性的同时对面部进行去识别在灰度人脸图像上进行属性标注，取得了令人印象深刻的效果.然而，它特定于面部属性设置，并且不适用于更一般的隐私敏感任务，例如动作识别。动作识别动作识别有着悠久的研究历史[2]。在过去的几年里，CNN模型取得了特别成功的结果。这包括用于动作分类的双流CNN [43，8]和3-D XYT卷积模型[47，6]，以及用于时间动作检测的模型[42，33]。4Z. 任，Y.J. Lee和M.S. Ryoo我们的论文涉及从视频中的空间动作检测，这是在每个视频帧中定位动作（用边界框）并将它们分类的任务。最近的最先进的空间动作检测器是从对象检测CNN模型修改而来的。Gkioxari和Malik [10]将R-CNN [9]框架扩展到以RGB和流作为输入的双流变体。Wein- Zaepfel等。[51]通过引入检测跟踪来改进该方法以获得时间结果。双流更快的R-CNN [35]然后由[39，32]引入。Singh等人[44]修改了SSD [25]检测器以实现实时动作定位。在这项工作中，我们使用Faster RCNN [35]作为帧级动作检测器。人脸识别人脸识别是一个研究得很好的问题[59，23]。最近的深度学习方法和大规模注释数据集显着提高了这项任务的性能[45，46，53，41，27，26]。一些方法将其视为多类分类问题，并在[45，46]上使用vanilla softmax函数。我们等着。[53]在最大化类间距离的同时，使用softmax损失来联合地最小化[41]的最先进方法使用三重丢失与硬实例挖掘，但它需要2亿张训练图像。最近的工作[27，26]通过将度量学习与分类相结合来展示强大的性能在这项工作中，我们使用[26]作为我们的人脸识别模块。网络攻击我们的工作也与网络攻击问题密切相关现有的基于CNN的分类器很容易被愚弄[54，5，12，28，30]，即使输入图像以人眼不可察觉的方式被扰动。相应地，也有研究防御方法的工作[12，31，55]。我们的工作是类似于网络攻击的方法，因为我们修改后的图像需要攻击的人脸识别。然而，不同之处在于，我们希望大幅改变内容，使身份无法识别（即使是人类），同时还将其优化为动作识别。生成对抗网络（GANs）GANs [11]已被提出以无监督的方式生成逼真的图像。从那时起，许多作品[3，40，34]研究了改进GAN训练的方法，以生成高质量和高分辨率的图像。它是目前最主要的生成模型，其成功的关键是对抗性损失，这迫使生成的数据分布与真实数据分布无法区分。GANs已经被推广并应用于各种视觉任务，如图像到图像转换[16]，超分辨率[24]，域适应[36]和对象检测[49]。最近的工作使用GANs来抑制视频特征中的用户信息以保护隐私[17]，但它只关注特征提取，而不考虑图像数据中实际像素的修改。在本文中，我们将GAN扩展为用于多个动作检测模型的多个动作检测模型，以在不损害动作检测性能的情况下对多个动作检测模型的多个面部进行任意化。此外，与图像到图像的翻译、风格转换和域适应工作相比，我们的网络不需要目标域来借用视觉风格或内容。隐私保护动作检测5人脸检测（v -rv）RvMFM（rv）男（女）v'A对齐DLl1LdetLadv图二、我们的隐私保护行动检测网络架构我们同时训练面部修改器M和动作检测器A，面部修改器M的工作是改变输入面部（f或r，v），使得其身份不再与真实身份的身份匹配，动作检测器A的工作是学习准确地检测视频中的动作，而不管修改。面部分类器D充当对手并且确保经修改的面部是非平凡的。详情见正文。(Gray在训练期间不学习斑点。）3方法给定一组训练视频V和面部图像F，我们的目标是学习使视频帧和图像中的每个人匿名的面部修改器（即，使得它们不能被面部识别系统正确地识别），同时尽管进行了修改，仍然能够快速地识别出动作检测或面部识别系统的动作我们制定的问题作为一个多任务的学习目标。总体框架如图所示。二、有三个主要的可学习组件：将面部图像作为输入并对其进行匿名化的修改器M、检测每个视频帧中的人的动作的动作检测器A、以及对每个面部的身份进行分类的面部分类器D。使用视频和图像进行训练有两个主要优点首先，我们可以利用现有的大规模标记人脸数据集来学习身份信息。其次，我们可以在没有任何身份注释的动作检测数据集上训练我们的模型换句话说，我们不需要创建一个新的特定数据集来训练我们的模型，而是可以利用为人脸识别和动作检测创建的（不同的）数据集，而无需任何额外的注释。接下来我们介绍损失函数，然后解释训练过程。最后给出了实现细节3.1制剂我们训练模型的损失由三部分组成：用于身份修改的对抗分类损失;用于训练动作检测器的动作检测损失;以及用于鼓励每个生成的图像保留尽可能多的结构（姿势、亮度等）的L1损失。原始的未修改的脸尽可能。动作检测损失给定来自视频数据集v∈V的输入帧，我们首先应用人脸检测器以获得人脸区域rv。然后我们将r，v输入到修改器中v6Z. 任，Y.J. Lee和M.S. RyoodetvV Aii并且用原始帧中的所得修改图像M（rv）替换rv以得到v′=v−rv+M（rv）。换句话说，除了人的面部已经被修改之外，帧与原始帧相同（如果框架中有多个部件，则我们将执行相应的操作，以实现检测部件的功能。）每帧动作检测器使用经修改的帧v'来训练，并且生成具有约束力的块{bi（v）}和具有约束力的帧类别标签{ti（v）}。具体地，检测损失被定义为：L（M，A，V）= E[L （v′，{b（v）}，{t（v）}）]（1）其中，LA是Faster-RCNN [36]中的四个损失的总和：RPN分类和回归，以及Fast-RCNN分类和回归。我们选择Faster-RCNN，因为它是先前已成功用于空间动作检测的最先进的对象检测框架之一（例如，[39，32]）。对抗分类使用最先进的人脸分类器，我们可以轻松实现高人脸验证精度[27，26]。特别地，我们使用[26]的面部分类器公式作为我们设置的目标鉴别器。为了欺骗它，我们的修饰符M需要生成一个看起来非常不同的人。同时，面部分类器D应当相对于匿名化面部M（f）被连续地优化，使得其可以正确地识别面部，而不管任何修改。我们的D是用从大规模人脸数据集学习的预训练参数初始化的。我们使用对抗性损失来模拟这个两人游戏[11]。具体来说，在训练期间，我们轮流更新M和D。这里，我们将来自人脸数据集的输入图像表示为f∈F，并且将对应的身份标签表示为if∈I。损失表示为：Ladv（M，D，F）= − E（fF，ifI）[LD（M（f），if）] − E（fF，ifI）[LD（f，if）]. （二）这里，分类损失LD是角度softmax损失[26]，其已被证明优于vanillasoftmax，因为它结合了度量学习目标。当更新M时，该损失被最小化，而当更新D时，该损失被最大化。这同时强制学习可以欺骗面部分类器的好的修饰符（即，使其对具有错误标识的修改的面部进行分类），同时面部分类器在处理修改以正确地对面部进行分类时也变得更鲁棒，而不管修改。此外，我们使用修改后的图像M（f）和原始图像f两者来优化用于人脸分类的D。我们发现，这会导致修改器产生的面孔，看起来非常不同的原始面孔，因为我们在实验中显示真实感损失我们使用L1损失来鼓励修改后的图像保留基本结构（姿势，亮度等）。原始图片的。L1损失先前用于图像翻译工作[16，60]，以强制生成的图像和输入图像之间的视觉相似性。尽管这种损失并不直接有助于我们的隐私保护动作检测的目标隐私保护动作检测7算法1隐私保护动作检测输入：视频帧V和动作标签;人脸图像F和身份标签;人脸分类器D;训练迭代T1，T2输出：面部修改器M;隐私保护动作检测器A1：对于t= 1至T1，′2：M（f）-f//面修改3：arg maxDLadv（M，D，F）//更新D4：det face（v）→rv//人脸检测5：如果#帧中的面>0//视频帧修改′ ′ ′6：M（rv）→rv，（v−rv）+rv→v7：else//没有要修改的面′8：v→v9：arg min M，ALdet（M，A，V）+Ladv（M，D，F）+ λ Lll（M，F）//更新M，A10：对于τ=1至T2do11：arg minALdet（M，A，V）//冻结M，D;更新A我们添加它是因为我们希望修改后的图像保留足够的场景/动作信息，这些信息也可以被人类观察者识别。同时，由于我们不需要对修改后的图像进行足够多的修改，以至于这些图像的身份Ll1（M，F）=EfF[λ||M（f）−f||（3）我们的全部目标是：L（M，D，A，V，F）=Ldet（M，A，V）+Ladv（M，D，F）+Lll（M，F）我们的目标是解决：arg min maxL（M，D，A，V，F）（5）M、A和D我们的人工智能解决方案将在Alg中执行。1.一、需要注意的是：（1）如果帧中没有正面人脸（由于遮挡或者如果人背对相机），我们使用原始的、未修改的帧来训练动作检测器;（2）在训练期间，我们迭代地更新面部分类器、修改器和动作检测器。因此，动作检测器的输入图像保持变化，这可能使其优化困难且不稳定。为了克服这个问题，一旦修饰符和面部分类器的损失项收敛，我们就固定修饰符和面部分类器，并且仅微调动作检测器。在第5节中，我们的基线方法使用了类似的训练过程，唯一的区别是修改过程。4执行人脸检测我们使用SSH [29]人脸检测器来检测我们的视频数据集中的人脸，这会产生高召回率，但有一些误报。因此，我们认为，8Z. 任，Y.J. Lee和M.S. Ryoo10我们保留概率大于0.8的检测，并将其余部分馈送到MTCNN [58]人脸检测器中，以通过将其用作二元分类器来消除误报。经过这两个步骤，我们得到了一组干净且高度准确的面部边界框。面修改我们采用Johnson等人的修改器架构。[20]，Zhu等人在各种数据集上展示了令人印象深刻的图像翻译性能。[60]第一章。我们使用9残差块网络和实例归一化[48]。输入图像通过双线性插值进行上采样或采样到256×空间动作检测我们使用Faster-RCNN [35]和ResNet-101 [14]作为动作检测的骨干网络，并对其进行端到端训练。根据Gu等人的方法，调整图像的大小，使得JHMDB的较短长度为340像素，DALY的较短长度为600×800像素。[13]第10段。我们使用SphereFace-20 [26]网络，它结合了度量学习和分类来学习判别式身份分类器。我们使用CASIA-WebFace预训练[56]模型进行初始化。使用面部关键点对齐和裁剪输入面部图像我们使用可微分的非参数网格生成器和采样器进行裁剪（类似于空间Transformer网络[18]中的扭曲过程，除了没有可学习的参数），以使我们的整个网络端到端可训练。训练细节我们使用Adam求解器[22]，动量参数β1 = 0。5，β2 = 0。999.更快的RCNN的学习率为0.001，人脸修改器和人脸分类器的学习率为0.0003。我们对整个网络进行了12个epoch的训练学习率提高1在第七个纪元之后。5结果在本节中，我们首先提供有关评估指标和数据集的详细信息，并详细说明这些指标。我们从定量和定性两方面评估了我们的性能。此外，我们还进行了一项用户研究，以验证修改后的照片是否可以欺骗人类受试者。最后，我们进行消融研究，剖析每个模型组件的贡献。5.1指标和数据集动作检测我们使用标准的平均精度（mAP）指标来衡量检测性能。当测量空间定位时，IoU阈值δ被设置为0.5。我们使用两个数据集：DALY [52]和JHMDB（split1）[19]，因为它们包含许多涉及面部区域的动作，因此我们的联合人脸匿名化和动作检测模型的良好测试平台。例如，一些动作类在头部（拍照、打电话、刷头发）或嘴部（喝水、刷牙、吹口琴、在嘴唇上化妆隐私保护动作检测9Blurred（8x8）演奏口琴蒙面左：吹口琴噪声（σ2=0.5）两者：刷牙超像素通话边缘在嘴唇上化妆图三.基线修改示例。尽管这些方法在很大程度上隐藏了真实身份，但它们也可能对动作检测性能有害，特别是如果动作涉及面部区域。（放大查看详细信息，以PDF格式查看更好人脸识别根据以前的工作[27，26]，我们通过训练我们的模型进行人脸分类和评估二进制人脸验证来衡量人脸CASIA-WebFace [56]用于训练，并且使用MTCNN [58]估计的面部关键点对齐和裁剪输入图像。在测试期间，我们提取最后一个全连接层之后的特征，然后计算余弦相似度以用于LFW [15]上的面部验证，LFW [ 15]是用于该任务的最流行的面部数据集之一。请注意，在这里我们的动机不是创建一个新的人脸识别模型，而是使用一个已建立的方法作为我们的对抗设置的对手。5.2基线解决隐私问题的一个直接和蛮力的解决方案是检测人脸并使用简单的图像处理方法（如模糊，掩蔽和加性噪声等）对其进行修改为了探索它们是否是可行的解决方案，我们使用其中几个作为基线，并评估它们在动作检测和人脸识别方面的性能。对于动作检测，将检测到的面部框放大1。6×以确保它们包括头部区域的大部分，然后进行修改。该放大还帮助视频面部区域r，v更类似于具有一些背景上下文的面部图像f（参见图1B中的示例）。5顶部）。我们希望确保基线面部匿名化方法足够强大以保护隐私（即，使原始面部身份无法被人类识别）。基于此动机，我们实施了以下方法：（1）非匿名化：不施加保护;（2）模糊：遵循Ryoo等人的方法。 [38]，我们将人脸区域下采样到极低分辨率（ 8×8， 16×16 ，24×24），然后上采样回来;（3）掩蔽：面部被遮盖，（4）噪声：添加强高斯噪声（σ2 = 0. 1，0。3，0。5）;（5）超像素：在[4]之后，我们使用上像素和下像素的RGB值，其中该上像素的平均RGB值是RGB值;（6）边缘：在[4]之后，脸部区域被它们相应的边缘图所代替。示例性修改示于图1中。3.第三章。图4示出了动作检测准确度（y轴）对基线的面验证误差（x轴），左侧为JHMDB结果，右侧为 DALY结果10Z. 任，Y.J. Lee和M.S. Ryoo非匿名模糊x 3掩蔽噪声x3超像素边缘我们动作检测帧-mAp60 6558605654555250 50484546444042400 10 20 30 4050人脸验证错误350 10 20 30 40 50人脸验证错误图4.第一章X轴是面部验证误差，y轴是动作检测mAP。模型的性能越接近于要执行的操作，则性能越好。 Left：JHMDB;Right：DALY。对的如所预期的，与原始非匿名化帧相比，基线大大增加了面部识别错误（并且因此改善了匿名化）然而，与此同时，它们也会损害DALY和JHMDB上的动作检测性能。这些结果表明，简单的图像处理方法是双刃剑，虽然他们可能能够保护隐私（在不同程度上），保护的负面后果差的动作识别性能。5.3定量结果总体性能图4也显示了我们的结果，由红色方块标记表示。我们的方法同时优化了这两个任务，并取得了更好的结果相比，基线。作为两个极端的片面解决方案，“非匿名化”（top_l e f t）和“M as k e d”（bot_t om_r i g h t）可以简单地我们的动作检测结果显着优于其他人，同时相当接近的unanonymized检测结果。对于人脸验证，我们的方法只比两个基线（8× 8下采样和掩蔽）差，但优于其他方法。如前所述，某些动作更容易受到面部修改的影响。因此，我们接下来调查每类检测结果，以仔细分析此类情况。如表1中所示，我们发现，与在动作被设置为“触发”、“触发”、“触发动作”并且不触发动作或视频的情况下的情况相比，我们的模型以更大的裕度提高动作检测准确度。这些保留的方法是将这些操作作为一个问题来解决，而我们的应用程序则保留了这些或原始的内容。我们的改进型宏全部都是针对“cleleaningflo”、“cleleaningwind”来提供性能的操作，它确保了这些操作具有与面无关的特性。总的来说，这些结果表明，我们的模型以确保高动作检测性能的方式修改了每个面部。非匿名模糊x 3掩蔽噪声x3超像素边缘我们动作检测帧-mAp隐私保护动作检测11行动唇刷地板窗口喝倍铁电话口琴照片地图非匿名92.30 51.26 76.7327.8731.23 32.67 75.30 51.5073.9155.74 56.85模糊（8x8）84.31 17.87 79.3927.776.6028.68 71.69 28.4031.1348.09 42.39模糊（16x16）82.07 32.40 79.5332.1410.74 31.35 74.91 36.9748.3752.51 48.10模糊（24x24）92.08 39.84 79.9331.7715.23 34.96 74.65 46.3351.7853.09 51.972噪声（σ = 0.第一章87.71 31.37 78.4131.8712.41 34.80 76.50 42.3750.1453.48 49.912噪声（σ = 0.第三章87.64 24.98 78.5932.688.3435.33 74.96 40.1236.6145.42 46.47噪声（σ2= 0.第五章）83.63 21.45 81.3229.597.4329.08 77.97 33.9327.3546.35 43.81蒙面67.06 15.19 78.8626.586.5925.53 72.95 27.7921.3246.76 38.86边缘80.30 29.46 78.0230.5110.31 32.64 79.15 35.1554.6949.62 47.99超像素79.47 26.09 80.8232.2211.46 35.29 77.70 30.3042.1853.68 46.92我们89.20 33.08 77.1232.5622.93 33.86 77.07 46.5255.3255.54 52.32Table1. ACTI ONDETECTIONDALYCUURCY。'Drin k '，'Fol d '，'I ron'，'Pho n e '，'H ammonic a '，'Pho to'，denotecat e go ry 'a pp l y i g m ak e - up o n lips'，'bru s hin g tee t h '，'cl e a n i n g flo or'，'cl e a n i n g w i nd ow s'，'d rin k i n g '，“fol d in g t e x tile”、“i ron in g”、“ph o n in g”、“p l a y in g h a m o n ic a”、“t a k i n g ph o t o s o r v i d e o s”。5.4定性结果修改前后的相同图片接下来，我们在图1中示出修改前后的图片的示例。五、前四行示出了来自面部数据集的图像，而底部两行示出了来自视频数据集的图像。总的来说，我们可以看到，我们的修改器生成逼真的图片，在change的person的identy。最重要的是，保留了最基本的结构（姿势、闭合、背景）和动作（刷牙、吹口琴、在嘴唇上化妆），示出了L1和动作检测损失的贡献。为了改变这些个人身份，我们需要两个步骤来了解更多的本地详细信息。例如，在第一排，我们的模特改变了性别;在第三排，改变了发型（秃顶和颜色）;在第四行中，对鼻子、眼镜和眉毛等面部细节进行修改。我们可以对视频帧结果做同样的观察：两个刷牙少年变老;在嘴唇上化妆的女人的种族发生了变化。同一个人的不同修改图片在这里，我们将探索我们的模型如何修改同一个人的不同面部图像。这是为了回答我们的模型是否首先识别出这个人，然后系统地改变他/她的身份，或者它是否以更随机的方式改变身份。图6示出了结果。原始图像集（修改前;这里未示出）都具有相同的标识。前四行显示修改后的图像：成龙、莱昂纳多·迪卡普里奥、塞雷娜·威廉姆斯和弗拉基米尔·普京。底部两行示出了同一视频中的同一人的不同修改帧。考虑到针对同一人的修改的一致性（即，修改后的脸看起来相似），看起来我们的模型正在识别该人的身份并系统地修改它以生成新的身份。这个结果是令人惊讶的，因为在我们的目标中没有任何东西迫使模型这样做;一个假设是，发生这种情况是因为我们使用梯度上升来最大化面部分类误差，12Z. 任，Y.J. Lee和M.S. Ryoo图五.匿名化前后的图像相同。每对图片左边的图片是原始图像，右边的图片是修改后的图像。前四行来自人脸数据集;下面的两个来自视频数据集。与单独扰动每个面部实例相比，以系统的方式重塑面部身份流形是更容易的优化。5.5用户研究我们进行了一项非常简单的用户研究，以调查我们的修改器可以欺骗人类的程度我们设计了三个问题：（Q1）我们采样一对修改的隐私保护动作检测13成龙莱昂纳多·迪卡普里奥塞拉娜·威廉姆斯普京见图6。匿名图像。顶部：同一个人的不同修改图片; Bot- tom：同一视频中不同的修改帧。图像，并询问我们的受试者这对图像是否与同一个人我们收集了12个阳性对和12个阴性对。(Q2)我们使用我们的模型来修改16个著名的名人在LFW （谁不是在我们的培训 d 在 a ）和 d 作为 k 我们的subjectonamethemorsay'no id e a'。（Q3）我们展示了修改过的图像，并询问我们的受试者是否认为这项技术足以保护他们自己的隐私。14Z. 任，Y.J. Lee和M.S. Ryoo我们总共收集了来自10个不同主题的400个答案。Q1的整体准确度为53。3%，接近随机猜测（50%）。对于Q2，在他们认识的名人中，我们的受试者只能说出19个。75%的人正确地基于修改后的图像。最后，对于Q3，除2名受试者外，所有受试者均回答，如果他们使用该技术，他们的身份信息将受到保护。5.6消融研究人脸分类器是否仍然准确？在培训过程中，我们观察到的问题包括：例如，更详细地说，“在任何情况下”都要考虑到所述数据的严格性（即，面部分类器）。这引起了人们的担忧，即我们的人脸分类器可能不再足够强大，无法正确分类未修改的人脸。为了回答这个问题，我们采用经过训练的人脸分类器，并在原始的非匿名LF W人脸上对其进行评估。如图94所示，用户的函数。75%的VeRicationaccuracy。在改良的LFW面上，它们只能达到66。百分之九十五。这示出分类器能够准确地重新识别由修改的面“fool ed”指定的原始面。梯度上升或使用随机标签时，优化M？受现有网络攻击作品[54，5，12，28，30]的启发，我们还可以优化我们的修改器，以便它欺骗分类器将修改后的图像分类为随机人脸类别。(In我们的方法，如图所示的Alg。1，我们改为执行梯度上升以最大化分类损失。在实践中，我们发现随机负样本优化产生更差的结果，其中所产生的面部具有明显的伪影并且丢失太多细节。对此的一个可能的解释是，与梯度上升（即，最大化正确标识的分类误差）。在这里，优化目标在训练期间保持随机变化，这导致整个网络遭受模式崩溃。因此，它简单地产生一致的模糊，而不管原始身份如何。相比之下，梯度上升使修改后的图像看起来仍然像一张脸，只是具有不同的身份。6结论我们提出了一种新的方法来学习一个面部匿名和活动检测器使用对抗学习公式。我们的实验定量和定性地表明，学习匿名混淆人类和机器在人脸识别，同时产生可靠的动作检测。作为电子政府的一部分，这是一个值得关注的宝石。的关于隐私保护计算机视觉的研究活动，并且部分地得到由中小企业和创业部（MSS，韩国）资助的技术开发计划（S2557960）和NSF IIS-1748387的支持。我们感谢所有参与我们用户研究的受试者。我们还要感谢吴冲若、肖凡一、克里希纳·库马尔·辛格和马欣·拉希德的宝贵讨论。隐私保护动作检测15引用1. Abadi，M.，Chu，A.，古德费洛岛McMahan，H.B.，米罗诺夫岛Talwar，K. ， Zhang ， L. ：深度学习与差分隐私 ACM 计算机和通信安全会议（CCS）（2016）2. Aggarwal ， J.K. Ryoo ， M.S. ：人类活动分析：审查 . ACM 计算调查（2011）3. Arjovsky，M.，Chintala，S.，Bottou，L.：Wasserstein生成对抗网络在：ICML（2017）4. 巴特勒DJ黄，J.，Roesner，F.，Cakmak，M.：远程遥控机器人的隐私-效用权衡ACM/IEEE人机交互国际会议（HRI）（2015）5. Carlini，N.Wagner，D.A.：评估神经网络的鲁棒性IEEE Symposium onSecurity and Privacy（2017）6. 卡雷拉，J.，齐瑟曼，A.：你好，动作识别？新模型和动力学数据集。在：CVPR（2017）7. 陈杰，吴，J.，Konrad，J.，Ishwar，P.：用于极低分辨率下动作识别的半耦合双流融合卷积网络。在：WACV（2017）8. Feichtenhofer，C.，Pinz，A.，齐瑟曼，A.：用于视频动作识别的卷积双流网络融合。见：CVPR（2016）9. Girshick，R.B.，Donahue，J.，Darrell，T.，Malik，J.：丰富的特征层次结构，用于精确的对象检测和语义分割。在：CVPR（2014）10. Gkioxari，G.，Malik，J.：找活动管。参见：CVPR（2015）11. 古德费洛岛Pouget-Abadie，J.Mirza，M.，徐，B.，沃德-法利，D.，Ozair ， S. ， Courville ， A. Bengio ， Y. ：生成性对抗网。在： NIPS（2014）12. Goodfellow，I.J. Shlens，J.，Szegedy，C.：解释和利用对抗性的例子。ICLR（2015年）13. 古，C.，孙角，澳-地Vijayanarasimhan，S.，Pantofaru角地方检察官罗斯Toderici，G.，李，Y.，Ricco，S.，Sukthankar河施密德角Malik，J.：AVA：时空局部原子视觉动作的视频数据集来源：CVPR（2018）14. 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习。见：CVPR（2016）15. Huang，G.B.，Ramesh，M.，Berg，T.，Learned-Miller，E.：在野外贴上标签的脸：研究无约束环境下人脸识别的数据库。Tech. 众议员07-49，马萨诸塞大学阿默斯特分校（2007年10月）16. Isola，P.，Zhu，J.Y.，周，T.，Efros，A.A.：使用条件对抗网络的图像到图像翻译。CVPR（2017）17. Iwasawa，Y.，Nakayama，K.，亚里岛Matsuo，Y.：关于DNN应用于使用可穿戴设备的活动识别的隐私问题及其通过使用对抗训练的对策在：IJCAI（2017）18. Jaderberg，M.，西蒙尼扬，K.，Zisserman，A.，Kavukcuoglu，K.：空间Transformer网络。In：NIPS（2015）19. Jhuang，H. Gall，J.，Zuffi，S.，施密德角布莱克，M.J.：去理解一个认知的过程。我不知道你在哪。在C〇mputerV isin（ICCV）中。pp. 319220. Johnson，J.，Alahi，A.，李菲菲：实时风格转换和超分辨率的感知损失。In：ECCV（2016）21. Jourabloo，A.，Yin，X.，刘X：属性保留的人脸去识别。在：IAPR生物识别国际会议（2015）16Z. 任，Y.J. Lee和M.S. Ryoo22. 金玛，D.P.， Ba，J.： Adam：随机最佳化的方法。Corrabs/1412.6980（2014）23. Learned-Miller，E. Huang，G.B.，RoyChowdhury，A. Li，H.，Hua，G.：《荒野中的脸》（Faces in the Wild）：调查。在：面部检测和面部图像分析的进展（2016）24. 莱迪格角泰斯湖胡萨尔，F.卡瓦列罗，J.，Aitken，A.P.，Tejani，A.，托茨，J.，王志，Shi，W.：使用生成对抗网络的照片逼真的单图像超分辨率。CoRR（2016）25. 刘伟，Anguelov，D.，Erhan，D.，塞格迪角Reed，S.，Fu，C.Y.，Berg，A.C.：Ssd：单发多盒探测器。In：ECCV（2016）26. 刘伟，Wen，Y.，于志，Li，M.，Raj，B.，Song，L.：Sphereface：用于人脸识别的深度超球面嵌入。在：CVPR（2017）27. 刘伟，Wen，Y.，于志，Yang，M.：卷积神经网络的大利润softmax损失。In：ICML（2016）28. Moosavi-Dezfooli，S.，Fawzi，A.，Fawzi，O.，Frossard，P.：全世界的对抗性混乱。在：CVPR（2017）29. Najibi，M.，Samangouei，P.，切拉帕河Davis，L.：SSH：单级无头人脸检测器。In：ICCV（2017）30. Papernot，N.，麦克丹尼尔警局Goodfellow，I.J.：机器学习中的可移植性CoRR abs/1605.07277（2016）31. Papernot，N.，麦克丹尼尔警局Wu，X.，中国农业科学院，Jha，S.，Swami，A.：蒸馏作为对深度神经网络对抗性扰动的防御。IEEESymposium on Security and Privacy（2016）32. 彭，X.Schmid，C.：用于动作检测的多区域双流r-cnnIn：ECCV（2016）33. Piergiovanni，A.，Ryoo，

下载后可阅读完整内容，剩余1页未读，立即下载