CIAGAN：条件身份匿名化生成对抗网络

50 浏览量更新于2023-10-25 收藏 29.36MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

54470CIAGAN：条件身份匿名化生成对抗网络0慕尼黑工业大学伊斯梅尔∙埃莱齐*0威尼斯大学劳拉∙莱尔-泰克慕尼黑工业大学0图1：给定一张人脸图像，我们的网络根据所需的身份对人脸进行匿名化处理。在图中，可以看到生成的人脸的变化性，由给定的标签控制。在每个三元组中，第一张图像是真实图像，而其他两张图像是真实图像的不同匿名化版本。0摘要0计算机视觉技术在社会中的使用前所未有地增加，与此同时，对数据隐私的关注也在增加。在许多现实场景中，如人员跟踪或动作识别，能够在处理数据时同时保护人们的身份是很重要的。我们提出并开发了CIAGAN，这是一种基于条件生成对抗网络的图像和视频匿名化模型。我们的模型能够去除面部和身体的识别特征，同时生成高质量的图像和视频，可用于任何计算机视觉任务，如检测或跟踪。与以前的方法不同，我们对去识别（匿名化）过程有完全控制，确保匿名化和多样性。我们将我们的方法与几种基准方法进行比较，并取得了最先进的结果。为了促进进一步的研究，我们在https://github.com/dvl-tum/ciagan上提供了代码和模型。0“每个人都有三种生活：公开的、私人的和秘密的。”0加夫列尔∙加西亚∙马尔克斯，[24]0* 两位作者贡献相同。01. 引言0计算机视觉技术在社会中的广泛使用意味着自动处理包含个人数据的大规模视觉数据。虽然我们渴望利用技术进行家庭监控、视频会议和监视，但我们不愿意通过放弃个人隐私来实现这一点。事实上，数据隐私是一个日益关注的问题，欧洲联盟等实体已经通过了《通用数据保护条例》（GDPR）[1]等法律来保障数据隐私。对于计算机视觉研究人员来说，创建包含人员的高质量数据集变得极其具有挑战性，因为数据集中的每个人都需要同意使用他或她的图像数据。最近，一个用于人员再识别的流行数据集，杜克MTMC数据集[10]，因隐私原因被下线。我们的关键观察是，许多计算机视觉任务，如人员检测、多人跟踪或动作识别，并不需要识别视频中的人员，只需要检测到他们。传统的匿名化技术，如人脸模糊，会显著改变图像，从而导致检测性能大幅下降。我们提出了一种模型，通过去除人们的身份识别特征来匿名化（或去识别）图像和视频，同时仍然保留必要的特征以...54480允许面部和身体检测器工作。重要的是，图像对于人类观察者仍然应该看起来真实，但是图像上的人不应该被识别出来。我们提出的方法可以用于匿名化计算机视觉数据集，同时保留用于检测、识别或跟踪等任务的必要信息。我们利用条件生成对抗网络（CGAN）[25,15]的生成能力来生成看起来真实的匿名图像和视频。在现有的基于GAN的方法中，图像生成过程通常由一个随机噪声向量控制以生成多样化的输出。这样的随机过程不适用于匿名化目的，我们需要确保从输入到输出的身份实际上已经发生了变化。为了解决这个问题，我们提出了一种新颖的身份控制鉴别器。我们的CIA-GAN模型具有匿名化系统应具备的以下重要特性：0（i）匿名化：生成的输出必须隐藏原始图像中的人物身份。实质上，我们正在生成一个新的虚假身份。0（ii）控制性：生成的图像的虚假身份受控制向量的控制，因此我们对真实人物-虚假身份映射具有完全控制权。0（iii）新身份：生成的图像必须只包含训练集中不存在的新身份。0（iv）逼真性：输出的图像必须看起来逼真，以便被最先进的检测和识别系统使用。0（v）时间一致性：对于人员跟踪或动作识别等任务，应确保视频中的时间一致性和姿势保持。0通过满足上述五个特性，我们确保了图像和视频的匿名化以及数据隐私的保护。同时，我们的方法保证了检测器能够使用匿名化的数据，正如我们的实验证明的那样。我们在这项工作中的贡献有四个方面：0•我们提出了一个适用于图像和视频流匿名化的通用框架。0•我们展示了我们的方法匿名化的图像可以被现有的检测和识别系统使用。0•我们在几个数据集上展示了最先进的结果，同时在生成的图像上展示了多样性和控制能力。0•我们进行了全面的消融研究，展示了我们模型的每个构建模块的重要性。02. 相关工作0人脸生成自从生成对抗网络（GAN）的出现[8,28]以来，生成逼真的人脸一直是一个活跃的研究领域[20,16,17]。当前最先进的模型[17]能够通过逐步训练大型卷积神经网络来生成高分辨率的人脸图像。通过自适应实例归一化[13]实现外观、种族、头发和眼睛颜色的多样性。尽管它们的质量令人印象深刻，但由于依赖随机噪声并且没有关于原始人脸的信息，这些方法对于生成人脸与身体其他部分的融合具有挑战性，仍然是一个开放的研究问题。因此，它们在匿名化应用中的可用性有限。0图像到图像和视频到视频的转换Pix2Pix网络[15]及其无监督变体[40]在跨域图像转换方面取得了令人印象深刻的结果，例如从冬季到夏季。然而，它们在对来自同一领域的图像进行微妙但重要的改变方面是否合适尚不清楚，例如人脸或身体。与此密切相关的是，最近有关于确保视频的时间一致性的工作，用于人脸转换[38]的任务。为了确保时间一致性，[38]将生成器条件限制为前一帧的真实帧和生成帧，以及帧之间的估计光流。虽然该工作展示了平滑的时间一致性，但生成的人脸通常与原始身份非常相似，不适合匿名化任务。0人脸匿名化直到最近，人脸匿名化是通过像素化、模糊或遮盖人脸来实现的。或者，[32]提出使用基于分割的方法。由于这些操作是基于启发式而不是学习的，因此无法保证这些操作对于去识别任务来说是最优的。关键是，这些方法通常会使人脸变得不可检测，因此在标准的计算机视觉流水线中无法使用。我们主张使用机器学习来实现匿名化，以保留对于计算机视觉任务（如检测和跟踪）而言必要的重要特征。这在[29,34, 14, 35,7]中已经有所探索。然而，所有这些工作都存在重要的局限性。[14]生成的人脸通常仍然可以被人类识别。[29]存在类似的问题，并且该方法对生成过程没有控制，每个身份都被映射到相同的虚假身份。[34]的工作重点是改变面部标志，这可能导致不自然的结果。此外，他们的方法对生成的外观没有明确的控制。[35]的结果在视觉上很吸引人，但由于面部对齐的优化过程，该方法不是最优的。010...054490对身份的控制0多层感知机0标志点检测生成器0输出/伪造0输入0形状+背景0真实集0身份鉴别器0鉴别器真/伪0ID嵌入0真实集0图2：我们的CIAGAN模型以图像、标志点、遮蔽脸部和期望的身份作为输入。生成器是一个编码器-解码器模型，其中编码器将图像信息嵌入到低维空间中。身份以独热标签的形式通过转置卷积神经网络进行编码，并被馈送到生成器的瓶颈中。然后解码器将源图像和身份的组合信息解码为生成的图像。生成器在标准GAN设置中与鉴别器进行对抗博弈。最后，我们引入一个身份鉴别器网络，其目标是向生成器提供关于生成脸部的期望身份的引导信号。0计算效率高。此外，该方法仅适用于脸部，因为它基于参数化脸部模型，所以将其扩展到其他领域（如全身）并不直接。目前最先进的方法是[7]的方法，作者展示了良好的定性结果和前所未有的去识别率。然而，虽然生成的图像可以欺骗识别系统，但一般人可以识别出呈现脸部的身份。更重要的是，除了[14]和[7]之外，这些方法都没有尝试处理视频。[14]在视频处理方面进行了有限的实验，但时间一致性得不到很好的保持。[7]展示了非常好的时间一致性，但与图像的情况一样，一些身份显然没有被匿名化，很容易被人眼发现。此外，它们缺乏控制和多样性，无法展示对于相同输入脸部的不同匿名化输出。我们的CIAGAN模型提供了一个通用框架来匿名化图像和视频。通过为期望生成的身份提供标签并混合不同身份的风格，我们对去识别过程有直接控制。这不仅产生了高质量的生成图像，而且在相同身份的图像之间具有更高的变异性（见图1）。03. CIAGAN0在本节中，我们详细介绍了我们匿名化图像和视频的方法。我们提出的条件身份匿名生成对抗网络（CIAGAN）利用生成对抗网络的能力产生逼真的图像。为了对身份生成过程进行控制并保证匿名化，我们提出了一种新的身份鉴别器来训练CIAGAN。在本节的剩余部分，我们将0具体来说，我们指的是脸部匿名化，尽管该方法直接适用于全身。03.1. 方法概述0我们在图2中展示了CIAGAN的完整图表。我们方法的主要组成部分如下：姿势保持和时间一致性。我们提出使用基于标志点的输入脸部（或身体）表示。这有两个优点：它确保了姿势保持，这对于跟踪等非常有用；它为在处理视频时保持时间一致性提供了一种简单但高效的方法。条件GAN。我们利用GAN的生成能力产生逼真的结果。重要的是，标准的检测和跟踪系统可以应用于生成的图像而不会损失准确性。自然地，逼真的生成脸部很容易被检测到。我们通过在标志点表示上进行条件训练来实现姿势保持。我们以对抗博弈的方式训练条件GAN，其中鉴别器评判生成器生成的图像的逼真程度。身份指导鉴别器。我们提出了一个控制生成器注入以创建新图像的识别特征的新模块。身份鉴别器和生成器共同进行协作游戏，共同实现生成逼真的匿名图像的共同目标。现在我们对我们方法的三个模块提供更详细的描述。03.2. 姿势保持和时间一致性0几种去身份化方法[29,7]以待匿名化的RGB图像作为输入。不出所料，通常会有一些人脸信息泄漏到生成的图像中。因此，尽管这些方法产生了高质量的图像，但生成的人脸的身份并没有完全匿名化，往往可以被人类识别出来。(1)54500因此，虽然这些方法产生了高质量的图像，但生成的人脸的身份并没有完全匿名化，往往可以被人类识别出来。0关键点图像。为了确保我们生成的人脸不能与原始身份关联，我们建议使用人脸的抽象形式。更具体地说，我们使用人脸关键点图像。这有两个优点：（i）关键点图像包含了人脸的稀疏表示，几乎没有剩余的身份信息，避免了身份泄漏；（ii）生成器以人脸形状为条件，使我们能够在输出中保留输入的姿势。这对于我们打算将生成的图像和视频用作计算机视觉算法的输入尤为重要。在许多视觉应用中，例如跟踪，方法通常利用人脸或身体的姿势。因此，确保方法不会改变匿名化人脸或身体的姿势非常有用。为了尽可能隐藏身份信息但仍保留姿势，我们仅使用所有68个关键点[18]中的人脸轮廓、嘴巴和鼻梁（见图2）。这使得网络可以自由选择几个面部特征，例如眼距或眼形，同时保留依赖于嘴巴区域的表情，例如微笑或笑声，全局姿势由鼻子位置给出。关键点被表示为二进制图像，作为输入提供给生成器。0遮挡的背景图像。我们的目标是仅生成图像的人脸区域并将其修复到原始图像的背景中。这使得我们的算法可以将学习能力集中在生成人脸上（而不是背景），同时保证我们没有背景变化会干扰检测或跟踪算法。为了实现这一点，我们将遮挡的背景图像与关键点图像一起提供给生成模型。遮挡的背景图像仍然包含头部的前额区域。一旦生成器获得了这些信息，它就可以学习将生成的人脸的皮肤外观与前额的皮肤颜色相匹配。这导致了更好的视觉结果质量。在同一图像中存在多个人脸的情况下，我们检测图像上的每个人脸，并依次应用我们的匿名化框架。我们的流水线还可以通过用表示身体轮廓的分割掩模替换遮罩图像来用于全身匿名化。在我们的情况下，我们不使用身体关节作为关键点图像的替代，因为人的轮廓足以作为姿势先验。时间一致性。为了处理视频，任何去匿名化流程都必须确保生成的图像在视频序列上具有时间一致性。0最先进的视频翻译模型[38]通过使用一个在对应帧之间的光流上有条件的鉴别器来确保时间一致性。光流是通过外部神经网络[6]计算得到的，这使得框架既复杂又计算昂贵。在我们的工作中，由于我们输入表示的性质，我们可以免费获得时间一致性。每一帧的关键点都使用邻近帧上的样条插值进行平滑处理。因此，我们为图像和视频提供相同的框架，唯一的区别是在推理时进行的计算廉价的插值。03.3. 有条件的生成对抗网络0GAN框架。简单来说，GAN结合了两个神经网络：一个生成器G，其目标是生成逼真的样本，一个判别器D，其目标是区分真实样本和生成的样本。网络以对抗的方式进行训练，D被训练为最大化对训练和生成样本分配正确标签的概率，G被训练为最小化D对生成样本预测正确标签的概率。换句话说，D学会了将真实样本与生成的样本分开，而G学会了欺骗D将生成的样本分类为真实样本。众所周知，GAN训练很困难，需要很多技巧[23, 9,4]。在这项工作中，我们选择使用LSGAN损失函数来训练CIAGAN。使用最小二乘损失函数进行GAN训练的思想简单而强大：最小二乘损失函数能够将假样本移动到决策边界附近，因为它也惩罚了被正确分类但仍远离真实样本的样本。这与交叉熵损失不同，后者主要惩罚错误分类的样本。基于这个特性，LSGAN能够生成更接近真实数据的样本。LSGAN设置中判别器的目标函数定义如下：0min D V LSGAN ( D = 102 E x � p data ( x )[( D ( x ) − b ) 2 ]+01 2 E z � p z ( z )[( D ( G ( z )) −a ) 2 ]，0其中a和b是假数据和真实数据的标签。0生成器的损失定义如下：0min G V LSGAN ( G = 102 E z � p z ( z )[( D ( G ( z )) − b ) 2 ]，(2)0不失一般性，LSGAN可以替换为GAN训练中使用的其他常见损失函数之一[9, 4]。54510条件GAN。在经典的GAN训练设置中，随机噪声向量被输入生成器，以提供生成图像的多样性。在我们的情况下，生成的人脸需要与输入图像的标记对齐，以保持姿势一致性和时间一致性。此外，我们还需要将生成的人脸与背景无缝融合。为此，我们使用条件GAN框架[15]，其中我们使用标记和遮罩图像（背景）来条件生成器，如第3.2节所述。生成器使用编码器-解码器架构[22]。编码器将标记和遮罩图像转换为低维表示（瓶颈），然后将其与身份表示组合，解码器将组合表示上采样以生成匿名化的RGB图像。03.4. 身份指导0通过上述两个模块，我们的模型学会了生成看起来逼真并保持原始图像姿势的人脸。然而，如果图像生成的整个变异性由标记输入提供，网络很快就会过拟合训练集，实际上只进行图像重建。这样做会生成与训练数据集中的人脸非常相似的人脸，从而放弃了最终的匿名化目标。为了解决这个问题，我们引入了一种新的身份指导判别器。更具体地说，对于每个给定的真实图像，我们随机选择其对应生成图像的期望身份。这个身份 - 以独热向量表示 -作为输入传递给一个转置卷积神经网络。网络产生身份的参数化版本，并将其馈送到生成器的瓶颈中。通过这种方式，生成器学会了在保持真实图像姿势的同时生成具有所需身份特征的人脸。换句话说，生成的图像是标记身份和期望身份的组合。生成图像的身份不能与任何真实身份相同，以使生成图像不可识别。身份判别器设计为一个使用Proxy-NCA损失[26]预训练的连体神经网络。预训练使用真实图像进行，其中判别器被训练为将属于同一身份的图像的特征聚集在一起。在GAN训练期间，我们使用对比损失[2]微调连体网络。在这个微调步骤中，我们允许连体网络将假图像和真实图像的ID表示聚集在一起。身份判别器和生成器以协作的方式进行联合训练。身份判别器的目标是向生成器提供一个指导信号，引导它生成的图像的表征特征与某个参考身份的特征相似。0特定身份。0多目标跟踪的情况。特别重要的是对伪造身份生成进行控制。我们需要能够在来自摄像头的序列中保持相同的真实人物-伪造身份映射，例如多目标跟踪，但同时改变不同摄像头的映射，以避免长期跟踪和数据的潜在滥用。为此，当一个人从一个摄像头移动到另一个摄像头时，我们用一个新的控制向量替换其控制向量，从而给这个人一个新的身份。这是一种简单而强大的在来自摄像头的帧中进行多目标跟踪的方法，而不会产生长期跟踪的不良后果。04. 实验0在本节中，我们将CIAGAN与几种经典的和基于学习的常用身份匿名化方法进行比较。我们的方法在不同的图像和视频数据集上实现了最先进的定性和定量结果。我们还进行了一系列全面的消融研究，以证明我们的设计选择的效果。我们首先介绍在本节中使用的数据集、评估指标和基准线。0数据集。我们在3个公共数据集上进行实验：0• CelebA [21]数据集包含10,177个独特身份的202,599张人脸图像。我们使用对齐版本，其中每个图像都以人眼之间的点为中心，并进行填充和调整大小，以保持原始面部比例，分辨率为178×218。每个身份包含多达35张照片。我们使用HOG [5]为每张人脸构建面部关键点。• MOTS [37]我们的方法也可以适应其他领域，如全身匿名化。我们使用身体分割掩码代替面部关键点。该数据集包含1,595个不同人的3,425个视频。• Labeled Faces in the Wild(LFW) [12]数据集包含6,000对图像，分为10个不同的拆分，其中一半的对包含相同身份的图像，其余的对包含具有不同身份的图像。0基准方法。我们与标准的匿名化方法以及基于学习的方法进行比较。0•简单匿名化方法。我们使用像素化、模糊和遮挡人脸，并将它们与我们的方法进行比较。•图像翻译方法。我们使用流行的pix2pix [15]和CycleGAN[40]方法。我们使用作者提供的官方代码，并在补充材料中呈现结果。54520•人脸替换方法。我们将去识别的结果与[7]提供的最新结果进行比较。04.1. 实现细节0我们使用Dlib-ml库[18]生成关键点和掩码。我们在128×128分辨率的图像上训练我们的网络，并使用编码器-解码器U-Net[31]架构作为生成器。身份向量由包含全连接层和多个转置卷积层的转置卷积神经网络参数化。来自关键点和身份分支的特征在生成器的瓶颈中进行连接。对于鉴别器，我们使用与身份引导网络相同架构的标准卷积神经网络。我们使用ADAM优化器[19]进行60个时期的模型训练，学习率为1e-5。我们将beta超参数β1和β2设置为0.5和0.9。该模型的总训练时间为一天，在单个GPU上完成。在补充材料中，我们提供了剩余的实现细节和网络架构。04.2. 评估指标0我们在人脸检测和重新识别度量方面评估所有模型。我们使用HOG[5]和SSH检测器[27]进行检测。为了评估检测器的性能，我们使用检测到的人脸的百分比。对于重新识别，我们使用Proxy-NCA[26]训练了一个孪生神经网络。此外，我们使用基于Inception-Resnet骨干网络[36]的预训练FaceNet模型[33]。我们使用标准的Recall@1评估指标来评估重新识别的性能。它衡量了最近邻居属于同一类别的样本比例。该指标的取值范围为0到100，其中0表示完美的去识别率，100表示完美的识别率。请注意，在一个平衡的数据集中，一个随机分类器将产生（平均）Recall@1为1/|C|，其中C是类别的数量。最后，我们使用Fr´echet InceptionDistance（FID）[11]定量评估生成图像的视觉质量，该指标将生成样本的统计数据与真实样本的统计数据进行比较。FID越低，表示真实样本和生成样本越相似。04.3.消融研究0在本节中，我们进行了我们的方法的消融研究，以展示我们设计选择的价值。在表1中，我们展示了我们模型的几个变体。Siamese表示我们的完整模型，包括一个Siamese身份鉴别器，并使用地标作为输入。分类表示用分类网络替换Siamese身份鉴别器。从结果可以看出，检测的结果下降了超过35个百分点。我们还0模型检测（↑）召回率@1（↓） FID（↓）0Siamese 99.9 1.3 2.1 分类 64.6 0.4 63.2 人脸 98.31.1 6.50表1：我们模型的消融研究。第一行展示了我们模型的结果，第二行展示了将Siamese身份引导网络替换为分类网络的模型的结果，而第三行展示了将生成器接受完整人脸图像而不是地标的模型的结果。0模型检测（↑）识别（↓） Dlib SSH PNCAFaceNet0原始 100 100 70.7 65.1 像素化 16x16 0.0 0.0 0.3 0.3像素化 8x8 0.0 0.0 0.4 0.3 模糊 9x9 90.6 38.6 16.957.2 模糊 17x17 68.4 0.3 1.9 0.50我们的方法99.9 98.7 1.3 1.00表2：常见现有检测和识别预训练方法的结果。较低（↓）的结果意味着更好的匿名化。较高（↑）的结果意味着更好的检测。0展示了如果提供整个人脸图像而不是地标作为输入会发生什么。在这些情况下，检测率下降了1.6个百分点，FID分数增加，表明人脸更难被检测到，并且视觉质量更低。04.4.定量结果0检测和识别。第一个实验评估了匿名化方法应具备的两个重要能力：高检测率和低识别率。也就是说，我们不希望训练好的系统能够找到新生成的人脸的身份，但同时，我们仍然希望人脸检测器具有高检测率。在表2中，我们展示了我们的方法与其他方法在CelebA数据集[21]上的检测和识别结果。经典的HOG[5]和基于深度学习的SSH[27]检测器在我们的匿名化图像中的检测率接近100%。模糊方法在图像中的检测率要低得多，而像素化图像中的人脸根本无法被检测到。识别性能从原始数据集上的超过70%的召回率下降到我们的匿名化图像上的1-1.5%的召回率。CIAGAN生成的图像几乎无法被任何两个识别系统识别出来。需要注意的是，像素化方法的召回率达到0.3%，相当于随机猜测，但这是以删除图像中的所有内容为代价的，使得检测和识别都变得不可能。在我们希望进一步使用计算机视觉算法对匿名化数据进行处理的情况下，像素化和模糊都不是一个选择。54530去身份化方法 VGGFace2（↓） CASIA（↓）0原始0.986 ± 0.010 0.965 ± 0.016 Gafni等人[7]0.038 ± 0.015 0.035 ± 0.011 我们的方法0.034 ±0.016 0.019 ± 0.0080表3：与LWF数据集中的SOTA方法的比较。较低（↓）的识别率意味着更好的匿名化。0基于地标的识别。鉴于我们的生成器的输入是地标图像，而不是我们想要去匿名化的实际图像，可以说一个专注于图像像素的识别方法很容易被我们的方法欺骗，正如我们在表2中看到的那样。如果CIA-GAN受到一个仅基于地标训练的识别方法的攻击，它是否仍然保持其匿名化能力？我们通过训练一个类似的识别方法[26]进行这个实验，但只使用地标作为输入。我们评估发现，仅使用地标，我们可以识别出30.5%，而使用完整图像时可以识别出70.7%。然而，当将相同的识别器用于从我们的匿名化人脸中提取的地标时，性能下降到1.9%的召回率。即使将原始地标用作我们生成模型的输入，CIAGAN也只将其作为先验信息与来自嵌入网络的信息融合。0我们只是在做人脸交换吗？在第3.3节中，我们介绍了一种新颖的身份引导网络，该网络指导生成器生成具有与给定身份相似特征的图像。有人可能会认为这样做，生成器只学会进行人脸交换，将所选身份的脸替换为源图像的标志点。我们通过评估我们生成的图像在真实图像的训练集上的识别率来证明这不是这样。我们将生成图像的标签设置为其所需身份的标签。如果生成器只学会进行人脸交换，那么识别器将能够正确识别所有生成的图像。然而，我们证明这不是这种情况。FaceNet [33]和我们在P-NCA[26]中训练的模型都无法达到比随机猜测更高的识别率。此外，在图3中，我们展示了一个定性实验，每行的第一张图包含源图像，而每列的第一张图是所选身份的随机选择图像。其他图像是生成的。我们可以看到生成的图像具有其给定身份的高级特征（如种族或性别），但与这些身份的真实图像有很大的不同。04.4.1 与最先进的去识别方法的比较0在本节中，我们将我们的模型与最先进的[7]模型在LFW数据集[12]上的去识别（匿名化）能力进行比较。该数据集包含10个不同的0源0身份0图3：我们模型生成的人脸，其中源图像基于不同的身份进行了匿名处理。0分割，每个分割包含600对。如果两个元素共享相同的身份，则一对被定义为正对，否则为负对。在每个分割中，前300对是正对，剩下的300对是负对。与[7]一样，我们对每对中的第二个图像进行匿名化处理。我们使用在两个公共数据集VGGFace2 [3]和CASIA-Webface[39]上预训练的FaceNet[33]识别模型。主要评估指标是真正接受率：在最大0.001的假正例比率下的真正例比率。我们在表3中呈现结果。在真实人脸上评估的网络达到了几乎完美的识别率0.99。[7]通过使用在两个数据集上训练的网络获得了令人印象深刻的匿名化性能，得分低于0.04。CIAGAN改进了这个结果，并使用在[3]训练的网络将识别率降低到0.034，使用在[39]训练的网络将识别率降低到0.019，从而提高了匿名化能力。平均而言，CIAGAN在第一个数据集上显示了10.5%更好的去识别率，在第二个数据集上显示了45.7%更好的去识别率，同时保持了99.13%的高检测率。2.65%的真正例率的平均性能表明，即使是一个接近完美的系统也完全无法找到我们CIAGAN处理的数据的真实身份，显示了我们的方法在实现图像匿名化方面的强大能力。04.5. 结果的视觉质量0如表1所示，我们的方法达到了2.08的FID分数。简单的基线方法，如模糊和图像转换方法，达到了更高（更差）的FID分数。基线方法的FID分数比较和定性结果可以在补充材料中找到。我们展示了一系列的定性结果。在图1中，我们展示了生成图像的多样性，当控制SourceFaces as inputLandmarks as inputGafni et al.54540源0Gafni等人。我们的0图4：与[7]进行定性比较。第一列中的图像是源图像。在第一行中，我们展示了从[7]框架生成的图像，而在第二行中，我们展示了从CIAGAN生成的图像。0图5: 与[7]在时间一致性上的定性比较. 从左到右: 原始帧;使用人脸作为输入生成的人脸; 使用地标作为输入生成的人脸;[7]生成的人脸.0当身份鉴别器的控制向量发生变化时,我们可以看到生成的图像具有所需身份的高级特征(如眼睛形状、种族或性别), 同时生成真实的图像. 在图4中,我们定性地将我们的结果与[7]的结果进行了比较.我们可以看到,我们的方法不仅提供了与源图像更不相似的图像,而且通过改变控制向量,我们的网络能够提供比[7]更多样化的图像(我们仍然可以识别出N. Cage). 在图5中,我们展示了我们的方法与[7]的结果的时间一致性并进行了比较. 我们可以看到, 在所有情况下, 姿势都得到了保留,保持了出色的时间一致性. 同时,我们可以看到与使用全脸训练的版本相比,使用地标训练的CIAGAN版本生成的图像更好看. 最后,在图6中, 我们展示了对全身进行匿名化的实验.每行的第一张图像是源图像, 其他图像是生成的匿名化图像.0源匿名化0图6: 我们框架在MOTS数据集上的全身匿名化结果0源图像, 而其他图像是生成的匿名化图像. 在每种情况下,我们可以看到生成的图像与源图像保持相同的姿势,但衣服、颜色和身体的其他部分发生了变化. 据我们所知,这是第一次成功地使用相同的框架进行人脸和身体去识别.05. 结论与未来工作0图像和视频中的数据隐私是一个严重的问题.作为计算机视觉研究人员, 我们致力于从技术方面做出贡献.在本文中,我们提出了一种用于图像和视频中的人脸和身体匿名化的框架. 我们的新型CIAGAN模型基于条件生成对抗网络,并且根据连体网络提供的指导身份信号对人脸进行匿名化.我们已经证明我们的方法在去识别方面优于最先进的方法,同时在生成的图像中展示了很大的多样性.所有当前的去识别方法[30, 34,7]的一个弱点是它们需要最初检测到原始人脸才能进行匿名化. 因此, 任何未被检测到的人脸都无法进行匿名化. 因此,这些方法在需要确保匿名化的系统中无法部署.我们的方法也存在类似的问题, 因为它依赖于地标检测.作为未来的工作, 我们计划在全图像匿名化方面进行研究,并进一步消除对地标检测的需求, 以处理极端姿势. 致谢.本研究部分资金来自于洪堡基金会的SofjaKovalevskaja奖励. 我们感谢Aljosa Osep, TimMeinhardt和Patrick Dendorfer对我们的帮助和见解.54550参考文献0[1] 2018年欧盟数据保护规则改革. https:// gdpr-info.eu ,2018年. 10[2] Jane Bromley, Isabelle Guyon, Yann LeCun, EduardS¨ackinger, and Roopak Shah.使用“连体”时延神经网络进行签名验证.在神经信息处理系统进展中, 第737-744页, 1994年. 50[3] Qiong Cao, Li Shen, Weidi Xie, Omkar M. Parkhi, and An-drew Zisserman. Vggface2:一个用于识别不同姿势和年龄的人脸数据集.在第13届IEEE国际自动人脸与手势识别会议上,2018年5月15日至19日, 中国西安, 第67-74页, 2018年. 70[4] Xi Chen, Yan Duan, Rein Houthooft, John Schulman, IlyaSutskever, and Pieter Abbeel. Infogan:通过最大化信息的生成对抗网络进行可解释的表示学习.在第29届神经信息处理系统会议上的年度会议上,2016年12月5日至10日, 西班牙巴塞罗那, 第2172-2180页,2016年. 40[5] Navneet Dalal和BillTriggs。用于人体检测的方向梯度直方图。在2005年IEEE计算机视觉和模式识别会议（CVPR2005）上，2005年6月20日至26日，美国加利福尼亚州圣地亚哥，页码886-893，2005年。5，60[6] Alexey Dosovitskiy，Philipp Fischer，Eddy Ilg，PhilipH¨ausser，Caner Hazirbas，Vladimir Golkov，Patrick vander Smagt，Daniel Cremers和ThomasBrox。Flownet：使用卷积网络学习光流。在2015年IEEE国际计算机视觉会议（ICCV2015）上，2015年12月7日至13日，智利圣地亚哥，页码2758-2766，2015年。40[7] Oran Gafni，Lior Wolf和YanivTaigman。视频中的实时人脸去识别。在2019年IEEE国际计算机视觉会议（ICCV2019）上，2019年10月27日至11月2日，韩国首尔，2019年。2，3，6，7，80[8] Ian J. Goodfellow，Jean Pouget-Abadie，MehdiMirza，Bing Xu，David Warde-Farley，Sherjil Ozair，AaronC. Courville和YoshuaBengio。生成对抗网络。在第27届神经信息处理系统会议上的神经信息处理系统年会2014年12月8日至13日，加拿大蒙特利尔，页码2672-2680，2014年。20[9] Ishaan Gulrajani，Faruk Ahmed，Mart´ınArjovsky，Vincent Dumoulin和Aaron C.Courville。改进的WassersteinGANs训练。在第30届神经信息处理系统会议上的神经信息处理系统年会2017年12月4日至9日，美国加利福尼亚州长滩，页码5767-5777，2017年。40[10] Jules. Harvey，Adam.LaPlace。百万像素：公开可用的人脸识别图像数据集的起源，伦理和隐私影响，2019年。10[11] Martin Heusel，Hubert Ramsauer，ThomasUnterthiner，Bernhard Nessler和SeppHochreiter。通过两个时间尺度更新规则训练的GAN收敛到局部纳什均衡。在第30届神经信息处理系统会议上的神经信息处理系统年会02017年12月4日至9日，美国加利福尼亚州长滩，页码6626-6637，2017年。60[12] Gary B. Huang，Manu Ramesh，Tamara Berg和ErikLearned-Miller。野外标记人脸：用于研究非约束环境中人脸识别的数据库。马萨诸塞大学阿默斯特分校技术报告07-49，2007年10月。5，70[13] Xun Huang和Serge J.Belongie。实时的任意风格转换与自适应实例归一化。在2017年IEEE国际计算机视觉会议（ICCV2017）上，2017年10月22日至29日，意大利威尼斯，页码1510-1519，2017年。20[14] H˚akon Hukkel˚as，Rudolf Mester和FrankLindseth。DeepPrivacy：用于人脸匿名化的生成对抗网络。CoRR，abs/1909.04538，2019年。2，30[15] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou和Alexei A.Efros。带条件对抗网络的图像到图像的转换。在2017年IEEE计算机视觉和模式识别会议（CVPR2017）上，2017年7月21日至26日，美国夏威夷檀香山，页码5967-5976，2017年。2，50[16] Tero Karras，Timo Aila，Samuli Laine和JaakkoLehtinen。渐进增长的GANs以改善质量，稳定性和变化。在第6届国际学习表示会议（ICLR2018）上，2018年4月30日至5月3日，加拿大温哥华，会议论文集，2018年。20[17] Tero Karras，Samuli Laine和TimoAila。用于生成对抗网络的基于样式的生成器架构。CoRR，abs/1812.04948，2018年。20[18] Davis E.King。Dlib-ml：一个机器学习工具包。机器学习研究杂志，10：1755-1758，2009年。4，60[19] Diederik Kingma和JimmyBa。Adam：一种用于随机优化的方法。在第三届国际学习表示会议（ICLR）的论文集中，2014年。60[20] Ming-Yu Liu and Oncel Tuzel.耦合生成对抗网络。在2016年12月5日至10日的西班牙巴塞罗那神经信息处理系统年会（NIPS 2016）上，第469-477页，2016年。0[21] Ziwei Liu, Ping Luo, Xiaogang Wang, and Xiaoou Tang.野外深度学习人脸属性。在2015年12月的国际计算机视觉会议（ICCV）上，第5-6页，2015年。0[22] Jonathan Long, Evan Shelhamer, and Trevor Darrell.全卷积网络用于语义分割。在2015年6月7日至12日的美国波士顿IEEE计算机视觉和模式识别会议（CVPR2015）上，第3431-3440页，2015年。0[23] Xudong Mao, Qing Li, Haoran Xie, Raymond Y. K. Lau,Zhen Wang, and Stephen Paul Smolley.最小二乘生成对抗网络。在2017年10月22日至29日的意大利威尼斯IEEE国际计算机视觉会议（ICCV2017）上，第2813-2821页，2017年。0[24] Gerald Martin. Gabriel Garc´ıa M´arquez: 一生。VintageBooks，2010年。0[25] Mehdi Mirza and Simon Osindero.有条件的生成对抗网络。CoRR，abs/1411.1784，2014年。54560[26] Yair Movshovitz-Attias, Alexander Toshev, Thomas K.Leung, Sergey Io

下载后可阅读完整内容，剩余1页未读，立即下载