视频中的人脸去识别方法

30 浏览量更新于2023-10-12 收藏 1.45MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1视频中的人脸去识别Oran Gafni，Lior WolfFacebook AI Research和特拉维夫大学{oran,wolf}@fb.comYaniv TaigmanFacebook AIResearchyaniv@fb.com摘要我们提出了一种人脸去识别的方法，使- ables全自动视频修改在高帧速率。目标是最大限度地去相关的身份，而具有固定的感知（姿势，照明和表情）。我们通过一种新颖的前馈编码器-解码器网络架构来实现这一点，该架构以人的面部图像的高级表示为条件。该网络是全球性的，从某种意义上说，它不需要针对给定的视频或给定的身份进行重新训练，并且它可以创建自然的图像序列，并且在时间上几乎没有失真。1. 介绍在消费者图像和视频应用中，面部具有从所有其他对象中脱颖而出的独特重要性。例如，在消费者图像中，面部识别（检测后进行识别）可能比任何其他对象识别（分类、检测或实例识别）类似地，撇开应用于整个帧的图像处理算子不谈，面部过滤器仍然是消费者视频的最流行的过滤器。由于人脸技术既有用又有影响力，它也引起了许多伦理问题。面部识别可能导致隐私的丧失，并且面部替换技术可能被滥用以创建误导性视频。在这项工作中，我们专注于视频去识别，这是一个视频过滤应用程序，既需要一个技术跨越目前的最先进的，是良性的性质。该应用程序需要创建一个相似长相的人的视频例如，这允许用户以匿名的方式在公共论坛上留下看起来很自然的视频消息，这可能会阻止面部识别技术识别它们。视频去识别是一项具有挑战性的任务。视频需要以无缝的方式进行修改，而不会导致闪烁或其他视觉伪影和失真，从而改变身份，而所有其他因素保持相同，参见图11。1.一、这些因素包括姿势、表情、嘴唇图1.去识别视频结果显示了各种姿势，表情，照明条件和遮挡。示出了成对的源帧（第一行）和输出帧（第二行）。高级功能（例如，鼻子、眼睛、眉毛和嘴）被改变，同时保持姿势、表情、嘴唇发音、照明和肤色。定位（用于未改变的语音）、遮挡、照明和阴影以及它们的动态。与文献方法相比，这些方法仅限于静态图像，并且经常将给定的人脸与数据集人脸交换，我们的方法处理视频并生成从头人脸。我们的实验显示了令人信服的性能不受约束的视频，产生自然的视频。渲染视频中的人具有与原始视频中的人相似的外观然而，最先进的面部识别网络无法识别该人。类似的实验表明，即使没有时间限制，人类也无法识别生成的人脸。如果没有大量的创新，我们的结果是不可能实现的我们引入了一种新的编码器-解码器架构，在该架构中，我们将训练用于执行人脸识别的网络的表示层的激活连接到潜在空间。据我们所知，这是第一次使用现有分类器网络的表示来增强自动编码器，这使得在训练期间看不到的新人能够进行前馈处理。此外，这是第一部引入新的93789379牛顿真恶心萨马尔齐亚朱拉布鲁梅登吴先生，2018年太阳我们’05’08’14’15’17’18[四十三，四十四]保留表达式-------+保持姿势-++-+-++生成新面孔-†-†+在视频中演示-------+在不同的数据集上演示-+-+---+（性别、种族、年龄等）参考与我们图7图4图8图5、14表1.与文献方法的比较最后一行引用了本作品中的比较数字我们比较了所有在他们的手稿中提供合理质量图像的方法，这些方法的条件有利于以前的工作（我们从pdf文件中裁剪输入图像，除了从[43，44]的作者那里收到的图像†面部与几个数据集面部的平均值交换吸引-排斥感知损失项。这个术语区分了低级和中级感知术语以及高级感知术语。前者用于将输出帧绑定到输入视频帧，而后者用于距离身份。在这种新颖的架构中，将表示注入到潜在空间使网络能够创建符合这一复杂标准的输出。另一个独特的功能是网络输出图像和掩码，它们被串联使用来重建输出帧。该方法使用特定的数据增强技术进行训练附加术语包括重构损失、边缘损失和对抗损失。2. 以前的工作人脸的建模已经有很长一段时间了计算机图形系统在机器学习中，人脸一直是基于GAN的生成模型的关键基准之一[9，37，40]。最近通过逐步训练GAN的生成器和训练器来生成高分辨率的自然面孔，从较浅的网络和较低的分辨率开始，并逐渐扩大它们[17]。面部的条件生成已经是各种无监督域翻译贡献中的关键任务，其中任务是学习映射，例如，不戴眼镜的人与戴眼镜的人，而没有看到来自两个域的匹配样本[20，51，1，27]。对于更远距离的域映射，例如面部图像和匹配的计算机图形化身之间的映射，使用了面部描述符网络形式的附加监督[45]。我们的工作使用这些面部描述符，以便将输出的身份与输入的身份区分据我们所知，我们的工作是第一个在视频上呈现结果的去识别工作。在静止图像中，先前已经提出了几种方法。早期的工作实现了不同类型的图像失真，用于面部去识别[33，10]，而最近的工作依赖于选择远处面部[41]或平均/融合的技术从预先存在的数据集[32，16，31]面。通过上述技术进行的实验在大多数情况下限于低分辨率、黑白结果。虽然可以产生令人赏心悦目的结果，但是它们对于不同的姿势、照明和面部结构不鲁棒，使得它们不足以用于视频生成。已经建议使用GAN进行人脸去识别[49]。然而，实验限于同质数据集，结果中没有明显的表达保留。在[43，44]的基于GAN的方法中，人脸去识别用于人员混淆的相关任务。[43]的工作基于输入的模糊版本和提取的面部姿态信息两者来调节输出图像。后续工作[44]将基于GAN的重建与参数化人脸生成网络相结合。由于这两种方法都是应用于整个上半身图像，它们会导致64×64的低面部分辨率输出。这些方法不保留表情，不适合视频，并且偶尔提供不自然的输出。选项卡. 1提供了一个比较文学的观点目前关于去识别的文献通常涉及面部交换（我们的方法没有）。面部交换，即，用另一个人的脸替换图像中的一个人最近的贡献已经显示出对源图像以及图像的属性的大量鲁棒性，目标面部从图像中提取[19，34]。虽然这些经典的人脸交换方法在像素空间中工作并复制目标图像的表达，但最近基于深度学习的工作交换了身份，同时保持了源图像的其他方面[23]。与我们的工作相比[23] 需要为每个目标人训练新的网络，所传递的表达不显示微妙之处（这将是关键的，例如，对于一个会说话的人），结果也不像我们的那样自然。这些限制可能是由于捕捉目标的外观，通过限制输出类似，逐补丁，以收集9380(a)（b）第（1）款图2. (a)我们网络的架构。对于调节，使用预先训练的面部识别网络。(b)所使用的多图像感知损失的说明，其采用相同面部识别网络的两个副本。目标人物的补丁。此外，[23]仅限于剧照，并没有在视频中演示。人脸交换（FS）项目[8]是一个未发表的工作，它以一种非常令人信服的方式替换视频中的人脸，只要输入合适的信息。与我们的网络不同，FS针对每对源视频和目标视频人进行重新训练。在训练期间，FS系统的输入是两个大的图像集，每个图像集来自一个身份。为了获得良好的结果，通常使用来自每个个体的数千张图像在许多情况下，源人物的图像的大子集是从将要被转换的视频中获取此外，FS经常失败，为了获得令人信服的输出，源视频中的人和目标人需要具有相似的面部结构。这些限制使其不适合用于去识别目的。像我们一样，FS方法基于编码器-解码器架构，其中产生图像和输出掩码。FS的一些技术创新与我们的工作共享。最值得注意的是为了训练更语义化的编码器-解码器网络而执行增强的方式。在FS的训练过程中，在输入图像被馈送到编码器之前，通过旋转或缩放来修改输入将解码器输出的图像与未失真图像进行比较另一个共同的属性是，所使用的GAN变体采用了使用mixup技术创建的虚拟示例[52]。此外，为了保持姿势和表情，这被认为是面部描述符中的低级或中级特征（与身份正交）FS采用了基于面部识别网络层的感知损失[15，47]在视频中操纵面部的另一工作线是面部重新动画，例如，[46 ]第46段。这一行的工作reanimates面对在目标视频，作为控制的脸在一个来源视频.这没有提供我们所讨论的意义上的去识别解决方案此外，它始终提供相同的输出标识。我们不强制解除潜在表示向量Z和身份之间的纠缠[14，26，5]，因为网络使用面部描述符接收关于身份的完整信息。因此，洗掉Z中的身份信息可能不是有益的。类似地，U-Net连接意味着身份信息可以绕过Z。在我们的方法中，身份的去除不是通过解开纠缠而是通过感知损失来完成的。如图如图9所示，这种损失提供了用于控制身份信息量的直接和可量化的手段在解纠缠的情况下，这种效应将是脆弱的并且对超参数敏感，这在编码被设置为正交的工作中是显而易见的，甚至对于简单的多类标签信息，例如[25]。3. 方法我们的架构基于对抗性自动编码器[29]，再加上经过训练的面部分类器。通过concate- nating自动编码器网络以反事实的方式训练，即，输出在关键方面不同于输入，如条件所指示的因此，生成任务是高度语义化的，并且捕获其成功所需的损失不能是传统的重建损失。对于去识别的任务，我们采用目标图像，其是视频中的人的任何图像。然后，该方法将输出视频的面部描述符与目标图像的面部描述目标图像不需要基于来自输入视频的帧。这93812R2RXp p xy有助于该方法的适用性，允许其应用于实况视频。在我们的实验中，我们不使用输入帧，以显示该方法的通用性。为了对目标图像进行编码，我们使用预训练的面部分类器ResNet-50网络[12]，该网络在VG-GFace2数据集[4]上进行训练测试期间的过程类似于面部交换文献中采取的步骤，包括以下步骤：(a)使用'dlib' [ 21 ]人脸检测器提取正方形边界框（b）使用[18]检测68个面部点(c)使用估计的相似性变换（尺度、旋转和平移）提取变换矩阵以平均化面部。（d）将估计的变换应用于输入面。(e)变换后的人脸与目标图像的表示一起被传递到我们的网络，(f)使用相似性变换的逆，将输出图像和掩模投影回来(g)我们通过线性混合，每像素，输入和网络的变换输出图像，根据变换掩码的权重生成一个输出帧。(h)结果被合并到原始帧中，在由面部点的凸包定义的区域中。在训练时，我们执行以下步骤：（a）人脸图像被扭曲和增强。这通过应用随机缩放、旋转和弹性变形来完成。(b)失真的图像与目标图像的表示一起被馈送到网络中在训练过程中，我们选择相同的图像，不失真。（c）将屏蔽输出（如上述步骤（g）中计算的）和未失真输入的线性组合馈送到ADC。这是的滤波器的数量是输入通道大小的两倍。在实例标准化和LReLU [11]激活之后每个残差块输入与Conv 2D-LReLU-Conv 2D链的输出求和。采用低容量的U-net连接[38]（32 x32 x1），从而缓解了自动编码器的瓶颈，允许更专注于传输相关信息的编码。连接尺寸不超过瓶颈尺寸（1024），并且由于输入图像的失真，避免了在早期训练阶段中崩溃成简单的重构自动编码器。该卷积由四个带有LReLU激活的步幅卷积组成，除了第一个之外，所有卷积都应用了实例规范化sigmoid激活的卷积产生单个输出。该网络有两个版本：较低分辨率版本生成128 × 128图像，而较高分辨率版本生成256 × 256图像。更高分辨率的解码器被简化和放大，并且由6x（放大块->残差块）的网格组成。除非另有说明，否则实验中呈现的结果是使用高分辨率模型完成的。3.2. 培训和使用的损失为了训练所有网络，除了CJD，我们使用复合损失L，它是多个部分的加权和：L=α0LG+α1Lraw+α1Lmasked+α2Lraw下面将讨论混合技术[52]。（d）损失是+α2L原始+α2L掩蔽+α2L掩蔽应用于网络请注意，网络如何y x y+α3L原始+α3L掩蔽+α4Lm+α5Lm+α5Lm，其中LG是发电机如何训练以及如何应用。我们不仅不能做R R在视频上训练的任何显式努力中，以不同的方式选择目标图像。在训练过程中，我们提取解码器的输出图像的重构损失Z原始和在应用掩蔽Z掩蔽之后的版本，L和L是应用于空间身份来自训练图像本身，而不是来自inde-x-y矩阵悬挂的目标图像。该方法仍然能够推广到无约束视频上执行实际任务。3.1. 网络架构该架构如图所示第2段（a）分段。编码器由一个卷积层组成，后面是五个步幅，深度可分离的[6]卷积，具有实例规范化[48]。随后，采用单个全连接层，并且目标面部表示被连接。解码器由一个全连接层组成，后面是一个由upgrade和residual [12]块组成的网格，以输出图像的tanh激活卷积每个高分辨率块由一个2D卷积组成，图像导数，Lp是感知损失，L*是掩模上的正则化损失。使用其自身的损失LD来训练神经网络。在整个实验中，我们采用α0=α1=α2=α3=0。5，α4=3·10−3，α5=10−2。为了保持逼真的发电机输出，一个adver-sarial loss与最小二乘GAN [30]上的示例对的凸组合（称为mixup）[52]一起LD=D（δmx）−λβ12LG=α0D（δmx）−（1−λβ）12δmx=λβ·x+ （ 1−λβ ） zmasked ， λβ 从 Beta 分布λβ<$Beta（α，α）中采样，x是未失真的输入9382y y yyn×nXy生成的样本。α=0的值。2在整个实验中使用。额外的损失被执行以保持源到输出的相似性，但驱动可感知的转换。若干损耗在原始输出和掩蔽输出之间均等地分布，从而对两者施加约束L1重构损失用于实施像素级相似性：L raw=α 1 zraw − x1 Lmasked=α1 <$zmasked−x <$1R R其中zraw是输出图像本身。这导致非平凡约束，因为编码器输入图像失真。边缘保持损失用于约束x和y图像轴两者中的像素级导数差异计算为原始和屏蔽输出在每个轴方向上的源和输出导数之间的绝对差L raw=α2zraw − x x 1 Lmasked=α2 <$zmasked−xx <$1x x x xLraw=α2<$zraw−xy<$1Lmasked=α2<$zmasked−xy<$1其中，x是未失真的输入图像x沿x轴的导数，并且对于输出z和y轴类似。附加损失被应用于混合掩码m，其中0指示将采用该像素的值图3.视频去识别（缩放）的示例结果示出了源帧、转换帧和目标修改后的框架看起来相似，但身份完全不同。感知损失由下式给出：从输入图像x，1表示从Lc=λx，zc+x，zc+x，zc+t，zc−λt，zz原始值和中间值表示线性混合。我们希望面具是最小和顺利，p112×11256×5628×287×71×1因此，使用以下损失：对于c，其是原始的或掩蔽的，并且其中λ >0是aLm=m1Lm=mx1Lm=my1其中mx和my是掩模的空间导数。3.2.1一种多图像感知损失感知损失[15]的新变体用于保持源表达，姿势和照明条件，同时捕获目标身份本质。这是通过在几个低到中等的抽象层上采用未失真的源和生成的输出之间的感知损失来实现的，同时使目标和生成的输出之间的高抽象层感知损失保持距离。设r是图像r的面部分类器网络内的n×n空间块的激活，其中在我们的在这种情况下，r可以是输入图像x、目标图像t、原始输出zraw或掩蔽输出zmasked。我们考虑大小为112×112，56×56，28×28和7×7的空间激活图，以及大小为1 ×1的表示层。较低的层（较大的映射）用于增强与输入图像x的相似性，而7×7层用于增强与t的相似性，1×1特征向量用于增强与目标图像的不相似性。让我们定义<$r1，r2=cn<$ar，n×n−ar，n×n<$1，其中超参数，其确定所生成的面部在训练期间的多图像感知损失的应用在图1中描绘第2段（b）分段。在训练期间，目标是源，并且只有一个输入图像。生成的图像具有源的纹理、姿势和表情，但是面部被修改以使身份距离。注意，我们将其称为多图像感知损失，因为其目的是最小化推断期间的模拟误差项（泛化误差）。然而，作为训练损失，它只在训练期间应用，在训练期间它接收一对图像，类似于其他感知损失。注意，感知损失参数c，n是通过对元素的数量进行计数而获得的归一化常数。此外，α0=α1=α2=α3被简单地设置为1，并且α4、α5被任意地选择因此，实际上只有一个重要的超参数：λ，它提供了对需要调谐的身份距离的强度的直接控制（见图2）。第9段）。在推理时，网络被馈送输入帧和目标图像。目标图像通过人脸分类器传输，从而产生目标特征向量，该目标特征向量又被连接到潜在嵌入空间。由于n×n1 2Cn是归一化常数，对应于空间激活图的大小按照训练网络的方式，解码器将驱动输出图像远离目标特征向量。9383视频低更高1百分之二十八点七34.2%266.7%45.8%361.9%64.3%452.4%62.1%5百分之四十二点九百分之四十三点八647.6%27.0%757.1%百分之五十六点八871.4%百分之七十三点五（一）（b）第（1）款（c）第（1）款（d）其他事项表2. (a)视频用户研究-用户从低分辨率和高分辨率模型的修改视频中识别真实视频的成功率。接近50%更好。(b)每列是来自静止图像用户研究的不同个体。[Row 1]图库图像，即要求用户从中选择身份的相册图像[行2]输入图像。[Row3][行2]的去识别版本。(c)混淆矩阵在识别五个人的真实图像（控制）。(d)用于识别的混淆矩阵基于去识别图像。RGB面方法值描述中的人员[41] 5.46 1.21减少了对于更高分辨率的模型，固定λ=2·10−6的80k次迭代就足够了。样品结果示于图1中。3.第三章。在每一列中，我们行1我们的高点2.72 1.50示出了原始帧、修改的（输出）帧和从中提取身份的目标图像。如可以第二[41] 4.91 1.35我们的高点2.35 1.53第三[41]我们的高点3.92 1.32表3.原始图像与去识别图像之间的距离，对于图1中的图像。7.第一次会议。我们的方法导致较低的像素差异，但与面部描述符的距离较高。4. 实验使用Adam [22]优化器进行训练，学习率设置为10−4，β1=0。5，且β2=0。九十九。在每次训练迭代中，随机选择并增强一批32个图像用于较低分辨率模型，64个图像用于较高分辨率模型我们使用随机正态分布初始化所有卷积权重，平均值为0，标准差为0.02。未使用偏倚权重。解码器包括α = 0的LReLU激活。2，并且α=0。1否则。低分辨率网络是在LFW[13]，CelebA [28]和PubFig [24]的联合上训练的，总共有260，000张培训期间不使用身份信息高分辨率网络在CelebA-HQ的联合上训练[17]，并从[39]使用的1，000个源视频中提取人脸，产生500，000张图像。训练更多地涉及较低分辨率的模型，并且它被训练了230k次迭代，其中超参数λ的强度逐渐增加，范围从λ=1·10−7到λ=2·10−6，分四步。没有这个逐渐增加，生成的人脸的自然度9384可以看出，我们的方法产生与输入帧匹配的自然外观的图像。身份确实被修改了，而框架的其他方面得到了保留。补充媒体包含样本视频，具有显着的运动，姿势，表情和照明变化，我们的方法被应用于其中很明显，该方法可以处理视频，而不会导致基于运动或不稳定性的失真。这是尽管严格基于每帧分析。同样明显的是，较低分辨率的模型有时看起来很模糊。这是固定分辨率的结果，而不是所生成的图像的结果，所生成的图像实际上是锐利的。当所需的分辨率高时，较高分辨率的模型显然提供了更为了测试这种方法的自然性，我们测试了人类区分修改过的视频和没有修改过的视频的能力。尽管人类观察者（n=20）完全了解视频所经历的操作类型，但人类表现接近随机，平均成功率为 53.6%（SD=13.0%），见表1。第2段（a）分段。为了避免基于熟悉面孔的决定，这是在专门为此目的创建的非名人数据集上进行评估的，该数据集包含8个视频。熟悉的身份，通常可以通过非面部线索来识别为了建立一个类似的背景下，周围的面部身份（例如，头发，性别，种族），感知身份以几乎不可能的方式转移，我们考虑了来自电视节目的相同种族和相似发型的五个人的图像，并收集了两组图像：参考（画廊）和来源。源9385原始帧低分辨率de-ID模型高分辨率de-ID人中值是说±标准差中值是说±标准差中值是说±标准差Simone Biles13±5017302400.6±214217252223±1814比利-寇根195.6±31331563456.3±26019011334±1518Selena Gomez11 ±022562704±187380588110±2186斯嘉丽·约翰逊13.8± 38。690127753.5±311244934830±2544杨文11.02± 0。658064976.2±316710691814±2544莎拉·J 帕克11±06791069.3±1096408620±665平均1173773372627763155表4.从54，000人的数据集中对真实身份进行排序（SD=标准差）。在预训练的LResNet 50 E-IR ArcFace网络上进行评估结果给出了较低和较高分辨率的模型。图像被我们的方法修改，使用它们作为目标，以及，见标签。第2段（b）分段。从Tab的混淆矩阵中可以看出。2（c），用户可以很容易地识别正确的FaceNet模型原始De-IDVGGFace20. 986± 0。010 0. 038 ±0. 015CASIA0. 965± 0。016 0. 035 ±0. 011图库图像，基于源图像。但随着选项卡. 2（d）表明，在去识别后，答案与真实身份几乎没有相关性，如所期望的。为了自动量化我们的去识别方法的性能，我们应用了最先进的面部识别网络，即ArcFace [7] LResNet 50E-IR网络。选择该网络是因为它的性能，以及该网络与VGGFace2网络之间的差异，VGGFace2网络用作我们网络的一部分，在训练集和损失方面。自动识别的结果见表1。对于较低分辨率和较高分辨率型号，均为4在ArcFace验证集中的54，000人中进行身份识别当对人脸识别网络产生的softmax概率进行排序时，该表报告了真实人物在所有人中的排名原始视频中真实身份的排名显示出出色的识别能力，其中大多数帧将正确的人识别为前1结果。对于去识别的帧，尽管原始帧和修改帧之间的相似性很大（图1）。3），等级通常为数千。另一个自动人脸识别实验是在LFW基准上进行的[13]。选项卡. 5给出了两个FaceNet [42]模型的给定人员的去识别LFW图像对LFW基准的真阳性率从几乎0.99、小于0.04 在应用去识别之后。在附录中可以找到一个额外的实验，在LFW基准上评估我们的方法我们的方法与[31]最近的工作的比较在图中给出。4.第一章该方法依赖于新身份的生成，给定k个最接近身份，如通过表5. LFW基准测试的结果，采用在VGGFace 2或CASIA-WebFace上训练显示的是错误接受率为0时的真阳性率。001。训练的CNN特征提取器。如可以看到的，这可以导致针对多个输入的相同的渲染身份，并且不保持表情、照明和肤色。为了强调身份距离的能力，同时保持像素空间的相似性，我们将我们的方法与[41]进行比较。虽然[41]的方法依赖于在给定数据集中找到不相似的身份，但我们的方法是依赖于单个图像的，因为它不依赖于数据集中的其他因此，它对不同的姿势、表情、照明条件和面部结构具有弹性。考虑到[ 41 ]的工作中提供的数字，我们通过与源面部的高级感知距离来比较我们生成的输出，同时考虑到像素级的相似性（图1）。（七）.两种方法的原始图像与去识别图像之间的距离的比较（表1）。3）揭示了我们的方法导致较低的像素差异，而面部描述符距离更高。与文献[49]的工作作了比较8. 我们的结果至少与原始结果一样好，尽管必须在从纸质PDF中提取的裁剪面上运行。虽然[49]呈现了视觉上令人愉悦的结果，但它们不保持低级和中级特征，包括嘴部表情和面部毛发。此外，工作的[49]仅显示了低分辨率黑白图像的结果，没有姿势或性别变化。图5与[43，44]的近期工作进行了比较。我们的方法能够以更微妙的方式距离身份，同时引入更少的伪影。我们生成的图像只包含面部，这是通过使用遮罩实现的他们的9386(a)(b)（c）图4。（一）输入图像来自[31]，（b）我们的结果，（c）[31]的结果。我们的方法保持的表情，姿势和照明。此外，我们的工作并没有将相同的新身份分配给不同的人。（a）（b）（c）图5。(a)来自[43，44]的输入图像，（b）我们的结果，(c)[43]（第1行）和[44]（第2-3行）。图6.去识别应用于NIST人脸识别挑战中标记为非常具有挑战性的示例[36]。该方法使用相同的256×256生成分辨率生成人脸和上半身，这使得我们的结果具有更高的有效分辨率。一套完整的结果在附录中给出，图。十四岁为了进一步证明我们方法的鲁棒性，我们将我们的技术应用于直接从[36]的非常困难的输入复制的图像。如可见于图6，我们的方法对非常具有挑战性的照明是鲁棒的。为了证明超参数λ对恒等距离的控制，我们提供了一系列生成的图像，其中每个训练模型都是相同的，除了λ的强度。同一性的增量移位可见于图1B。9.第九条。消融分析见附录。分析比较了我们的方法的各种变体，并描述了通过删除它的一部分引入的工件。5. 结论最近世界上关于人脸识别技术的进步和滥用的事件引起了理解成功处理去识别的方法的需要。我们的贡献是唯一一个适合视频，包括现场视频，并提出了质量，远远超越了文献方法。该方法既优雅又显着新颖，采用现有的人脸描述符连接到嵌入空间，学习混合掩模，一种新型的感知损失，以获得所需的效果，以及其他一些贡献。尽量少地改变图像对于该方法具有视频功能很重要，也是创建对抗性示例的重要因素[35]。与对抗性示例不同，在我们的工作中，这种变化是使用低级和中级特征来测量的，而不是使用像素本身的范数。最近的研究表明，由对抗性示例引起的图像扰动会扭曲中级特征[50]，我们将其限制为保持不变。（a）（b）（c）（d）图7.与[41]比较（来自纸张样本图像）。（a）原始图像（也用于我们方法的目标）。(b)我们生成的输出。(c)结果[41]。(d)目标是[41]。图8.与[49]比较第1行-原始图像。第2行-[49]的结果。第3行-我们生成的输出。以前的作品没有保持嘴部表情或面部毛发。(a)（b）（c）（d）图9。在较低分辨率模型中递增λ。可以观察到一种逐渐的身份转变（a）来源。（b）λ=9387-5·10-7 (c)λ= −1·10−6。 (d)λ= −2 ·10−6。9388引用[1] Sagie Benaim 和 Lior Wolf 。单侧无监督域映射。在NIPS，2017年。2[2] Dmitri Bitouk，Neeraj Kumar，Samreen Dhillon，PeterBel- humeur，and Shree K.纳亚尔换脸：自动替换照片中的人脸。SIGGRAPH，2008年。2[3] 沃尔克·布兰茨，克里斯蒂娜·谢尔鲍姆，托马斯·维特，汉斯-彼得·塞德尔.在图像中交换面孔。在计算机图形论坛，第23卷，第669-676页。Wiley Online Library，2004.2[4] 曹琼，李申，谢伟迪，奥姆卡·M·帕克希，安德鲁·齐瑟曼. Vggface2：一个用于识别跨姿势和年龄的人脸的数据集。arXiv预印本arXiv：1710.08092，2017。4[5] 陈曦，陈曦，段岩，赖因·侯索福特，约翰·舒曼，伊利亚·苏茨科弗，和彼得·阿比尔. InfoGAN：通过信息最大化生成对抗网络进行的帧间表示学习。在NIPS。2016. 3[6] 弗朗索瓦·肖莱。Xception：使用深度可分离卷积的深度学习。在Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition ，第1251-1258页， 2017年。4[7] Jiankang Deng ， Jia Guo ， and Stefanos Zafeiriou.Arcface：用于深度人脸识别的附加角度余量损失arXiv预印本arXiv：1801.07698，2018。7[8] 脸罩。Github项目，https://github.com/deepfakes/faceswap。2017. 3[9] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在NIPS。2014. 2[10] Ralph Gross，Latanya Sweeney，Fernando De La Torre，and Simon Baker.用于人脸去识别的多因素模型的半监督学习2008年IEEE计算机视觉和模式识别会议，2008年。2[11] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.深入研究整流器：超越人类水平的图像分类性能。在ICCV，2015年。4[12] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习在CVPR，2016年。4[13] Gary B Huang，Manu Ramesh，Tamara Berg，and ErikLearned-Miller.在野外贴上标签的脸：研究无约束环境下人脸识别的数据库。技术报告。六、七[14] Xun Huang ， Ming-Yu Liu ， Serge Belongie ， and JanKautz.多模态无监督图像到图像翻译。在ECCV，2018。3[15] 贾斯汀·约翰逊，亚历山大·阿拉希，李飞飞。实时风格转换和超分辨率的感知损失。在ECCV，2016年。三、五[16] Amin Jourabloo，Xi Yin，and Xiaoming Liu.属性预服务的脸去识别。InICB，2015. 2[17] Tero Karras ， Timo Aila ， Samuli Laine ， and JaakkoLehtinen.为提高质量、稳定性和变异性而进行的干细胞生长。在ICLR，2018年。二、六[18] 瓦希德·卡齐米和约瑟芬·沙利文用回归树的集合进行一毫秒在Proceedings of the IEEE conference on computervision and pattern recognition ，第 1867-1874 页， 2014中。4[19] 艾拉·凯梅尔马赫-施利泽曼变形肖像。ACM事务处理图表，35（4），2016. 2[20] Taeksoo Kim、Moonsu Cha、Hyunsoo Kim、JungkwonLee和Jiwon Kim。学习发现与生成对抗网络的跨域关系。arXiv预印本arXiv：1703.05192，2017。2[21] 戴维斯·E·金Dlib-ml：一个机器学习工具包。Journal ofMachine Learning Research，10（Jul）：1755-1758，2009. 4[22] Kingma，Diederik P.，还有吉米·巴Adam：随机最佳化的方法。ICLR，2016年。6[23] Iryna Korshunova ， Wenzhe Shi ， Joni Dambre ， andLucas Theis.使用卷积神经网络的快速换脸。在2017年IEEE计算机视觉国际会议上。二、三[24] Neeraj Kumar，Alexander C Berg，Peter N Belhumeur，and Shree K Nayar.用于人脸验证的属性和特征分类器CVPR，2009。6[25] Guillaume Lample等人衰减器网络：通过滑动属性操作图像。在NIPS，2017年。3[26] 李欣英、曾鸿宇、黄佳斌、曼尼什·辛格和杨明轩通过解缠表示实现不同的图像到图像的在欧洲计算机视觉会议（ECCV），2018年9月3[27] Ming-Yu Liu，Thomas Breuel，and Jan Kautz.无监督图像到图像翻译网络。在NIPS。2017. 2[28] Ziwei Liu，Ping Luo，Xiaogang Wang，and Xiaoou Tang.在野外深度学习人脸属性。在ICCV，2015年。6[29] Alireza Makhzani、Jonathon Shlens、Navdeep Jaitly、IanGoodfellow和Brendan Frey。对抗性自动编码器。arXiv预印本arXiv：1511.05644，2015。3[30] Xudong Mao ， Qing Li ， Haoran Xie ， Raymond YKLau，Zhen Wang，and Stephen Paul Smolley.最小二乘生成对抗网络。InICCV，2017. 4[31] Blaumen Meden，Refik Can Mallan，Sebastjan Fabijan，Hazım Ke- mal Ekenel，Vitomir Štruc，and Peter Peer.使用生成式深度神经网络进行人脸识别。IET信号处理，11（9）：1046-1054，2017。二七八[32] Elaine M Newton，Latanya Sweeney，and Bradley Malin.通过去识别面部图像来保护隐私IEEE Transactions onKnowledge and Data Engineering，17（2）：232-243，2005. 2[33] Elaine M Newton，Latanya Sweeney，and Bradley Malin.通过去识别面部图像来保护隐私IEEE Transactions onKnowledge and Data Engineering，17（2）：232-243，2005. 2[34] Yuval Nirkin ， Iacopo Masi ， Anh Tuan Tran ， TalHassner，and Gerard Medioni.人脸分割、人脸交换和人脸感知。arXiv预印本arXiv：1704.06729，2017。2[35] 吴成俊，马里奥·弗里茨，和伯恩特·席勒。从博弈论的9389角度看图像干扰对隐私保护的影响. 在2017年IEEE计算机视觉国际会议上，第1491-1500页IEEE，2017年。89390[36] P乔纳森·菲利普斯，J罗斯·贝弗里奇，布鲁斯·A·德雷珀，吉奥夫·吉文斯，爱丽丝·J介绍了好的，坏的，丑陋的人脸识别挑战问题。在自动人脸手势识别，2011年。8[37] 亚历克·雷德福卢克·梅斯和苏米特·钦塔拉使用深度卷积生成对抗网络进行无监督表示学习arXiv预印本arXiv：1511.06434，2015。2[38] Olaf Ronneberger，Philipp Fischer，and Thomas Brox.U-网：用于生物医学图像分割的卷积网络。医学图像计算和计算机辅助干预，第234施普林格，2015年。4[39] Andreas Rössler，Davide Cozzolino，Luisa Verdoliva，Chris-tianRiess ， JustusThies ， andMatthiasNießner.FaceForensics：人脸伪造检测的大规模视频数据集。arXiv，2018年。6[40] 作者：Tim Salimans Goodfellow，Wojciech Zaremba，Vicki Cheung，Alec Radford，and Xi Chen.改进的gans训练技术。arXiv预印本arXiv：1606.03498，2016。2[41] 布兰科·萨马尔齐亚和斯洛博丹·里巴奇。一种不同姿态人脸的去身份化方法2014年第37届信息和通信技术、电子和微电子

下载后可阅读完整内容，剩余1页未读，立即下载