R3对抗网络：跨模型人脸识别的贝叶斯建模及特征转换方法

9 浏览量更新于2023-10-18 收藏 2.19MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9868基于R3对抗网络的跨模型人脸识别陈健* 吴毅超秦昊宇丁梁雪波刘俊杰严商汤集团有限公司kenchen1024@gmail.com{wuyichao，qinhaoyu，liuxuebo，yanjunjie}@ sensetime.com摘要本文提出了一个新的课题，即跨模型人脸识别（CMFR），它具有相当的经济和社会意义。该问题的核心是使从不同模型中提取的特征具有可比性。然而，不同的应用场景、频繁的版本更新和各种服务平台所导致的差异性阻碍了不同模型之间的交互针对这一问题，从贝叶斯建模的角度出发，提出了R3对抗网络（R3AN），它由重构、表示和回归三条路径组成我们还将对抗学习引入到重建路径中以获得更好的性能。在公共数据集上的综合实验表明，该框架可以实现不同模型之间的交互在更新图库时，R3AN进行特征转换的速度比ResNet快近10倍101.同时，变换后的特征分布与目标模型非常接近，与朴素变换模型相比，其错误率降低了约75%。此外，我们还证明了人脸特征可以被破译为原始人脸图像这为改进原有的人脸识别模型提供了有价值的线索。1. 介绍人脸识别模型由于其优越的性能，在实际应用中得到了广泛的应用.目前，人脸识别方法通常通过用于特征提取的若干处理单元的块的级联来学习人脸表示[27，25，28，26，29，24]。经过训练的系统通过将输入图像嵌入到特征空间中来成功地获得泛化能力，其中特征以足够低的受试者内变化以及高的受试者间变化进行聚类。同样为这项工作做出了贡献。图1：跨模型人脸识别的应用。与此同时，追求从各种终端收集的信息之间的交互是一个新的趋势。如图所示，如果能够在不同场景（如移动设备、门禁和视频监控）获得的图像之间建立实际联系，将大大提高我们的日常生活质量，并确保社会安全。1.这种新的应用带来了一个新的问题，即跨模型人脸识别（CMFR），它是指从一个模型中提取的特征与另一个模型另一方面，特征空间与相应的模型高度相关。如图2、不同系统学习到的特征往往分布不同，造成不同模型之间的边界，阻碍了特征的交互。因此，作为特征分布，由于配置变化很大，直接CMFR通常没有意义。将所有捕获的人脸图像存储到服务器，并使用统一的模型来提取特征似乎是另一种解决方案。然而，以下原因拒绝这种方法：• 单一的模型在考虑不同的领域、应用和响应时间要求时，无法达到令人满意的性能。• 这违反了常识中的隐私政策在工业界，一般禁止采集和存储用户另一种解决方案是对从一个模型但这张地图-9869我们的贡献在于三个方面：（一）（b）第（1）款（c）第（1）款• 本文首次提出CMFR问题，具有重要的经济和社会意义.• 为了解决这个问题，我们提出了R3AN，它具有转换特征分布的能力，图2：两种典型人脸识别模型的特征分布。(a)（b）和（c）分别是源模型、变换模型和目标模型的特征分布。由于人脸识别模型的结构、参数数量、应用场景等多样性，使得ping函数的构建非常困难。另外，映射操作的速度必须足够快，以便在短时间内完成数百万特征的转换，一个慢的模型将是毫无意义的，因为它没有显示出与直接通过目标模型提取特征相比的优越性。在此基础上，我们提出了R3对抗网络（R3AN）来解决这一问题. R3AN由三条路径组成：重建、表示和回归。对抗学习被引入到反射路径中以获得更好的性能。为了评估所提出的方法，我们在广泛的典型和高效的深度神经网络上进行了R3ANR3AN允许我们在目标系统中有意义地查询源模型提取的特征，反之亦然. 在公开数据集上的综合实验表明，该框架能够实现不同模型之间的交互. 当更新图库时，R3 AN进行特征转换的速度比ResNet-101快近10倍[9].同时，变换后的特征分布与目标模型的特征分布非常接近，与朴素变换模型相比，其错误率降低了约75%。利用R3AN技术克服这些障碍具有重要的实际意义首先，R3 AN使我们能够打破来自不同终端的不同模型的边界，例如，在一个系统中使用从另一个系统中提取的特征进行查询。第二，出于隐私保护的考虑，原始图像可能不会存储在画廊中。在更新模型时，禁止再次收集图像集。然而，R3AN仅仅更新特征，避免了存储人脸图像.第三，当需要更新时，从原始图像构建特征库是耗时的，并且存储图像也需要巨大的存储成本。相比之下，R3 AN只是将特征从旧的转换为新的，成本很小，而且特征的存储效率要高得多。源模型转换为目标模型的对应模型。R3AN在解决这个问题时是超级快速和有效的.• 我们说明了人脸特征可以粗略解码成原始图像。对抗性学习大大提高了R3AN的性能，并恢复出更高质量的人脸图像，这可能为改进原有的人脸识别模型提供有价值的启示。2. 相关作品2.1. 迁移学习CMFR问题的实质是将源模型的特征分布转换为目标模型的特征分布，可以认为是一个典型的迁移学习问题[19，31，12，22，3，15，18]。在许多实际应用中，训练数据和未来数据通常来自不同的分布.迁移学习已经成为一种学习框架，以弥合两者之间的差距根据[19]，迁移学习的方法可以总结为四种情况：实例转移方法 [31，12]，特征表征迁移方法[22，3]，参数传递法 [15]和关系-知识转移[18]。虽然这些工作可以将模型从源域转换到目标域并成功地提高性能，但大多数工作都集中在从源域的训练数据中学习不同目标数据分布上的性能良好的模型。而在我们的问题中，需要学习两个不同特征空间之间的有效特征变换，而不影响原始分布。[22，3]中的“表征-表征-迁移”方法最接近我们的问题。然而，它的目标是找到两个域之间的共同特征表示，而不是我们的目标是找到从源模型到目标模型的映射。2.2. 生成敌对网络生成对抗网络（GAN）首先在[6]中提出，它由两个模型组成：生成模型G和判别模型D。G设法将输入数据转换为真实相似的样本，而D估计样本来自真实世界而不是由G生成的概率。一个极小极大的两人博弈是GAN的本质。GAN的一个典型应用是将9870L代表（E）LReg（G，E）源要素生成的面真实面孔回归目标特征重建表示LRec（G）LAdv（G，D）对抗网络图3：R3AN的架构如图所示.蓝框内的重建路径由L2 Loss（LRec）和Adversarial Loss（LAdv）监督，并将源特征转换为人脸图像。图中绿色框所包围的表示路径从图像中提取特征，无论是来自真实世界还是生成的，以及L2损失（LRep）。回归路径与其他两条路径共享权重，并采用L2损失（LReg），使整个系统获得将源特征转换为目标特征的能力。一个一维向量转换成二维图像除此之外，还有许多其他辉煌的作品[21，7，2，17]来自[6]。然而，这些模型的输入通常是没有唯一编码的随机向量，即。在输入和输出图像之间不存在严格的一对一映射约束。在我们的重建路径中，我们研究了从相应的提取特征生成原始人脸图像的可行性。最近，Zachary et al.[16]表明生成器该研究揭示了特征与图像之间转换的可行性，并对我们工作中的重建路径设计有3.2.贝叶斯模型我们进一步从贝叶斯的角度对我们的问题进行建模，使其更加合理和有效。通过引入一类隐变量h∈H={h1，…hK}，P（Y |X）可以表示如下：ΣP（Y |X）=P（h|X）P（Y |X，h）。（一）h∈H从贝叶斯建模的头到尾的观点来看，当h给定时，X和Y是条件独立的因此，Eq。1可以简化为：Σ3. 理由P（Y|X）=h∈HP（h|X）P（Y |h）。（二）3.1. 基本模型跨模型人脸识别（CMFR）问题被定义为从一个模型中提取的特征与另一个模型的图库进行识别。解决CMFR问题的核心是使从不同模型中提取的特征具有可比性。理想情况下，两个模型提取的特征是相同的。为了实现这一目标，将源模型的空间转换为目标特征的空间是一种自然的方案。这样，如果我们将X、Y表示为源特征和目标特征，则我们的系统的目标是找到一个映射函数来最大化条件概率P（Y|X）。从这个角度来看，我们可以通过一个简单的模型，如多层感知（MLP），直接在一维空间中将X映射到Y然而，这一基本模式产生的结果并不令人满意，这将说明在第5节。在我们的问题中，h应该是一个独立于模型的潜在变量因此，原始图像I是一个不错的选择。然后，Eq. 2可以改写为：P（Y |X）= P（I|X）P（Y|（三）基于上述定理，我们提出了一个新的框架R3AN，用于在不同的特征空间之间转换人脸表示4. R3对抗网络为了保持与Eq的一致性。3，R3AN被设计成由三条路径组成，即，重建，表示和回归分别，如图所示3.第三章。重构对应于P（I|X）在等式中。3，用于恢复原始图像，而Representation9871对应于P（Y|I），并将其用于人脸潜像的特征提取。回归将表示和再现视为一个统一的问题，并用于共同优化整个模型。在下文中，我们将模块层运算符输出大小输入fConv1 ConvTranspose2d 512×4× 4制定框架。4.1. 重构路径为了最大的条件概率P（I|X）在等式中。3、设计了一条重建路径来重新覆盖原始图像。由于该模块旨在从提取的特征恢复原始人脸图像，因此可以将其视为生成器（G）。为了快速转换，我们采用了一种基于分数步长卷积的轻量级架构，如Tab的上半部分1.一、这一拓扑结构的灵感来自于[21]中的拓扑结构。首先，规范化的高级表示被重塑为4维张量，分别是批次，通道，高度和宽度。换句话说，归一化的输入特征将被复制到张量的通道维度中，其高度和宽度维度被保留为1。然后，分数步长卷积层的级联对该高级表示进行上采样以生成恢复的面部图像。重建路径由地面实况优化发生器提取器鉴别器fConv2 ConvTranspose2d 128×7× 7fConv3 ConvTranspose2d 32×14×14fConv4 ConvTranspose2d 8×28×28fConv5 ConvTranspose2d 3×56×56Conv1瓶颈32×28×28Conv2瓶颈64×14×14Conv3瓶颈96×14×14Conv4瓶颈160×7× 7Conv5瓶颈320×7× 7Conv6Conv2d1×11280×7× 7池化平均池2d1280×1× 1FC全连接256×1× 1Conv1 Conv2d 4×28×28Conv2 Conv2d 8×14×14Conv3 Conv2d 16×7×7Conv4 Conv2d 32×4×4Conv5 Conv2d 64×2×2Conv6 Conv2d 128×1×1FC全连接1对应的面部图像。有两种模式的重新-本文提出了一种新的构造模式，即朴素反射和对抗重构。为了尽可能真实地恢复原始人脸图像，我们以传统的方式通过L2损失来评估生成的人脸图像与真实人脸图像的相似性。因此，重建损耗可以用公式表示如下：LRec（G）=EX，I[||I−G（X）||第2段]、第（4）段然而，由于在表示学习过程中丢失了大量的细节信息，很难从小尺度特征中恢复出足够细节的图像。因此，要求所生成的图像尽可能接近真实图像可能导致模糊的平均图像，其缺乏面部的许多重要细节。为了缓解这一难题，我们可以诉诸对抗性重建。在人脸表征学习任务中，身份知识被嵌入到图像的分布中。为了恢复这些主要信息，我们通过引入对抗学习来增强重建路径在[6]中首次提出的对抗性学习方法对于复杂的数据分布建模非常强大。它被应用于从[21]中的均匀分布学习图像的分布，并在[13]中将图像转换为特定的分布。受这些工作的启发，我们采用这种方法来鼓励生成器G学习表1：发生器、提取器和鉴别器的结构。输出尺寸以通道×高度×宽度表示。ConvTranspose2d表示分数步长卷积，瓶颈表示卷积瓶颈块[23]。从特征表示中提取人脸图像的特定特征。在这项工作中，我们构建了一个CNOD，其结构如表1所示。1，将生成的图像与真实的面部区分开，而G试图通过生成具有更高质量的图像来混淆D。在这种情况下，对抗学习的损失函数是逻辑似然：LD（G，D）=EI[log（D（I））]+EX[log（1−D（G（X）]（5）LAdv（G，D）= − EX[log（1 − D（G（X）].（六）通过合并Eq. 4和6，整体损失为LG（G，D）=λRecLRec（G）+ λAdvLAdv（G，D）.（七）4.2. 表示路径表示路径用于最大化P（Y|（一）Eq. 3.第三章。在理想的情况下，重建的图像是在-接近真实的图像。因此，基于此假设，表示路径充当特征提取器，9872g ed表示为E。它将原始人脸图像作为输入，并学习目标模型的表示。考虑到时间成本和计算资源，我们采用基于卷积的逆残差结构[23]。通过卷积块的堆栈收集知识，并在提取模块的顶部形成输入面部图像的最终高级1.一、Y表示目标模型的特征。表示路径也可以被认为是一个知识提取器，它可以将目标模型的知识传递到特征提取器模块。对于一个以师生为基础的算法1R3 AN优化输入：数据集（x，y）∈（X，Y），i∈I，随机初始化生成器G，提取器E和由θg，θe，θd参数化的EIDD输出：优化的G、E和D参数化为θg，θe，θd一曰：随机初始化G、E和D2：重复第三章：对于训练epoch的数量做4：对于小批量的数量做5：//对于CXD θLD（X，I;θg，θd）知识蒸馏框架，许多复杂的损失函数已被提出[10，1]。考虑到基因-6：θd←θd−µ7：//对于生成器Gθd作为我们方法的一个推广，我们采用了简单的L2距离8：θg ←θgG（X，I;θg，θd）θg本模块培训过程中的监督损失如下-9：//对于提取器E低点：10：θe ←θeθLRep（I，Y;θe）θeL Rep（E）=EI，Y[||Y-E（I）||2]。（八）11：//对于发生器G和提取器E12：（θ，θ）<$（θ，θ）−μLReg（X，Y;θg，θe）4.3. 回归路径Gege13：结束14：结束θg，θe实际上，原始人脸图像I作为Eq.3、G不能完全恢复。因此，有必要在我们的特征到特征学习框架中同步G和E。回归路径，如图所示。3、将重构和表示结合到一个统一的框架中，并用于联合优化上述两条路径。由于要解决的最终问题是将一个特征映射到另一个特征，因此回归损失以L2距离的简单形式存在，并且可以表示为：LReg（G，E）= EX，Y[||Y − E（G（X））||2]。（九）4.4. 优化综合考虑以上因素，整个系统的最终优化目标是：15：直到一致，得到θg=θg，θe=θe，θd=θd16：returnθ，θ，θ5. 实验为了验证该框架的优势，我们设计了CMFR实验，采用一对多的模式，从一个模型中提取探测特征，在图库中查询另一个模型我们首先训练几个典型的网络来学习人脸表示作为先验模型。然后，我们从先验模型中设置源-目标模型对，并训练转换模型以打破这些对中的边界。最后，我们在子模块、先验模型和数据集的不同条件下对R3AN进行了评估，系统地研究了其性能。所有实验都在PyTorch [20]平台上实现，（G、E）λ Rec（G）= arg min max[λRecLRec（G）+λAdvLAdv（G，D）第512章所有的事情此外，我们还测试了R3AN的速度在Nvidia Tesla V100上，它的速度是G、ED+λRegLReg（G，E）]+ λRepLRep（E）。（十）为了获得更好的性能，我们在迭代过程中优化框架，如算法1所示。培训过程可分为三个阶段。首先，在朴素重建和对抗重建的联合损失的情况下，通过与D进行极大极小博弈来优化G。然后，我们通过典型的表示学习过程来训练E，同时将真实图像I作为输入，目标特征Y作为基础事实。最后，利用联合训练的方法，完成对G和E的全局优化。需要强调的是，在系统优化之后，G和E可以在以后重新用于表示映射。-µ-µ9873ResNet-101。5.1. 先验模型的实验我们基于ArcFace [5]的标准（m = 0），在几种先进有效的架构[9，32，11，23]上建立人脸识别的基线，作为先验模型。五、所有输入的RGB人脸图像都以110×110的大小裁剪，并调整为224×224，除了PolyNet，235 × 235，而每个像素归一化为[-1。六，一。6]。在最后一个分类器之前的输出，被视为面对于下面的CMFR实验的表示，保持256的尺寸学习率从0.1并在100k、140k、160k迭代时除以109874而动量是0.9，重量衰减是5e−4。训练在迭代200k时终止。基于上述设置，我们进行了训练实验MS-Celeb-1 M [8]和VGG 2-Face [4]的数据集，并在MegaFace [14]上进行评估最后，我们通过查询模型自己的探针和图库特征集来评估模型评价结果见表1。二、架构RecRecRepRegTop1表2：不同模型在MegaFace数据集上的识别结果。5.2. 跨模型人脸识别为了探索所提出的R3AN框架的边界突破能力，我们在先前模型之间实现了CMFR实验.首先，我们选择一对先验模型作为源和目标。同时，他们的脸代表分别作为输入和地面真理。此外，相应的原始人脸图像作为监督信号，以指导重建路径。然而，与先验模型的输入图像不同，这些图像在不同的情况下，年龄大小调整为56× 56，以便于记录。然后，我们训练R3AN，学习率从0.08开始，在60k，100k，140k迭代时除以10选项。动量为0.9，权重衰减为1e-3的训练在迭代200 k时终止。最后，通过R3AN将源模型的探测集转换为一个新的分布，如果没有特别说明，则在图库中查询目标模型集。R3AN中不同路径的影响由于一个完整的R3AN架构中有 3 条路径，我们需要验证路径的有效性。以MobileNetV 2为源模型，ResNet-101为目标模型，设计了不同的拓扑结构和不同的路径组合来进行特征转换。CMFR实验结果见表10。3.首先，我们发现'Arch3'的性能这一现象表明，R3 ANC C C C95.97表3：基于不同架构的Mo-bileNetV 2（T=6）和ResNet-101之间的CMFR的识别结果。此表中的每一行是一个体系结构，每一列表示一个特定的培训过程。The ‘或不.“Rec：Adv”和“Rec：L2”表示通过对抗损失或L2损失来优化生成器;“Rep：L2”是提取器的优化;“Reg：L2”表示回归路径。“Top1准确度”是指在1 M干扰项下的前1名面部识别准确率。同步其它两个路径，因为原始面部图像不能被完全恢复。第二，可以看出，通过引入朴素重建路径到“Arch4”被稍微提升。通过进一步引入表示路径，准确率再次提高，此时达到94.93%（“Arch5”）。此外，鉴于对抗性学习的巨大成功，我们将其整合到框架中，这种组合将top1的准确率提高到94.80%（3）第三章。最后，在实验中，当这三种路径都被采用时，R3ANR3AN的最高top1准确率为95.97%，优于上述所有体系结构.值得一提的是，我们发现，如果我们只在系统中采用表示和回归路径，网络很难收敛我们推测，如果对原始图像的中级监督没有约束，则两部分学习的分布是完全不同的。因此，将重建路径整合到系统中具有重要意义。与朴素模型的比较如第3.1节所述，朴素转换模型（如MLP）也可以用于进行特征转换。具有与R3AN相同数量的参数的MLP（FC）的结果如表1所示3.第三章。两者的比较明显地验证了R3AN的优越性，它可以降低75%的错误率.不同先验模型下的性能源先验模型和目标先验模型对按模型大小主要可分为小到小、小到AdvL2L2L2精度FC××××83.92Arch1×CC×85.65Arch2C×C×83.41Arch3×××C94.05Arch4×C×C94.21Arch5×CCC94.93Arch6C××C94.80Arch7××CC楠网络缩写Top1访问[23]第二十三话MB-692.84[23]第23话Mb-1093.94[23]第23话Mb-1694.29ResNet-50 [9]Res5097.48ResNet-101 [9]Res10198.12[第11话]DNS12197.45[第11话]Dns16197.70PolyNetE [32]聚98.469875Src Tgt训练集SrcTGTFC|TGTR 3 AN|TGTMb-6 Mb-16MS1M VGG292.8494.2983.5494.18IMDb92.8494.2980.0293.78Mb-6 Res101MS1M VGG292.8498.1283.9295.97IMDb92.8498.1281.5794.84聚Mb-6 MS 1 M VGG 298.4692.8488.5198.34IMDb98.4692.8484.6698.13Res50聚乙烯MS1M VGG297.4898.4687.2498.29IMDb97.4898.4683.7198.16表4：使用R3AN在额外数据集上训练的CMFR结果我们使用建议的模型映射分布的'Src'（源模型）的分布该评估是通过从左模型"|'作为探针，右模型的输出作为图库。‘FC’ and ‘R 3.结果是使用1M干扰项的前1名人脸识别准确率。大、大到小和大到大，如表五、为了评估R3AN的有效性和推广性，我们设计了一系列不同情况下的实验.首先，在三条路径的帮助下，R3AN在所有情况下的性能都优于基本模型，与基本模型相比，平均性能分别提高了10.50%、12.45%、9.99%和9.58%。第二，在目标图库中查询生成特征时，查询结果不劣于查询目标模型生成的特征的结果。在所有的源目标模型对上，无论其规模大小，R3AN的优势都是明显的，证实了R3AN的推广能力。第二个和最后一个选项卡。5是相当接近实际应用，所以值得详细说明。第一部分与云查询的场景相匹配。在本地设备上使用R3AN转换该功能，在云上查询，与直接在本地设备上查询相比，最多可以降低64%的错误率。另一方面，最后一部分模拟了大型模型的更新。在这种情况下，R3AN表现得很好，其转换结果比正常模型更新的结果低，平均仅为0.03%。此外，我们发现源模型和目标模型之间存在巨大的结构差异，例如，ResNet-50和PolyNetE不会对R3 AN的性能产生负面影响.对训练样本域的影响我们讨论了R3AN是否对训练样本域敏感。我们使用IMDb-Face [30]数据集而不是MS-Celeb-1 M和VGG 2-Face训练R3AN，并以与上述实验相同的方式进行评估。从选项卡中的结果。4.可以看出，R3AN虽然在不同领域的数据集上进行训练，但在CMFR中的表现也很好.这一结论表明，该方法便于非现场训练.廊道改造的可行性除了探头组的改造外，廊道的更新也具有广泛的应用和实用价值。因此，我们在CMFR实验上对R3AN进行了评估，并将图库分布转换为目标模型的分布.从Tab。6、我们SrcTGTSrcTGTFC|TGTR 3 AN|TGTMB-6Mb-1092.8493.9483.6694.36Mb-10MB-693.9492.8484.1794.69MB-6Mb-1692.8494.2983.5494.18Mb-10Mb-1693.9494.2984.1994.33MB-6Res5092.8497.4883.7894.48MB-6Res10192.8498.1283.9295.97MB-6聚92.8498.4682.9297.44MB-6Dns16192.8497.7082.9595.66Res50MB-697.4892.8487.4997.60Res101MB-698.1292.8488.1798.19聚MB-698.4692.8488.5198.34Dns161MB-697.7092.8487.6397.64Res50Res10197.4898.1289.2997.69Res101Res5098.1297.4889.3897.86DNS121Dns16197.4597.7087.4197.81Res50聚97.4898.4687.2498.29表5：不同先前模型之间的CMFR结果。我们使用建议的模型映射分布的'Src'（源模型）的分布'Tgt'（目标模型）。评价是通过采取学习代表-从左边的模型"|'作为探针，右模型的输出作为图库。‘FC’ and ‘R 3.结果是前1名1M干扰项下的人脸识别准确率。可以看到，当将PolyNetE转换为MobileNetV2时，R3AN甚至可以实现比目标模型高出约1.3%的精度。而对于其他三个实验，R3AN可以在几乎没有精度下降的情况下将源模型转换为目标模型考虑到图库通常包含数百万人，与原始目标模型相比，使用R3 AN更新图库所需的时间要少得多（比ResNet- 101快10倍9876MobileNetV2（T=6）R3 ANPolyNetE表6：具有图库变换的CMFR的结果。我们使用建议的模型来映射分布的“源模型”的分布通过从左侧模型'|'作为探针，右模型的输出作为图库。‘FC’ and ‘R3. 结果是前1名的人脸识别1M干扰器的准确率。5.3. 可视化除了数值结果外，我们还展示了真实图像对和R3AN中生成器的重建人脸图像，如图所示。4.从图4a可以看出，生成器几乎可以从特定特征恢复原始面部。虽然生成的图像可能是模糊的，但它们包含了大量的人脸识别知识异常照明时，将生成的图像调整为自然色调。此外，为了可视化源、目标和变换模型的特征分布，我们随机选择了10类受试者，并在2D平面上绘制了他们的特征在图5中，源、变换和目标模型在每行中从左到右可以看出，R3AN将特征分布从源模型映射到目标模型.(a) 正常(b) 同一人(c) 闭塞(d) 照明图4：真实面孔的可视化和生成器生成的图像。真实的面孔在左边，生成的图像在右边。图5：特征分布的可视化。每行从左到右，分布图分别来自源模型、R3AN和目标模型.6. 结论本文提出了一个新的具有挑战性的问题--跨模型人脸识别（CMFR），它的定义是使从不同模型中提取的特征具有可比性。针对这一问题，从贝叶斯建模的角度出发，提出了R3对抗网络，它可以将源模型的特征分布转换为目标模型的特征分布。在公共数据集上的实验结果证明了不同模型之间交互的可行性。PolyNetER3ANMobileNetV2（T=6）MobileNetV2（T=6）R3 ANMobileNetV2（T=10）SrcTGTSrcTGTTGT|FCTGT |R 3AN阳离子。对于同一个身份，虽然脸部照片不同，姿势，亮度，表情和发型，我们可以生成MB-6Mb-1692.8494.2984.1794.23几乎相同的图像，如图所示。4b. 令我们惊讶的是MB-6Res10192.8498.1288.3897.37除了保留基本的面部表情外，聚MB-698.4692.8480.7994.16甚至可以消除干扰信息，如Res50聚97.4898.4688.6798.40图中的图像。4c. 除此之外，尽管图中的图像。4D在ResNet-50R3 ANPolyNetE9877引用[1] Vasileios Belagiannis Azade Farshad和Fabio Galasso对抗性网络压缩。arXiv：1803.10750，2018.[2] David Berthelot Thomas Schumm和Luke Metz。边界平衡生成对抗网络。arXiv：1703.10717，2017年。[3] John Blitzer Mark Dredze和Fernando Pereira生物玻璃、宝莱坞、立体声音箱和搅拌机：用于情感分类的域自适应。在ACL，第440-447页，2007中。[4] 曹琼，李申，谢伟迪，奥姆卡·M·帕克希，安德鲁·齐瑟曼. Vggface2：一个用于识别跨姿势和年龄的人脸的数据集。在FG中，第67-74页[5] Jiankang Deng ， Jia Guo ， and Stefanos Zafeiriou.Arcface：用于深度人脸识别的附加角度余量损失。在arXiv：1801.07698，2018。[6] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在NIPS，第2672-2680页[7] Ishaan Gulrajani 、 Faruk Ahmed 、 Martin Arjovsky 、Vincent Dumoulin和Aaron C Courville。改进的瓦瑟斯坦甘斯训练。在NIPS中，第5767-5777页[8] Yandong Guo，Lei Zhang，Yuxiao Hu，Jongdong He，and Jianfeng Gao. Ms-celeb-1m：大规模人脸识别的数据集和基准。在ECCV，第87-102页[9] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。CVPR，第770-778页，2016年[10] Geoffrey Hinton Oriol Vinyals和Jeff Dean。在神经网络中提取知识。arXiv：1503.02531，2015。[11] Gao Huang，Zhuang Liu，Laurens van der Maaten，andKilian Q Weinberger.密集连接的卷积网络。在CVPR，2017年。[12] 黄嘉源，阿瑟·格雷顿，卡斯滕·M·博格沃特，伯恩-哈德·斯科尔·科普夫和艾尔·X·J·斯莫拉。用未标记数据校正样本选择NIPS，第601-608页，2007年[13] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and Alexei A.埃夫罗斯使用条件对抗网络的图像到图像翻译。在CVPR，2017年。[14] Ira Kemelmacher-Shlizerman ， Steven M Seitz ， DanielMiller，and Evan Brossard. megeface基准：100万张人脸用于大规模识别。在CVPR中，第4873[15] 尼尔D劳伦斯和约翰C普拉特。学习用信息向量机学习。ICML，第65页，2004年。[16] Zachary C Lipton和Subarna Tripathi。从生成对抗网络中精确恢复潜在向量。2017年。[17] Xudong Mao ， Qing Li ， Haoran Xie ， Raymond YKLau，Zhen Wang，and Stephen Paul Smolley.最小二乘生成对抗网络。在ICCV，第2813-2821页[18] LilyanaMihalkova ， TuyenHuynh 和 RaymondJMooney。用于迁移学习的马尔可夫逻辑网络的映射与修正。在AAAI，第608-614页[19] Sinno Jialin Pan，Qiang Yang，et al.迁移学习研究综述。 IEEE Trans. Knowledge and Data Engineering ，（10）：13459878[20] Adam Paszke、Sam Gross、Soumith Chintala、GregoryChanan 、 Edward Yang 、 Zachary DeVito 、 ZemingLin、Alban Desmaison、Luca Antiga和Adam Lerer。pytorch中的自动微分。2017年。[21] 亚历克·雷德福卢克·梅斯和苏米特·钦塔拉使用深度卷积生成对抗网络进行无监督表示学习在 arXiv ：1511.06434，2015。[22] Rajat Raina， Alexis Battle， Honglak Lee ， BenjaminPacker，and Andrew Y Ng.自学：从未标记的数据中转移学习。ICML，第759-766页，2007年[23] Mark Sandler 、 Andrew Howard 、 Menglong Zhu 、AndreyZh-moginov和Liang-ChiehChen。Mobilenetv2：反演残差和线性瓶颈。在CVPR中，第4510[24] Florian Schroff Dmitry Kalenichenko James PhilbinFacenet：用于人脸识别和聚类的统一嵌入在CVPR，第815-823页[25] Yi Sun，Yuheng Chen，Xiaogang Wang，and XiaoouTang.通过联合识别-验证的深度学习人脸表示。在NIPS，第1988-1996页[26] Yi Sun ， Ding Liang ， Xiaogang Wang ， and XiaoouTang. Deepid3：使用非常深度的神经网络进行人脸识别。载于arXiv：1502.00873，2015年。[27] Yi Sun，Xiaogang Wang，and Xiaoou Tang.通过预测10，000个类来深度学习人脸表示在CVPR，第1891-1898页[28] Yi Sun，Xiaogang Wang，and Xiaoou Tang.深度学习的人脸表示是稀疏的，有选择性的和鲁棒的。在CVPR，第2892-2900页[29] Yaniv Taigman、Ming Yang、MarcDeepface：缩小与人脸验证中人类水平的差距。在CVPR，第1701-1708页，2014年。[30] Fei Wang，Liren Chen，Cheng Li，Shiyao Huang，Yanjie Chen，Chen Qian，and Chen Change Loy.人脸识别的魔鬼就在噪音中。在ECCV，2018。[31] 比安卡·扎德罗兹尼样本选择偏差下的分类器学习与评价。ICML，第114页，2004年。[32] Xingcheng Zhang，Zhizhong Li，Chen Change Loy，and Dahua Lin. Polynet：在深度网络中追求结构多样性。在CVPR中，第3900-3908页

下载后可阅读完整内容，剩余1页未读，立即下载