DigiFace-1M：百万数字人脸用于人脸识别

161 浏览量更新于2023-10-16 收藏 15.7MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

35260DigiFace-1M：100万数字人脸图像用于人脸识别0GwangbinBae剑桥大学0gb585@cam.ac.uk0Martin de LaGorce微软0madelago@microsoft.com0TadasBaltruˇsaitis微软0tabaltru@microsoft.com0CharlieHewitt微软0chewitt@microsoft.com0DongChen微软0doch@microsoft.com0JulienValentin微软0juvalen@microsoft.com0RobertoCipolla剑桥大学0rc10001@cam.ac.uk0JingjingShen微软0jinshen@microsoft.com0摘要0最先进的人脸识别模型在野外标记人脸（LFW）数据集上表现出令人印象深刻的准确性，达到99.8%以上。这些模型是在包含数百万真实人脸图像的大规模数据集上训练的，这些图像是从互联网上收集的。网络爬取的人脸图像在种族、光照、化妆等方面严重偏倚，并且经常包含标签噪声。更重要的是，这些人脸图像是在没有明确同意的情况下收集的，引发了伦理关切。为了避免这些问题，我们引入了一个大规模的合成人脸识别数据集，通过使用计算机图形渲染管线来渲染数字人脸获得。我们首先证明了激进的数据增强可以显著减少合成与真实领域之间的差距。通过完全控制渲染管线，我们还研究了每个属性（例如面部姿势、配饰和纹理的变化）对准确性的影响。与最近在GAN生成的合成人脸上训练的Syn-Face相比，我们将LFW上的错误率降低了52.5%（准确率从91.93%提高到96.17%）。通过在较少数量的真实人脸图像上进行微调，这些图像可以合理地获得同意，我们实现了与在数百万真实人脸图像上训练的方法相当的准确性。01. 引言0基于学习的人脸识别模型[29, 23, 33, 35, 8, 15, 24,18]使用深度神经网络（DNNs）将给定的人脸图像编码为固定维度的嵌入向量。01 DigiFace-1M数据集可以从https://github.com/microsoft/DigiFace1M下载0嵌入向量的维度（例如512）。然后可以使用这些嵌入向量进行各种任务，如人脸识别（这个人是谁）和验证（他们是同一个人吗）。为了学习多样化、有区分度的嵌入向量，训练数据集应包含大量独特的身份。为了学习鲁棒的嵌入向量，即对姿势、表情、配饰、相机和光照变化不敏感的嵌入向量，数据集还应包含足够数量的每个身份的图像，并具有这些变化。0公开可用的人脸识别数据集同时满足这两个条件。MS1MV2[8]包含85K个身份的5.8M张图像（每个身份约68张图像）。最近发布的Web-Face260M[43]包含4M个身份的260M张图像（每个身份约65张图像）。尽管这些数据集推动了人脸识别模型的最新进展，但也存在一些问题。0(1)伦理问题。大规模人脸识别数据集经常因伦理问题而受到批评，包括侵犯隐私和缺乏知情同意。例如，像[39, 12, 8,43]这样的数据集是未经名人同意而从网络上爬取的名人图像。为了增加身份数量，一些数据集利用“名人”一词来包括任何有在线存在的人。像[17, 26]这样的数据集从Flickr[3]收集了普通公众（包括儿童）的人脸图像。像MegaPixels[4]这样的项目正在揭示这些网络爬取的人脸识别数据集的伦理问题。在受到严厉批评后，几个数据集的公共访问已被删除[2]。0son; and (3) the same person that goes by different nameslabeled as different persons.(3) Data bias.Face recognition models are generallytrained and tested on celebrity faces, many of whichare taken with strong lighting and make-up.Celebrityfaces also have imbalanced racial distribution (e.g., 84.5%of the faces in CASIA-WebFace [39] are Caucasianfaces [34]), leading to poor recognition accuracy for theunder-represented racial groups [34].In order to circumvent all these issues that affect the ex-isting real face datasets, we introduce a new large-scale facerecognition dataset consisting only of photo-realistic digitalface images rendered using a computer graphics pipelineand make this dataset available to the community. Specifi-cally, we build upon the face generation pipeline introducedby Wood et al. [36], tailoring the amount of variability foreach attribute (e.g., pose and accessories) for our recogni-tion task, and generate 1.22M images with 110K uniqueidentities. Each identity is generated by randomizing thefacial geometry and texture as well as the hair style. Thegenerated face is then rendered with different poses, ex-pressions, hair color, hair thickness and density, accessories(including clothes, make-ups, glasses, and head/face wear),cameras and environments, to encourage the network tolearn a robust embedding. Figure 1 shows examples of syn-thetic face images in this new dataset. We generated 1.22Mimages, but in practice the number of identities and imagesyou can generate with synthetics pipeline is only limited bythe cost of generating and storing these images.Digital synthetic faces can solve the aforementionedproblems associated with the real face datasets. Firstly, thegenerated faces are free of label noise. Secondly, the bias inlighting, make-up and skin color can be reduced as we havefull control over those attributes. Most importantly, the facegeneration pipeline does not rely on any privacy-sensitivedata obtained without consent.This is a critical difference from the GAN-generated syn-thetic faces; face GANs rely (either directly or indirectly) onlarge-scale real face datasets to train some components oftheir pipeline, leaving unresolved ethical problems. For ex-35270图1. 我们数据集中合成人脸图像的示例。我们的数据集捕捉了各种面部几何、姿势、纹理、表情、配饰和环境的多样性。0例如，最近的一种方法SynFace [28]是使用DiscoFaceGAN[9]生成的合成人脸进行训练的。虽然生成的人脸图像没有标签噪声，但是DiscoFaceGAN的训练使用了数百万张真实人脸图像。GAN也可能继承用于训练它们的真实人脸图像中存在的任何偏差。对于我们的数据集，仅使用了511个经过同意的人脸扫描来构建面部几何和纹理库的参数模型[36]。从这个有限的数据源，我们可以生成无限数量的身份，使我们的方法易于扩展。我们的贡献可以总结如下：0•我们发布了一个新的大规模合成数据集，用于人脸识别，该数据集不涉及侵犯隐私和缺乏同意。据我们所知，我们的数据集包含110K个身份的1.22M张图像，是最大的公共合成人脸识别数据集。0• 与基于GAN生成的SynFace[28]相比，我们在LFW上将错误率降低了52.5%（准确率从91.93%提高到96.17%）。对于五个流行的基准测试[14, 30, 41, 25,42]，平均错误率降低了46.0%（准确率从74.75%提高到86.37%）。0•我们演示了如何将所提出的合成数据集与少量真实人脸图像结合使用，从而大幅提高准确性。这模拟了一种情况，即收集了少量经过筛选的（即无标签噪声和减少偏差）真实人脸图像，并获得了同意。通过仅使用12万张真实人脸图像（即常用的MS1MV2数据集[8]的2%），我们在LFW上实现了99.33%的准确率，并在五个基准测试中平均达到了93.61%，与使用数百万张真实人脸图像训练的方法相当。0•通过完全控制渲染流程，我们进行了大量实验，研究每个属性（如面部姿态的变化、配饰和纹理）对人脸识别准确性的影响。352802. 相关工作0带有真实人脸图像的人脸识别数据集。主要的科技公司可以利用私人数据来训练他们的人脸识别模型。谷歌使用了1亿至2亿张8百万身份的图像来训练FaceNet[29]，Facebook使用了5亿张10百万身份的图像[31]。使用公开可用的人脸图像构建具有可比较规模的数据集是具有挑战性的。公开数据集通常依赖于名人图像 [14,39, 12, 43] 或以创作共用许可证发布的网络图像 [17,26]。正如第1节讨论的那样，这些数据集存在伦理问题，并且受到标签噪声和数据偏差的影响。使用深度生成模型生成的合成人脸。深度生成模型，如GANs[11]，可以生成逼真的图像，并已被用于生成用于训练人脸识别的合成数据 [32, 28]。而传统的生成器（例如[16]）从单个潜在向量生成人脸图像，该向量同时改变了身份和外观，DiscoFaceGAN[9]学习了身份、姿势、表情和光照的分离潜在表示。SynFace[28]使用DiscoFaceGAN生成了一个合成的人脸识别数据集，包含1万个身份和50万张图像。SynFace在LFW数据集[14]上达到了91.93%的准确率，并通过将合成数据集与2千个真实身份（每个身份20张图像）混合，将准确率提高到了97.23%。然而，它们在大姿态变化数据集上的性能较差（例如，在CFP-FP [30]上为75.03%，在CPLFW[41]上为70.43%）。这主要是因为训练2DGAN以生成保持3D几何一致性的图像具有挑战性[10]。使用3D参数模型生成的合成人脸。经典的3D参数人脸模型，如可塑模型[5]，明确地将身份与其他参数分开建模，这使它们非常适合生成人脸识别数据集。然而，以前使用这种合成图像获得的结果显示出有限的性能 [20,19]，除非与大量真实图像结合使用。这可能是由于用于生成人脸的模型缺乏逼真度和变异性。Wood等人[36]介绍了一个用于生成和渲染多样化和逼真的3D人脸模型的流程。从511个个体的3D扫描中学习的生成人脸模型用于生成随机的3D人脸。然后将人脸与艺术家创建的资源（如纹理、头发、配饰）结合，并在随机环境下渲染（使用高动态范围图像进行模拟）。渲染的合成人脸图像（及相应的自动生成的地面真实标注）被用于学习各种人脸分析任务，如人脸解析 [36]、关键点定位 [36, 37]和人脸重建[37]，展示了最先进的性能。在本文中，我们旨在证明这种逼真渲染的合成人脸可以用于解决人脸识别问题。0配饰 #1 配饰 #2 配饰 #3 配饰 #40图2.每一行显示了相同身份的不同配饰设置。配饰包括衣服、眼镜、化妆品（如眼影和眼线）、面部佩戴物和头部佩戴物。面部和头发的颜色、密度和厚度也是随机的。只有在采样的配饰与原始发型冲突时，才会修改发型。0随机化0颜色0密度0厚度0随机化0颜色0密度0厚度0+ 风格0图3.随机化发型会使问题变得不必要地困难（见底行），因为大多数人保持相似的发型。因此，我们只随机化发色、密度和厚度，如顶行所示（发型也会随机水平翻转）。03. 人脸识别的数字人脸0本节解释了如何生成所提出的数据集。我们首先解释了如何控制、渲染和对齐数字人脸以创建数据集（第3.1小节）。在提供数据集统计信息（第3.2小节）之后，我们介绍了有助于减小合成与真实领域差距的数据增强细节（第3.3小节）。03.1. 人脸渲染0我们在Wood等人[36]介绍的人脸生成和渲染流程的基础上进行了改进。在本节中，我们解释了对原始流程进行的修改，以创建一个大规模的人脸识别数据集。我们将身份定义为面部几何、纹理（反射率和位移）、眼睛颜色和发型的独特组合。对于每个身份，我们渲染了多个图像。35290中性视角渲染视角0图4.渲染相同身份和配饰设置的图像示例。同一张脸在姿势、表情、环境（光照和背景）和相机的不同下可能看起来非常不同，这鼓励网络学习稳健的嵌入。0在其他参数变化的情况下，鼓励网络学习稳健的嵌入。虽然个人的发型可能会改变，但大多数人保持相似的发型（包括面部和头发），这使得发型成为人物身份的重要线索。因此，对于相同的身份，我们只随机化发色、密度和厚度（见图3的示例），只有在添加的头饰与原始发型不兼容时才改变发型，以避免重叠（例如，图2顶行的第三张图像）。对于采样的面部几何、纹理和眼睛颜色，我们遵循[36]的方法。对于给定的身份，我们随机选择包括服装、化妆品、眼镜、面具和帽子在内的不同配饰。从数字衣柜中随机选择服装后，其他配饰分别以概率p = {0.15, 0.15, 0.01,0.15}添加。我们还以较小的概率（p =0.01）添加手部和次要面部，以模拟面部被手遮挡或图像中存在多个面部的情况。图2显示了使用不同配饰渲染的采样身份的示例。对于每个配饰设置，我们改变姿势、表情、相机和环境（光照和背景）来渲染多个图像。相机围绕脸部进行水平和垂直旋转。水平角度从截断的零均值正态分布中采样，支持θ hori ∈ [-90°, 90°]。方差设置为使概率密度p(θhori = 90°)等于10^-3 × p(θ hori =0°)。垂直角度从类似的截断正态分布中采样，支持θ vert∈ [-30°, 30°]，并且p(θ vert = 30°) = 10^-3 × p(θ vert=0°)。这样可以渲染出广泛的姿势范围，同时确保更频繁地渲染正面视图。最后，随机将人脸在视野锥内平移，添加额外的透视畸变。对于姿势、表情和环境的采样，我们遵循[36]的方法。图4显示了在相同身份和配饰设置下，改变姿势、表情、环境和相机的影响。人脸对齐。人脸嵌入网络的输入应该是围绕人脸的对齐裁剪。我们不是通过对齐来获得输入，而是通过在渲染过程中将人脸对齐到一个固定的位置。0渲染图像关键点对齐图像0渲染图像关键点对齐图像0图5.对于合成人脸，提取地面真实人脸关键点（例如眼睛、鼻尖和嘴角）的位置并对人脸进行裁剪是微不足道的。这样即使一些关键点不可见，也能实现稳健的人脸对齐。0使用预训练的深度神经网络（如MTCNN [40]和RetinaFace[7]）检测人脸关键点时，我们使用地面真实的关键点对人脸进行对齐（参见图5），这样即使一些关键点不可见，也能实现稳健的对齐。局限性。我们所依赖的人脸生成流程[36]存在一些限制，导致与真实人脸图像之间存在领域差距。对于人脸识别来说，特别重要的是我们无法生成同一个人的不同年龄段。虽然我们通过随机化头发的颜色、密度和厚度（因为头发在衰老过程中通常会变得更灰、稀疏和细）来模拟衰老，但还需要更多的工作来忠实地模拟衰老。覆盖范围的不足（例如没有珠宝和纹身）也可能意味着合成数据的分布与现实不匹配。03.2. 数据集统计0所提出的数据集由两部分组成。第一部分包含10,000个身份的720,000张图像。对于每个身份，随机采样4组不同的配饰，并为每组配饰渲染18张图像（即每个身份72张图像）。由于同一张脸的多个视角可用，网络可以学习到对配饰、相机、姿势、表情和环境变化具有鲁棒性的嵌入。第二部分包含100,000个身份的500,000张图像。对于每个身份，只随机采样一组配饰，并渲染5张图像。添加这一部分是为了大幅增加具有较小渲染成本的身份总数。确保足够数量的身份非常重要，因为网络应该学会区分不同身份的相似面孔。实验证明混合使用这两部分比单独使用其中一部分的准确性更高（表3）。03.3. 数据增强0野外人脸图像的质量可能会有很大差异。人脸的某些部分可能被遮挡，图像还受到特定相机的畸变和噪声的影响。由于我们的合成人脸是使用完美针孔相机进行渲染的，需要进行积极的数据增强来减小合成与真实领域之间的差距。我们首先应用随机水平翻转和裁剪，按照[18]的方法进行。然后，我们应用两组增强 -外观和变形。图6显示了应用这些增强的训练图像。注意，我们在训练过程中实时应用数据增强，即每个时期都会看到不同的随机增强。外观增强。我们应用随机高斯模糊（ p =0.05）和高斯噪声（ p =0.035）。通过使用各向异性协方差沿随机方向应用高斯模糊，我们还模拟了运动模糊（ p =0.05）。亮度、对比度、色调和饱和度以 p = {0.15, 0.3, 0.1, 0.1} 进行随机化。图像以 p = 0.01转换为灰度。最后，通过降采样和上采样（ p = 0.01）以及JPEG压缩（ p =0.05）随机化图像质量。变形增强。变形通过随机移动图像的四个角来执行。首先，使用 p = 0.1随机化宽高比。然后，所有图像都经历随机缩放、旋转和平移。最后，为了增加额外的畸变，四个角的移动方式不同。Raw ImageRaw Image+ Flip & Crop Raw Image35300原始图像0+ 翻转和裁剪0+ 外观0+ 翻转和裁剪+ 外观 +变形0图6.数据增强的不同阶段的合成人脸图像。积极的增强有助于模拟真实世界图像中常见的运动模糊和畸变等效果，从而提高在合成图像上训练的深度神经网络的鲁棒性。0通过这些增强来训练图像。请注意，我们在训练过程中实时应用数据增强，即每个时期都会看到不同的随机增强。对于每种增强类型，我们指示其应用于样本图像的概率p。外观增强。我们应用随机高斯模糊（ p =0.05）和高斯噪声（ p =0.035）。通过使用各向异性协方差沿随机方向应用高斯模糊，我们还模拟了运动模糊（ p =0.05）。亮度、对比度、色调和饱和度以 p = {0.15, 0.3,0.1, 0.1} 进行随机化。图像以 p = 0.01转换为灰度。最后，通过降采样和上采样（ p =0.01）以及JPEG压缩（ p =0.05）随机化图像质量。变形增强。通过随机移动图像的四个角来执行变形。首先，使用 p = 0.1随机化宽高比。然后，所有图像都经历随机缩放、旋转和平移。最后，为了增加额外的畸变，四个角的移动方式不同。04. 实验设置0实现细节。合成人脸使用Cycles渲染器[1]进行渲染，每个像素使用256个样本。渲染整个数据集大约需要10天，使用300个NVIDIA M60GPU。图像的分辨率为256×256，围绕脸部的对齐裁剪被调整为112×112。我们在第5.1、5.2和5.3小节的实验中使用ResNet-50[13]作为主干网络。对于第5.4小节中与最先进方法的比较，我们使用它们的编码器架构以确保公平比较。对于所有实验，我们使用PyTorch[27]实现网络，并使用SGD进行40个epoch的训练。批量大小设置为256，并在四个NVIDIA P100GPU上进行训练。我们遵循[28]的学习率调度，并使用[18]的训练损失。注意，所有0网络是从头开始训练的（没有预先在ImageNet[6]上进行训练），以确保不使用真实图像。评估协议。按照最先进的方法[15, 21, 24, 22,18]，我们报告了五个基准数据集上的人脸验证准确性 -LFW [14]、CFP-FP [30]、CPLFW [41]、AgeDB[25]和CALFW[42]。LFW包含6000对野外人脸图像。CFP-FP和CPLFW具有更大的姿势变化（CFP-FP特别比较正面视图和侧面视图）。AgeDB和CALFW具有更大的年龄变化。05. 实验0我们进行了一系列实验，以证明所提出的数据集的有用性。第5.1小节比较了不同的数据增强方法。在第5.2小节中，我们使用完整数据集的各种子集来训练网络，以了解渲染中每个属性采样对准确性的影响。在第5.3小节中，我们展示了我们的合成人脸可以与少量真实人脸结合使用，从而大幅提高准确性。最后，在第5.4小节中，我们与最先进的方法进行了比较。05.1. 数据增强0在第3.3小节中，我们介绍了外观和变形增强。如表1所示，两者都显著改善了所有数据集的性能。我们还与AdaFace[18]使用的增强进行了比较，其中包括水平翻转、裁剪和轻微的颜色增强。对于我们的合成人脸图像，需要更激进的数据增强来减小域间差距。请注意，变形增强特别改善了大姿势变化的数据集（CFP-FP和CPLFW）的性能。05.2. 数据集组成0通过完全控制渲染流水线，我们可以创建一个具有所需统计数据的数据集，以研究每个属性如何影响人脸识别准确性。结果在表2中提供。配饰采样。对于10K个合成身份，我们采样了4种配饰设置，并为每种设置渲染了18张图像（即总共720K张图像）。这18张图像在姿势、表情、相机和环境上有变化（见图4）。从中，我们可以通过选择每个ID的18张图像来创建一个子集，其中配饰固定，共有180K张图像。同样，我们可以随机选择18张图像，以便在训练过程中使用具有不同配饰的图像。在随机化配饰时，我们还随机化了头发的颜色、厚度和密度，以模拟衰老（图3）。结果，准确性得到了改善，特别是对于年龄变化较大的数据集（AgeDB和CALFW）。对于CFP-FP和CPLFW，其年龄差距较小（即5089.6375.0469.7269.4770.1074.7910090.8374.8470.3070.6270.5775.4315090.0373.0169.6371.4870.2774.8920089.8273.3769.3771.4570.5074.9035310实验方法 LFW CFP-FP CPLFW AgeDB CALFW 平均0数据增强0无增强 88.07 70.99 66.73 60.92 69.23 71.190从AdaFace [18]进行的增强 90.12 76.41 71.33 67.17 74.13 75.830我们的（外观） 94.32 80.00 74.83 75.82 76.92 80.380我们的方法（外观+变形） 94.55 84.86 77.08 76.97 77.20 82.130表1. 提出的激进数据增强显著提高了所有数据集的准确性。0实验方法 LFW CFP-FP CPLFW AgeDB CALFW 平均0配饰采样固定配饰 93.50 82.16 75.75 73.05 73.83 79.660随机化配饰 94.23 82.04 75.18 76.43 77.22 81.020姿势采样0最小化水平角度 93.42 67.19 66.48 76.78 77.22 76.220最小化垂直角度 93.67 81.13 74.57 76.57 76.68 80.520随机姿势 94.23 82.04 75.18 76.43 77.22 81.020纹理采样0（要选择的纹理数量）0表2. 数据集构成实验，研究每个属性的采样如何影响准确性。0图7.左：从纹理库中随机选择的40种纹理。该库涵盖了多样的肤色和年龄。右上行：使用相同纹理采样的各种身份（面部几何和发型）。右下行：在不同环境下使用相同纹理的同一身份（摘自[36]）。通过几何、发型和环境的大量变化，可以实现丰富的外观变化。0正样本对捕捉到相似年龄的身份），固定配饰和发型会略微提高准确性。姿势采样。与配饰采样类似，我们可以通过选择水平/垂直角度最小的18张图像为每个10,000个身份选择18张图像。然后，我们可以将它们与随机选择的18张图像进行比较。对于随机选择的图像，水平和垂直角度的标准差分别为（σ hori，σvert）=（24.13°，9.20°）。对于水平/垂直角度最小的图像，它们分别为（4.71°，8.06°）和（22.02°，1.72°）。如表2的第3-5行所示，增加水平和垂直角度的变化特别是对于大姿态变化的数据集（CFP-FP和CPLFW）提高了准确性。对于主要由正面面部组成的AgeDB和CALFW，准确性相似。纹理采样。虽然我们可以创建无限数量的唯一面部几何，但纹理是从一个库中采样的。0由208个真实人脸扫描构建的纹理库（经过同意获得）。由于我们总共生成了110,000个身份，其中许多身份共享相同的纹理。为了查看纹理数量对准确性的影响，我们创建了一个包含N个纹理的1200个身份的数据集，通过为每个纹理生成1200/N个身份。如表2的第6-9行所示，增加纹理数量并没有带来准确性的显著改善。这与合成数据用于人脸识别的小纹理数量和缺乏纹理生成模型的局限性相反。我们认为外观的变化是几何、纹理、头发、配饰、环境和图像质量的组合。在图7中，我们展示了：（1）纹理库已经涵盖了多样的肤色和年龄；（2）可以使用相同的纹理生成任意数量的唯一身份；（3）皮肤外观受环境的影响很大。此外，由于低分辨率和数据增强，用于人脸识别任务的图像质量通常受到限制。因此，纹理变化的贡献可能不如几何和环境的贡献重要。身份数量和每个身份的图像数量之间的平衡。确保大量的身份对于学习多样的判别嵌入很重要。另一方面，每个身份的大量图像（称为图像/身份）对于学习鲁棒的嵌入（不受姿态、配饰、表情、相机和环境变化的影响）是必要的。将具有不同图像/身份数量的两个数据集混合在一起可以被认为是同时获得两者最佳效果的有效方法。这也模拟了真实人脸数据集的长尾分布（即大多数身份只有少量图像）。表3的结果表明，混合使用这两个数据集比单独使用其中一个数据集可以获得更好的准确性。# IDs × # images/ID LFW CFP-FP CPLFW AgeDB CALFWAvg10K × 50 + 0 × 594.3884.0776.5375.9376.7281.538K × 50 + 20K × 5 94.8084.7977.5276.4777.6582.246K × 50 + 40K × 5 95.2285.2477.1577.5278.3282.694K × 50 + 60K × 5 95.4584.8377.7077.6879.1082.952K × 50 + 80K × 5 94.8284.0977.7577.5578.3782.510 × 50 + 100K × 5 94.4583.3476.7776.3377.2881.6435320图8.使用我们的合成数据进行训练（黑色虚线），仅使用少量真实数据进行训练（红线），混合两者（蓝线），以及在合成数据上进行预训练并在真实数据上进行微调（黑线）的比较。真实身份的数量从200到2000不等，每个身份抽取了20个图像。当只有少量真实人脸图像可用（例如由于伦理问题），所提出的合成数据集可以大大提高准确性。0表3.ID数量和每个ID的图像数量都应该很高，以学习多样化和稳健的嵌入。将两个具有大/小图像数量/ID的数据集混合在一起可以有效地满足这两个要求。总体准确率比仅依赖其中一个数据集要高。05.3. 与真实人脸混合0大规模真实人脸数据集面临的主要问题是伦理问题、标签噪声和数据偏差。在本研究中，我们假设只收集了少量经过同意的真实人脸图像。对于少量图像，也可以删除（或减少）标签噪声和数据偏差。对于合成数据，我们使用了10K个身份，每个身份有72个图像。对于真实人脸图像，我们从CASIA-WebFace[39]中随机抽取了200到2000个身份，每个身份抽取了20个图像。我们首先尝试只在合成数据上进行训练。其次，我们尝试只在真实数据上进行训练。然后，我们探索了两种不同的使用真实和合成图像的策略：（1）数据集混合和（2）在合成数据上进行预训练，然后在真实数据上进行微调。对于微调，我们将预测头的学习率降低了1/10，将编码器的学习率降低了1/100，以避免灾难性遗忘。结果如图8所示。当网络只在少量真实人脸图像上进行训练时，所提出的合成数据集可以大大提高准确性。0与仅在我们的合成数据集上训练的网络相比，仅混合数据集和预训练都可以显著提高准确性，特别是对于大姿态变化的数据集（CFP-FP和CPLFW）。与数据集混合相比，先在合成数据上进行预训练，然后在真实图像上进行微调可以获得更好的准确性。这可能是由于图像数量的不平衡（我们使用了720K个合成图像，而真实图像较少）。05.4. 与现有技术的比较0与SynFace的比较。SynFace[28]是目前基于合成人脸训练的人脸识别模型的最新技术。他们使用DiscoFaceGAN[9]生成了500K个合成人脸（10K个身份和50个图像/ID）。为了公平比较，我们使用相同数量的图像训练了相同的编码器（LResNet50E-IR）。我们还使用了我们的完整数据集（1.22M个图像）进行训练。结果如表4的第1-3行所示。在第二种情况下，我们还额外使用了来自CASIA-WebFace[39]的40K个真实人脸图像。而SynFace将他们的合成数据集与真实人脸混合，我们则采用了预训练和微调的两阶段方法，如第5.3小节所讨论的。结果如表4的第4-6行所示。在这两种情况下，我们在所有数据集上都明显优于SynFace。这表明我们生成的合成人脸比GAN生成的人脸更适合学习人脸识别。虽然像[9]这样的GAN可以生成逼真的人脸图像，但它们生成的数据对于人脸识别来说并不理想，原因如下：（1）身份变化。虽然[9]在改变其他潜在变量时被鼓励保留身份，但不能保证在数据生成过程中身份将被保留。（2）几何不一致性。正如[10]所指出的那样，生成的图像存在几何不一致性。SynFace [28]500K (10K×50)091.9375.0370.4361.6374.7374.75 79.13Ours500K (10K×50)095.4087.4078.8776.9778.6283.45 87.22Ours1.22M (10K×72+100K×5)095.8288.7781.6279.7280.7085.32 88.74SynFace [28]500K (10K×50)40K (2K×20)97.2387.6880.3281.4285.0886.35 88.41Ours500K (10K×50)40K (2K×20)99.0594.0187.2789.7790.0892.04 93.44Ours1.22M (10K×72+100K×5)40K (2K×20)99.1794.6388.1090.5090.9792.67 93.97Ours (SX best)1.22M096.1789.8182.2381.1082.5586.37 89.40Ours (SX+Real best)1.22M120K99.3395.9389.4791.5591.7893.61 94.91SV-AM-Softmax [35]05.8M99.5095.1089.4895.6894.3894.83 94.69SphereFace [23]99.6796.8491.2797.0595.5896.08 95.93CosFace [33]99.7898.2692.1898.1796.1896.91 96.74ArcFace [8]99.8198.4092.7298.0595.9696.99 96.98MagFace [24]99.8398.4692.8798.1796.1597.10 97.05AdaFace [18]99.8298.4993.5398.0596.0897.19 97.2835330方法 # 合成图像数量 # 真实图像数量 LFW CFP-FP CPLFW AgeDB CALFW Avg Avg †0Table 4. 与使用相同的编码器架构（LResNet50E-IR[28]）的SynFace进行比较。对于仅在合成人脸上进行训练和使用少量真实人脸的两种情况，我们在所有数据集上都明显优于SynFace。Avg†显示LFW，CFP-FP和CPLFW的平均值，不包括年龄变化较大的数据集。0方法 # 合成图像数量 # 真实图像数量 LFW CFP-FP CPLFW AgeDB CALFW Avg Avg †0Table 5. 与在真实人脸图像上训练的最先进方法（MS1MV2[8]）进行比较。我们使用相同的主干网络（ResNet100）进行公平比较。仅使用120K真实人脸图像（MS1MV2[8]的2%）我们实现了与在数百万真实人脸图像上训练的方法相当的准确性。由于我们没有明确建模衰老，我们在年龄变化较大的数据集（AgeDB和CALFW）上的准确性较差。Avg †显示LFW，CFP-FP和CPLFW的平均值，我们在这些数据集上优于[35]并与[23]相似。0由于[9]在相同身份和不同姿势上缺乏3D一致性。(3)缺乏配饰变化。 [9]无法随机化配饰。(4)未解决的伦理问题。训练GAN模型本身需要大规模真实人脸数据集。例如，[9]使用了7万张图像进行训练。为了学习保持身份，他们还使用了基于[38]的感知损失，该损失是在300万真实人脸图像上训练的。在表4的第2行和第3行中，我们将合成数据集的大小从500K增加到1.22M，并获得更好的准确性。这表明准确性可能尚未收敛，并且通过生成更多的合成数据可以进一步提高。与在真实人脸上训练的方法进行比较。最后，我们将准确性与在真实人脸图像上训练的方法进行比较。在表5中，我们提供了使用ResNet100作为嵌入网络和MS1MV2[8]作为训练数据的六种方法的准确性。我们在我们的合成数据集上训练了相同的架构（第1行）。我们还尝试了在少量真实人脸图像上微调网络（第2行）。当仅使用提出的合成数据集进行训练时，网络在LFW上可以达到96.17%的准确性。对于LFW，CFP-FP和CPLFW（不包括高年龄变化的数据集），平均准确性为89.40%。通过仅在120K图像（MS1MV2的2.0%）上微调网络，准确性与在MS1MV2上训练的方法相当（例如，LFW，CFP-FP和CPLFW的平均准确性高于SV-AM-0Softmax [35]). 我们的方法在AgeDB [25]和CAL

下载后可阅读完整内容，剩余1页未读，立即下载