人脸识别数据集中的标签噪音问题及其影响

141 浏览量更新于2023-10-13 收藏 4.32MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

人脸识别的魔鬼在噪音FeiWang1 [0000−0002−1024−5867]、LirenChen2 [0000−0003−0113−5233]、Cheng Li1[0000−0002−0892−4705]、Shiyao Huang1[0000−0002−5198−2492]、Yanjie Chen1[0000−0003−1918−6776]、Chen Qian1[0000−0002−8761−5563]、Chen Change洛伊三号[0000−0001−5345−1591]1SenseTime研究2加州大学圣地亚哥分校3南洋理工大学{wangfei，chengli，huangshiyao，chenyanjie，qianchen}@ sensetime.com，lic002@eng.ucsd.edu，ccloy@ieee.org抽象。人脸识别数据集规模的不断增长使我们能够训练强大的卷积网络进行人脸识别。虽然已经设计了各种各样的架构和损失函数，但我们对现有数据集中固有的标签噪声的来源和后果的理解仍然我们做出以下贡献：1）我们贡献了流行人脸数据库的清洁子集，即，MegaFace和MS-Celeb-1 M数据集，并构建一个新的大规模噪声控制的IMDb-Face数据集。2)使用原始数据集和清洁的子集，我们分析和分析MegaFace和MS-Celeb-1 M的标签噪声特性我们表明，需要几个订单更多的样本，以达到相同的精度产生一个干净的子集。3)我们研究了不同类型的噪音之间的联系，标签翻转和异常值，具有人脸识别模型的准确性。4）我们研究了提高数据清洁度的方法，包括对数据标签策略对注释准确性的影响进行全面的用户研究IMDb-Face数据集已在https://github.com/fwang91/IMDb-Face上发布。1介绍数据集是人脸识别发展的关键。从早期的FERET数据集[16]到最近的LFW [7]，MegaFace [8，13]和MS-Celeb-1 M [5]，人脸识别数据集在推动新技术的发展方面发挥了主要作用数据集不仅变得更加多样化，数据的规模也在急剧增长。例如，MS-Celeb-1 M [5]包含了10万名人的大约1000万张图像，远远超过了FERET [16]，FERET只包含了1,199个人的14,126张图像近年来，大规模数据集以及深度学习的出现导致了人脸识别的巨大成功大规模数据集不可避免地受到标签噪声的影响。这个问题是普遍存在的，因为大规模的注释良好的数据集是非常昂贵的=同等贡献Fei Wang等.2......正确标签不正确标签（硬）标签不正确（容易）标签正确标签不正确（硬）标签不正确Fig. 1. MegaFace [13]和MS-Celeb-1 M [5]中的标签噪声。每一行描绘用相同标识标记的图像。一些错误的标签很容易，而其中许多是困难的。并且收集起来耗时这促使研究人员求助于廉价但有效的方法。一种常见的方法是通过搜索引擎上的名称来查询标签，然后使用自动或半自动方法来其他方法引入了在社交照片共享站点上具有约束的聚类。上述方法提供了一种可行的方式来方便地缩放训练样本，但也带来了标签噪声，这对模型的训练和性能产生了不利影响。我们在图1中显示了一些带有标签噪声的样本。可以看出，MegaFace [13]和MS-Celeb-1 M[5]包含相当多的不正确的身份标签。有些噪音标签很容易去除，但其中许多很难清洗。在MegaFace中，也有许多冗余图像（如最后一行所示）。本文的第一个目标是了解标签噪声的来源及其对深度卷积神经网络（CNN）人脸识别的影响[19，18，23，6，1，26]。我们寻求这样的问题的答案噪声和最终性能之间的关系是什么？注释人脸身份的最佳策略是什么？更好地理解上述问题将有助于我们设计更好的数据收集和清理策略，避免训练中的陷阱，并制定更强大的算法来应对现实世界的问题。为了便于我们的研究，我们手动清理了两个最流行的人脸识别数据库的子集，即MegaFace [13]和MS-Celeb-1 M [5]。我们观察到，仅用32%的MegaFace或20%的MS-Celeb-1 M清洁子集训练的模型实验结果表明，如果使用噪声样本，则需要几个数量级的样本用于人脸识别模型训练。我们研究的第二个目标是为社区建立一个干净的人脸识别数据集。该数据集可以帮助训练更好的模型，并促进进一步理解噪声和人脸识别性能之间的关系为此，我们构建了一个名为IMDb-Face的干净数据集。该数据集由170万张59K名人的图像组成，这些图像是从电影截图和MS-Celeb-1MMegaFace人脸识别的魔鬼在噪音3表1.各种人脸识别数据集。数据集#身份图像数量源洗干净了？可用性LFW [7]5K13K搜索引擎自动检测公共[19，20]10K202K搜索引擎手动清洁公共VGG-Face [15]2.6K2.5M搜索引擎半自动清洁公共[25]第二十五话10k0.5MIMDb自动清洗公共MS-Celeb-1M（v1）[5]100k10M搜索引擎没有一公共MegaFace [13]670K4.7MFlickr自动清洗公共Facebook [21]4k4.4M––私人谷歌[18]8M200M––私人IMDb-Face59K1.7MIMDb手动清洁公共来自IMDb网站的海报1.由于数据源的性质，图像在比例、姿态、光照和遮挡方面表现出很大的变化我们仔细清理数据集，并通过在训练标签上注入噪声来模拟损坏。实验结果表明，随着标签噪声的增加，人脸识别的准确率呈非线性下降。特别是，我们确认了一个共同的信念，即人脸识别的性能是更敏感的-病房标签翻转（例如已错误地被赋予的标签的另一类内的数据集）比离群值（图像不属于任何类的考虑，但错误地有他们的标签之一我们还进行了一个有趣的实验，以分析不同的方式注释人脸识别数据集的可靠性。我们发现，标签的准确性与花费在注释上的时间相关。该研究有助于我们找到错误标签的来源，从而设计更好的策略来平衡注释成本和准确性。希望本文能对数据噪声的影响有所启示到人脸识别任务，并指出潜在的标签策略，miti门的一些问题。我们与社区一起贡献新数据IMDb-Face。它可以作为一个相对干净的数据，以促进未来的研究噪声在大规模的人脸识别。它还可以用作训练数据源，以提高现有方法的性能，正如我们将在实验中展示的那样。2现有数据的噪声有多大？我们首先介绍了一些流行的人脸识别研究中使用的数据集，然后近似各自的信噪比。2.1人脸识别数据集表2.1提供了人脸识别研究中使用的代表性数据集的摘要1www.IMDb.comFei Wang等.4LFW：Labeled Faces in the Wild（LFW）[7]可能是迄今为止用于基准人脸识别方法的最受欢迎的该数据库包含1680位名人的13000张面部图像图像是通过运行Viola-Jones人脸检测器从雅虎新闻中收集的受检测器的限制，LFW中的大多数人脸都是正面的。尽管报告了一些错误标记的匹配对，但数据集被认为是足够干净的LFW勘误表见http://vis-www.cs.umass.edu/lfw/。CelebFaces：CelebFaces [19，20]是公开提供的早期人脸识别训练数据库之一。它的第一个版本包含5436个名人和87628张图片，一年后它升级到10177个身份和202599张图片CelebFaces中的图像是从搜索引擎中收集的，并由工作人员手动清理。VGG-Face：VGG-Face包含2,622个身份和260万张照片。每个名人从搜索引擎下载的图片超过2,000张。作者将前50张图像视为阳性样本，并训练线性SVM以选择前1，000张人脸。为了避免大量的手动注释，数据集被“block”化，即。例如，在块中对每个已定义的元素进行排序，并且要求注释者作为整体来验证块。在这项研究中，我们没有对VGG-公式[15]进行讨论，因为它具有与MS-Celeb-1 M [ 5]相似的相似的特征。CASIA-WebFace：CASIA-WebFace [25]中的图像来自IMDb网站。该数据集包含10K名人的500K照片，并通过标签约束相似性聚类进行半自动清理。所有系统都具有相同的功能，并且具有相同的外观然后将人脸逐步添加到受特征相似性和姓名标签约束的数据集中。CASIA-WebFace使用与提议的IMDb-Face数据集相同的源。然而，由于特征和聚类步骤的限制，CASIA-WebFace可能无法回忆起许多具有挑战性的人脸。MS-Celeb-1M：MS-Celeb-1 M [5]包含从1 M名人列表中根据其受欢迎程度选择的10万名人。然后利用公共搜索引擎为每个名人提供大约100张图片，从而产生大约1000万张网络图片。出于几个原因，故意不清理数据。具体来说，收集这种规模的数据集需要在清理数据集方面付出巨大的也许更重要的是，以这种形式保留数据可以鼓励研究人员设计新的学习方法，可以自然地处理固有的噪音。MegaFace：Kemelmacher-Shlizermanet al. [13]通过提出算法对来自YF CC100M数据的人脸数据进行聚类和过滤，清理了Flickr上发布的大量图像。对于所有的结构，所有的结构面以比平均距离的β倍更近的距离配对。包含更多内容的群集将保留。该ydr〇p“garb age”组并在每个组中排除潜在的离群值。总共收集了672K身份和4.7M图像。 MegaFace2具有如在V GG -Face [ 15]和MS- Celeb-1 M [5]中给出的结构。然而，我们发现这种基于聚类的方法引入了新的偏差。MegaFace更喜欢具有高度重复图像的小群体，例如脸人脸识别的魔鬼在噪音5a）、104105106107108原始图像编号b）、0.8M0.6M0.4MMS-Celeb-1M（v1）c）MegaFace3.0M2.5M2.0M1.5M0.2M1.0M0.5M0.0M[1，14]..，21]..，28]..，三十五]..，42]（42，inf）0.0M[1，14]..，21]..，28]..，三十五]..，42]（42，inf）每个标识的图像编号图二. (a)数据集的大小和估计噪声百分比的可视化。(b)MS-Celeb-1 M（v1）的噪声分布[5]。(c)MegaFace的噪声分布[13]。每个条中的两条水平线分别表示噪声的下限和上限参见第2.2有关详细信息都是从同一个视频中拍摄的受聚类基础模型的限制，MegaFace中可考虑的群组包含噪声，或者有时将多个人混淆在同一群组中。2.2信噪比的一种近似方法由于数据来源和清洗策略的原因，现有的大规模数据集不可避免地含有标签噪声。在这项研究中，我们的目标是在现有的数据集中的噪声分布。我们的分析可能会提供一个提示，未来的研究应该如何利用这些数据的分布。由于尺度的关系，要获得这些噪声的确切数量是不可行的的数据集。我们通过随机地选择一个数据集的子集来绕过这个困难，并且将每个数据集合并到一个新的组中-“c或rectidentityasigned”、"d oubful“和”wrongidentityasigned“。我们选择一个2的子集合。来自MegaFace的7 M图像[13]和来自MS-Celeb-1 M的3.7M图像[5]。对于CASIA-WebFace [25]和CelebFaces[19，20]，我们对30个身份进行了采样，以估计其信噪比。最终统计数据见图2（a）。由于难以估计的确切比例，我们近似的上限和下限的噪声数据在估计过程中。考虑到可疑标签为干净数据，下限更为乐观。考虑到所有可疑情况都被标记为错误，上限更悲观。我们在补充材料中提供了有关估计的更多细节。如图2（a）中所观察到的，噪声百分比沿着数据的尺度急剧增加。考虑到数据注释的困难，这并不奇怪。值得注意的是，所提出的IMDb-Face以非常高的信噪比（噪声低于完整数据的10%）推动大规模数据的包络。CASIAWebFace9.3-13.0%MS-Celeb-1M（v1）LFW CelebFace建议MegaFace MS-Celeb-1 M（v2）0.1% 2.0% 2.0% 33.7-38.3% 65.1-68.9%一个CLEseNoi子集中的总图像子集中的总图像Fei Wang等.6斯嘉丽·约翰逊克里斯·埃文斯图3.第三章。第二行描述了来自IMDb网站的原始数据作为比较，我们在第一行显示从Google搜索引擎查询的相同身份的图像我们进一步研究了迄今为止两个最大的公共数据集MS-Celeb-1 M [5]和MegaFace [13]的噪声分布我们首先根据图像的数量对数据集中的身份进行总共建立了六个组/箱。然后，我们绘制一个直方图，显示沿着噪声下限和上限的每个箱的信噪比。如图2（b，c）所示，两个数据集都呈现长尾分布，即大多数身份具有非常少的图像。这种现象在MegaFace [13]数据集中尤其明显，因为它使用自动形成的聚类来确定身份，因此，相同的身份可能分布在不同的聚类中。MegaFace [13]中所有组的噪声都小于MS-Celeb-1 M [5]。然而，我们发现MegaFace [13]的干净部分中的许多图像是重复的图像。节中4.2，我们将在MegaFace和MS-Celeb-1 M数据集上进行实验，以量化噪声对人脸识别任务的影响。3构建噪声控制的人脸数据集如前一节所示，超过一百万规模的人脸识别数据集通常具有高于30%的噪声比如何构建大规模噪声控制的人脸数据集？它可以用来训练更好的人脸识别算法。更重要的是，它可以用来进一步了解噪声和人脸识别性能之间的关系。为此，我们不仅寻求更清洁和更多样化的来源来收集人脸数据，而且还寻求一种有效的方法来标记数据。3.1来自IMDb的搜索引擎是我们可以快速构建大规模数据集的重要来源。广泛使用的ImageNet [3]是通过从Google Image查询图像构建的大多数人脸识别数据集都是在IMDb收藏谷歌搜索人脸识别的魔鬼在噪音7同样的道理（除了MegaFace [13]）。虽然从搜索引擎查询提供了数据收集的便利，但它也引入了数据偏差。搜索引擎通常以高精度的方式运行[2]。观察图3中的查询图像，它们倾向于具有具有足够照明的简单背景，并且受试者通常处于近正面姿势。这些数据在一定程度上比我们在现实中所能观察到的数据更受限制，例如，视频中的人脸（IJB-A [9]和YTF [24]）和自拍照片（MegaFace中的数百万分心物从搜索引擎抓取图像的另一个陷阱是召回率低我们进行了一个简单的分析，发现对于我们查询特定名称的前200张照片，平均召回率仅为40%。在这项研究中，我们把我们的数据收集源IMDb网站。 IMDb是一个更复杂的数据库。它包括一系列photos和ereacelebrity的我们相信，电影快照为训练鲁棒的人脸识别模型提供了必要的数据样本。这些截图很少通过查询搜索引擎返回。此外，当我们在IMDb上查询名字这比搜索引擎的40%要高得多IMDb网站列出了大约30万有官方和画廊照片的名人通过抓取IMDb数据集，我们最终从59K名人中收集并清理了170万张原始图像。3.2数据分布图4-a显示了与MS-Celeb-1 M和MegaFace相比，我们数据集中偏航角的分布。图4-c、-d和-e显示了年龄、性别和种族分布。可以观察到，IMDb-Face中的图像表现出更大的姿势变化，并且它们还显示出年龄、性别和种族的多样性。3.3人类的标签身份有多好？从IMDb下载的数据是嘈杂的，因为多个名人可能在同一图像上共存。我们仍然需要在使用数据集之前对其进行清理训练我们借此机会研究人类注释者如何清理人脸数据。该研究将帮助我们识别注释过程中的噪声源，并为整个数据集设计更好的数据清洗策略出于用户研究的目的，我们从IMDb原始数据中提取了30个身份的一个小子集。我们精心挑选了三幅具有确认身份的图像作为图库图像。这30个身份的其余图像被视为查询图像。为了使用户学习更具挑战性和统计学上更有意义，我们将20%的离群值注入查询集。接下来，我们准备三个注释方案如下。每个方案的界面如图5所示方案I -绘制方框：我们通过向志愿者展示三个图库面孔来呈现目标人物。然后，我们显示从查询集中选择的查询图像图像可以包含多个人。如果目标出现在查询图像中，则要求志愿者在目标上绘制边界框的Fei Wang等.8男女白黑黄百分百分百分107a)5MS-Celeb-1M123.5五百万2.55IMDb-Face1032.58261.54120.521.510.50-80-60-40-200204060 800-80-60-40-20020406080偏航分布0-80-60-40-200204060 80b)凯瑟琳·希克斯上MS-Celeb-1 M凯瑟琳·希克斯在IMDbc）105d）e）6543210（0，10）(10，20](20，30](30，40](40，50](50，60](60，70](70，80](80，90]（90，100）年龄分布性别分布种族分布见图4。a）将所提出的数据集中的图像的偏航角的分布与MS-Celeb-1 M和MegaFace进行比较。b）来自所提出的IMDb-Face和MS-Celeb-1 M的定性样品c）IMDb-Face中图像的年龄分布。d）IMDb-Face中身份的e）IMDb-Face中身份的种族分布如果没有在缓存中找到，则可以根据电子邮件或数据库上的标识符执行恢复操作。如果他/她找不到目标人物，则不会选择任何标记。方案II -三选一：与方案I类似，我们通过展示图库图像将目标人物呈现给志愿者。然后，我们从查询集中随机抽取三张人脸，志愿者将从中选择一张图像作为目标人脸。我们确保所有的查询面都具有与上的关键字相同的性别。同样，如果没有找到电子标签或根本没有选择，则无法接收选择。方案III -是或否：二进制查询可能是清理人脸识别集最自然和最流行的方法。我们首先根据所有面孔与图库中的探测面孔的相似性对所有面孔进行排名，然后让志愿者选择一个标记。你的钱包很低，无法打开。选择哪种方案？：在我们可以量化不同方案的有效性之前，我们首先需要生成这30个身份的基本事实。我们使用的是一个应用程序。具体而言，对三个不同的志愿者进行了一次后我们确保每个查询面百分百分男女图像编号亚洲人图像编号1010人脸识别的魔鬼在噪音9画廊查询先前1/36下确认疑问没有目Skip拯救查询画廊先前5/36下确认疑问没有目Skip拯救画廊查询先前2/36下是疑问没Skip拯救a）画出目标人物的边界框b）从目标人物的三张图像中只选择一张脸c）这张脸是否属于目标人物？图五.用户研究界面：（a）方案I -志愿者被要求在一个区域的面部画一个方框。（b）目标人物-给定相应的面部，要求用户选择属于目标人物的面部（c）方案III-要求志愿者选择属于目标的面孔。人类注释ROC图6.一ROC比较三个不同的0.850.800.750.700.000.01 0.02 0.03 0.040.05假阳性率注释方案;允许读者选择是否可以获得一个点，这取决于我们是否将怀疑数据计数为正或负。在三个方案中注释了九次。如果注释中的四个一致地指向相同的标识，则我们将查询面分配给目标标识。有了这个基础事实，我们就可以衡量每个注释方案的有效性图6示出了三个方案2中的每一个的受试者工作特征（ROC）曲线。方案I获得最高的F1分数。它可以召回超过90%的人脸，假阳性样本低于10%找到一张脸并画一个方框似乎使注释者更专注于找到正确的脸。方案II当假阳性低时提供高的真阳性率。干扰项的存在迫使注释者更加努力地匹配面部。当假阳性低时，方案III产生更差的真阳性率。这并不奇怪，因为该任务比方案I和II容易得多。注释者倾向于在这种轻松的任务中，尤其是在长时间的注释过程之后，我们可能会犯错误。我们观察到一个有趣的现象：志愿者花费在注释样品上的时间越长，注释就越准确。在一个小时的全速下，每个志愿者可以在方案一中画180-300张脸，或在方案二中完成600个左右的选择，或在方案二中回答1000多个二元问题2我们讨论了图6中的结果与验证任意人脸对时的性能的差异。这是因为在我们的研究中，来自查询集的面部很可能属于同一个人。因此，ROC代表了人类的一个共同点，即没有能力面对这种情况。BoOneBinar三个y选择Unding Box真阳性率10 Fei Wanget al.三.我们认为，清理人脸识别数据集的最可靠方法是利用方案I和II来实现高精度和召回率。由于预算的限制，我们只进行了方案I来清理IMDb-Face数据集。在IMDb-Face的清理过程中，由于多个身份可能共存于同一图像上，首先我们对图库图像进行注释以确定查询的身份。图库图片来自IMDb网站提供的官方图库，其中大部分官方图库图片包含真实身份。我们要求志愿者来回浏览10张图库图像，并画出出现频率最高的人脸的边界框然后，注释器将由三个最大的标记面引导的其余查询图像标记为图库。对于具有少于三个图库图像的身份，其查询图像可能具有太多噪声。为了节省劳动力，我们没有注释他们的图像。50个注释者花了一个月的时间来清理IMDb-Face数据集。最后，我们从2M原始图像中获得了1.7M干净的面部图像我们相信清洁是高质量的。我们将IMBb-Face的噪声水平估计为IMDb原始数据中的近似噪声水平的乘积（2. 7± 4。假阳性率为8.7%。噪音水平控制在2%以下。IMDb-Face的质量在我们的实验中得到了验证。4实验我们把实验分成几个部分。首先，我们通过在我们提出的数据集上模拟噪声来进行消融这些研究有助于我们观察在噪声增加的情况下，或者当固定量的干净数据被噪声稀释时，性能的恶化其次，我们在两个现有的数据集上进行实验，以进一步证明噪声的影响第三，我们通过将我们的数据集与具有相同训练条件的其他数据集进行比较来检查我们的数据集的有效性最后，我们将在我们的数据集上训练的模型与其他最先进的模型进行比较。接下来，我们描述实验设置。评价指标：我们在Megaface基准测试中报告了1级识别精度[8]。在百万级干扰项下评估人脸识别方法的性能是一项非常具有挑战性的任务MegaFace基准点由一个图库集和一个探头集组成。图库集包含超过100万张图像，探头集由两个现有数据集组成：[14]和FGNet。我们使用Facescrub [14]作为MegaFace探测数据集在我们的实验中。由于页数限制，MegaFace的验证性能（报告为FPR= 10−6时的TPR）包含在补充材料中。我们还在第4.4节中测试了LFW [7]和YTF [24]。架构：为了更好地检查噪声的影响，我们在所有实验中使用相同的架构在ResNet-50，ResNet-101和Attention-56 [22]之间进行比较后，我们最终选择了Attention-56，它在计算和准确性之间实现了良好作为参考，该模型在数据库上收敛，在8 GPU服务器上运行80小时，批量大小为256。Attention-56的输出是每个输入图像的256维特征我们使用余弦相似度来计算图像对之间的分数。人脸识别的魔鬼在噪音11Softmax中心A-SoftSoftmax中心A-Soft预处理：我们裁剪并对齐面部，然后将它们严格地转移到平均形状上。然后我们将裁剪后的图像调整为224 ×256，并将它们与每个RGB通道的平均值相减。损失：我们应用三种损失：SoftMax [20]，中心损失[23]和A-Softmax[12]。我们的执行是基于这些损失的公开执行：Softmax：Softmax损失是最常用的损失，用于模型初始化或建立基线。中心损失：Wenet al.[23]提出了中心损失，其最小化类内分布以在最低功率下实现最大化。所有的联合CNN都具有中心损失和softmax损失。A-Softmax：Liuet al. [12]制定A-Softmax以明确地强制不同身份之间的角度裕度每个类别的权重向量被限制在一个超球面上。4.1研究噪声对IMDb-Face建议的IMDb-Face数据集使我们能够研究噪声的影响。大规模人脸识别数据集中有两种常见的噪声类型1) 标签翻转：示例被错误地赋予了数据集内的另一个类的标签2）异常值：图像不属于所考虑的任何类，但错误地具有它们的标签之一有时候，即使是非面孔也可能被错误地包括在内。为了模拟第一种类型的噪声，我们随机地将面部扰动到不正确的类别中。对于第二种类型，我们用MegaFace中的图像随机a) 标签翻转噪声b）异常噪声c）噪声0.800.700.600.500.400.300.200.100.001E53E55E57E61E6清理数据大小1：1的比例二比一五比一见图7。MegaFace基准上的1：1 M rank-1识别结果：（a）将标签翻转引入IMDb-Face，（b）将离群值引入IMDb-Face，以及（c）固定干净数据的大小并使用不同比例的标签翻转对其进行稀释。这里我们进行两个实验：1）我们逐渐用不同类型的噪声污染数据集。我们逐渐增加我们的数据集中的噪声10%，20%和50%。2）我们固定清洁剂的大小，并在a和d’处使用a b e l翻转。在这些实验中，我们不使用集合模型。图7（a）和（b）总结了我们第一次实验的结果。1)标签翻转会严重恶化模型的性能，比离群值更严重。（二）Softmax中心A-Soft 20%50%清洁0.800.800.750.750.700.700.650.650.600.600.550.550.500.500.450.45Softmax中心A-Soft清洁（2%）10%识别精度1 Fei Wanget al.表2.噪声数据与干净的数据。结果是从MegaFace基准[8]上的秩-1识别测试中获得的缩写MSV 1 = MS-Celeb-1 M（v1）。数据集#Iden. #图像MegaFace Rank-1（%）Softmax Center A-softmaxMSV 1-未加工96k8.6M71.7073.8273.99- 抽样46k3.7M66.1569.8170.56- 干净46k1.76M70.6673.1573.53MegaFace-raw 670K4.7M64.3264.7166.95- 抽样 270k2.7M59.6862.5563.12- 干净 270k1.5M62.8667.6468.88A-Softmax用于在干净数据集上获得更好的结果，在高噪声区域中变得比中心损失和Softmax更差。3)离群值似乎对所有损失的性能具有较不突然的影响，与[10]和[17]中的观察结果相匹配。第二个实验的灵感来自Rolnick等人最近的一项工作。[17]第10段。他们发现，如果数据集包含足够的干净数据，当数据被大量噪声稀释时，深度学习他们表明，即使噪声与干净数据的比率增加到20：1，模型仍然可以在CIFAR- 10上实现可行的准确度。1.我们能把他们的结论转移到人脸识别上吗？在这里，我们从IMDb-Face中抽取了四个子集，分别具有1E5、2E5、5E5和1E6图像。我们用等量的、双倍的和五倍的标签翻转噪声来稀释它们。图7（c）显示，即使我们保持相同数量的干净数据，与完全干净的基线相比，仍然存在很大的性能差距。我们推测数据的清洁性在人脸识别中仍然起着关键作用的两个原因：1）当前的数据集，即使它是干净的，仍然远远不足以解决具有挑战性的人脸识别问题，因此噪声很重要。2)噪声在10,000类问题上比在10类问题上更致命。4.2噪声对MegaFace和MS-Celeb-1 M的影响为了进一步证明噪声的影响，我们在两个公共数据集上进行了实验：MegaFace和MS-Celeb-1M。为了量化噪声对人脸识别的影响，我们从两个数据集中采样子集并手动清理它们。这为我们提供了每个数据集的噪声采样子集和干净子集。为了公平比较，对噪声子集进行采样以具有与原始数据集相同的图像编号到身份的分布。此外，我们控制噪声子集的规模，以确保每个干净子集的规模由于样本子集的大小很大，我们选择了第二节中提到的第三种标记方法。3.3，最快的。三种不同的损失，即，SoftMax，中心损失和A-Softmax，分别应用于原始数据集，采样，和清洁的子集。表2总结了MegaFace识别挑战的结果[8]。的影响人脸识别的魔鬼在噪音13干净的数据集是巨大的。通过比较清洗数据集和采样数据集的结果，准确率的平均提高高达4。百分之十四。干净子集上的准确率甚至超过原始数据集上的准确率，平均大4倍实验结果表明了大规模数据集降噪的有效性事实上，这个实验的结果是我们收集IMDb-Face数据集的动机的一部分。值得指出的是，最近基于度量学习的方法，如A-Softmax [12]和Center-loss [23]，也受益于在干净数据集上的学习如表2中所示，使用A-Softmax和中心损失的MegaFace上的准确度的改进结果表明，减少数据集噪声仍然是有帮助的，特别是当执行度量学习减少噪声样本可以帮助算法更专注于困难的示例学习，而不是拾取无意义的噪声。4.3IMDb-Face与其他人脸数据集的比较在第三个实验中，我们希望展示IMDb-Face与几个成熟的人脸识别训练数据集的竞争力，包括： 1 ） CelebFaces [19 ， 20] ， 2 ） CASIA-WebFace [25]，3）MS-Celeb-1M（v1）[5]和4）MegaFace [13]。后两个数据集的数据大小比所提出的IMDb-Face大几倍。请注意，MS-Celeb-1M有一个更大的子集（v2），包含900，000个身份。由于我们的计算资源有限，我们没有对其进行实验。我们在这个实验中不使用集合模型。表3总结了在三种损失中使用不同数据集作为训练源的结果。我们观察到，所提出的噪声控制的IMDb-Face数据集作为训练源具有竞争力，尽管其尺寸较小，验证了IMDb数据源的有效性和IMDb-Face的清洁性。4.4与现有技术的比较我们有兴趣将在IMDb-Face上训练的模型的性能与最先进的模型进行比较。在MegaFace [8]、LFW [7]和表3. 使用不同人脸识别数据集进行训练的比较结果1级识别精度MegaFace基准报告。数据集#Iden. #图像等级-1（%）Softmax 中心损失 A-SoftmaxCelebFaces10k 0.20M36.1542.5443.72CASIA-WebFace10.5k 0.49M65.1768.0970.89MS-Celeb-1M（V1）96k 8.6M71.7073.8273.99MegaFace670k 4.7M64.3264.7166.95IMDbFace59k 1.7M74.7579.4184.061 Fei Wanget al.表4.在LFW、MegaFace和YTF基准测试上与最先进的方法进行比较。方法，数据集LFW Mega（相同）YTFVocord-deep V3<$，Private YouTu Lab<$，Private DeepSenseV2<$，Private91.76-83.29--81.23-边际损失[4] MS-Celeb-1 M 99.48 80.278 95.98SphereFace[12]，CASIA-WebFace 99.42 75.77 95.00中锋损失[23]，CASIA-WebFace 99.28 65.24 94.90A-Softmax，MS-Celeb-1M99.58 73.99 97.45A-Softmax，IMDb-Face99.79 84.06 97.67†商业，尚未发布单一型号YTF [24] 遵循标准方案。对于 LFW [7] ，我们计算等于错误率（EER）。对于YTF [24]，我们报告了识别的准确性。为了突出训练数据的效果，我们没有采用模型集成。比较结果示于表4中。我们在IMDb-Face （ A-Softmax ， IMDb-Face ）上训练的单个模型在 LFW ，MegaFace和YTF上实现了最先进的性能。值得注意的是，我们最终模型的性能也与MegaFace上的几种私有方法相当。5结论除了现有的开发复杂的损失和CNN架构的具体来说，我们开发了一个标签噪声的来源及其后果的理解我们还从IMDb网站收集了一个新的大规模数据，这自然是一个比搜索引擎更干净和更狂野的来源通过用户研究，我们发现了一种有效而准确的数据清理方法大量的实验表明，数据源和清洗有效地提高了人脸识别的准确率。作为我们研究的结果，我们提出了一个噪声控制的IMDb-Face数据集，以及一个在其上训练的最先进的模型。干净的数据集很重要，因为人脸识别社区一直在寻找大规模干净的数据集，原因有两个：1) 更好地研究当代深度网络的训练性能作为数据中噪声水平的函数。如果没有干净的数据集，就不能引入可控的噪声来支持系统的研究。2)对大规模自动数据清理方法进行基准测试。虽然可以使用深度网络的最终性能作为衡量标准，但这种衡量可能受到许多不可控制因素的影响，例如，网络超参数设置。一个干净的大规模数据集可以进行无偏分析。人脸识别的魔鬼在噪音15引用1. Cao，K.，Rong，Y.，Li，C.，唐，X.，Loy，C.C.：基于深度残差等变映射的姿态鲁棒人脸识别。来源：CVPR（2018）2. 陈旭，Shrivastava，A.，Gupta，A.：通过对象发现和分割丰富视觉知识库在：CVPR（2014）3. Deng，J.，Dong，W.，索赫尔河Li，L.J.，Li，K.，李菲菲：Imagenet：一个大规模的分层图像数据库。在：CVPR（2009）4. Deng，J.，Zhou，Y.，（1996年），中国科学院，Zafeiriou，S.：深度人脸识别的边际损失。在：CVPRW（2017）5. Guo，Y.，中国科学院，张，L.，Hu，Y.，他，X.，高杰：MS-Celeb-1M：大规模人脸识别的数据集和基准。In：ECCV（2016）6. 黄，C.，李，Y.，Loy，C.C.，唐X：用于人脸识别和属性预测的深度不平衡学习arXiv预印本arXiv：1806.00194（2018）7. Huang，G.B.，Ramesh，M.，Berg，T.，Learned-Miller，E.：在野外贴上标签的脸：研究无约束环境下人脸识别的数据库。Tech.代表，技术报告07-49，马萨诸塞大学，阿默斯特（2007年）8. Kemelmacher-Shlizerman岛Seitz，S.M.，Miller，D.，Brossard，E.：megaface基准测试：100万张人脸可大规模识别见：CVPR（2016）9. Klare，B.F.，克莱因湾Taborsky，E.，Blanton，A. Cheney，J.，Allen，K.，Grother，P.，马，A，Jain，A.K.：推动无约束人脸检测和识别的前沿：Iarpa janus基准a参见：CVPR（2015）10. Krause ， J. ，萨普湾 Howard ， A. ，周， H. ， Toshev ， A. Duerig ， T. ，Philbin，J.，Fei-Fei，L.：噪声数据对细粒度识别的不合理有效性。In：ECCV（2016）11. 李杰，赵，J，赵芳，刘洪，李杰，Shen，S.，冯杰，Sim，T.：具有深度多视图表示学习的鲁棒人脸识别In：ACMMM（2016）12. 刘伟，Wen，Y.，于志，Li，M.，Raj，B.，Song，L.：Sphereface：用于人脸识别的深度超球面嵌入。在：CVPR（2017）13. Nech，A.，Kemelmacher-Shlizerman，I.：百万级人脸识别的公平竞争环境。在：CVPR（2017）14. Ng，H.W.，Winkler，S.：一种数据驱动的清理大型人脸数据集的方法在：ICIP（2014）15. 帕克希O.M. Vedaldi，A.，Zisserman，A.，等：深度人脸识别。在：BMVC（2015）16. Phillips，P.

下载后可阅读完整内容，剩余1页未读，立即下载