没有合适的资源?快使用搜索试试~ 我知道了~
7044百万级人脸识别的公平竞争环境Aaron Nech Ira Kemelmacher-Shlizerman Paul G.艾伦计算机科学与工程华盛顿大学{necha,kemelmi}@ cs.washington.edu摘要人脸识别具有解决问题的感知,但是当在百万级测试时,不同算法的准确性会出现显着变化[11]。算法有很大不同吗?获取良好/大量的培训数据是他们的秘密武器吗?人脸识别应该在哪里改进?为了解决这些问题,我们创建了一个基准测试MF2,它要求所有算法都在相同的数据上进行训练,并在百万级进行测试。MF2是一个公共的大型集合,包含672K个身份和470万张照片,旨在为大规模人脸识别提供公平的竞争环 境 。 我 们 将 我 们 的 结 果 与 其 他 两 个 大 型 基 准MegaFace Chal- lenge和MS-Celebs-1 M的结果进行了一些关键发现:1)在MF 2上训练的算法能够实现最先进的技术水平,并且与在大规模私有集上训练的算法具有可比性,2)一些算法在MF 2上训练后表现出色,3)如MegaFace中,老化不变性的准确性较低,识别出在未来测试中可能在身份或算法调整中需要更大的年龄变化11. 介绍你常听人这样说,发光的不一定都是金子。威廉·莎士比亚根据Google Scholar的数据,仅在2016年,就发表了938种人脸识别算法,申请了34项专利考虑到如此巨大的资源,假设1Benchmark经常更新,可在megaface.cs.washington.edu上查阅。人脸识别中的两个突出问题是验证和识别。验证是验证两幅人脸图像是否为同一个人的问题,而识别是确定人脸图像的身份的问题。公共基准有助于对算法进行排名,实际上是在较小的测试集上,例如,Labeled Faces in the Wild(LFW)[9]、YouTube FacesDatabase(YFD)[30]和IJB-A[14],计算机在验证和识别方面都达到了惊人的准确性然而,最近的大规模基准[11,8]一致表明,这些问题在全球范围内没有得到解决(数百万,甚至数十亿的身份需要区分)。此外,算法之间的准确性存在显着差异。不同算法之间的准确性差异很大,这提出了一个有趣的问题。真的是某些特定的算法优于其他算法,或者获得大/好的训练数据是成功的关键吗这正是本文的研究目的。其思想如下:让我们创建一个每个人都可以使用训练集(公开可用),要求组只在数据上训练并进行规模评估(不像[11,8],它允许在任何数据上训练,包括私有集)。这可能会创造公平的竞争环境,并对实际算法而不是它们使用的数据进行基准测试。然而,创建一个大型的公共培训集是一个挑战。ImageNet竞赛[24]表明,神经网络[15]方法占主导地位,并且随着1)开发更深的网络以及2)提供更多的数据来准确调整网络权重,它们往往表现得更好因此,重要的是,基准测试要为算法的成功提供足够大的数据。私人公司可以访问数百万个标记的身份,但这些身份不能公开。[21,8,31]是最大的公共集合之一(表1)。一个有趣的方向是将这些组合成一个单一的训练集。相反,我们选择从Flickr照片创建一个新的集合,因为:1)大多数公共集(训练和测试)是名人的照片;为了消除数据集的偏见,我们选择使用大多数非名人进行训练,2) 基于FaceNet的成功[25],在[11]中,我们的目标是大量的身份(以跨越人类的多样性,7045表1.可用于训练的代表性人脸数据集†表示私有数据集。人群体);在MF 2之前的最大身份数为100 K,而MF 2具有672 K。考虑到这些因素,我们在本文中讨论了几个关键方面:1. 一 种 自 动 672K 身 份 标 注 算 法 。 相 比 之 下 ,ImageNet 和 Google Open Images[1]集 包含 10K个类。小数据集的人工注释更准确,然而,扩展到数百万张照片是具有挑战性的[19]。使用紧凑的嵌入,我们能够聚类数百万的脸提供了基于数据结构的假设。2. 在MF2上培训的基线和培训期间处理672K类的不同3. 与MF 2进行基准测试,并提供与MegaFace和MS-Celebs-1 M Chal-Choices对比的见解。2. 相关工作我们专注于训练数据集和基准,大规模数据的标记和大规模训练。2.1. 数据和基准表1总结了用于训练的代表性数据集。值得注意的是,VGG-Face,CASIA-Webface[32], UMD- Faces[2]或MS-celebs-1 M[8]通常用于训练(因为它们比其他人更大),除非可以访问私人数据。私人设备,例如,谷歌、脸书或政府数据库不能公开.私人数据可以获得多达800万个身份和2亿多张照片[25],而最大的公共数据集有10万个身份和1000万张照片[8]。公共集大多是从名人照片创建的,因此标签问题涉及收集许多名人姓名,收集与这些标签相关的照片,并利用自动和手动数据验证和清理的组合以生成最终数据集。由于标签是已知的,精心策划的网站,如IMDB,知识图谱,如谷歌自由基,和搜索引擎的杠杆作用。通过只对名人照片进行训练,我们可能会对特定的照片设置产生偏见。例如,可以合理地假设许多名人的照片是用高质量的专业相机拍摄的当对非名人的照片进行测试时,带有这种偏见的算法可能会表现大规模人脸识别的最新基准是MegaFace [11]和MS-celebs-1 M [8]。两者都允许对任何数据进行训练。有趣的是,两个基准的结果是一致的,即,最高分约为75%,不同算法之间存在显著差异。在本文中,我们使用固定的训练集(不允许外部数据)进行实验。2.2. 大规模贴标手动标记百万级数据是具有挑战性的,虽然对于算法的开发很有用,但几乎没有方法可以在控制成本的同时做到这一点像MobileEye,Tesla,Facebook这样的公司,雇佣了成千上万的人工标签人员,花费了数百万美元.然而,人们会犯错误[10,5],并与人脸识别任务混淆,导致需要重新测试和验证,进一步增加成本。因此,我们期待自动化或半自动化的方法来提高收集数据的纯度有几种方法可以自动清理数据。[21]使用近似重复删除来提高数据质量。[16]使用年龄和性别一致性测量。[3]和[33]包括来自描述名人名字的新闻标题的文本。[20]提出数据清理作为一个二次规划问题,约束条件强制执行以下假设:噪声由收集的数据中相对较小的部分组成,性别均匀性,身份由同一个人的大部分组成,并且一张照片中不能有两个相同的人。所有这些方法都被证明是重要的数据清洗给定粗糙的初始标签,例如,名人的名字在我们的例子中,没有给出粗略的标签。我们确实观察到人脸识别器在小规模上表现良好,并利用嵌入[29]来提供相似性度量,以进一步用于标记。2.3. 大规模培训大规模训练优化考虑每个类的大量样本,其中, 随机梯度下降,是有价值的[4]。[18]建议使用特定领域的技术,如表情改变或姿势扭曲,增加每个身份的样本数量在这种情况下,可以更有效地对样本进行参数化和训练。数据集名人?身份大小LFW是的5K13K面部磨砂是的530106KYFD是的1.5K3.4K视频CelebFaces是的10K202KUMDFaces是的8.5K367KCASIA-WebFace是的10K500KMS-Celeb-1M是的100K10MVGG-face是的2.6K2.5M我们没有672K4.7MFacebook†没有4K4.4M谷歌†没有8M200M+Adience没有2.2K26K7046一个补充问题是如何在类的数量(而不是每个类中的样本)很大的情况下扩展和优化训练。完全连接的softmax网络[21],一次只在2.6K类(标识)上进行训练直接优化嵌入,而不是一次预测所有类,显示出更好的扩展性[25]。MS-celebs-1 M[8]利用较小的预训练网络作为较大数据的起点,即,引导一个在2.6K身份上训练的网络,以进一步在10K+身份上训练。3. MF2的数据收集为了创建一个包含数十万个身份的数据集,我们利用了Flickr发布的大量知识共享照片[26]。这个集合包含大约1亿张照片和超过55万个Flickr帐户。并非数据集中的所有照片都包含人脸。在MegaFace挑战[11]和[6]之后,我们筛选了这个庞大的集合,并提取了使用DLIB的人脸检测器检测到的人脸[12]。为了优化数百万张人脸的硬盘空间,我们只保存了裁剪加上2%的裁剪区域以供进一步处理。在收集和清理最终的数据集后,我们以更高的裁剪率(70%)重新下载最终的面。由于Flickr数据是嘈杂的,并且具有稀疏的身份(每个身份有许多单个照片的示例,而我们的目标是每个身份有多张照片),我们处理了完整的100MFlickr集以最大化身份的数量。因此,我们采用了一个分布式队列系统RabbitMQ[22],将人脸检测工作分布在我们本地保存的60个计算节点上。第二个收集过程聚集在一台机器上。为了优化Flickr帐户,使其更有可能具有相同身份的多张面孔,我们忽略了所有少于30张照片的帐户。我们总共从130,154个不同的Flickr账户中获得了4000万张未标记的人脸(代表了所有拥有超过30张人脸照片的账户照片的作物由于照片是用不同的相机设置拍摄的,照片的大小范围从低分辨率(90x90px)到高分辨率(800x800+px)。收集和汇总照片的分布式过程总共花了15天。4. 自动身份标记我们的下一个任务是将未标记的面孔聚类为身份。虽然脸是无标签的,但我们有各自的Flickr ID。因此,关键的想法是,虽然人脸识别在大规模上没有解决,但它在小规模上工作得很好,例如,将少量的人聚集在一个ID中。例如[21]在LFW基准测试中获得了超过99%的准确率。因此,我们首先在每个Flickr ID上运行人脸识别器。每个Flickr ID平均有307张照片。帐户.然后,我们开发了一个聚类算法,可以区分每个ID中的少量身份。我们的人脸识别器利用预先训练的VGG-Face模型[21],并通过在VGG-Face发布的数据集上训练三元组投影层来进一步增强性能。一个1024维的三元组嵌入是用来提取欧几里得距离可比功能超过我们的整个集合的40M的脸。4.1. 集群考虑和假设与名人数据集的构建不同,Flickr数据中的个人身份是未知的,因此我们必须直接对大量未标记的数据集进行聚类,而不是基于搜索词来增长前向聚类将所有4000万张面孔聚集在同一空间的任务然而,在本地Flickr帐户范围内,人脸识别可以预期使用当前可用的算法表现良好,因此我们可以通过聚合一系列较小的聚类问题并并行运行这些问题来实现强大的结果。我们还作出集群大小的假设,以减轻噪音。特别是,我们做出以下声明:1. 无法在Flickr帐户中找到身份。2. 在一张照片中不能找到一次以上的身份。3. 对于整数Z,标识必须具有> Z张照片。在Flickr帐户中无法找到身份的假设是一个引导我们的数据集相对于使用的算法。 当前可用的算法直接在整个未标记数据语料库上使用聚类方法在百万级上不能很好地执行当尝试时,我们检查的示例集群只是不正确的,因为问题太大。相反,我们假设将聚类的规模减少到数百个,其中三重调优的VGG-Face特征在分离方面表现出色。通过这种方式,我们从Flickr数据本身的结构中获得信息。此外,这允许我们并行运行聚类算法,大大减少了计算时间。这些假设并不适用于所有情况。例如,可以在Flickr数据中找到名人,或者可以形成包含一个身份的多个然而,在实践中,我们发现这些假设是成立的。在这种情况下,也不知道有多少集群(身份)存在于一个特定的Flickr帐户。因此,我们限制自己的聚类算法,可以发现集群的数量。 我们已经尝试了许多方法。迭代聚类算法,如cop-kmeans和kmeans与肘部检测[28,17,27],在超球体嵌入中获得了较差的结果。DB-SCAN[7]是一种简单的距离阈值算法,对特定的距离参数7047特别是Flickr ID,但是由于嵌入距离变化,在多个Flickr ID之间的通用性很差嵌入中的面的布局(以及因此的相对距离)随ID而变化。例如,对于某些ID,一组面孔可能表现出0.90的平均距离,而相同身份的面孔平均相距0.14,这是完美的分离,但这些特定的数字在Flickr帐户中没有观察到,因此很难概括。使用严格的DBSCAN[7]或绝对距离阈值也无法对我们的假设进行编码,例如同一身份的多个实例不能出现在同一张照片中。4.2. 我们的聚类算法因此,我们创建了自己的修改后的聚类算法,利用一个简单的相对距离阈值模型,但也结合了我们的假设。该算法可以分解为以下步骤,将嵌入视为面的图,其中边表示共同的身份:1. Flickr帐户中的面图初始化时,面之间没有边。2. 构造无链接约束矩阵:N×N二元矩阵,其中N是Flickr帐户。它填充了我们假设的结果,即,在i,j处的条目表示面i和j可以与表示它们是相同标识的边链接。3. 计 算D , 其中D 是Flickr 帐 户中 的平 均成 对eu-clidean距离(跨所有面孔对),使用特征嵌入。4. 对于每一对面i,j,我们如下对参数β进行阈值设置:如果它们在无链接矩阵中的条目为假,并且它们的距离小于βD,则在面之间放置边缘。5. 在这个新图中获得连通分量C6. 对于每个连通分支ci∈C,如果连通分支的大小小于Z,则将其从图中删除,因为它太小而不能成为单位元。在我们的工作中,我们选择一个最小的组件大小Z=3。7. 将剩余的每个连接元件保存为簇(标识)。图1. 包含“垃圾”图像(低分辨率、非人脸)的噪声群集示例。这些倾向于出现在集群在一起,因为嵌入将它们放置在靠近。然而,这样一个簇的平均两两距离远高于一个有效的恒等式.创建了两个降噪机制,将LFW和FGNET设备的精度提高到98%纯度。我们确定了两种在初始聚类算法中幸存下来的噪声类型:• 垃圾堆。嵌入倾向于放置低分辨率的面和非面(例如,”(《礼记》卷100)“近者,近者也,近者也。一个身份。图1中的示例。• 否则纯簇中的噪声。这些杂质来自于嵌入错误地将面部放置在其他身份的阈值距离不纯簇检测:给定一个聚类,我们估计聚类中人脸之间的平均成对距离。垃圾簇包含比常规恒等式高得多的平均成对距离。这是由于相似性嵌入没有将噪声图像放置得比合法身份更接近。此外,我们发现包含少量噪声的纯聚类也具有显著更高的平均成对距离,因为平均成对距离对离群值没有抵抗力。因此,我们使用这个度量(平均成对距离)来标记聚类为不纯,如果它们偏离所有聚类的中值度量的某个参数(因为中值更具抵抗力)。为 了 计 算 离 群 值 , 我 们 使 用 中 位 数 绝 对 偏 差(MAD),与标准差相比,这是一个更强大的统计量 。特 别地 ,MAD 被 定义 为MAD (X)= 中 位数(X′),其中X′是与中位数的绝对偏差的向量:x′= |x i− Median(X)|,xi∈ X,x′∈ X′.(一)我我通过验证自动选择参数β与地面真相(在独立的标记集LFW和FGNET),更多细节在第二节。 4.44.3. 聚类优化:我们验证了我们的聚类方法与地面真相(独立标记集LFW和FGNET)。上述算法产生超过85%的纯度,即,正确的身份。然而,在聚类嵌入中有两个关键的观察和模式。根据我们进一步掌握的情况,因此,一个聚类ci∈C,平均成对距离di∈D被标记为不纯,如果:|> α(2)|> α(2)MAD(D)内簇纯化:一旦聚类被检测为不纯,则可能是具有少量噪声的正常聚类。我们通过搜索对成对距离平均值贡献最大的面孔来净化它也就是说,7048图2. 左:使用距离优化,当离群值阈值α和距离阈值β变化时,聚类纯度。中心:使用距离优化,保留为离群值阈值α和距离阈值β的照片的比例不同。右:纯度作为干扰项计数增加,有和没有后聚类优化,以检测不纯的集群和执行内部集群纯化。正如预期的那样,使用基于距离的纯化允许在噪声增加时保持聚类纯度。我们为一个特定的簇ck构造一个距离矩阵dk。dk中的i,j项是面i和j的特征向量之间的L2。矩阵dk然后被逐行(或等效地逐列)求和,使得我们获得向量v,该向量v对于每个面部具有一个分数,该分数测量它贡献了多少距离。我们再次应用MAD,并制定一个类似于公式2的阈值,以找到离群值并将其删除。为了简单起见,我们对不纯簇检测和簇内纯化都使用了相同的阈值α|> α。|> α.(三)MAD(v)这些离群值从聚类中被排除,然后一旦被移除,我们就评估等式2以确定是否仍然存在任何不纯的聚类。如果随后的检查失败,我们将拒绝整个集群。 与β类似,参数α是使用地面实况数据集FGNET和LFW自动估计的,参见第12节。 4.44.4. 参数调整和验证为了验证我们的聚类方法并调整α,β参数,我们使用FG-Net和LFW中的标记人脸构建了一系列假聚类。我们还从我们收集的100万张Megaface照片中随机抽取样本,用于人工噪声。我们以0.5的步长在线性尺度上对参数(α,β)进行采样,对于每个样本对,我们在100个随机生成的标识上运行聚类算法。我们测量了1)聚类纯度和2)保留的面的分数。我们对每个参数设置的这些测量值取平均值。结果是一个二维纯度表面相对于我们的两个聚类参数,和一个类似的表面的分数保持。图示见图2。然后我们选择β=5。5,α=1。5,因为这对在我们的实验中给出了最大纯度(98%)和最大面部保留率(35%)。此外,我们测试了对噪声的不变性,即,测试不纯簇检测和簇内纯化是否图3. 一组FaceScrub杂质揭示了我们的离群值检测。一些是由于对齐伪影,低分辨率,而另一些是不正确的身份。通过增加MegaFace诋毁者与合法身份的比率,对噪声具有鲁棒性。为此,我们增加了噪声与标记图像的比率,并测量了具有和不具有聚类距离优化的准确性。我们发现,使用后聚类优化有利地影响纯度(从90%的下降作为干扰物被添加,到超过98%的纯度几乎没有下降作为干扰物被添加)。图2的右图显示了随着干扰物的增加,最终集合中纯度的降低。最后,我们测试了我们的自动纯化方法如何推广到其 他 数 据 集 。 具 体 来 说 , 我 们 运 行 聚 类 来 检 测FaceScrub[20]中的离群值,方法是对FaceScrub中的每个身份进行优化,就好像它是一个聚类一样。尽管FaceScrub被标记,但已知它包含噪音。我们的聚类算法能够自动检测噪声聚类,例如,图3. 这些是来自不同名人集群的示例人脸,这些名人集群被发现是集群其余部分的嵌入式特征空间中的离群值共有186张图像被发现是离群在这个实验中没有使用干扰物。5. 最终数据集统计总体而言,一旦聚类和优化,MF2包含4,753,320张面孔和672,057个身份。 平均而言,每个身份7.07张照片,最少3张照片,每个身份的TOS,最多2469个。示例标识如图4所示。 我们扩大了紧密的作物-7049图4.在我们的数据集(MF2)的松散裁剪版本中随机选择的身份78799744@N00的示例这个聚类没有被标记为不纯,因此进入了最终的数据集。请注意,身份是在许多不同的照明,表情和相机条件下发现的。通过重新下载聚集的面孔并保存一个松散的裁剪版本。紧密裁剪的数据集需要159GB的空间,而松散裁剪的数据集被分成14个文件,每个文件需要65GB,总共需要910GB。为了获得年龄和性别的统计数据,我们在数据集的松散裁剪版本上运行了WIKI-IMDB[23]模型进行年龄和性别检测结果发现,女性占41.1%,男性占58.8%。身份内的性别差异中位数为0。平均年龄范围为16.1岁,中位数为12岁。分布情况见补充材料。这个算法的一个代价是我们必须噪声和数据量与参数之间的平衡。VGG-Face工作[21]已经注意到,如果在更大,更不纯的数据集和更小的手工清理数据集之间进行选择,则更大的数据集实际上可以提供更好的性能。选择从初始未标记语料库中删除大多数人脸的一个重要原因是检测错误。我们发现许多图像实际上是非人脸的(见图1)。还有很多身份,只出现过一次,对学习算法的用处不大。通过对50张随机抛出的脸进行视觉检查,发现14张是非人脸,36张在各自的Flickr帐户中没有被发现超过在对聚类算法的完整审计中,抛出面部的原因如下:69%低于3个身份阈值<4%作为杂质从簇中除去的面27%作为簇的一部分的面即使在纯化6. MF2基准参与者需要在MF2数据集上训练他们的算法,并在MegaFace挑战[11]提出的高达1M的分心探测方案中进行测试。这有效在算法之间建立公平的竞争环境,希望显示哪些算法可以在相同的数据量下表现最好。详细信息:1. 参与者下载670K身份,并开始在此数据上适当地训练他们的算法。我们提供了紧凑的裁剪和松散的裁剪版本,以及完整图像的下载链接,面部检测位置和基准点。2. 参与者在三个不同的数据集上从他们的训练算法中提取欧几里得可比特征:一个新的1 M不相交的Flickr分心人脸集(包含挑战训练集中找不到的人脸后两者用作探针(因为身份已知)。3. 然后,我们评估MegaFace Challenge所描述的每组特征:我们预测几个指标(例如,秩1和秩10识别探头图像,以及验证)在不同水平的干扰,以评估算法的性能在百万级。为了帮助确保没有测试训练重叠,我们完全使用Flickr帐户来生成我们的1M干扰项列表,这些帐户在我们的最终聚类集中没有任何样本。,并使用了少量的探针图像,这些图像要么是名人(FaceScrub),要么是来自私人研究(FG-Net)。如果一个测试标识出现在Flickr数据中,我们训练标识的稀疏性(超过672K)将有助于减轻过拟合。7. 基线训练算法为了提供初始结果,使用4个VGG网络作为基线。在VGG-Face[21]中,训练已经完成了每个身份的类预测(softmax loss)。这等价于学习图像x的函数f(x),它将图像x映射到特征l,并且是一个非线性函数IRW×H→IRL。特征f(x)是刚好在softmax预测层之前的完全连接的激活L维特征向量可以与欧氏距离或余弦相似性进行比较,但[21]表明可以通过额外学习这些特征的三元组映射来实现更强的结果,即,γ(l)来自特征表示表示l到t,它是一个映射IRL→IRT,其中不<< L和是L2归一化为单位超球面。我们遵循原始论文中的指导方针,L=1024作为我们这个实验的三重态维度与[8]在10万个身份上的经验类似,我们无法输出所有670K身份的预测,因为VGG网络包含完全连接的softmax输出层。因此,我们训练了以下四个模型:模型A:通过softmax loss 对随机20,000个身份(140K照片)进行训练。模型输出的特征是后面的4096维特征激活7050FaceScrub FG-Net方法名称秩-1十阶秩-1十阶GRCC75.772%92.666%21.039%35.781%NEC62.122%78.658%29.294%43.233%团队200958.933%78.724%38.208%51.714%3DiVi57.045%77.955%35.790%49.765%VeraID44.191%61.827%16.086%28.572%TSEC28.716%43.030%11.566%22.853%基线-模型C5.357%15.810%5.873%16.772%基线-模型D3.954%14.326%2.770%12.694%基线-模型A2.130%11.699%0.334%9.428%基线-模型B1.846%11.313%0.189%9.230%表2. 参与方法的Rank-1和Rank-10识别率(在MF 2数据集上训练)。报告了两个探针组的结果:FaceScrub(名人)和FGNET(年龄不变性)与1M分心。图5. MF 2:使用FaceScrub(左)和FG-Net(右)作为探针图像,在高达1 M的干扰(以10的因子变化)下的1级识别率。为了进行比较,请参见sup中MegaFace挑战的相应图。材料20K softmax输出层。模型训练了100个epoch。在我们的实验中,我们只能在48小时内对多达20,000个身份进行收敛训练。有了更多的资源(最明显的是GPU内存),这种方法可以进一步扩展。模型B:在所有670 k标识上的三重调谐模型A-通过三重态损失联系起来。一个额外的三元层被放置在来自冻结模型B的4096维特征层的前面。该模型输出1024维三重特征γ(γ(x))。模型在24小时内进行了20K次迭代训练(此时训练收敛)。模型C:训练一个旋转softmax模型,其中有2,600个身份,每20个历元随机采样。在每次旋转之后,输出层被随机地重新初始化和微调(例如,所有其它层不被训练)。对于剩余的15个epoch,整个模型都被训练。模型输出fea-tures(x)是旋转softmax输出后的4096维特征激活。模型在72小时的过程中训练了模型D:应用与模型B相同的三重调优策略,但使用冻结的训练模型C。我们通过随机向左翻转,右,并在非对齐的紧密裁剪照片(96x96)上训练,我们使用0.001的学习率和Adam作为我们的优化算法[13]。三重调谐使用0.25的学习率。从原始的40M个面部计算出1M个不相交的分散面部集合,并将其用作新的MegaFace分散集合。每个模型都为这一组和两个探针组提取特征:FaceScrub和FG-Net。在不同干扰下的秩1识别率如图5所示。虽然这些基线并没有考虑到整个数据集,但它们提供了一个有用的比较指标。所有模型都在4个NVIDIA Titan X GPU上训练。8. 竞赛成绩表2、图5和图6中列出了参与MF2基准的组的结果。我们将在本节讨论一些有趣的结果。最有趣的结果是,在允许任何私人训练集的情况下,参赛者的得分超过了MegaFace和MS-Celebs-1 M在MF2上得分最高的团队GRCC获得了75.771%的等级1准确度,FaceScrub探针组中有1M干扰项通过比较-7051图6. 使用FaceScrub(左)和FG-Net(右)作为探头图像,使用1 M牵引器的MF 2验证性能率。为了进行比较,请参见sup中MegaFace挑战的相应图。材料在MegaFace中得分最高的球队Vocord得分75.127% 也 在 FaceScrub 与 他 们 的 私 人 培 训 集 。 在FGNET探针集(年龄不变测试)算法中,RITHM的性能比允许私有集时稍差但更普遍的是,在这两个挑战中,算法的表现都不如FaceScrub。由于在MF2上,我们不能声称数据集偏差(在名人身上训练并在名人身上测试),这个问题可能更深层次。数据可能没有提供足够的年龄差异尽管数据集有不同年龄的人(由补充材料中的年龄分布显示),但他们的个人照片集可能没有跨越足够的年龄特征,无法提供私人数据集可获得的准确识别这可能是未来创建训练集的一个点或者,算法可能需要考虑年龄作为额外的训练特征。在MF 1 MF 2 MF 1MF 2上训练的FaceScrub FG-Net3DIVI 33.705% 57.045% 15.780% 35.790%SphereFace 75.766% 58.933% 47.582% 38.208%GRCCV 77.147% 75.772% 24.783% 21.039%表3. 同时参与MegaFace和MF 2的方法的Rank-1识别率:虽然在最初的MegaFace基准测试中,这些算法可能是在不同的数据集上训练的,但MF 2允许对算法本身进行更公平的比较。一些小组同时参加了MegaFace(MF1)和MF2,并且在使用MF2训练数据时表现出色(见表3,其中比较了参加两个基准测试的几个小组)。例如,3DIVI组在FGNET上的表现从15%提高这是一个显著的增长,表明一旦公众可以获得良好的训练数据,就可以更好地评估出租。目前的冠军在比赛中取得了约75%的MF2和约在MegaFace挑战中有74%[11],这表明他们的算法特别好,并且对所使用的训练数据类型不变。观察图5和图6中作为干扰器集大小的函数的结果,我们看到,正如预期的那样,所有算法在10个干扰器的情况下都表现得很好(与LFW基准相当),并且性能随着噪声的增加而下降(高达1M)。这类似于MegaFace基准测试,这意味着MF2与用于训练的其他专用集一样好。有趣的是,所有三个最近的大规模基准都报告了约75%的最大准确度,并且没有一种最先进的方法能够超越该准确度。9. 总结神经网络的发展,已经清楚地表明,访问数据是重要的性能和识别的进步。小规模的基准和挑战已经饱和。许多强大的人脸识别结果已经取得了使用技术,如softmax损失(类预测)作为一个训练机制,在一个完全连接的神经网络层;然而,这种方法对于数十万个标签(标识)的缩放性很差。在本文中,我们提出了一个新的宽脸数据集,具有超过0.5M的身份。我们提供了关于如何标记和构建这样的数据集的见解,并发布了一个基准,以在算法之间建立公平的竞争环境并消 除 偏 见 。 该 竞 赛 的 初 步 结 果 与 MegaFace 和 MS-Celebs-1 M(允许私人数据集)的结果相当,并讨论了需要更多考虑致谢该项目由三星,谷歌,NSF/英特尔#1538613资助。我们感谢参与竞赛的研究人员和公司。特别感谢大卫波特帮助运行大量的子任务和维护MegaFace网页。7052引用[1] Google Open Images. https:research.googleblog.com/2016/09/introducing-open-images-picture.html. 查阅时间:2016-10-14。[2] A.班萨尔A。南杜里角卡斯蒂略河Ranjan和R.切-拉帕。Umdfaces:用于训练深度网络的带注释的人脸数据集arXiv预印本arXiv:1611.01484,2016。[3] T. L. Berg,A. C. Berg,J. Edwards,M.迈尔河怀特,Y.-W. Teh,E. Learned-Miller和D. A.福赛斯新闻里的名字和面孔。计算机视觉和模式识别,2004年。CVPR2004。2004年IEEE计算机协会会议论文集,第2卷,第II-848页。IEEE,2004年。[4] L. 博 图 大 规 模 机 器 学 习 与 随 机 梯 度 下 降 。 在COMPSTAT’2010的Proceedings施普林格,2010年。[5] G. Demartini ,D. E. Di f allah和P. Cudr e'-Mauroux。Zen-Crowd:利用概率推理和众包技术进行大规模实体链接。第21届万维网国际会议论文集,第469-478页。ACM,2012年。[6] E.艾丁格河Enbar和T.哈斯纳未过滤面孔的年龄和性别估 计 。 IEEE Transactions on InformationForensics andSecurity,9(12):2170[7] M.埃斯特,H. P. Kriegel,J. Sander和X.徐一种基于密度的含噪声大型空间数据库聚类发现算法。在Kdd,第96卷,第226-231页[8] Y.郭湖,加-地 Zhang, Y. Hu,X.他和J.高。Ms-celeb-1m:在现实世界中识别一百万名人的挑战。在2016年的IT电子成像国际研讨会[9] G. B. Huang,M. Ramesh,T. Berg和E.学习米勒。在野外贴上标签的脸:研究无约束环境下人脸识别的数据库。技术报告07-49,马萨诸塞大学,阿默斯特,2007年10月。[10] C. Huff和D.丁利 这些人是谁评估MTURK调查受访者的人口特征和政治偏好。研究政治学,2(3):2053168015604648,2015。[11] I. Kemelmacher-Shlizerman,S. M. Seitz,D. 米勒和E.布拉萨megeface基准:100万张人脸用于大规模识别。在IEEE计算机视觉和模式识别会议集,2016。[12] D. E. 王 Dlib-ml : 一 个 机 器 学 习 工 具 包 。 Journal ofMachine Learning Research,10:1755[13] D. Kingma和J. BA. Adam:一种随机优化方法。arXiv预印本arXiv:1412.6980,2014。[14] B. F. 克拉尔湾克莱因,E.Taborsky,A.Blanton,J.切尼K. Allen,P. Grother,A.是的,M。Burge和A. K.贾恩。推动无约束人脸检测和识别的前沿:Iarpa janus基准测试。在2015年IEEE计算机视觉和模式识别会议(CVPR)上,第1931-1939页IEEE,2015年。[15] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分类与深度卷积神经网络。在神经信息处理系统的进展,第1097[16] G. Levi和T.哈斯纳使用卷积神经网络进行年龄和性别分类。在IEEE计算机视觉和模式识别研讨会会议集,第34-42页[17] J. MacQueen等人多元观测值分类与分析的若干方法第五届伯克利数学统计与概率研讨会论文集,第1卷,第281-297页。美国加利福尼亚州奥克兰一九六七年[18] I. Masi,A.T. Tran,J.T. Leksut,T.Hassner和G.梅迪奥尼我们真的需要收集数百万张人脸来进行有效的人脸识别吗?arXiv预印本arXiv:1603.07057,2016年。[19] B. Mozafari,P.Sarkar,M.Franklin,M.Jordan和S.疯狂的。将众包扩展到非常大的数据集:主动学习的案例。VLDB捐赠的会议记录,8(2):125[20] H.- W. Ng和S.温克勒。数据驱动的方法来清理大型人脸数据集。在图像处理(ICIP)中,2014 IEEE国际会议,第343-347页。IEEE,2014。[21] O. M. Parkhi、黑腹拟步行虫A. Vedaldi和A.齐瑟曼。深度人脸识别。在英国机器视觉会议,第1卷,第6页,2015年。[22] 关键。 RabbitMQ -消息传递,只是工作。https://www.rabbitmq.com/网站。2016-06-02.[23] R.罗特河Timofte和L. V.Gool 从没有面部标志的单一图像 中 对 真 实 和 表 观 年 龄 的 深 度 预 期 。 InternationalJournal of Computer Vision(IJCV),2016年7月。[24]O. 鲁萨科夫斯基Deng,H.Su,J.Krause,S.萨蒂希S.妈Z。Huang,黄背天蛾A. 卡帕西A.科斯拉,M。伯恩斯坦A. C. Berg和L.飞飞ImageNet大规模视觉识别挑战。国际计算机视觉杂志(IJCV),115(3):211[25] F. Schroff,D. Kalenichenko和J.菲尔宾Facenet:用于人脸识别和聚类的统一嵌入。CoRR,abs/1503.03832,2015。[26] B. Thomee,D.A. Shamma,G.弗里德兰湾Elizalde,K.倪D.波兰,D。Borth和L.- J. Li。Yfcc100m:多媒体研究中的新数据。Communications of the ACM,59(2):64[27] R. L.桑代克谁属于这个家庭?心理学,18:267[28] K. Wagsta f f,C. Cardie ,S. Rogers ,S. Schr o¨ dl,etal. 具有背景知识的约束k均值聚类。ICML,第1卷,第577-584页,2001年[29] D. Wang,C. Otto和A. K.贾恩。大规模人脸搜索:8000万画廊arXiv预印本arXiv:1507.07242,2015年。[30] L. 沃尔夫,T.哈斯纳和我。毛兹背景相似性匹配的非约束 视 频 中 的 人 脸 识 别 在 计 算 机 视 觉 和 模 式 识 别(CVPR)中,2011 IEEE会议,第529-534页IEEE,2
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 平尾装配工作平台运输支撑系统设计与应用
- MAX-MIN Ant System:用MATLAB解决旅行商问题
- Flutter状态管理新秀:sealed_flutter_bloc包整合seal_unions
- Pong²开源游戏:双人对战图形化的经典竞技体验
- jQuery spriteAnimator插件:创建精灵动画的利器
- 广播媒体对象传输方法与设备的技术分析
- MATLAB HDF5数据提取工具:深层结构化数据处理
- 适用于arm64的Valgrind交叉编译包发布
- 基于canvas和Java后端的小程序“飞翔的小鸟”完整示例
- 全面升级STM32F7 Discovery LCD BSP驱动程序
- React Router v4 入门教程与示例代码解析
- 下载OpenCV各版本安装包,全面覆盖2.4至4.5
- 手写笔画分割技术的新突破:智能分割方法与装置
- 基于Koplowitz & Bruckstein算法的MATLAB周长估计方法
- Modbus4j-3.0.3版本免费下载指南
- PoqetPresenter:Sharp Zaurus上的开源OpenOffice演示查看器
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功