使人脸识别算法更易于解释的方法

7 浏览量更新于2023-10-13 收藏 2.2MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

使人脸识别算法更易于解释的Brandon RichardWebster1[0000−0003−4278−1282]，So YonKwon2，Christopher Clarizio1，Samuel E. Anthony2，3，andWalter J. 谢雷尔11University of Notre Dame，Notre Dame，IN，46556，美国2Perceptive Automata，Inc.3哈佛大学，剑桥，MA 02138，美国抽象。对面部感兴趣的科学领域已经开发了它们自己的一组概念和过程，用于理解目标模型系统（无论是人还是算法）如何在不同条件下感知面部在计算机视觉中，这在很大程度上是以识别任务的数据集评估的形式进行的，其中使用汇总统计来衡量进度。虽然总体性能不断提高，但很难理解失败的个别原因，因为并不总是清楚为什么特定的人脸无法识别，或者为什么冒名顶替者被算法识别。重要的是，其他研究视觉的领域已经通过使用视觉心理物理学来解决这个问题：在模型系统中对刺激的控制操作和对它们引起的反应的仔细研究。在本文中，我们认为，视觉心理物理学是一个可行的方法，使人脸识别算法更易于解释。开发了一套全面的程序来评估人脸识别算法的行为，然后将其部署在最先进的卷积神经网络和更基本但仍广泛使用的浅层和手工制作的基于特征的方法上。关键词：人脸识别，生物识别，可解释人工智能，视觉心理物理学，生物识别动物园1介绍在大张旗鼓的宣传下，苹果在2017年秋季推出了iPhone X的Face ID产品，这本应是一场媒体高度照本宣科的活动。Face ID被吹捧为消费者可用的最复杂的面部识别功能之一值得注意的是，在舞台演示期间，Face ID失败了[1]。立即的猜测，特别是那些熟悉生物识别技术的人，集中在假阴性的可能性上，其中注册用户未能被识别。毕竟，舞台上非常黑暗，演讲者的外表比平时更精致-所有变量都可以想象不在基于深度学习的模型2RichardWebster等了图1.一、虚拟数据库系统[3-5]在传统的数据集评估（a）无法实现的情况下，虚拟数据库系统可以在一个算法中使用。我们提出的方法引入了心理生理测试的元素和生物计量动物园模型[6]之间的理论映射，其中，相对于所有其他的（b），pherrdfunctirsi s isolates coperiver s（“s h e p”）。从完美匹配的场景中，使用所选择的图像变换来增加绵羊的图像的扰动，并且绘制项目响应曲线然后可以使用结果来解释为什么匹配对某些输入图像有效，而对其他图像无效（d）。面部识别背后的技术苹果方面发布了一份声明，声称是在演示之前进行了太多冒名顶替的身份验证尝试导致了这个问题[2]。当然，这并没有让怀疑论者感到满意这一争议凸显了计算机视觉社区目前面临的一个关键困难：当研究对象是一个黑盒子时，问题的真正根源是什么？虽然苹果可能可以访问其手机的内部，但普通用户无法访问。但是，在直接访问某个算法时，我们无法鉴于人脸识别是计算机视觉中最常见的面向用户的应用之一，从负责操作此类系统的研究人员和管理员的角度来看，诊断问题并验证关于算法设计和性能的声明的能力这就是为什么我们希望AI的人脸识别是可以解释的。在本文中，我们将研究一种新的方法，用于使用任何以图像为输入的人脸识别算法来实现这一点但首先，让我们考虑一下我们目前使用评估过程来试图理解其输出的方式。人脸识别算法的开发周期依赖于大规模数据集。在数据集上下文中，通过汇总统计量（例如：假阳性率、真阳性率、识别率）在评估期间计算人脸识别3评估集或从评估集中划分的n倍[9]，并表示为ROC或CMC曲线（图1，图a）。随着机器学习的兴起，这种数据集变得更加重要，其中需要大型训练集和评估集。对于人脸验证（1：1匹配），有一个数字数据集，使性能达到可用的水平，在控制设置与合作的主题[10最近，网络规模的数据[15-21]已被用于研究更困难的识别设置，包括人脸识别（1：N匹配）和具有挑战性的冒名顶替人们一直在推动更大的数据集，但这并不总是能解决所观察到的问题在它们上面训练的算法中。虽然总体性能持续改善，但理解失败的个别原因仍然很困难，因为并不总是清楚为什么特定的面部不能被识别，或者为什么在考虑汇总统计时冒名顶替者被算法识别重要的是，其他研究视觉的领域已经通过使用视觉心理物理学来解决这个问题：对刺激的控制和仔细的研究他们在模型系统中唤起的反应[3-5]。特别是，该领域心理学的发展与视觉心理物理学相关的特定概念和程序，用于研究人脸及其如何被感知[22-25]。而不是从以曲线表示的汇总统计量推断性能像ROC或CMC一样，视觉心理物理学允许我们在一个广泛的条件范围内观察表现，允许实验者精确地指出导致失败的确切条件。人脸识别实验的黄金标准是剑桥人脸记忆测试[23]，它使用逐渐退化的人脸变化来阻碍识别。它导致了对面孔失认症（无法识别人脸）的里程碑式研究[26]，超级识别器（具有不可思议的人脸识别能力的人）[27]，以及人脸识别能力和遗传性[28]。类似地，视觉心理物理学也被用来研究整体特征在通过互换部分进行识别中的作用以打破认知能力[22]。最近的工作已经进入了照片级逼真的3D人脸合成领域，其中可以通过面部解剖学的不同方面来研究面部感知的变化[24]和用作刺激的面部年龄[25]。考虑到其广泛的适用性，心理物理学也被证明是解释算法行为的一个非常强大的机制。我们已经看到视觉心理物理学成为研究计算机视觉其他领域算法行为的另一种方式，例如对象识别[29]，人脸检测[30]和强化学习[31]。然而，在人脸识别领域还没有开展在本文中，我们建议解决这个问题，建立一个桥梁，从视觉科学到生物识别。从最近建立的用于对计算机视觉算法进行心理物理学实验的框架开始工作[29]，并将其与视觉心理物理学中用于研究人脸识别的适当方法相具体地说，这涉及心理生理测试的元素与生物计量动物园范式[6]之间的理论映射，其中合作用户（1，面板b），和增量扰动降低其性能（图1的图框4RichardWebster等c）. 从心理物理学实验中收集的结果利用高度控制的程序生成的刺激，然后可以通过解释其失败模式来告知我们应该如何使用人脸识别算法（图11）。1，图d）。2相关工作可解释的AI人工智能中对人工神经网络的日益重视，导致人们对解释训练模型如何工作的兴趣相应上升。关于表示，Zeiler和Fergus [32]建议可以使用多层去卷积网络将目标卷积网络（CNN）的特征激活投射回像素空间，从而允许研究人员对在CNN中的Mahendran和Vedaldi [33]的后续工作通过分析表征本身以及自然图像先验来概括表征的理解。关于决策，Ribeiro et al.[8]已经引入了一个框架，用于用显式可解释的模型来近似任何分类器在一个不同的，但相关的策略，方等。[34]使用图像扰动来定位与分类相关的图像区域。图像扰动将形成我们的方法的重要组成部分，在下面的第2节中描述。3.第三章。还提出了许多替代方案，包括可应用于人脸识别算法的基于采样的策略[35]，与强化学习相结合的采样[7]，以及全面的概率编程框架[36]。我们在本文中提出的并不意味着要取代任何现有的解释AI模型的方法，并且可以与上述任何方法协同工作。计算机视觉心理物理学心理物理学在计算机视觉中的应用在很大程度上是脑科学家和计算机科学家之间跨学科工作的产物，旨在建立与观察到的动物和人类行为一致的解释模型最近的一个例子是Rajalingham等人的工作。[37]，比较了猴子，人和CNN的识别行为，指出CNN不能解释灵长类动物的图像级行为模式。其他人已经进行了研究，仅使用人类作为参考点，具有类似的结论[38关于专门设计用于在计算机视觉算法上执行心理物理学的方法，灵活的框架是由RichardWebster等人引入的PsyPhy[29]第10段。PysPhy通过使用项目反应理论促进了对物体识别的心理物理分析我们从这项工作中构建了一个相关的人脸识别项目反应分析除了解释人工智能算法机制的研究之外，计算机视觉领域的其他工作也试图将心理物理测量注入机器学习模型[30，42]。其中一些研究的数据依赖于流行的众包心理物理学网站TestMyBrain.org [43]。在这项工作中，我们利用类似的人体测试平台进行比较实验。应用于生物测定学的心理学方法。虽然人们对心理学可以教计算机视觉的内容越来越感兴趣，但生物识别技术人脸识别5社区很早就采用了其中的一些方法。辛哈等人[44]概述了人类视觉的19项发现，这些发现对自动人脸识别具有重要影响。其中一些发现为采用CNN进行人脸识别提供了直接灵感。NIST运行的人脸识别评估的一个重要结果是一系列人类与计算机性能测试[45-49]。尽管这些研究没有利用心理物理学，但它们仍然为人脸识别能力提供了新的线索。在某些情况下，如照明变化[45，46]，高质量图像[47]和静态图像中的正面匹配[48]，算法已被证明是优越的。但是，应记住，这些是受控（或大部分受控）验证设置，其中有意获取图像以反映操作匹配场景。在其他情况下，特别是在更自然的数据和视频匹配场景下[48，49]，人类表现出优越性。研究诸如这些已经建立了人类感知作为用于评估面部识别算法的可测量基线。我们还研究了人类与算法的性能作为基线。生物识别和扰动输入。许多研究试图模拟降低匹配性能的真实世界条件这通常采取施加到面部图像上的像素的扰动的形式-我们将在心理物理学实验中考虑的变换的主要形式。Karahan等人[50]和Grmet al.[51]研究了增量扰动人脸图像对高斯模糊、噪声、遮挡、对比度和色彩平衡等变换的影响为了补偿高斯模糊，Ding和Tao [52]为了学习CNN模型内的模糊不敏感特征而扰动面部图像序列这些实验研究与这项工作共享一个潜在的动机，但在质量和数量上与我们描述的基于项目反应的方法不同。3人脸识别算法在心理学中的M-替代强迫选择匹配到样本（M-AFC）心理物理学程序中[5]，样本刺激（例如：视觉的、听觉的或触觉的）用于从受试者引出感知响应。然后给予受试者不应期以允许其反应返回到中性。一旦他们的反应恢复到中性，则向受试者呈现替代刺激，并且如果需要，则给予另一个不应期。然后针对总共M个独特的替代刺激重复该过程最后，受试者被迫选择与样本刺激最匹配的替代刺激之一这就是过程名称M-替代强制选择匹配到样本的来源。通过仔细地将样本或替代刺激与特定刺激水平下的单个条件联系起来，运行实验的科学家可以测量在所有受试者中在每个观察到的刺激水平下实现的总的来说，这些刺激水平和它们的总体准确性产生了一个可解释的项目反应曲线[3]（见图11）。1，图c为示例）。6RichardWebster等RichardWebster等[29]介绍了一种技术，使用M-AFC方法为涉及程序渲染对象的一般对象分类模型生成项目响应曲线。该过程包括两个步骤：（1）优选视图的识别和（2）项目响应曲线的生成。偏好视图是规范视图的扩展[53]，该理论认为，当被要求最大化可区分性的最佳方向时，人类自然偏好相似的类间对象方向。首选视图用作程序渲染对象的初始方向，允许进行旋转或缩放等变换，以保证模型性能的降低。当生成项目响应曲线时，调用修改后的M-AFC然而，替代显式地呈现替代选择，替代选择隐含地是分类器的学习类。因此，准确度是通过选择正确类的频率来计算的。尽管用于面部识别的心理物理学使用相同的基本M-AFC匹配到样本概念，但在实践中，它与用于一般对象识别的心理物理学过程首先，针对人类受试者的上述M-AFC程序的个体试验与生物测定的面部识别程序相同获取面部，并且查询系统以通过将所获取的图像与系统内的登记面部进行匹配来因此，单个M-AFC匹配样本试验相当于生物识别中的1：N识别然而，执行1：N匹配的算法与执行相同任务的人类之间的一个区别在于，在算法的情况下，需要对“m at c h“或“n on- m at c h”的判定进行排序（以拒绝具有不够高的分数的像任何好的科学方法一样，心理物理学的方法试图分离出一个单一的变量来观察它对系统其他部分的影响。在人脸识别的心理物理学实验中，我们将孤立变量称为扰动水平，它表示直接应用于身份或包含身份的图像的扰动函数的变换程度。因此，执行用于面部识别系统的心理物理学的第一步是从初始数据集中移除一致地导致错误匹配或错误不匹配的身份，这些错误在匹配过程中已经是固有的，并且将对研究变换的效果造成混淆。Doddington等人[54]将与生物识别系统交互的用户正式分组为四类，以农场动物命名，统称为生物识别动物园[55，6]。生物特征动物园包括山羊（难以匹配的身份），羔羊（容易模仿的身份），狼（容易模仿的身份），最后是绵羊（与自己匹配良好但与他人匹配较差的身份）。既然我们要消除所有导致错误的身份，我们必须消除狼，山羊和羔羊。我们称之为羊群函数H（Alg. 1），将来自一个独立的数据集I和一个“绵羊”函数Y的一组输入身份作为输入，并且确定身份Y认为Y函数是针对面的包装函数人脸识别72Algorithm1H（Y，I）：“herd i n g”函数，其用于在整数倍内的醇。’输入：Y，一个“相对应”函数，用于面元算法输入：I，来自数据集的1：S←Y（I，I）相似性矩阵2：S ←（S+S）强制对称3：th←optimizelossfunctithTPEHyptλ[56输出：th，产生Ih输出：Ih，the“s hee p“i d iti t i s iti t识别算法f，并且接受两个身份集合：I p探针集合和I g图库集合。它返回一个标准的相似性矩阵，其中Ip是行方向，Ig是列方向。示例shepherd函数可以在Alg.二、在聚集步骤期间，输入集合I被拆分成Ip和Ig，其被用作Y的输入。羊群函数本身是相当简单的：它从牧羊人函数获得相似性矩阵，强制矩阵对称，然后优化损失函数λ（Alg. 3），对于具有树结构Parzen估计器（TPE）超参数优化器[56-58]的Hyper〇pt的implementation的250个实例更复杂的是羊群函数使用的损失函数λλ将相似度矩阵S和阈值t作为输入。第一步，对矩阵进行阈值化，是生物识别应用中的标准步骤。然而，下一步不是。然后将阈值化矩阵与单位矩阵I进行异或运算，以隔离所有假匹配和假非匹配的单位对（I表示正确的真匹配）。该新矩阵可以被认为是邻接矩阵G，其中所有的边表示假匹配和假不匹配，并且每个顶点是单位元。下一步是选择性地移除顶点/标识，直到没有边剩余，同时还移除尽可能少数量的标识一个受图割启发的策略允许我们按度对顶点进行排序，从G中删除度最高的顶点，并重复直到G中没有边（见Supp.Alg. 1为准确描述1）。最后，G将是一个完全不连通的图，其中没有剩余标识将导致与任何其他剩余标识的假匹配或假不匹配。根据定义，所有剩下的身份都是羊。返回的损失值是被移除的身份的数量，其中该函数倾向于较低的错误匹配率，即更高的阈值是有利的。在优化λ之后，返回最优阈值th和绵羊身份Ih绵羊身份Ih和阈值th用作项目响应点生成器函数Φ（Alg. 4）. Φ在项目响应曲线上生成点，其表示特定扰动函数T及其相应扰动水平的秩一匹配率。扰动函数将图像和扰动水平作为输入，对图像应用一些变换，并返回变换后的图像。背景下1次补充mat. 可在http://www.bjrichardwebster.com/papers/menagerie/supp8RichardWebster等Algorithm2Yf（Ip，Ig）：关于在此过程中的输入：f，产生特征表示的人脸识别函数输入：Ip，一组探测标识输入：Ig，一组画廊标识1：Rp←i∈Ip：f（i）每个恒等式的特征表示2：Rg←i∈Ig：f（i）3：S ← rp ∈ Rp，rg ∈ Rg：dist（rp，rg）距离矩阵4：S ←normalize（S）将距离归一化为标准相似度矩阵输出：S，相似度矩阵算法3λ（S，t）：有利于更多绵羊的损失函数，并且有利于较低的错误匹配率（FMR）超过错误非匹配率（FNMR）输入：S，相似度矩阵输入：t，阈值1：M←S ≥t2：M←MI隔离FM和FNM对3：G=（V，E）从M邻接表4：ν←|V|5：当|E|> 0 doremovegoats ， lambs ， andwolves 6：vr←argmax v∈Vdeg（v）第七章：removevr fromV从G8：结束时9：l←ν− |V|山羊、羔羊和狼的数量被移除10：l←l+（1−0. 99999* t）有利于较低的FMR超过FNMR输出：l，损失值在羊毛加工领域，其功能是一个简单的过程（染羊毛、剪羊毛等）。并询问它的牧羊人是否能正确地识别羊。因此，Φ也将Y作为参数。Φ使用T来扰动Ih中的每个输入身份以创建用于1：N识别的扰动探针身份的集合。Φ的剩余步骤对于在识别模式下操作的面部识别系统是标准的：获取探针到图库对的相似性矩阵，对该矩阵进行阈值化，并计算匹配率。Φ函数的返回值是一个项目响应点的x，y坐标对{s，α}，其中s表示扰动水平，α表示匹配率。一组优先级集的优先级可以通过项目响应曲线（从Φ获得的点的集合）来表示，这是优先级集优先级集的一个不可替代的表示。对于生物识别，X轴是表示来自原始绵羊身份的扰动水平的一系列值为了产生项目响应曲线，函数C（Alg. 5）对于每个转换类型调用C重复调用用Φ（Alg. 4)以便为从最小扰动量B1到最大扰动量BU的每个刺激水平创建一个点（B1是未变换的绵羊恒等式）。的人脸识别9HH算法4ΦT（Y，Ih，th，δ）：针对任何图像变换函数T（i，δ）的项目响应点生成函数输入：Y，用于一个函数的“第一”函数表示一个模型输入：Ih，用于找到第二个输入的“第二”函数表示第二个输入：Ih，用于产生第二个输入的输入：δ，刺激水平1：I ′←i∈Ih：T（i，δ）扰动恒等式以创建探针2：S←Y（I ′，Ih）相似矩阵3：M←S彡th|M∧I||Ih|使用单位矩阵I获得匹配率输出：{s，α}，x，y坐标对（刺激水平，匹配率）算法5CT（Y，Ih，th，n，bl，bu）：项目响应曲线生成函数对于一种类型的“sh e pher d”功能输入：Y，一个“相对应”函数，用于一个模糊模型输入：th，产生Ih输入：Ih，hhe输入：n，刺激水平输入：bl和bu，刺激水平的下限值和上限值1：设∆S为从bl到bu的n个2：k← {ΦT（Y，Ih，th，δ）}δ∈∆输出：k，项目响应曲线参数n是用于产生点的刺激水平的数量在匹配响应曲线上，并且通常是对数间隔的，以在未转换的绵羊身份附近提供更好的精度。最终参数w是在每个刺激水平下检查的身份的数量，其中w∈ [1，|I h|].4实验设计实验时考虑了四个不同的目标：（1）从文献中调查深度CNN和其他替代模型的性能;(2)更仔细地观察一个令人惊讶的发现，以解释观察到的模型行为;（3）研究具有随机输出的网络，这在贝叶斯分析中很常见;（4）比较人类与算法性能对于所有实验，我们使用了以下人脸识别算法：VGG-Face [59]，FaceNet [60]，OpenFace [61]，一种简单的三层CNN，通过高精度的随机和随机搜索训练[62]（以下简称为OpenBR 1.1.0[63]，它利用了手工制作的特征。中的每在网络中，使用最终特征层，其中归一化余弦相似性作为相似性度量2。所有使用的模型均按其相应作者的原样使用，无需额外微调。所有实验的一组完整图可在补充材料中找到。2源代码可在www.bjrichardwebster.com/papers/menagerie/code获得4：α←10RichardWebster等图二. 使用LFW数据[64]中的数据选择M-AFC任务的项目反应曲线。该加速器使用了五个不同的功能，可在算法中实现[59完美的曲线应该是图的顶部的一条平线。每条曲线底部的图像示出了扰动如何从右向左增加，从没有扰动开始（即，从没有扰动开始）。原始图像）。红点表示针对所选刺激水平的平均人类表现;误差条是标准误差。曲线被归一化，因此y轴上的几率为0所有图都以彩色显示效果最佳数据生成。将以下变换应用于LFW数据集的2D图像[64]：高斯模糊、线性遮挡、&椒盐噪声、高斯噪声、棕色噪声、粉色噪声、亮度、对比度和锐度。请注意，我们故意选择LFW，因为最先进的算法已经达到了它的性能上限心理物理学测试制度使得算法更加困难，这取决于所选择的转换。在项目响应曲线生成之前，将因子识别算法保持为“保留”1000个初始值。除了OpenBR之外的所有算法都将所有初始图像识别为绵羊（参见Supp.2010）。第2节中的细分）。对于每个变换，我们使用每个算法的时钟产生200个不同的对数间隔刺激水平，以在数据处理上产生一个或多个响应。总的来说，这导致了5。500万个独特的图像和13。70亿次图像比较。受心理学早期工作的启发[24，25，65]利用FaceGen软件包[66]，我们使用它来应用与情感和表达相关的转换。完整的列表可以在补充材料中找到每个面部算法从220个初始图像（由面部G提供的所有面部纹理，被制作为“三维”3D“区域”模型）中选择绵羊用于生成面部图像。所有选择了206羊，与一个几乎相同的选择，每个（见补充。节3为完整列表）。每个图像呈现50个刺激水平，产生1040000个独特的3D图像和1017个。50亿次图像比较。2D图像识别。考虑到最近的数据集结果，人们可能会认为深度CNN（FaceNet，OpenFace和VGG-Face）将是M-AFC任务中表现最好的，其次是较浅的网络（slmsimple），然后是使用手工特征的方法令人惊讶的是，这不是我们在任何实验中观察到的（图1A和1B2和4;补充。图1-2）。总的来说，VGG-Face是表现最好的网络，人脸识别11图三.使用渲染的3D面部模型作为刺激的M-AFC任务的项目响应曲线的选择[66]。曲线被归一化，因此机会为0。在这里，我们看到其中三种算法受到眨眼这一简单身体功能的严重影响，而另外两种算法则完全没有受到影响。如图2所示，VGG-Face再次是性能最好的算法，但值得注意的是，我们看到经由random_sea_ch训练的三层CNN针对w_h_s（labble_ed“s_l_m_imp_le”）工作。工作，因为它能够承受的扰动，以更大的程度比其余的算法。在某些情况下（例如，图的左手侧。2）扰动对VGG-Face完全没有影响，同时严重降低了其他算法的性能，表明了强大的学习不变性。值得注意的是，非深度学习方法OpenBR并不是最差的执行算法。在大多数实验中，它的表现优于几个深度网络。这是从数据集计算的CMC或ROC曲线中不会明显的发现，其中OpenBR很容易被许多数据集上的许多算法所超越[67，63]。为什么会出现这种情况这些结果表明，它并不总是依赖于大量的训练数据来学习强不变特征-这是一项与学习在所选数据集上表现良好的表示算法的设计是基于等式的：OpenBR对LBP [ 68]和SIFT [69]的选择导致比FaceNet和OpenFace更好的性能，3D图像识别。计算机图形学允许我们生成所有参数都已知的图像-这是二维数据无法实现一个这样的参数，表达式，已被广泛研究[70对于特定的表达式更改，算法究竟在哪里我们可以通过用图形控制面部来发现这一点（图1和图2）。3和4;补充。图（第3至4段）。例如，对于眨眼的身体功能（图1）。3）VGG-Face和slmsimple是最好的，而对面部的视觉外观的这种非常小的改变导致其他三种算法中的匹配性能的显著降级OpenFace和FaceNet再一次在从训练数据中学习不变性时遇到了麻烦这一趋势在几种表达和情感上都有体现（增刊）。图（第3至4段）。12RichardWebster等见图4。我们评估的两个算法FaceNet [60]和OpenFace [61]都代表了Google的FaceNet [ 20 ]算法的一个简单实现。然而，在几乎所有的实验中，我们都发现了它们之间的主要分歧。请注意上图中各自曲线之间当分析他们在LFW上报告的准确度性能时，这种性能差距并OpenFace与FaceNet。通常很难评估基于机器学习的算法的开发人员所提出的主张。在我们的实验过程中，我们发现了两个网络FaceNet[60]和OpenFace [61]之间的一个有趣的差异，这两个网络都被报告为Google的Face Ne t al gor i t h m [ 20]的实现。当它对于最终使用的设备而言已经成为一种“设备和应用程序”时，也会出现基于此的其他一些情况。算法的重新实现是否与原始规范匹配并不总是很清楚。心理物理学可以帮助我们找到答案。在所有实验中，与OpenFace相比，FaceNet表现出非常弱的不变性（图1A和1B）。3-4;补充图3-4），并且在大多数情况下在其他算法之前很好地失败从这些结果中，我们可以得出结论，应该使用Google方程的这种特定实现。但是，它与OpenFace有什么不同，以及什么会导致它失败，尽管它在LFW上报告了优越的准确性（FaceNet为0.992，而OpenFace为0.992）。0.9292对于OpenFace）？在心理物理学实验的提示下，我们可以在代码和数据中发现三个关键的差异。(1)OpenFace通过结合CASIA-WebFace [17]和FaceScrub [73]使用500 k训练图像人脸识别13图五.随机模型输出的权重扰动可以与刺激扰动相结合，以进行更强的可靠性评估。（左）五个独立的模型运行，其中6%的权重已经被扰动，输入刺激反映了增加的对比度。（右）曲线表示2%至10%的三种不同重量扰动水平的五次运行的平均值阴影区域是标准误差。FaceNet使用MS-Celeb-1 M [74]的子集，其中包含部分遮挡，轮廓等的困难图像作为面部标志检测的功能被移除这可能是最薄弱的环节，因为网络没有机会学习这些条件的不变性（2）OpenFace使用Schroff等人描述的精确架构。 [20] ，而 FaceNet 选择 Inception ResNet v1 [75] 。(3)FaceNet使用多任务CNN [76]进行面部标志检测和对齐，而OpenFace使用dlib [77]-FaceNet在本质上避免了这一点，因为它的训练集的面部产量较低。FaceNet可能为LFW找到了正确的网络元素组合，但它并不像OpenFace更忠实的原始作品那样泛化。权重扰动与刺激扰动耦合。将扰动直接应用于神经网络的权重的过程具有对权重的贝叶斯推断的解释，并导致随机输出[78，79]。这对人脸识别来说可能很重要，因为它为我们提供了另一种模型可靠性的为了研究CNN权重扰动与刺激扰动相结合的效果，我们使用VGG-Face作为案例研究。其权重的百分比被替换为正态分布的随机值N（0， 1），以所有层为目标。从图5，我们可以看到两种扰动类型都有影响。在仅扰动6%的权重的制度下（图的左手侧）5），我们可以感觉到VGG-Face在处理越来越高的对比度时在模型中的性能是稳定的。然而，太多的权重扰动增加了方差，导致扰动输入上的不期望的行为。在图的右侧在图5中，每条曲线表示当扰动2%至10%的权重时五次运行的平均值扰动10%的权重会破坏VGG-Face的不变特征，并导致模型之间的差异更大。其他转换的类似效果可以在Supp.图五比六14RichardWebster等人类比较。如第2、在生物识别技术中有丰富的文献比较人类和算法的性能。然而，到目前为止，这样的研究还没有利用任何程序从视觉心理物理学。在这里，我们填补了这个空白。为了获得图1和图2的人类数据点，2-5（图中的红点），我们进行了一项有14名参与者的研究。参与者执行的任务主要遵循上述标准M-AFC方案：向参与者简要地显示一个图像，该图像被隐藏起来，然后向他们显示三个图像，并指导他们选择与第一个图像最相似的图像。每个参与者执行任务三次，每个扰动水平。任务中的每一组图像都是经过精心挑选的，以防止人类的表现达到完美。对于2D和3D图像，图像按性别划分，因此参与者无法仅通过它进行匹配[80]。对于3D图像，数据也按种族划分，因此它不能作为[81]匹配的唯一标准。为了中断图标存储器[82]，在显示每个样本图像之后，将加扰的逆频率函数应用于图像以产生有色噪声，并在替代选择之前显示500ms。2D图像显示50ms，3D图像显示200ms。人类在3D环境中难以识别人脸，其中不同的身份在视觉外观上更接近，但在2D环境中表现出色，其中身份之间存在更大的分离。高斯模糊的图（图2）和降低对比度（图4）在这些情况下，暗示AI和人类之间的行为一致性。5结论考虑到现代计算机对知识库的设计能力，解释学习了什么以及如何将其转化为算法行为是一个巨大的心理物理学允许我们以一种直接的方式做到这一点，推出结合人脸识别的新产品的公司可以通过将算法的操作设置设置到可用输入空间来潜在地防止（或至少减少）类似于应用程序的人脸识别的障碍即使一个公司为一个公司的失败提供了一个解释，一个公司也可以通过一个心理物理学实验来为了促进这一点，与本文相关的所有源代码和数据将在出版时发布。随着最近计算机视觉心理物理学工作的增加[38，30，39，29，40，42，37]，我们希望看到新的人脸识别算法开始使用这些数据来提高其性能。6致谢资金由IARPA合同#D16PC00002、NSF DGE #1313583和NSF SBIR Award#IIP-1738479提供硬件支持由NVIDIA公司慷慨提供，并由美国国家科学基金会（NSF）通过#CNS-1629914拨款提供。人脸识别15引用1. 苹果公司：iPhone X FACE ID FAIL（2017）于2018年3月1日通过https：//www.example.com访问www.youtube.com/watch? v=m7xmCCTVS7Q。2. Hern，黑穗菊A. ：Apple：FaceIDdidontfail a t i P h o n e X l a un c h，o r s t aff i d.《卫报》（2017年9月14日）3. Embretson ， S.E. ， Reise ， S.P. ：心理学家的项目反应理论。 LawrenceErlbaum Associates，Inc. （2000年）4. Lu，Z.L.，Dosher，B.：视觉心理物理学：从实验室到理论MIT Press（2013）5. Kingdom ，F.，普林斯，N.：心理物理学：a实用介绍。学术出版社（2016）6. Yager ， N. ，Dunstone ， T. ：生物特征动物园。IEEE Transactions onPatternAnalys andMac hi neIntellige nce32（2）（Fe b2010）2207. 洛杉矶的亨德里克斯 Akata ， Z. ， Rohrbach ， M. ， Donahue ， J. ，Schiele，B.，达雷尔，T.：生成视觉解释。In：ECCV. （2016年）8. Ribeiro，M.T.，辛格，S.，Guestrin，C.：我为什么要相信你：解释任何分类器的预测。在：ACM KDD. （2016年）9. Haralick，R.M.：计算机视觉中的性能表征。在：BMVC92中。03TheStory（1992）10. Phillips，P.J.穆恩H Rizvi，S.A.，Rauss，P.J.：人脸识别算法的FERET评估方法。IEEE Transactions on Pattern Analysis andMachineIntellignce22（10）（2000）109011. Phillips，P.J.弗林PJ Scruggs，T. Bowyer，K.W.，Chang，J.，霍夫曼，K.Marques，J.，Min，J.沃雷克，W.：人脸识别大挑战概述。In：IEEE CVPR.（2005年）12. Phillips，P.J.弗林PJ贝弗里奇，J.R.，Scruggs，W.T.，Otoole，A.J.，博尔梅D、Bowyer，K.W.，德雷珀，文学士，Givens，G.H.，吕耀明Sahibzada，H.，Scallan，III，J.A.，Weimer，S.：多生物识别技术大挑战概述。国际生物识别技术会议（International Conference on Biometrics，ICB）（二零零九年）13. 贝弗里奇， J.R. ， Phillips ， P.J.Bolme ， D.S. ，德雷珀，文学士，Givens，G.H.，吕耀明Teli，M.N.，张洪，Scruggs，W.T.，Bowyer，K.W.，Flynn，P.，Cheng，S.：数码傻瓜相机的人脸识别挑战In：IEEEBTAS.（二零一三年）14. Phillips，P. J. 但是，J.R.， Dra per，B. 一、吉文，吉，哦，天哪，A。J. 波尔米，D.S.，Dunlop，J.，吕耀明Sahibzada，H.，Weimer，S.：介绍了好的，坏的，丑陋的人脸识别挑战问题。In：IEEE FG.（2011年）15. Kemelmacher-Shlizerman岛Seitz，S.M.，Miller，D.，Brossard，E.：megeface基准：100万张人脸用于大规模识别。In：IEEE CVPR. （2016年）16. Klare，B.F.，克莱因湾Taborsky，E.，Blanton，A. Cheney，J.，Allen，K.，Grother，P.，马，A，Jain，A.K.：推动无约束人脸检测和识别的前沿：IARPA Janus基准A. In：IEEE CVPR. （2015年）17. Yi，D.，Lei，Z.，Liao，S.，李S.Z.：从头开始学习人脸表示。ArXiv预印本arXiv：1411.7923（2014）18. Ortiz ， E.G. ， Becker ， B.C. ：网络规模数据集的人脸识别。ComputerVisinandImageUnderstanding118（2014）15319. B.，B.， Sharma，G. Jurie，F.， P'erez，P. ：因此，人脸是一个更重要的等式：用于准确和有效的大规模基于身份的人脸检索的分层组织。In：ECCV. （2014年）16RichardWebster等20. Schroff，F.，Kalenichenko，D. Philbin，J.：Facenet：用于人脸识别和聚类的统一嵌入。In：IEEE CVPR. （2015年）21. Wang，D.，中国科学院，奥托角Jain，A.K.：大规模人脸搜索IEEETransactions on PatternAnalysis andMac hi neIntellige39（6）（20 17）112222. Tanaka，J.W.，Farah，M.J.：面部识别中的部分和整体。《环境科学季刊》46（2）（1993）22523. Duchaine，B.，Nakayama，K.：剑桥人脸记忆测试：神经系统完整个体的结果，以及使用倒置面部表情和前额叶皮层的有效性调查。神经病理学44（4）（2006）57624. Oosterhof ， N.N. ，托多罗夫， A. ：面孔评价的功能基础。ProceedingsoftheNati onalAcademyofScinces105（32）（2008）1108725. 杰明中尉Duchaine，B.，Nakayama，K.：认知发展和衰老相遇的地方：面部学习能力在30岁以后达到顶峰。认知118（2）（2011）20126. Duchaine，B.，热尔明湖Nakayama，K.：家族相似性：10名家族成员患有面孔失认症和类内物体失认症。认知神经心理学24（4）（2007）41927. Russell，R.，Ducha

下载后可阅读完整内容，剩余1页未读，立即下载