无监督身份模型：从人脸识别到身份标记

58 浏览量更新于2023-10-13 收藏 920KB PDF 举报

人脸识别

贝叶斯模型

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

从人脸识别到身份模型：从无监督数据Daniel Coelho de Castro1， and Sebastian Nowozin21英国伦敦帝国理工学院dc315@imperial.ac.uk2英国剑桥微软研究院电子邮件：microsoft.com抽象。当前的面部识别系统在各种各样的成像条件下鲁棒地识别身份。在这些系统中，经由分类到从监督身份注释获得的已知身份来执行识别。这种当前范例存在两个问题：（1）目前的系统无法从可能大量提供的未标记数据中获益;以及（2）当前系统将成功识别等同于标记给定输入图像。另一方面，胡曼经常在完全不受监督的情况下对个人进行身份识别，即使不能说出那个人的名字，也能认出他们以前见过的人的身份。我们如何超越当前的分类范式，走向更人性化的身份理解？我们提出了一个综合的贝叶斯模型，连贯的原因所观察到的图像，身份，部分知识的名称，和情境的情况下，每个observa- tion。虽然我们的模型对已知身份实现了良好的识别性能，但它也可以从无监督数据中发现新的身份，并根据哪些身份倾向于一起观察来学习将身份与不同的上下文相关联。此外，所提出的半监督组件不仅能够处理熟人，其名称是已知的，但也未标记的熟悉的面孔和完全陌生人在一个统一的框架。1介绍在下面的讨论中，我们将通常的人脸识别任务分解为两个子问题：识别和标记。在这里，我们将识别理解为将观察到的面部与具有相似外观的先前看到的面部的集群进行匹配的无监督任务（忽略姿势，照明等的变化我们称之为身份。人类通常在这种抽象的层面上操作，以恢复类似的功能：即使不知道操作员的名字，我们仍然可以将它们区分开来。另一方面，标记指的是将名字放在面孔上，即。将字符串文字关联到已知标识。在微软研究院实习期间完成的工作。2特区Castro和S.Nowozin(a) 标准人脸识别（b）识别背景的身份模型图1：人脸识别设置。点表示面观察，框表示名称标签。人类倾向于为我们遇到的每个人创建一个面部外观的归纳心理模型，然后我们在新的遭遇中查询，以便能够识别他们。这与转导方法相反，试图将面部与过去面部观察的记忆库中的特定实例相匹配-这就是识别系统通常的实现方式[16]。另一种与我们的感应识别相一致的表示人脸的方法是通过生成的人脸模型，该模型明确地将同一个人的所有照片中的潜在身份内容与诸如姿势，表情和照明等滋扰因素分开[15，21，18]。虽然主要限于从像素空间（或其混合）的线性投影，在这些作品中应用的概率框架允许处理各种人脸识别任务，如闭集和开集识别，验证和聚类。社会交往的另一个重要方面是，当一个人每天继续观察面孔时，他们遇到某些人的频率要比其他人高得多，而且遇到的不同身份的总数往往会增加。几乎无限制地增长。此外，我们认为人脸识别不是发生在一个孤立的环境中，而是发生在情景环境中（例如，在一个特定的环境中）。G. “hom e”、“w or k”、“gy m”）可以用来描述一个人希望遇到的一组人（图1）。（见第1b段）。关于标记，在日常生活中，我们很少获得命名的面部观察：熟人通常只介绍自己一次，而且无论何时他们出现在我们的视野中，都不会重复。换句话说，人类自然能够进行半监督学习，将稀疏名称注释概括为对应个体的所有观察结果，同时另外协调由于噪声和不确定性而引起的命名冲突从人脸识别到身份3相比之下，标准的计算人脸识别是完全监督的（见图1）。1a），依赖于大量高质量图像的标记数据库[1]。尽管许多监督方法在具有挑战性的基准点上达到了惊人的准确性（例如，[26，25]），并成功地应用于实际的生物测定应用中，但这种设置可以说限制了对人类社会经验的类比。在生成视角上扩展，我们引入了统一的贝叶斯模型，该模型反映了关于身份分布、上下文意识和标签的所有上述考虑（图2）。（见第1b段）。我们的非参数身份模型有效地代表了一个无界的身份人口，同时考虑到上下文同现关系，并利用现代的深层人脸表示，以克服以前的线性生成模型的局限性。我们在这项工作中的主要贡献有两个方面：1. 我们提出了一个无监督的人脸识别模型，它可以明确地推理它从未见过的人;2. 我们附加到它一个新的强大的标签模型，使其能够预测的名字，从命名和未命名的面孔学习。相关工作其他人脸识别方法（即使是在贝叶斯框架中制定的方法）[32，33，9，27，17]通常将自己限制在参数和预测的点估计上，偶尔包括ad-hoc置信度量。我们的方法的一个明显此外，我们employ现代贝叶斯建模工具，即分层nonparametrics，使动态适应模型的复杂性，同时忠实地反映了现实世界的假设上面。其次，虽然自动人脸标记是一项非常常见的任务，但每个问题设置都可以施加非常不同的假设和约束。典型的应用领域包括个人照片库的注释[32，33，3，12]，多媒体（例如，电视）[27，17]或安全/监视[16]。我们的工作重点是以自我为中心的类人面部识别，这似乎在很大程度上尚未探索，因为大多数使用第一人称镜头的工作似乎都围绕着其他任务，如物体和活动识别，面部检测和跟踪[4]。正如我们之前所解释的，第一人称社交体验的动态性和在线性为人脸识别带来了许多特定的建模挑战。最后，虽然有大量的使用上下文来辅助人脸识别的工作，我们强调，它的大部分（也许是大部分）是有效的补充，我们的统一框架。全局上下文的概念，如时间戳，地理位置和图像背景[30，33，3，9]可以很容易地用于通知我们当前的上下文模型（第2.1节）。此外，我们可以自然地增强所提出的面部模型（第2.3节）以利用进一步的个体上下文特征。例如服装和演讲[33，3，27，17]。这些额外因素的整合为未来的研究开辟了令人兴奋的途径。4特区Castro和S.Nowozinc=1m m=1n=1n=1n=1n=1联系我们联系我们α0αcελ Lπ0πcznyny*我HYCγωc*MfnXnθ∗我高XMN∞上下文c帧m观察;观察身份I图2：概述了所提出的生成模型，包括上下文模型、身份模型、人脸模型和标签模型。未填充节点表示潜在变量，观察阴影节点仅针对索引的子集观察半阴影节点，并且未圈节点表示固定超参数。Etersπ0和（πc）C是全局和上下文一致性概率，ω表示上下文概率，（c）M是框架式上下文标签，在-以帧编号（fn）N为基数，（zn）N是潜在的身份指示器，（xn）N是面观测值和（yn）N是各自的名字注释-条件，（θ*）∞ 是人脸模型的参数，（y∈）∞你说的是真i i=1i i =1名称标签。其余符号的说明见正文。2身份模型在本节中，我们单独描述了所提出的面部身份识别方法的每个构建块：上下文模型，身份模型和面部模型。我们假设数据以编号为1至M的相机帧（照片或视频剧照）的形式被收集，并且面部利用某种面部检测系统被裁剪并且通过帧编号指示符fn1，. . . ，M.图中的图。图2展示了完整的图形模型，包括第3节中详细介绍的标签模型。2.1上下文模型在我们的身份识别场景中，我们想象用户整天在上下文之间移动（例如，由于人类自然地使用情境背景作为我们期望在每种情况下遇到的人群的强先验，因此我们在身份模型中引入了情境感知，以模仿人类的面部识别。我们提出的上下文模型包含一个分类变量cn1、. . .得双曲余切值.其中C是不同上下文的某个固定数量。3Cru-3见脚注4。从人脸识别到身份5MfnM∗M通常，我们假设帧m中的所有观测值，Fm={n：fn=m}，共享相同的上下文，c（即，cn，cn= c）。我们将身份指示符定义为独立的，给出了相应的帧（见下文第2.2节）。然而，由于上下文是由框架绑定的，因此在上下文上的边缘化捕获身份同现关系。反过来，这些使模型能够对那些在同一环境中倾向于被看到在一起的人做出更自信的预测。这种将上下文形式化为离散语义标签与[30]中的位置识别模型密切相关还已经证明，明确纳入上下文变量可以大大改善混合模型的聚类[19]。最后，我们假设情境指标c*独立分布根据概率ω，其本身遵循Dirichlet先验：ωDir（γ）（1）M|ωCat（ω），m = 1，. . . ，M，（2）其中M是帧的总数。在我们的模拟实验中，我们使用对称Dirichlet先验，设置γ =（γ0/C，. . . ，γ0/C）。2.2身份模型在第1节描述的日常生活场景中，随着观察到更多的面孔，越来越多的该数量预计比观察的数量增长得慢得多，并且在实践中可以被认为是无界的（我们不期望用户用完要会见的新的人）。此外，我们可以预期，有些人比其他人更经常遇到由于狄利克雷过程（DP）[10]显示了反映所有上述现象的属性[28]，因此它是建模身份分布的合理选择。此外，假设所有人都可能遇到在任何情况下，但具有不同的概率，都可以通过层次狄利克雷过程（HDP）[29]完美地捕获。利用上下文模型，我们为每个上下文c定义一个DP，每个DP具有浓度参数αc并且共享相同的全局DP作为基本度量。[4]因此，这种层次结构在一组共同的身份上产生了特定于上下文的分布我们认为N个人脸检测中的每一个都与潜在身份指示符变量zn相关联。我们可以把生成过程写成π0GEM（α0）（3）πc|π0 DP（αc，π0），c = 1，. . . 、C（4）zn|fn=m，c ∈，（πc）c∈Cat（πc∈），n=1，. . .，N，（五）4可以进一步允许无限数量的潜在上下文，通过合并非参数上下文分布，导致类似于嵌套DP [23，5]或[31]中描述的双DP更多细节在网上补充，Sec.A.C6特区Castro和S.Nowozinj=1Qc=1|∗0zcN+1N+10我我zni=1我0i=I+1∗∗当GEM（α0）是DPStick-型分解时，π0i=βii−1（1−βj），其中βiBeta（1，α0）且i = 1，. . . ，∞。这里，π0是全局恒等式分布。tion和（πc）C 是上下文特定的身份分布。虽然完整的生成模型涉及无限维对象，但基于DP的模型呈现简单的有限维边缘。特别地，遇到已知身份i的后预测概率为p（z=I |C=c， z， c*，π）=αcπ0i+Nci，（6）N+1个N+1个0αc+Nc·其中，Nci是分配给上下文c和标识i的观测的数量，并且是上下文c中的观测的总数。最后，这种非参数模型非常适合于开集识别任务，因为它可以优雅地估计遇到未知身份的先验概率：αcπ′p（z=1+1，c=c，，，π）=，（7）αc+Nc·其中I是当前已知的不同恒等式的个数，π′=Σ∞表示采样新身份的全局概率。πi2.3人脸模型在人脸识别应用中，提取人脸特征的紧凑表示通常比直接在高维像素空间中工作更方便和有意义。我们从一个平行度量分布族FX中总结了面x n的观测值。该分布的参数θ * 来自先验HX，对于每个身份都是唯一的，并且在同一个人的所有面部特征观察中共享θ*HX，i = 1，. . . ，∞（8）Xn|zn，θ FX（θ），n=1，. . . 、N.（九）因此，面部的边缘分布由混合模型给出：p（x n|Cn= c，θ*，πc）= Σ∞ πciFX（xn|θ*）。在本文报告的实验中，我们使用了由OpenFace（一种公开可用的最先进的用于FaceRecognition[2]的神经网络）生成的128维嵌入，以实现FaceNet的存档和方法在实践中，这可以很容易地交换为其他面部嵌入（例如DeepFace [26]），而不影响模型的其余部分。我们为面部特征（F X）选择各向同性高斯混合分量，其中为该特征和方差（HX）选择经验高斯混合分量。从人脸识别到身份7§我znL我znzn一期+1λ+Iℓ ℓ∈Y3鲁棒半监督标签模型我们希望只使用用户手动提供的少量标记观察结果。由于最终目标是识别任何观察到的人脸，因此我们的概率模型需要包含半监督方面，将稀疏的给定标签推广到未标记的实例。在整个本节中，您和您的客户端将被灵活地使用。半监督学习（SSL）的基石之一是聚类项倾向于属于同一个类的前提[8，1.2.2]。基于这种集群假设，像我们这样的混合模型已经成功地应用于SSL任务[6]。我们在图中示出3我们提出的标签模型在下面详细描述有了上面的动机，我们给每个clus附加一个标签变量（一个名字）ter（identity），这里表示为y*。这个符号表示只有一个真labely~n=y*对于每个观察n，类似于观察参数-ters：θn=θ*。最后，观察到的标签yn可能通过一些噪声过程FY被破坏。令表示标记数据的索引的集合完整的生成过程如下所示：HYDP（λ，L）（10）y*|HYHY，i = 1，. . . ，∞（11）yn|zn，y*FY（y*），n∈L.（十二）如前所述，在[6]中提出了具有噪声标签的基于混合模型的SSL的相关模型。而不是考虑类标签的显式噪声模型，该工作模型的作者直接为每个集群的条件标签分布。我们这里的设置更一般：我们假设没有只有无限数量的集群，而且可能的标签。3.1标签优先级我们假设不同标签的数量将随着观察到更多数据而无限制地增加。因此，我们在集群范围的标签上采用进一步的非参数先验：HYDP（λ，L），（13）其中L是可数但无界标签空间上的某个基本概率分布（例如，字符串）。[5]我们在下面进一步简要讨论L我们所拥有的关于随机标签先验HY的所有具体知识都来自于观察到的标签集合yL。至关重要的是，如果我们将HY边缘化，则预测标签分布简单地为[28]y*|1.λL+λJδε，（14）5如果幂律行为似乎比DP的指数尾更合适，则可以考虑8特区Castro和S.Nowozin→一期+1φ·Σ图3：所提出的半监督标签模型（右）和最近邻分类（左）的硬标签预测。点表示未标记的面部观察，正方形被标记，并且右侧的黑色轮廓示出身份边界。所提出的标签模型产生更自然的边界，将未知的新标签（whit e）分配给来自新对象的更好的分类和区域，而每个标签（“Bob”）都是随机的。“Alice”），而没有NN引入的虚假边界。whhicwwwilldenoteHY（y*|y*）。他说，这是一个新的知识体系amongyLanddJ=|{i：y*=}|，具有此选项的组件的数量（无我（J=I）。除了允许多个簇具有重复的标签之外，该公式lation允许我们对看不见的标签进行推理例如，一些学习的集群可能没有分配给它们的标记的训练点，并且那些集群的真实另一种看不见的标签发挥作用的情况是远离任何集群的点，对此，身份模型将以高概率分配新的集群在这两种情况下，该模型为我们提供了作为特定知识库的可行性的原则性估计。基本度量L可以在基本语言模型上定义对于这项工作，我们采用了几何/负二项式模型的字符串长度|，其中字符从大小为K的字母表中均匀绘制：|, with characters drawn uniformly froman alphabet of size K:1.一、φ − 1Σ| ℓ|（1）A（|ℓ|;1）Unif（; K| ℓ|）=的其中φ是期望的字符串长度。φ−1φK，（15）3.2标签可能性在最简单的情况下，我们可以考虑FY（）=δ·，即无噪音标签虽然解释和实现起来很简单，但这可能会使推理变得非常复杂。从人脸识别到身份9ε，yznznˆ−ˆΣ我一期+1我Y∗∗我1−ε,ℓ=y∗我HY（|y）1−H（y*|y*）不稳定的，每当有冲突的标签的身份。此外，在我们的应用中，例如，标签将由可能不具有对所述标记的持续时间或其持续时间的新知识的人类用户提供因此，我们采用了一个标签噪声模型，它可以优雅地处理冲突和错误标记。我们假设观察到的标签是完全随机噪声（NCAR）[11，§II-C]，具有固定的错误率ε：6F^Y（|y;y）=Y我.（十六）因此，观察到的表， yn，具有将其标识为具有概率1 ε的表，y*。否则，假设它来自修改的标签分布，其中我们限制并重新归一化HY以排除y*。这里我们在误差分布中使用HY而不是L来反映用户可能在一个完全随机的字符串中对另一个未知的字符串进行修改3.3标签预测对于a belprdictin，我们只会根据实际情况进行计算，而不会对a bels进行任何计算。单个新样本的预测分布由下式给出：p（y~N+1=|xN+1，z，c*，y*，θ*，π0）=i≤I：y*=p（zN+1=i|xN+1，z，c*，θ*，π0）（十七）+HY（y=|y）p（zN+1=I+1|xN+1，z，c*，θ*，π0）。第一项中的和是样本被分配给具有标签的任何现有身份的概率，而最后一项是实例化具有该标签的新身份的概率。4评价所提出的模型的主要优点之一是它创建了一个单一的已知世界的丰富表示，然后可以从各种角度查询本着这种精神，我们设计了三个实验设置来评估模型的不同属性：检测一个人是否以前见过（离群值检测），在一系列帧中将人脸识别为不同的身份（聚类，无监督），并通过泛化稀疏用户注释（半监督学习）正确命名观察到的人脸。图6"真“标签似然F Y（k）|y*）是随机的，因为它依赖于unob-Ser vedprHY. 我们使用查找F^a的方法来提高现有知识的效率标识标签y。参见补充材料，第二节。B、细节∗我10特区Castro和S.Nowozin√≈§|L§在所有实验中，我们使用了来自Labelled Faces in the Wild（LFW）数据库的名人照片。7我们已经通过Gibbs Markov chain Monte Carlo（MCMC）抽样实现了推理，其条件分布可以在补充材料中找到（Sec.C），并且我们运行具有随机初始条件的多个链，以更好地估计后验分布中的变异性。对于在我们的模型上评估的所有指标，除非另有说明，否则我们报告了来自8个独立吉布斯链的合并样本的估计95%最高后验密度（HPD）可信区间4.1实验1：未知人检测在我们的实验室里，我们要依靠模型的能力来确定一个人以前是否见过。所提出的模型的这一关键特征是基于观察到的面部不对应于任何已知身份的概率来评估的，如由等式2给出的。（七）、为了纯粹地评估未识别人脸的检测，我们将模型约束到单个上下文（C=1），并将标签模型（=）放在一边。该任务与异常值/异常检测密切相关。特别是，我们提出的方法反映了其常见的配方之一，涉及一种混合物的“numerical”d i s t r i bu t i n ga t in 3]。我们选择了LFW中至少有40张照片的19位名人，并将他们随机分为两组：10个已知和9个未知的人。我们使用每个已知人的27张图像作为训练数据和不相交测试集已知和未知人物的13张照片因此，我们有一个二元分类设置，在测试时具有平衡良好的类。在这里，我们运行Gibbs采样器500步，丢弃前100次老化迭代并细化10倍，得到320个合并样本。图4a，我们可视化测试图像的最大后验（MAP）身份预测之间的一致性zn=argmaxp（zn=ixn，z，c，π0，θ），（18）我其中i的范围从1到I+ 1，后者指示未知的身份，从训练集缺席，并且n索引测试实例。尽管偶尔会出现模棱两可的情况，但所提出的模型似乎能够始终将所有未知的面孔组合在一起，同时成功地区分已知的身份。作为一个简单的基线检测器进行比较，我们考虑在面部特征空间中到最近邻（NN）的距离上的阈值[7，5.1]。我们还使用具有γ =10的RBF核来评估单类SVM [24]的决策函数，所述RBF核经由在训练集上的留一人交叉验证来选择（对于在带宽为1 / 2 γ 0的k处的时间间隔处执行训练的时间间隔而言，是相等的）。22）。我们使用ROC曲线分析比较这两种检测方法的有效性。7可在http://vis-www.cs.umass.edu/lfw/上查阅8新恒等式的预测分布x n是一个宽的Student t。从人脸识别到身份111 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19123456789101112131415161718191.00.80.60.40.20.00.0 0.2 0.4 0.6 0.81.00.97500.97250.97000.96750.96500.96250.96000.95750.9550已知未知假阳性率(a)关联矩阵，统计MAP身份预测中的一致性（包括未知）。刻度划定地面实况标识。(b) 与基线相比，未知人员检测的ROC分析AUC以中位数和50%和95%HPD间隔显示。图4：测试图像图4b显示，虽然所有方法在检测未知人脸方面都非常有效，得分为95%+ AUC，但我们的方法始终以较小的幅度优于NN基线和专门设计的一类SVM。采用MAP预测，我们的模型实现了[92. 3%，94. 3%]的检测精度。4.2实验2：身份发现然后，我们调查的聚类特性的模型在一个纯粹的无监督设置，当只提供上下文我们根据调整后的Rand指数[22，14]评估图像的估计分区与地面真相的一致性使用模拟，除了拥有具有地面真实背景和身份标签的无尽数据源之外，我们还可以完全控制实验设置的几个重要方面，例如序列长度，相遇率，不同背景和人的数量下面我们描述在我们的实验中使用的模拟算法，并在图1中示出。五、在我们的实验中，我们的目标是模拟现实世界身份识别设置的两个重要方面：1. 上下文：了解上下文（例如位置或时间）使得我们更有可能观察到特定的人的子集;以及2. 时间一致性：身份不会随机出现和消失，而是存在更长的时间。为了再现上下文，我们模拟了一个用户与新用户会面的单个会话。为此，我们首先创建了一些固定的上下文，然后分配身份均匀随机每个上下文。对于这些实验，我们定义了三个字符：'hom e'，' w ork '和'gy m '。今天，我们知道了现在的情况1.000.950.900.850.800.000.050.100.150.20我们的（中位数，95% CI）NN距离单类支持向量机已知未知真阳性率ROC曲线下面积（AUC）12特区Castro和S.NowozinM1816141210864204200 25 50 75 100 125 150 175 200帧号图5：实验2中使用的模拟，显示了进出相机框架的身份。标识被示出为按其上下文（远距离）分组，并且具有在用户的上下文中呈现的标识。上下文以及上下文之间随时间的转换独立地在每个帧处，用户可以以小概率切换上下文。为了模拟时间一致性，当前上下文中的每个人作为独立的二进制马尔可夫链进入和离开相机帧如图5所示，这自然会产生分组观察。从数据库中可用的图像上的图像中提取出被观察到的图像。我们对这些图像进行采样，而不进行替换，并在循环中，以避免连续观察相同的图像。对于这组实验，我们考虑三个实际场景：– 在线：数据逐帧处理，即我们在每一帧后扩展训练集，并运行Gibbs采样器进行10次完整的迭代– 批处理：与上述相同，但在扩展训练集并更新模型200步– 离线：假设整个序列一次可用，并迭代1000步为了公平起见，选择每个协议的步骤数200000逐帧步长）。此外，我们还研究了对识别性能的影响禁用上下文模型，通过设置C= 1和c*= 1，m。我们在图中显示了这个实验的结果。六、显然，预计，随着时间的推移，遇到更多的身份，问题变得更具挑战性，并且集群性能趋于下降。另一个普遍的观察是，在线处理产生的方差比批处理或离线在这两种情况下。因此，训练数据的增量可用性似乎导致模型的更一致的状态。现在，比较FIG. 如图6a和6b所示，很明显，上下文感知不仅减少了方差，而且还显示出相对于上下文无关变体的边际改进。因此，在不损害识别性能的情况下，上下文模型的添加使得能够在测试时预测上下文，这对于下游用户体验系统可能025出现#框架中的人物身份'家'“健身房”'工作'上下文从人脸识别到身份13联机（x10）批处理-20（x200）脱机（x1000）调整后的兰德指数一点一点0.950.950.900.900.850.850.800.800.750.750 255075100125150175 200帧号(a) 有了上下文0 255075100125150175 200帧号(b) 没有上下文图6：身份聚类一致性。水平轴（）上的标记表示第一次遇到新朋友的时间。4.3实验3：半监督贴标在我们的最后一组实验中，我们的目的是验证所提出的标签模型在具有稀疏标签的半监督学习中在人脸识别的背景下，我们可以定义三组人：– 熟悉：已知名称– 熟悉的：已知的身份与未知的名字– 陌生人：身份不明因此，我们选择了34位拥有30多张照片的LFW名人，并将他们随机分为这三类。从熟悉的组和熟悉的组中，我们随机挑选了15张他们的图像进行训练，15张用于测试，我们只在测试时使用每个陌生人我们评估了标签预测的准确性，因为我们改变了为每个熟人提供的标记训练图像的数量，从1到15。对于基线比较，我们评估了最近邻分类（NN）和标签传播（LP）[34]，这是一种基于相似性图的半监督算法。我们使用与第4.1节中的SVM相同的内核计算LP边缘权重。回想一下，人脸嵌入网络是用三重丢失来训练的，以显式优化欧氏距离进行分类[2]。由于NN和LP都是基于距离的，因此预计它们将比我们的模型具有优势，用于对标记身份进行分类。图7a示出了标记的身份（交流）的标记预测结果。在这种情况下，NN和LP的表现几乎相同，并且比我们的略好，这可能是由于有利的嵌入结构。此外，随着在训练数据中引入更多的监督，所有方法都可预测地变得更准确更重要的是，我们的模型的关键独特能力在图中显示。7b.正如在4.1节中已经讨论过的，所提出的模型能够检测完全陌生的人，并且在这里我们看到它正确地预测了他们的名字是未知的。此外，我们的模型可以承认，调整后的兰德指数14特区Castro和S.Nowozin我们NN线性1.00 1.00.950.900.90.850.800.750.701 3 5 7 9 11 1315提供的标签数量(a) 熟人0.80.70.61 3 5 7 9 11 13 15提供的标签数量(b) 熟悉和陌生图7：标签预测精度。请注意，NN和LP有效地具有针对该familia-rands转换器组的零AC，因为该Y不能被“unk now n”处理。熟悉的面孔属于不同的人，他们的名字可能不知道。基线不提供这些功能，因为它们仅限于闭集识别任务。5结论在这项工作中，我们介绍了一个完全贝叶斯处理的人脸识别问题。我们提出的方法的每个组成部分的动机是从人类的直觉，在日常的社会交往中的人脸识别和标记。我们的原则性身份模型可以考虑无限的身份群体，考虑满足它们的特定于上下文的概率。我们证明，所提出的身份模型可以准确地检测到当一个人的脸是不熟悉的，并且能够逐步学习，以区分新的人，因为他们是在流数据的情况下。最后，我们验证了我们的方法来处理稀疏的名称注释不仅可以处理熟人，其名称是已知的，但也熟悉的面孔和完整的陌生人在一个统一的方式，在传统的（半）监督识别方法中不可用的功能在这里，我们考虑了一个完全监督的上下文结构。如第1节所述，人们可以想象一种无监督的方法，涉及全局视觉或非视觉信号来驱动上下文推理（例如，全局图像特征、时间或GPS坐标），以及具有个体上下文信息（例如，服装、演讲）。另一个有趣的研究方向是明确考虑时间依赖性，例如。通过赋予潜在上下文序列一个类似隐马尔可夫模型的结构[30]。谢谢。这项工作得到了巴西 CAPES 的部分支持（ BEX 1500/2015-05）。Ours（陌生人）精度精度从人脸识别到身份15引用1. 在野外贴上标签的脸：一个调查。在：Kawulok，M.，切拉比法医斯莫尔卡湾（编辑）人脸检测和面部图像分析的进展， pp 。 189-248 Springer （ 2016 ） .https://doi.org/10.1007/978-3-319-25958-12. Amos，B.，Ludwiczuk，B.，Satyanarayanan，M.：OpenFace：一个带有移动应用程序的通用Tech.代表CMU-CS-16-118，CMU计算机科学学院（2016）3. A ng uelov，D. ，Lee，K. c.将该混合物干燥， Goükturk，S. B、是的，B。：在个人相册中进行身份识别。见： CVPR 2007 。 pp. 1-7 （ 2007 年）。https://doi.org/10.1109/CVPR.2007.3830574. Betancourt，A. Morerio，P. Regazzoni，C.S.， Rauterberg，M.：第一人称视觉方法的演变：一个调查。IEEE Transactions on Circuits and Systems forVideoTechnology25（5），744-760（2015年5月）。https://doi.org/10.1109/TCSVT.2015.24097315. Blei，D.M.，Griffiths，T.L. Jordan，M.I.：嵌套中餐厅过程与主题层次的贝叶斯非参数推理。 JournaloftheACM57 （ 2 ）（ jan2010 ） .https://doi.org/10.1145/1667053.16670566. Bouveyron角Girard，S.：使用混合模型的鲁棒监督分类：从带有不确定标签的数据中学习。PatternRecognition42（11），2649https://doi.org/10.1016/j.patcog.2009.03.0277. 坎多拉州Banerjee，A.，Kumar，V.：异常检测：一个调查。ACM计算调查41（3），1https://doi.org/10.1145/1541880.15418828. Capelllee，O. Scho？lkop f，B.， Zien，A. （eds. ）：Sem i-Super visedLern g。MIT压力（2006年）9. Choi，J.Y.，De Neve，W. Ro，Y.M.， Plataniotis，K.：基于上下文无监督聚类和人脸信息融合的个人照片集人脸自动标注。IEEE Transactions on Circuits andSystemsforVideoTechnology20（10），1292https://doi.org/10.1109/TCSVT.2010.205847010. Ferguson，T.S.：一些非参数问题的贝叶斯分析史册ofStatistics1 （ 2 ）， 209http://www.jstor.org/stable/2958008-230 （ 1973 ），www.example.com11. 早上好B Verlieysen，M. ：在文件的发布过程中出现了一个问题：一项调查。IEEETransactions on Neural Networks and Learning Systems25 （ 5 ）， 845-869（2014）。https://doi.org/10.1109/TNNLS.2013.229289412. 加拉格尔，AC陈T：使用上下文识别消费者图像中的人物。IPSJ TransactionsonComputerVisionandApplications1，115https://doi.org/10.2197/ipsjtcva.1.11513. Huang，G.B.，Ramesh，M.，Berg，T.，Learned-Miller，E.：《荒野中的脸》（Faces in the Wild）：研究无约束环境下人脸识别的数据库。Tech. 代表，马萨诸塞大学阿默斯特分校（2007）14. 休伯特湖 Arabie ， P. ：比较分区。 Journal of Classification2 （ 1 ）， 193https://doi.org/10.1007/BF0190807515. Ioffe，S.：概率线性判别分析。In：Computer Vision第3954卷，LNCS，第395页。531-542（2006）。https://doi.org/10.1007/11744085 4116. 贾弗里 R.，阿拉伯尼亚人力资源部：一调查的脸识别技术. JournalofInformationProcessingSystems5（2），41-68（2009）.https://doi.org/10.3745/JIPS.2009.5.2.04117. Le，N.，Bredin，H.，Sargent，G.印度，M.，Lopez-Otero，P.，巴拉斯角，吉诺多角 Gravie r，G.， daFonseca，G. B、从我的角度看，我... Patr ocnio，J r，Z.， Guimaraes，S. J. F.、Mart 'ı，G.，Morros，J.R.，Hernando，J. Docio-Fernandez，L. Garcia-Mateo，C.16特区Castro和S.NowozinMeignier，S.，Odobez，J.M.：面向大规模多媒体索引：广播新闻中人物发现的个案研究。在：CBMI2017.pp.18：1-18：6。ACM（2017）.https://doi.org/10.1145/3095713.309573218. Li，P.，傅，Y.，Mohammed，U. Elder，J.H.，Prince，S.J.D.：关于同一性推理 IEEE Transactions on Pattern Analysis and Machine Intelligence34（1），144https://doi.org/10.1109/TPAMI.2011.10419. Perdi k is ， S. ，Leeb ， R. ， Cavarria g a ， R. ，我会的， J 。 D. R. ： Context-awarelearninggforr有限混合模型（2015），http://arxiv.org/abs/1507.0827220. Pitman，J.，Yor，M.：由稳定从属子导出的两参数Poisson-Dirichlet分布。TheAnnals of Probability25（2），855http://www.jstor.org/stable/295961421. Prince，S.J.，Elder，J.H.：关于同一性推论的概率线性判别分析。于：诉讼的的月11IEEE国际计算机视觉会议（ICCV 2007）。IEEE（2007年）。https://doi.org/10.1109/ICCV.2007.440905222. 兰德，W.M.：评价聚类方法的客观标准。日-nal of the American StatisticalAssociation66（336），846-850（dec1971）.https://doi.org/10.1080/01621459.1971.1048235623. Rodr'ıguez，A.， Dunson，D. B、 Gelfand，A. E. ：已设置的直接执行程序。美国统计协会杂志103（483），1131-1154（2008年9月https://doi.org/10.1198/01621450800000055324. Scho？lkop f，B.， Platt，J. C.的方法， Shawe-Taylor，J.， Smola，A. J. 我会的，R。C. ：E测试高维分布的支持。神经计算13（7），1443-1471（2001年7月）。https://doi.org/10.1162/08997660175026496525. Schroff，F.，Kalenichenko，D. Philbin，J.：FaceNet：用于人脸识别和聚类的统一嵌入。2015年IEEE计算机视觉和模式识别会议论文集（CVPR 2015）。pp. 815-823. IEEE（2015年6月）。https://doi.org/10.1109/CVPR.2015.729868226. Taigman，Y.，杨，M.，Ranzato，M.，沃尔夫湖：DeepFace：缩

下载后可阅读完整内容，剩余1页未读，立即下载