没有合适的资源?快使用搜索试试~ 我知道了~
特征级别的消除歧视性识别中的变化
parts as in Fig 1.The factors relate to the side-labels is named as thesemantic variations (s), which can be either task −relevant/irrelevant depending on whether they aremarginally independent to the main recognition task or not[59].The latent variation (l) summarizes the remain-ing properties unspecified by main and semantic labels.How the DNN can systematically learn a discriminativerepresentation (d) to be informative for the main recogni-tion task, while marginally independent to both multiple sand unspecified l remains challenging.Several efforts have been made to enforce the main taskrepresentation invariant to a single task-irrelevant (in-dependent) semantic factor, such as pose, expression or16370特征级别的弗兰肯斯坦:消除歧视性识别中的变化0Xiaofeng Liu 1, 2, 4†, Site Li 1†, Lingsheng Kong 2, Wanqing Xie 3, 4�, Ping Jia 2, Jane You 5, B. V. K. Kumar 101. 卡内基梅隆大学,美国匹兹堡,宾夕法尼亚州 2.中国科学院长春光机所,中国长春 3. 哈尔滨工程大学,中国哈尔滨 4.哈佛大学,美国马萨诸塞州剑桥市 5. 香港理工大学计算系,中国香港0†贡献相等{liuxiaofeng,site}cmu@gmail.com,*通讯作者0摘要0基于深度学习的识别的最近成功依赖于保持与主任务标签相关的内容。然而,如何明确消除噪声信号以实现更好的泛化仍然是一个悬而未决的问题。我们系统地总结了有害因素,如任务相关/无关的语义变化和未指定的潜在变化。在本文中,我们将这些问题作为潜在空间中的对抗极小极大博弈。具体而言,我们提出了一种具备将输入样本分解为三个互补部分的端到端条件对抗网络的能力。判别性表示通过任务的先验知识引导,具有所需的不变性属性,与任务相关/无关的语义和潜在变化在边际上是独立的。我们提出的框架在一系列任务上取得了最佳性能,包括数字识别、光照、化妆、容忍伪装的人脸识别和面部属性识别。01. 引言0提取与手头任务相关的判别性表示是识别的一个重要研究目标。我们的目标是根据我们任务的先验知识明确消除有害变化,以实现更好的泛化。这是具有挑战性的,因为训练集包含带有多个感兴趣的语义变化的图像注释,但没有转换的示例(例如,性别)作为无监督图像转换[33,6],而潜在变化完全未指定。根据以前的多类数据集(包括一个主任务标签和几个侧标签)[20, 46,44]中使用的术语,我们提出将三个互补0�0� �0�0独立于0任务无关0�任务相关0�的定义0公式(2)公式(3)0公式(3)0公式(4)+ 瓶颈0图1.期望的观察x的分离情况的示意图,与判别性表示d(红色)、潜在变化l(绿色)和语义变化s(蓝色)相关。我们的框架明确地使它们在边际上彼此独立。d和与任务相关的s与主要识别任务标签y相关。6380通过神经预处理[19,56]或度量学习[35]实现光照不变的人脸识别。这些方法具有相同的缺点,即用于规范化表示的成本是成对的,随着属性可以取的值的数量可能很大,这种方法无法很好地扩展。由于我们关心的不变性在不同任务中可能差异很大,这些方法要求我们每次需要新的不变性时都要设计一个新的架构。此外,他们在理论分析中的一个基本假设是属性与预测无关,这限制了它在分析任务相关(依赖)语义标签[5,59]方面的能力。这些标签通常用于通过多任务学习中的特征聚合实现属性增强识别(例如,性别、年龄和种族可以缩小人脸识别的搜索空间)。然而,在某些特定任务中,对这些属性的不变性也是期望的。例如,化妆人脸识别系统应该对年龄、发色等不变。同样,当预测一个人的信用和健康状况时,性别和种族是公平/无偏分类中的敏感因素。由于数据内部固有的偏差,这些语义标签和主任务标签是相关的。一种可能的解决方案是将该属性设置为概率模型的随机变量,并明确推理不变性[39, 9,61]。由于使用一对分布之间的差异作为诱导不变性的标准,要处理的成对数量随着属性数量的增加而呈二次增长,这对于实际中的多个变化来说可能计算成本很高。另一个挑战是如何在没有标签的情况下消除那些潜在的变化以实现更好的泛化。例如,我们希望我们的人脸识别系统不仅对侧标签后面的表情不变,而且适用于不同的种族,这些种族没有侧标签。我们注意到这个问题与图像生成领域中的特征解缠有一些相似之处[44,14],但我们的目标是提高内容分类性能,而不是合成高质量的图像。受到上述困难的启发,我们提出了一种能够以无监督的方式消除一组不需要的任务无关/相关和潜在变化的系统:我们不需要成对的语义转换示例[33,6]和潜在标签。具体而言,我们采用了一个端到端的条件对抗训练框架。我们的方法依赖于一个编码器-解码器架构,给定一个带有其主任务标签y和要消除的语义变化标签s的输入图像x,编码器将x映射到一个判别性表示d和一个潜在变化l,解码器被训练用于在给定(d, s,l)的情况下重构x。我们将一个语义鉴别器条件设置为s,以及两个分类器0具有相反目标的逆向目标,分别约束潜在空间以用于操纵多个变化以实现更好的可扩展性。本文的主要贡献总结如下:•它能够通过系统地结合任务的先验领域知识来明确学习任务特定的判别性表示,并具有所需的不变性属性。待消除的多个语义变化可以是任务相关的或任务无关的语义变化,并且未指定的潜在变化也可以以无监督的方式消除。•引入语义鉴别器和两个逆分类器来约束潜在空间,从而实现更简单的训练流程和更好的可扩展性。•语义和潜在变化表示被联合解缠和保留为互补部分。这些因素的灵活交换使得不同的图像变换成为一个统一的模型。在独立于源的数字分类、对光照容忍(扩展的YaleB)人脸识别、抗化妆人脸识别和伪装人脸识别基准上的实验结果表明,所提出的模型优于现有的判别方法。我们进一步展示了我们的框架足够通用,可以通过切换解缠的潜在或语义代码来适应手写风格变换。02. 相关工作0多任务学习是一种利用多类标签的典型方法。在许多先前的工作中观察到,联合学习主任务和相关的辅助任务可以以聚合方式改善性能[16, 22, 49,32],而我们的目标是消除。生成对抗网络(GAN)引起了越来越多的关注。传统上,在两个玩家(即生成器和判别器)的框架下,传统的GAN[11]擅长生成逼真的图像,但其识别潜力有待开发。典型的方法使用GAN作为图像的预处理步骤,类似于“去噪”,然后使用这些处理过的图像进行正常的训练和测试[56, 19, 47, 54, 60, 36,41]。我们直接将训练好的网络用于预测,作为特征提取器。与像素级GAN [56, 19, 47,54]相比,值得注意的是,一些GAN的工作,例如半监督GAN [24]和DR-GAN[56]声称考虑了多个辅助标签。确实,他们为多类别分类添加了一个新的分支,但他们竞争的对抗损失只是使用了两个分布(真实或生成的),在辅助的多类别分类器分支中没有在不同类别之间采用对抗策略。我们与他们在两个方面不同:1)语义鉴别器的输入是特征,而不是真实/合成图像;2)编码器的目标是匹配或对齐任意两个不同属性之间的特征分布,而不仅仅是真实/虚假分布,并且在语义鉴别器中没有“真实”类。公平/无偏分类也针对对某些与任务相关(依赖)因素(即偏见)不变的表示,从而使预测结果公平[7]。由于使用历史数据训练的数据驱动模型很容易继承数据中存在的偏见,Fair VAEs[39]使用变分自动编码器结构[25]并使用最大均值差异(MMD)正则化[30]来解决这个问题。[62]提出使用不同干扰变量的表示分布之间的l1距离来规范化表示以实现公平性。这些方法具有相同的缺点,即用于规范化表示的成本是成对的,对于多个语义变化[59,5]不具有良好的可扩展性。[59]提出将这个概念与对抗训练相结合,其框架与Fader Networks[27]用于图像生成类似。潜在变化解缠表示与我们的工作密切相关。它试图根据与任务的相关性将输入分为两个互补的代码,以在单标签数据集设置中进行图像变换[3]。早期的尝试[52]使用双线性模型将文本与字体分离。[8,24]中使用流形学习和变分自动编码器将数字与风格分离。What-where编码器[64]将重构标准与判别相结合,以分离与标签相关的因素。不幸的是,他们的方法无法推广到未见过的身份。[44,58]将GANs目标添加到VAEs目标中,通过复杂的三元组训练流程放松了这个限制。[18, 37, 14, 2, 21,21]进一步降低了复杂性。受到他们的启发,我们以一种简单而高效的方式使我们的框架对未指定的l具有隐式不变性,以实现更好的普适性。[44]。0我们的特征级竞争结果导致了更简单的训练方案,并且可以很好地扩展到多个属性。此外,它们通常无法消除与任务相关的变化,例如,无法从身份中消除性别,以获得逼真的面部图像用于后续网络训练。此外,它们通常只关注特定任务的单一变化。实际上,大多数GAN和对抗性领域适应[57, 4,31]使用二进制对抗目标,并且仅适用于不超过两个分布。It is worth noting that some works of GANs, e.g., Semi-Supervised GAN [24] and DR-GAN [56] have claimed thatthey consider multiple side labels. Indeed, they have addeda new branch for the multi-categorical classification, buttheir competing adversarial loss only confuses the discrim-inator by using two distributions (real or generated) and noadversarial strategies are adopted between different cate-gories in the auxiliary multi-categorical classifier branch.We are different from them in two aspects:1) theinput of semantic discriminator is feature, instead ofreal/synthesized image; 2) the goal of encoder needs tomatch or align the feature distribution between any two dif-ferent attributes, instead of only real/fake distribution, andthere is no “real” class in semantic discriminator.Fairness/bias-free classification also targets a representa-tion that is invariant to certain task-relevant(dependent) fac-tor (i.e., bias) hence makes the predictions fair [7]. As data-driven models trained using historical data easily inherit thebias exhibited in the data, the Fair VAEs [39] tackled theproblem using a Variational Autoencoder structure [25] ap-proached with maximum mean discrepancy (MMD) regu-larization [30]. [62] proposed to regularize the l1 distancebetween representation distributions of data with differentnuisance variables to enforce fairness. These methods havethe same drawback that the cost used to regularize the rep-resentation is pairwise, which does not scale well for mul-tiple semantic variations [59, 5]. [59] propose to combinethis concept with adversarial training, which has the similarframework as the Fader Networks [27] for image genera-tion.Latent variation disentangled representation is closelyrelated to our work. It trying to separate the input into twocomplementary codes according to their correlation withthe task for image transform in single label dataset setting[3]. Early attempts [52] separate text from fonts using bi-linear models. Manifold learning and VAEs were used in[8, 24] to separate the digit from the style. What-where en-coders [64] combined the reconstruction criteria with dis-crimination to separate the factors that are relevant to thelabels. Unfortunately, their approaches cannot be general-ized to unseen identities. [44, 58] added the GANs objec-tive into the VAEs objective to relax this restriction usingan intricate triplet training pipeline. [18, 37, 14, 2, 21, 21]further reduced the complexity. Inspired by them, we makeour framework implicitly invariant to unspecified l for bet-ter generality in a simple yet efficient way. [44].3. Methodology3.1. The problem definitionWe formalize the task of Feature-level Frankenstein(FLF) framework as follows:Given a training setD =�x1, s1, y1�, · · · ,�xM, sM, yM�, of M samples{image, semantic variations, class}, we are interestedin the task of disentangling the feature representation of x tobe three complementary parts, i.e., discriminative represen-tation d, semantic variation s and latent variation l. Thesethree codes are expected to be marginally independent witheach other, as illustrated schematically in Fig. 1. In thecase of face, typical semantic variations including gender,expressions etc. All the remaining variability unspecifiedby y and s fall into the latent part l. We note that there aretwo possible dependency scenarios of s and y as discussedin Sec. 1. This will not affect the definition of l, and theinformation related to y should incorporate d and some ofthe task-dependent s.3.2. The structure of representationsFor the latent variation encoding, we choose the l to be avector of real value rather than a one-hot or a class ordinalvector to enable the network to be generalized to identitiesthat are not presented in the training dataset as in [44, 2].However, as the semantic variations are human-named fora specific domain, this concern is removed. In theory, s canbe any type of data (e.g., continuous value scalar/vector,or a sub-structure of a natural language sentence) as longas it represents a semantic attribute of x under our frame-work. For simplicity, we consider here the case where s isa N-dimensional binary variable for N to-be controlled se-mantic variations. Regarding the multi-categorical labels,they are factorized to multiple binary choices. The domainadaptation could be a special case of our model when thesemantic variation is the Bernoulli variable which takes theone-dimensional binary value (i.e., s = {0, 1}), represent-ing the domains.3.3. Framework architectureThe model described in Fig. 2 is proposed to achieveour objective based on an encoder-decoder architecture withconditional adversarial training.At inference time, a test image is encoded to the d andl in the latent space, and the d can be used for recognitiontask with desired invariant property w.r.t. the s. Besides,the user can choose the combination of (d,s,l) that are fedto the decoder for different image transforms.Informative to main-recognition task. The discriminativeencoder Ed with parameter θEd maps an input image to itsdiscriminative representation d = Ed(x) which is informa-tive for the main recognition task and invariant to some se-mantic attributes. By invariance, we mean that given twosamples x1, x2 from a subject class (y1 = y2) but withdifferent semantic attribute labels (s1 ̸= s2), their d1 andd2 are expected to be the same. Given the obtained d, weexpect to predict its corresponding label y with the classi-fier Cd to model the distribution pCd(y|x). The task of Cd639…x= 𝐷𝑒𝑐(𝑠̂, 𝑧, 𝑧̂)𝑥�𝑃 𝑧’ 𝑠̂xsz𝑧̂𝑠̂𝑃 𝑦 𝑠̂𝑧̂𝑦𝑃 𝑦 𝑧𝑦�𝐸�𝐸�𝐸�̂𝐷𝑖𝑠𝐶�𝐶�̂𝐷𝑒𝑐Forward propagationBack propagation𝐸�𝐸�xdl𝐷𝑖𝑠𝐶�𝐶�𝐷𝑒𝑐sInputsampleLatent variationSemantic variationsDiscriminative representationSoftmaxy1y2yM…Softmaxy1y2yM𝒙�Reconstructed sample= 𝐷𝑒𝑐(𝑑, 𝑠, 𝑙)𝑝𝐷𝑖𝑠 𝑠 𝑑6400� � � � �0� � � � �0图2.提出的特征级Frankenstein框架,其中x通过两个编码器被编码为3个部分(即d,l,s),并且(d,l,s)的组合可以通过解码器重构为˜x。对抗训练的dis和分类器用于约束潜在特征空间。0E_d的第一个目标是确保主要识别任务的准确性。因此,我们更新它们以最小化:0最小化E_d和C_d损失,L_C_d = E(x,y)�q(x,s,y) [-logp_C_d(y|E_d(x))] (1)0这里我们使用分类交叉熵损失函数来进行分类器的训练。q(x, s,y)是真实的潜在分布,经验观测是从这个分布中抽取的。0消除语义变化。判别器Dis输出属性向量p_Dis(s|d)的概率。在实际实现中,通过将d和二进制属性编码s连接起来,使用sigmoid单元将[0,1]的值作为输入和输出。它的损失取决于语义编码器的当前状态,表示为:0最小化Dis损失最大化E_d损失,L_Dis = E(x,s)�q(x,s,y) [-logp_Dis(s|E_d(x))] (2)0具体而言,Dis和E_d构成了一个对抗博弈,Dis被训练以最大化似然p_Dis(s|d),而E_d通过最小化相同的似然来隐藏它。方程(2)保证了d在s上是边缘独立的。假设语义变化遵循伯努利分布,损失函数可以表示为−{s log Dis(d) + (1 -s) log (1 -Dis(d))}。所提出的框架可以通过扩展语义变化向量的维度来控制多个属性。对于N个要消除的语义变化,我们有logp_Dis(s|d) = Σ_{i=1}^N {logp_Dis(s_i|d)}。请注意,即使在训练阶段使用二进制属性值,推理过程中每个属性也可以被视为连续变量,以选择在生成的图像中该属性的可感知程度。正如在第2节中讨论的那样,我们的语义判别器与传统的GANs有本质的不同。特征级的竞争也类似于对抗自编码器。0[43]与先验分布(高斯分布)匹配的中间特征。然而,我们被条件约束在另一个向量s上,并要求编码器在任意两个s之间对齐分布,而不仅仅是真/假。0算法1 训练FLF框架0θ ← 初始化网络参数重复{从数据集中随机选择一个小批量样本{x, s, y}计算 E_d(x)计算 E_l(x)计算 ˜x = Dec(d, s, l)计算 L_C_d = E(x,y)�q(x,s,y) [-log p_C_d(y|E_d(x))]计算 L_Dis = E(x,s)�q(x,s,y) [-log p_Dis(s|E_d(x))]计算 L_C_l = E(x,y)�q(x,s,y) [-log p_C_l(y|E_l(x))]计算 L_rec = E(x,s,y)�q(x,s,y) || Dec(d, l, s) - x ||_2^2根据梯度更新参数θ_E_d = �_θ E_d(L_C_d - αL_Dis + βL_rec)根据梯度更新参数θ_E_l = �_θ E_l(λL_rec - L_C_l)根据梯度更新参数θ_rec = �_θ rec L_rec根据梯度更新参数θ_C_d = �_θ C_d L_C_d根据梯度更新参数θ_C_l = �_θ C_l L_C_l根据梯度更新参数θ_dis = �_θ dis L_dis直到达到截止时间0消除潜在变化。为了训练潜在变化编码器E_l,我们提出了一种新颖的对抗网络变体,其中E_l与分类器C_l进行最小最大博弈,而不是与判别器进行博弈。C_l检查背景潜在变化l并学习正确预测类别标签,而E_l试图通过欺骗C_l进行错误预测来消除任务特定因素d。0最小化C损失最大化E损失,L(C) = E(x,y)�q(x,s,y) [-log p_C(y|E(x))](3)0由于d的真实值是不可观测的,我们在这里使用y,它包含d和主任务相关的s。我们在实现中还使用softmax输出单元和交叉熵损失。与使用三个并行的VAE[44]不同,对抗性分类器有望减轻昂贵的训练流程并促进收敛。05000 10000 15000 20000 250000.00.2.4.60.81.005000 10000 15000 20000 250000.00.20.40.60.81.06410补充约束。解码器 Dec是一个反卷积网络,根据连接的代码(d,s,l)生成输入图像的新版本。这三个部分应包含足够的信息以允许输入 x的重构。在这里,我们使用自正则化均方误差(MSE)来衡量重构的相似性,简单地表示为:0min E d ,E l ,Dec L rec = E x,s,y � q ( x,s,y ) ∥ Dec ( d, s, l ) −x ∥ 2 2 (4)0这种设计以隐式方式贡献于变化分离,并使编码特征更具包容性。0独立分析。这三个互补部分预期彼此之间不相关。由于其短代码无法包含其他信息,s 在很大程度上与 d 和 s不相关。我们通过最大化进行主要识别任务预测的确定性(方程(1))和推断给定 d的语义变化的不确定性(方程(2))来学习 d对主要识别任务具有鉴别性并在很大程度上与 s不相关。在给定 l的情况下,通过最小化方程(3)中进行主要任务(y)预测的确定性,可以使 l 在很大程度上与 d 和一些任务相关的 s不相关。考虑到我们框架的复杂性,我们不严格要求我们学到的 l 在任务无关的 s上在边际上是独立的。数据集中不存在 l 的真实标签来监督d 在潜在变化 l 上是边际独立的。相反,我们通过将 E d 和E l 的输出维度限制为信息瓶颈,以隐式要求 d 和 l包含很少的意外信息[55]。此外,还使用重构损失作为补充约束,避免 d 和 l 不包含任何信息。04. 实验0为了说明特征级别的Frankenstein(FLF)框架的行为,我们在三个不同的识别任务上定量评估具有所需不变性属性的鉴别性表示,并通过视觉检查条件人脸生成的感知质量进行定性评估。由于常见的指标(例如一组验证样本的对数似然)对于感知生成模型来说没有意义[53],我们使用与语义变化 s 或主任务标签 y相关联的信息来衡量每个表示部分中包含的信息,以评估解缠度的程度,就像[44,39]中那样。使用在0和1之间约束的几个权衡参数来平衡精心选择的损失函数。0(a) (b) 图3.MNIST图像交换的可视化网格。我们固定语义变化以索引MNIST数据集,同时交换鉴别性表示和潜在变化。使用左侧数字的l(书写风格)和列顶部数字的 d(数字)生成图像,其中 (a)我们的方法与 (b)[44](使用三元组训练)相比,训练时间减少了3倍以上。0准确率0迭代次数0FLF 基线2Head0准确率0迭代次数0FLF 基线2Head0(a) (b) 图4.使用MNIST+SVHN训练并在MNIST(a)和SFEW(b)上进行测试的提出的和基线CNN的数字识别准确率。0E l 的训练目标是最小化 ( −L C l + λ L rec ) ,其中 λ用于加权表示与类别标签的相关性以及重构的质量。在所有实验中,我们使用Adam优化方法[23]进行编码器-解码器网络、鉴别器和分类器的训练,学习率为0.001,beta为0.9。我们对鉴别器损失系数 α 使用可变权重。我们最初将 α设置为0,并将模型作为普通自编码器进行训练。然后,在前500,000次迭代中,线性增加 α到0.5,以慢慢鼓励模型产生不变表示。这种调度在我们的实验中非常关键。如果没有这个调度,我们观察到 E d受到来自鉴别器的损失的影响太大,即使 α的值很低。所有模型都使用TensorFlow实现。04.1.源无关数字分类0我们构建了一个组合数据集DIGITS,其中包含MNIST[28]和SVHN[45],以验证FLF在具有关于背景变化的先验信息的数字分类中的能力。MNIST是一个数字数据集,每个样本都是一个28×28的黑白数字图像,类标签从0到9。街景房屋号码6420(a) FLF (b) 原始x [59] 图5.扩展YaleB中图像的t-SNE[42]可视化。原始图像(b)根据其照明环境进行聚类,而我们框架学习的辨别性表示(a)更有可能仅与身份聚类。0(SVHN)是从Google街景图像中收集的一组房屋号码,每个号码都是一个尺寸为32×32的彩色图像,在自然环境中包含印刷类型的数字。我们将SVHN图像调整大小为28×28,并将MNIST样本复制到三个通道中,以合并这两个训练集。我们知道,这两个数据集之间的背景对比大,应该在我们的数字分类任务中进行解缠。因此,我们构建了一个二进制变量s,如果样本来自具有干净背景的MNIST,则s的值为0,否则为1。我们在图4中显示了在DIGITS数据集上训练并在MNIST和SVHN上进行测试时的数字识别平均准确率。我们采用[44]中的编码器和分类器结构作为FLF中的Ed和Cd,并将我们的基线CNN模型用于比较,该模型不旨在获得不变特征。如期望的那样,我们的源不变表示在两个子任务中都比基线更好地分类数字。同时预测数字数量和源共享参数的两个头多任务网络也实现了与基线相似的结果。在实际应用中,利用任务无关的语义标签是不高效的。此外,10类和10类两个头的网络在测试阶段需要语义标签来选择应该用哪个头来处理特定的输入。在现实世界的应用中,准确的语义标签很难获得。这些网络也面临着相同的缺点,即对于多个待解缠语义变化,网络设计将非常复杂。为了定量测量解缠程度,我们尝试测量与数字类别y和语义变化s相关的信息量,从提取的表示d和l中遵循[44,39]。在表1中,我们报告了MNIST数据集中的测试结果进行比较。正如我们所看到的,潜在的变化表示l对类别标签y和语义变化标签s几乎是不可知的,而具有辨别性的表示d则与这些标签相关。0表示d具有高识别准确率以预测y并融合少量语义变化s。我们注意到FLF在DIGITS中进行训练,而[44]不能支持语义变化的解缠,并且仅在MNIST中进行训练。期望(y|d)的准确性高于[44],因为从SVHN传递的额外信息具有背景变化的先验知识。通过固定s=0(即MNIST数据集)并交换其他两个部分(即d和l),我们得到与[44]中相同的函数,对应于解决图像类比。在此,l组件表示手写风格,d关注数字的类别。在图3中,我们展示了我们的交换结果,并与现有的最先进方法进行了比较。风格l和内容d看起来分离得很好,SVHN中的视觉属性不会出现在我们生成的样本中。据我们的判断,这三个解缠部分几乎是相互独立的。尽管我们没有一个损失函数来解缠l和d,并且在现实场景中通常无法获得潜在变化的标签,但Ed的有限输出维度以高效的方式实现了分离。没有三元组训练协议,我们的训练速度比[44]快得多。在我们的NVIDIA K40GPU上,损失通常在20分钟内收敛到DIGITS,而三元组训练[44]需要一个多小时才能仅对MNIST获得具有可比较视觉质量的结果。当应用于更大的数据集时,这种差距将更具吸引力。请注意,考虑到手写风格和统一的印刷字体之间的差异,SVHN对我们的MNIST数字生成几乎没有贡献。04.2. 具有光照容忍性的人脸识别0对于我们的具有光照容忍性的分类任务,我们使用了扩展YaleB数据集[10]。它包含了来自5种不同光照条件下的38个主体的人脸图像,即正面、左上、右上、左下或右下。我们的目标是使用d来预测主体身份y。在这个数据集设置中,要被清除的语义变量s是光照条件,而潜在变化l在这个数据集设置中没有实际意义。我们遵循[39,30]的两层Ed结构和训练/测试分割。190个样本用于训练,剩下的1,096个图像用于测试。使用Ed和Cd进行识别的数值结果如表1所示。我们将其与使用MMD正则化等方法去除光照条件影响的最先进方法进行了比较[39,30]。我们的框架消除光照条件的优势通过提高准确性至90.1%得到了展示,而最佳基准方法的准确性为86.6%。尽管光照条件可以使用Lambertian模型很好地建模,但我们选择使用通用神经网络来学习不变特征,以便所提出的方法可以轻松应用于其他应用。6430属性ID 属性定义 属性ID 属性定义 属性ID 属性定义01 5'O阴影 11灰发* 21男性 31连鬓胡子02弯眉毛 12厚嘴
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- JavaScript DOM事件处理实战示例
- 全新JDK 1.8.122版本安装包下载指南
- Python实现《点燃你温暖我》爱心代码指南
- 创新后轮驱动技术的电动三轮车介绍
- GPT系列:AI算法模型发展的终极方向?
- 3dsmax批量渲染技巧与VR5插件兼容性
- 3DsMAX破碎效果插件:打造逼真碎片动画
- 掌握最简GPT模型:Andrej Karpathy带你走进AI新时代
- 深入解析XGBOOST在回归预测中的应用
- 深度解析机器学习:原理、算法与应用
- 360智脑企业内测开启,探索人工智能新场景应用
- 3dsmax墙砖地砖插件应用与特性解析
- 微软GPT-4助力大模型指令微调与性能提升
- OpenSARUrban-1200:平衡类别数据集助力算法评估
- SQLAlchemy 1.4.39 版本特性分析与应用
- 高颜值简约个人简历模版分享
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功