没有合适的资源?快使用搜索试试~ 我知道了~
Psychological studies [12,22,27] reveal that: The recog-nition procedure is often assigned with hierarchical struc-tural descriptions by parsing the shapes into componentsand organizing them with their spatial relationships. Thisstatement is consistent with the improvements of various40320HP-Capsule:通过分层解析胶囊网络进行无监督人脸部件发现0Chang Yu 1, 2, Xiangyu Zhu 1, 2, Xiaomei Zhang 1, 2, Zidu Wang 1, 2, Zhaoxiang Zhang 1, 2, 3, Zhen Lei 1, 2, 3 *01 中国科学院自动化研究所 2 中国科学院大学人工智能学院 3中国科学院香港科学与创新研究院人工智能与机器人中心0{ chang.yu, xiangyu.zhu, zlei } @nlpr.ia.ac.cn0{ zhangxiaomei2016, wangzidu2022, zhaoxiang.zhang } @ia.ac.cn0图1.分层解析胶囊网络(HP-Capsule)的简要回顾。给定大量无标签图像(左),HP-Capsule可以自动发现分层人脸部件(中),并产生无监督的人脸分割结果(右)。0摘要0胶囊网络旨在通过一组部件及其关系来呈现对象,从而提供对视觉感知过程的洞察。尽管最近的研究表明胶囊网络在简单对象(如数字)上取得了成功,但适合描述胶囊的具有同源结构的人脸尚未被探索。本文提出了一种用于无监督人脸子部件-部件发现的分层解析胶囊网络(HP-Capsule)。在浏览大规模无标签人脸图像时,网络首先使用一组可解释的子部件胶囊对经常出现的模式进行编码。然后,通过基于Transformer的解析模块(TPM),将子部件胶囊组装成部件级胶囊,以学习它们之间的组合关系。在训练过程中,随着人脸层次结构的逐步构建和优化,部件胶囊会自适应地对人脸部件进行语义一致性编码。HP-Capsule将胶囊网络的应用从数字扩展到人脸,并进一步展示了神经网络如何在没有人为干预的情况下理解同源对象。此外,HP-Capsule通过部件胶囊的覆盖区域提供无监督的人脸分割结果,实现了定性和定量评估。在BP4D和Multi-PIE数据集上的实验证明了我们方法的有效性。0* 通讯作者。0心理学研究[12, 22,27]表明:识别过程通常通过将形状解析为组件并根据它们的空间关系进行组织,分配层次结构描述。这一观点与各种感知任务中利用部件级信息改进嵌入的改进一致[3, 24,37]。然而,大多数现有方法以预定义的方式实现解析[18, 20, 40,43],其中部件的定义由人类给出。这种手工解析无法反映神经网络如何理解对象。为了探索神经网络的视觉感知机制,一种有趣的方法是直接从数据中学习解析。网络应该尽可能少地进行人为干预,保持不同样本之间的语义一致性,如图1所示,发现视觉部件概念。这种无监督学习任务仍然是一个具有挑战性的问题,因为语义部件很难用数学方式描述。胶囊网络是一种通过一组部件及其关系来呈现对象的设计,对于这种无监督解析任务是一个可行的解决方案。在近年提出的胶囊结构中,SCAE [17]最适合这种无监督人脸部件发现任务,因为它以部分-整体层次结构呈现对象,并将胶囊定义为一组可解释的参数,包括存在性、姿态和可视化模板。然而,SCAE只能解析简单对象,如手写数字。当扩展到人脸图像时,SCAE无法捕捉人脸部件,将人脸分解为整体,在部件胶囊中生成整体表示,如图2所示。本文将改进胶囊网络以处理具有同源结构但外观多样的人脸。提出了一种分层解析胶囊网络(HP-Capsule),可以直接从无标签图像集中发现分层人脸部件及其关系。具体而言,HP-Capsule通过两个子模块理解人脸:基于胶囊的自编码器用于子部件发现,基于Transformer的解析模块(TPM)用于层次结构构建。在训练过程中,首先使用胶囊编码器捕捉和编码经常出现的模式,使用一组可解释的胶囊参数。可见性激活函数(VAF)是01. 引言perceptual tasks which incorporate part-level informationfor better embeddings [3, 24, 37]. However, most of theexisting methods implement the parsing in a predefinedway [18,20,40,43], where the definitions of parts are givenby humans. Such handcrafted parsing can not reflect howneural networks understand objects.To explore the visual perception mechanism of neuralnetworks, an intriguing way is to learn the parsing directlyfrom the data. The network should discover the visual partconcepts with as little human intervention as possible andkeep the semantic consistency across different samples, asshown in Figure 1. This unsupervised learning task is stilla challenging problem, as the semantic parts are difficult tobe described mathematically.Capsule networks, which are designed to present objectsby a set of parts and their relationships, are a feasiblesolution for this unsupervised parsing task. Among the cap-sule structures proposed in recent years [13, 14, 17, 25, 26],SCAE [17] is most suitable for this unsupervised face partdiscovery task since it presents objects with a part-wholehierarchy and defines the capsule as a set of explainableparameters including presences, poses, and visualizabletemplates. However, SCAE can only parse simple objectslike handwritten digits.When extended to face images,SCAE fails to capture face parts and decomposes facesas a whole, generating holistic representations in the partcapsules, as shown in Figure 2.In this paper, we will improve the capsule network tohandle human faces, which have homologous structuresbut diverse appearances. A Hierarchical Parsing CapsuleNetwork (HP-Capsule) is proposed to discover hierarchicalface parts and their relationships directly from the unlabeledimage sets.Specifically, HP-Capsule understands faceswith two sub-modules: a capsule-based autoencoder forsubpart discovery and a Transformer-based Parsing Module(TPM) for hierarchy construction.During training, thefrequently observed patterns are first captured and encodedby the capsule encoder with a set of explainable capsuleparameters.A Visibility Activation Function (VAF) is40330图2. SCAE [17]在数字和人脸上发现的部件。尽管SCAE可以捕捉简单数字上的部件,但在更复杂的对象(如人脸)上往往失败,学习整体模板作为部件。0提出了使用胶囊模板约束重建输入图像的过程,以便将对象在空间上分解为子部分而不是整体表示。然后,发现的子部分被视为视觉单词,并发送到TPM以聚合到更高级别的部分胶囊,从而自然构建子部分到部分的层次结构。为了保持形状和外观的一致性,引入了几个约束,使生成的部分具有更显著的语义。作为副产品,部分胶囊的覆盖区域可以被视为分割图,可用于无监督的人脸分割任务,从而实现对我们方法的评估。与其他无监督分割方法相比,HP-Capsule在语义一致性方面表现更好,并提供了有关发现部分的更可解释的描述,包括可视化模板以及存在和姿势的统计信息。总结起来,本文的主要贡献有:0•本文提出了一种用于无监督人脸层次发现的分层解析胶囊网络(HP-Capsule)。HP-Capsule揭示了神经网络如何在没有人为干预的情况下理解同源结构。0•在子部分发现过程中,我们提出了一种可见性激活函数(VAF),它强制网络集中在具有更高可见性的模板区域,以确保对象被分解为局部子部分而不是整体表示。0•提出了一种基于Transformer的解析模块(TPM),用于将子部分聚合到部分中,构建子部分-部分的人脸层次结构。部分胶囊的覆盖区域也可以用于无监督人脸分割。在BP4D和Multi-PIE上的实验证明了我们方法的有效性。02. 相关工作0胶囊网络。受人脑稀疏连接的启发,胶囊网络旨在以动态解析树的形式呈现对象。给定输入图像,胶囊网络会自动激活一些胶囊,然后将它们传递给下一层。当为胶囊分配明确的含义时,网络的可解释性将得到提高。最近的研究已经展示了胶囊在各种任务上的成功应用[28, 36, 38,44],但其中大部分将胶囊作为增强的多层感知机(MLP),而胶囊的可解释性和解析特性尚未得到很好的探索。多年来,胶囊网络已经发展出许多版本[13, 14, 17, 25, 26]。其中,SCAE[17]是一种通过无监督学习使用一组可视化模板来描述对象的有趣结构。然而,SCAE只能处理像手写数字这样的简单对象,学到的模板类似笔画。最近,Sabour等人[26]将胶囊网络扩展到复杂图像,如人体,但需要光流作为线索,只能显示每个部分的掩码。本文将SCAE扩展到更复杂的对象,如人脸,直接从无标签图像集中发现人脸层次结构。无监督部分发现。近年来,无监督学习取得了令人瞩目的进展[2, 4, 10, 29, 31,33-35]。我们的工作与无监督部分发现任务相关,该任务旨在从无标签图像或视频中发现视觉概念。在早期,Feng等人[6]提出了局部非负矩阵分解(LNMF)来学习人脸的基于部分的表示。通过添加局部稀疏分解,LNMF可以学习基于部分的基础,但由于人脸在线性空间中呈现,性能仍然受限。最近的研究[1,8]表明,CNN特征已经包含了语义部分。在此启发下,Collins等人[5]提出使用CNN激活上的非负矩阵分解(NMF)来定位图像集中的语义概念。然而,这种方法在推理过程中需要解决优化问题,并且缺乏可解释性。除了使用激活图之外,其他方法[7, 26,39]尝试使用视频中的运动线索来发现部分,因为具有相同语义的区域总是一起移动。与此不同,我们的方法不需要运动线索,学到的部分可以直接可视化,以获得更好的解释性。无监督人脸分割。最近,有几种方法[7, 26,39]尝试使用视频中的运动线索来发现部分,因为具有相同语义的区域总是一起移动。与此不同,我们的方法不需要运动线索,学到的部分可以直接可视化,以获得更好的解释性。无监督人脸分割。最近,有几种is an intriguing structure that describes the objects with aset of visualizable templates through unsupervised learning.However, SCAE can only tackle simple objects like hand-written digits where the learned templates are stroke-like.Recently, Sabour et al. [26] extend the capsule network forcomplicated images like human bodies, but it needs opticalflow as clues and can only show the mask of each part. Inthis paper, we extend SCAE to more complicated objectslike human faces, discovering the face hierarchy directlyfrom the unlabeled image sets.Unsupervised Part Discovery. Unsupervised learninghas witnessed impressive progress in recent years [2, 4,10, 29, 31, 33–35].Our work is related to the task ofunsupervised part discovery, which aims to discover visualconcepts from unlabeled images or videos.In the earlyyears, Feng et al. [6] propose the local non-negative matrixfactorization (LNMF) to learn part-based representationsfor human faces. By adding localized sparsity factorization,LNMF can learn part-based basis, but the performanceis still constrained as the faces are presented in the lin-ear space.Recent works [1, 8] show that the semanticparts have already been included in the CNN features.Inspired by this, Collins et al. [5] propose to use non-negative matrix factorization (NMF) on CNN activationsto locate the semantic concepts on image sets. However,this approach needs to solve optimization during inferenceand lacks interpretability. Besides using activation maps,other methods [7, 26, 39] try to use motion clues in videosto discover parts as the regions with the same semanticsalways move together. Differently, our method does notneed motion clues and the learned parts can be visualizeddirectly to gain better explainability.Unsupervised Face Segmentation.Recently, several40340图3.分层解析胶囊网络(HP-Capsule)概述。HP-Capsule通过两个子模块来理解人脸:具有可见性激活函数(VAF)的胶囊自编码器用于子部分发现,基于Transformer的解析模块(TPM)用于层次结构构建。在训练过程中,首先捕捉并编码了经常出现的模式,使用一组可解释的胶囊参数,然后通过VAF进行子部分发现。然后,探索出的子部分胶囊被送入TPM进行更高级别的部分胶囊。TPM通过形状一致性损失和聚类生成的伪子部分-部分关系进行训练。通过自动聚合子部分到部分,自然构建了人脸层次结构。0一些研究在无监督面部分割任务上取得了积极的进展。Hung等人[15]提出了几种损失函数,用于学习几何集中且对空间变换具有鲁棒性的面部部分。他们的方法需要使用显著性图来抑制背景特征,而Liu等人[19]认为这可能使方法不太可靠。因此,他们提出了一种集中损失来分离背景,并使用挤压和扩展块来获得更好的形状表示。Gao等人[7]提出了一种利用嵌入在视频中的运动线索的双重过程来进一步提高性能。与这些方法相比,我们的网络更具可解释性,并且可以获得具有更好语义一致性的部分。03. 方法论0给定同一类别的图像集合,我们的工作旨在学习一个模型,能够从单个图像中发现分层部分及其关系。在接下来的部分中,我们将介绍第3.1节中的整体框架,第3.2节中使用可见性激活函数的胶囊自编码器进行子部分发现,以及第3.3节中基于Transformer的解析模块进行层次结构构建。03.1. 整体框架0本文提出了一种用于无监督面部层次结构发现的分层解析胶囊网络,包括用于子部分发现的胶囊自编码器和用于层次结构构建的解析模块。整体框架如图3所示。给定输入图像I,网络首先使用胶囊自编码器进行子部分发现,然后使用解析模块进行层次结构构建。where the m-th part capsule Θpm : {T pm, V pm, rpm} includespHpW ppHpW p(3)(4)KB�2+ 1KK�2,40350(a)未使用VAF发现的子部分模板。0(b)使用VAF发现的子部分模板。0图4.可见性激活函数(VAF)的影响。与(a)中的整体模板相比,(b)中发现的子部分模板是稀疏且局部连接的。0编码器估计K个子部分胶囊:0Θ s 1,Θ s 2,...,Θ s K = E enc(I),(1)0其中每个子部分胶囊Θ sk是一组具有可解释的物理意义的参数:Θ s k:{p s k,θ sk,T s k,V s k,f s k},k ∈ [1,K],包括存在概率p s k∈ R 1 × 1,姿态θ s k ∈ R 1 × 6,模板T s k ∈ R H s ×W s,可见性图V s k ∈ R H s × W s和输入特定特征f s k∈ R 1 × D。特别地,T s k和V sk描述了发现的子部分的形状和可见区域,这些区域在样本之间共享。发现的子部分胶囊被视为视觉单词,并被送入基于Transformer的解析模块以估计更高级别的部分胶囊,其中自然地构建了子部分到部分的层次结构:0Θ p 1,Θ p 2,...,Θ p M = E T P M(Θ s 1,Θ s2,...,Θ s K),(2)0和关系r p m ∈ R 1 ×K,描述了所有子部分胶囊之间的组合关系。T p m和V pm根据关系r pm从子部分聚合而来。当构建面部层次结构时,部分胶囊自然地对发现的面部部分进行语义编码,其覆盖的区域也可以用于无监督的面部分割。03.2. 使用可见性激活函数进行子部分发现0部件可以被粗略地定义为稀疏和局部连接的区域,在对象之间具有语义一致性[8,15]。最近的胶囊网络SCAE[17]在简单的对象(如数字)上显示出有希望的结果,但在更复杂的对象(如人脸)上往往失败。如图4a所示,SCAE将整体的面部表示捕捉为子部分胶囊中的模板。为了实现部分级别模板的学习,我们提出了0胶囊自编码器使用可见性激活函数(VAF)。在训练过程中,网络首先使用基于自注意力的胶囊编码器[17]估计子部分胶囊的参数Θ s k:{p s k,θ s k,T s k,V s k,f sk}。其次,从特征f s k解码出颜色分量C sk以进行模板细化。然后,模板T s k和可见性图V sk通过姿态参数θ sk进行变换。最后,通过VAF传递变换后的ˆ T s k和ˆ V sk以获得激活的模板˜ T sk。这个胶囊编码过程可以表示为:0psk,θsk,Tsk,Vsk,fsk =Eenc(I),0Cks = MLP(fsk),ˆTsk,ˆVsk =AffineTrans(Tsk,Vsk,θsk),0˜Tsk = VAF �ˆTsk,ˆVsk�。0考虑到可见性图ˆVs控制子部分的轮廓,我们采用VAF来抑制学习不可见区域,其公式如下:0˜Tski,j =0�ˆTski,j,如果ˆVski,0- 1,否则,0其中i,j表示像素的位置,γ是激活的超参数阈值。VAF鼓励网络仅使用高可见性模板区域重构输入图像,以便在训练过程中不接收到反向传播信号的非激活区域(通常表示为模糊的平均脸)被抑制。根据公式3,子部分胶囊的模板可以转换为图像空间。如果将输入图像I建模为子部分胶囊的高斯混合,重构损失由以下公式给出:0Lrec = - �0i,j0k = 1 pskˆVski,jN(Ii,j |Cski,j∙˜Tski,j;σ2k),(5)0其中σ2k表示高斯混合的方差。我们还引入Lpres来约束激活的子部分胶囊的稀疏性:0Lpres = 10� K �0k = 10� B �0b = 1 psk,b- τB0(6)其中B表示批量大小,τ是平均激活子部分胶囊数量的超参数。通过公式6优化的网络将尝试在小批量中激活相同数量但不同的子部分胶囊。此外,我们使用两个损失来约束发现的子部分的连接性,包括Lcen用于��i,jV ski,j�,(7)(9)(10).(12)40360几何浓度[15]和Lstd用于平衡不同子部分模板的可见区域:0Lcen = �0i,j ∥(i,j)-(Ws / 2,Hs /2)∥2∙Vski,j,0Lstd = std0其中Ws和Hs是子部分模板的宽度和高度,std代表标准差。子部分发现的损失函数组合如下:0Lsubpart = λrecLrec + λpresLpres + λcenLcen + λstdLstd。0(8)如图4b所示,具有VAF的网络可以有效地发现面部的局部外观。03.3.基于Transformer的解析模块的层次结构构建0仿射变换和小子部分的组合使它们足够可行,可以处理姿势和外观的变化。然而,由于其有限的表达能力,它们具有模糊的语义。如图5所示,发现的皮肤模板可能同时响应额头和颧骨,与眼睛相关的模板突出显示左右眼。因此,如果只根据外观组装子部分,面部层次结构中将存在歧义,导致聚合部分的缺陷。我们提出了一种基于Transformer的解析模块(TPM),用于自动构建稳定的子部分-部分层次结构。如果我们将每个子部分胶囊视为一个视觉单词,那么子部分胶囊的集合就成为一个句子,由于我们需要处理复杂的面部外观,所以这个句子非常长(本文中有75个子部分)。Transformer[30]最初是为了捕捉自然语言处理中单词之间的长距离依赖关系而提出的,自然可以扩展到我们的任务。在本文中,我们采用Transformer来建模子部分-部分关系,其中子部分胶囊Θsk:{psk,θsk,Tsk,Vsk,fs}作为输入序列发送以估计部分胶囊Θpk}m:{Tpm,Vpm,rpm}:0r p 1,r p 2,...,r p M = Transformer(Θ s 1,Θ s 2,...,Θ sK),0T p m 0k r p m k p s k k ˆ T s k,0V p m 0k r p m k ps k ˆ V s k,0其中r p m = [r p m 1,...,r p mK]描述了子部件胶囊属于第m个部件的概率。在训练过程中,我们使用K-means [23]为变换器生成伪子部件-部件关系,而Lcls可以被表示为:0图5.子部件及其对应的热图示例。由于在不同位置上的模糊性,一些较小的子部件缺乏语义。0表示为:0L cls = -10�0m ˇ r p m k log0ˇ r p m = K-means[ˆ V s k + t s x k; ˆ V sk + t s y k],0其中t s x k,t s y k是从姿势参数θ sk派生的平移参数。此外,我们还分配了一个轮廓损失Lsilh来约束样本之间的形状一致性:0L silh = 10M0m ∥ V p m − ˇ V p m ∥2,(11)0其中ˇ V pm是mini-batch的平均可见性图。至于子部件组装,由于每个子部件胶囊只能属于一个部件胶囊,我们用Lrela惩罚组合关系的稀疏0L rela = 10K0�0k0�0- �0m r p m k log (r p m k )0�0提出的TPM结合了外观和几何线索来进行子部件组装,以使生成的部件具有更明显的语义。层次结构构建的整体损失函数可以被表示为:0L part = λ cls L cls + λ silh L silh + λ rela L rela,(13)0其中λ cls,λ silh和λ rela是组合不同损失函数的超参数。04. 实验04.1. 实现细节0HP-Capsule包含两个子网络:具有VAF的子部件胶囊自动编码器和基于变换器的�n(14)�nVAFTPMNCDNMEDL(%)30.72-✓19.276.21✓✓18.796.1040370解析模块。我们用两个残差块[11]替换了PCAE[17]中的四个卷积层作为胶囊自动编码器。对于变换器,我们采用可学习的槽注意力[21]作为编码器,并使用MLP作为解码器,其中槽注意力的迭代次数设置为3。我们通过SSFNet[41]提取前景掩码,以便集中于部分发现。为了公平比较,我们对其他需要前景掩码的无监督人脸分割方法进行了相同的操作。在训练过程中,首先训练胶囊自动编码器以收敛,然后与TPM一起进行优化。对于优化,我们使用Adam优化器[16]和10-4的学习率。所有实验都在Pytorch上使用单个NVIDIA Tesla M40 GPU实现。04.2. 数据集0BP4D。我们在BP4D [42] fromFG3D数据集[45]上评估我们的模型。经过[45]的3D增强,它包含来自41个具有不同表情和姿势的主题的23,359张图像。我们随机选择90%进行训练,10%进行测试。Multi-PIE。Multi-PIE数据集[9]包含337个具有不同表情的主题。图像是在15个不同的视角下以15°间隔拍摄的。在本文中,我们选择了来自中间5个带闪光灯的相机的图像,以避免极端姿势,其中包含8,974张图像。在实验中,Multi-PIE用于测试泛化能力。我们将数据集分为90%进行训练,10%进行测试,因为无监督的人脸分割的评估还需要样本来训练拟合模型。04.3. 评估指标0在消融研究中,使用归一化集中距离(NCD)来估计部分的集中程度,其公式为:0NCD = 10i,j ∥(i,j)−(cni,cnj)∥2 ∙ Sn i,j /zn,0(cni,cnj) =0i,j i ∙ Sn i,j /zn,0i,j j ∙ Sn i,j /zn0� ,0其中Sn是第n个部分的覆盖区域,(cni,cnj)是第n个部分的质0i,j Sni,j用于归一化。归一化平均误差(NME)用作评估解析质量的另一种方法,其公式为:0NME = 10∥vn−v�n∥20d,(15)0其中N是地标的数量,vn是从分割结果中预测的地标,v�n是0图6.HP-Capsule的定性消融研究。我们可以看到,VAF有助于发现有效的子部分,TPM改善了部分的语义。0表1.BP4D上的定量消融研究。结果显示VAF和TPM对于分层面部发现的重要性。0真值和d是眼间距。根据SCOPS [15],NMEL使用分割图的质心作为地标,并通过线性映射将其转换为人工注释的地标。在测试过程中,我们将预测的5个地标分别映射到5个和68个真值地标。然而,分割图的质心过于粗糙,无法衡量解析方式。在本文中,我们提出了NMEDL来评估详细级别上的语义一致性。NMEDL仅使用一个残差块和一个线性层的非常浅的网络直接从分割图中预测地标。04.4. 消融研究0我们进行消融研究,以展示VAF对子部分发现和TPM对层次结构构建的重要性。图6显示了面部部分发现和分割的可视化结果。第一行显示原始胶囊网络无法处理面部,发现的部分是整体的,几乎覆盖整个面部。在第二行中,通过VAF,网络可以捕捉到有效的局部部分,因为训练过程中会抑制能见度较低的区域。然而,由于其有限的语义,子部分具有模糊性。The covered regions of parts discovered by HP-Capsulecan be used for the unsupervised face segmentation task, en-abling the comparison with other state-of-the-art methods.Methods.The unsupervised face segmentation fromunlabeled images is a challenging task that has not beenwell explored. DFF [5] proposes to use non-negative matrixfactorization upon the CNN features to discover the seman-tic concepts, which needs to optimize on the whole datasetsduring inference to keep semantic consistency. SCOPS [15]incorporates the invariance between TPS transformation asclues and proposes a framework with several loss functionsfor unsupervised segmentation.However, their methodmainly relies on the concentration loss, which tends to cutthe images into the same region regardless of the face poses.40380图7.HP-Capsule发现的分层面部部分。对于每个输入,HP-Capsule自动选择一组子部分来描述当前对象(用红色框标记),并将它们聚合起来以获得具有更显著语义的部分(用蓝色点框标记),构建自底向上的层次结构。0图8.每个区域对于人脸识别的重要性。列的颜色与分割图相同。眼睛区域对于识别更重要。0表达能力,在图5中展示。因此,如果仅使用伪子部分-部分关系进行层次结构构建(方程10),聚合部分将在语义上存在严重缺陷并变得模糊,如第二行所示。引入TPM进行细化后,部分的语义得到改善。VAF和TPM的重要性在表1的定量评估中得到进一步验证。04.5. 对利用的面部层次结构的分析0对于每个输入,HP-Capsule自动激活一组子部分胶囊并将它们聚合到更高级的部分胶囊中,构建自底向上的层次结构。图7显示了HP-Capsule发现的分层人脸部位。可以看出,HP-Capsule几乎重建了原始图像,并将其解析为五个部分:鼻子、嘴巴和脸颊的左侧、嘴巴和脸颊的右侧、包含左眼和左耳的左上脸部以及右上脸部。最后一列显示了每个部分的相应子部分。通过胶囊中定义的模板,可以直接可视化发现的概念,无需任何解码操作,这使我们更容易理解。我们还设计了一个玩具实验,展示了哪个部分胶囊对于人脸识别很重要。我们为每个子部分胶囊分配一个可训练的非负标量wk作为注意力权重,并将加权的子部分胶囊参数wkΘsk发送到线性分类器进行人脸识别:y= Linear(w1Θs1, ...,wKΘsK)。分类器使用softmax和L1惩罚来稀疏wk。每个部分的平均权重显示在图8中。可以看出,眼睛区域对于人脸识别最重要,这与Williford等人的工作[32]一致,该工作表明眼睛和鼻子包含更具辨别力的人脸特征。0HP-Capsule发现的部分覆盖区域可以用于无监督人脸分割任务,使其能够与其他最先进的方法进行比较。方法。从未标记的图像中进行无监督人脸分割是一项具有挑战性的任务,尚未得到很好的探索。DFF[5]提出使用非负矩阵分解来发现CNN特征上的语义概念,这需要在推理过程中对整个数据集进行优化以保持语义一致性。SCOPS[15]将TPS变换之间的不变性作为线索,并提出了一个具有几个损失函数的框架用于无监督分割。然而,他们的方法主要依赖于集中损失,这倾向于将图像切割成相同的区域,而不考虑面部姿势。04.6. 无监督人脸分割的比较NGT = 5NGT = 68NGT = 5NGT = 6840390图9.在BP4D数据集上无监督人脸分割的定性比较。HP-Capsule在样本之间展现出更好的语义一致性。0图10.在Multi-PIE数据集上无监督人脸分割的定性比较。HP-Capsule在推广到另一个数据集时表现出更好的稳定性。0表2. 在BP4D数据集上无监督人脸分割的定量比较。NMEL(%)和NME DL(%)评估了关键点的语义一致性。0方法 NME L NME DL0DFF [5] 18.85 18.62 12.26 SCOPS [15] 9.109.67 6.74 HP-Capsule 8.81 9.11 6.100在BP4D数据集上的评估。从图9可以看出,没有任何空间变换作为线索,HP-Capsule仍然优于其他方法,具有更好的语义一致性。如第二行所示,SCOPS的结果有时将右眼视为右侧的绿色部分,有时将其视为顶部的粉色部分,甚至从中间分割。相比之下,HP-Capsule在不同姿势下保持相同的解析方式。这是因为HP-Capsule的共享模板编码了经常观察到的模式,并捕捉到了更好的图像重建的内在几何线索。表2的结果也验证了我们方法的有效性。0表3. 在Multi-PIE数据集上无监督人脸分割的定量比较。NMEL(%)和NME DL(%)评估了关键点的语
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 李兴华Java基础教程:从入门到精通
- U盘与硬盘启动安装教程:从菜鸟到专家
- C++面试宝典:动态内存管理与继承解析
- C++ STL源码深度解析:专家级剖析与关键技术
- C/C++调用DOS命令实战指南
- 神经网络补偿的多传感器航迹融合技术
- GIS中的大地坐标系与椭球体解析
- 海思Hi3515 H.264编解码处理器用户手册
- Oracle基础练习题与解答
- 谷歌地球3D建筑筛选新流程详解
- CFO与CIO携手:数据管理与企业增值的战略
- Eclipse IDE基础教程:从入门到精通
- Shell脚本专家宝典:全面学习与资源指南
- Tomcat安装指南:附带JDK配置步骤
- NA3003A电子水准仪数据格式解析与转换研究
- 自动化专业英语词汇精华:必备术语集锦
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功