没有合适的资源?快使用搜索试试~ 我知道了~
10153通过分离聚集:基于半监督风格转换的人脸特征点检测算法钱胜菊1,孙克强2,吴伟2,3,陈谦3,贾佳雅1,41香港中文大学2清华大学3商汤科技4腾讯优图实验室{sjqian,leojia}@ cse.cuhk.edu.hk,skq17@mails.tsinghua.edu.cn,{wuwenyan,qianchen}@ sensetime.com摘要人脸标志点检测,或称人脸对齐,是一项基础性的研究课题.在本文中,我们探讨了一个新的角度,人脸界标检测,并证明它导致进一步的不可表的改进。考虑到任何人脸图像都可以被分解为捕获照明、纹理和图像环境的风格空间以及风格不变的结构空间,我们的关键思想是利用每个个体的解纠缠风格和形状空间来通过风格转换来增强现有结构。有了这些增强的合成样本,我们的半监督模型令人惊讶地超过了完全监督模型。广泛的实验验证了我们的想法的有效性,并在WFLW [67],300W [54],COFW [6]和AFLW [34]数据集上获得了最先进的结果。我们提出的结构是通用的 , 可 以 组 装 成 任 何 面 对 齐 框 架 。 代 码 可 在https://github.com/thesouthfrog/stylealign上公开获得。1. 介绍面部标志检测是许多面部应用中的重要步骤,例如面部识别[42]、3D面部重建[16]、面部跟踪[31]和面部编辑[59]。人脸标志点的精确定位是近年来研究的热点,并取得了令人瞩目的进展.主流是通过有效的网络结构[67],几何信息的使用[5,29]和损失函数的校正[18]来学习鲁棒和区分模型人们普遍认为,表情、姿态、形状和遮挡等因素的变化会极大地影响界标定位的性能。几乎所有的现有工作都旨在从结构特征的角度来缓解这些问题,例如解开3D姿态以提供形状约束[35],以及利用密集的约束,图1:训练有素的面部标志检测器中的问题。它偏向于不受约束的环境因素,包括照明、图像质量和遮挡。在我们的分析中,我们将这些退化视为信息[67]。“环境”的影响还缺乏结构之外的原则性讨论。此外,考虑到该任务的有限标记数据,如何最佳地利用有限的训练样本仍然未被探索。关于相反,我们利用风格转移[28,20]和分解表示学习[60,9,40,15,23]来解决面部对齐问题,因为风格转移旨在改变风格的同时保留内容。在实践中,图像内容是指对象,语义和锐利的边缘图,而风格可以是颜色和纹理。我们的想法是基于面部标志检测的目的,这是回归“面部内容”-面部几何的主要组成部分-通过过滤不受约束的“风格”。定义“风格”与[ 14 ]的根本区别我们注意到每个人脸图像都可以分解成它的面部结构10154以及一个独特的属性。这是一个自然的猜想,人脸对齐可能会更强大,如果我们只增加图像的风格。为此,我们提出了一个新的框架,以增强训练的面部标志检测,而不使用额外的知识。我们不是直接生成图像,而是首先将人脸图像映射到结构和风格空间。为了保证这两个空间的解纠缠,我们设计了一个条件变分自动编码器[33]模型,其中Kullback-Leiber(KL)发散损失和跳跃连接分别用于风格和结构的紧凑表示。通过分解这些特征,我们在现有的面部几何形状之间执行视觉风格转换。给定现有的面部结构,从相应的风格重新渲染质量差、模糊或强光下的戴眼镜的面部,其用于进一步训练面部标志检测器,以用于相当通用和鲁棒的系统来识别面部几何形状。我们的主要贡献如下。1. 我们提供了一个新的视角,面部标志局部化的因素,风格和结构。因此,人脸图像被分解并从不同的图像风格和面部几何形状绘制2. 在此基础上提出了一种基于条件变分自动编码器的半监督编码框架。通过解开风格和结构,我们的模型通过风格翻译生成风格增强的图像,进一步提高面部标志检测。3. 我们提出了一个基于AFLW [34]的新数据集,带有新的68点注释。它提供了具有挑战性的基准,考虑到大的姿态变化。通过对流行的基准数据集(包括WFLW [67],300W[54],COFW [6]和AFLW [34])进行广泛的实验,我们的方法大大优于以前的最先进技术。一般情况下,应将其纳入各种框架中,以进一步提高绩效。我们的方法也适用于有限的训练计算资源。2. 相关工作本文的工作与人脸标志点检测、解纠缠表示和自监督学习等领域有着密切的联系.面部标志检测这一领域已广泛研究,在过去的几年里。经典的参数化方法,如主动外观模型(AAM)[10,55,45,30]和约束局部模型(CLM)[11]提供了令人满意的结果。还提出了SDM [71]、级联回归及其变体[65,81,80,7,6,8,71,62,17]最近,随着深度神经网络的强大功能,基于回归的模型能够产生更好的结果。它们主要分为直接坐标回归[78,43,61,48]和基于热图的回归两种流。gression [49,4,12,73,46].同时,在[78]中,辅助属性被用来学习判别表示。然后引入了经常性模块[61,70,50最近,方法通过半监督学习提高了性能[24]。风格变化的影响也在[14]中讨论过,其中风格聚合组件为地标检测器提供了一我们的解决方案与“风格”的定义不同,与以前的工作不同。我们的解决方案不依赖于聚合架构,而是基于半监督方案。解纠缠表征我们的工作也与解纠缠表征学习有关。解开是必要的,以控制和进一步改变生成的图像中的潜在信息。在无监督设置下,Info-GAN [9]和MINE [2]通过最大化潜在代码和数据观察之间的互信息来学习解纠缠最近,图像到图像翻译[41,26,40,27]探索了在没有监督的情况下风格和内容之间的解脱。在结构化任务中,如条件图像合成[44],关键点[15,51]和人物面具[1]被用作自我监督信号,以解开前景,背景和姿势信息等因素由于我们的在我们的设置中,通过利用基于地标的结构信息,我们的分离组件从每个人脸图像中提取风格因子。自我监督学习我们的方法也连接到自我监督学习。 主流的工作, 例如[74],直接使用图像数据通过多任务特征学习来提供代理监督。另一种广泛采用的方法是使用视频数据[64]。可以在连续的视频帧序列中捕获同一实例的视觉侵入[19,66,38,83,58,57,64]。此外,存在关注来自数据统计的对象的固定特性的工作[13,76,77,36,37],诸如图像补丁级别信息[13]。这些方法学习视觉不变性,这基本上可以提供对象的一般特征。我们的地标定位涉及计算视觉不变性。但我们的方法与以前的自监督框架不同。我们的目标在于提取人脸结构和关键点,考虑不同的环境因素,包括遮挡,照明,化妆等。消除了风格的影响,使得能够可靠地改变或处理人脸结构,从而识别出不变特征。因此,它更好地处理风格多样性,10155θφ强化培训程序采样的k样式图像生成的图像z0,z1,���地标检测器分离学习程序���~���(|���、���)的内容( | 、)的内容图2:我们的框架。它包括两个阶段。第一阶段是训练网络将人脸图像分解为风格和结构空间。在第二阶段,执行风格翻译以增强面部标志检测器的训练。这种现象普遍存在于自然图像中。3. 拟议框架可能性Zlogp(x|y)=logp(x,z|y)dz≥E [log p(x,z|y)]qq(z|x,y)(一)我们的框架由两部分组成一个学习面部外观和结构的非纠缠表示如示于图2、在第一阶段,条件变量-=Eq[log p(x|z,y)] − D KL[q(z)|x,y),p(z|y)]。具体地,生成器Gfull包含两个编码器和一个解码器(渲染器),即,E风格,E结构和D渲染,其中G全和E风格分别估计参数提出了一种学习解纠缠θ φ的自编码器风格和结构之间的关系。在第二阶段中,在从其他面部翻译风格p(x|y,z)和q(z|x,y)。因此,完整的损失函数在学习中分离文体和结构信息,写为L解缠结(x,θ,φ)= − KL(qφ(z|x,y))||pθ(z|y))3.1. 学习分解的风格和结构+Lrec(x,G full(E style(x,y),E struct(y)). ( 二)给定一个图像x和它对应的结构y。人脸图像的两个基本描述符是面部几何特征和图像风格。面部几何形状由标记的标志表示,而风格捕获了所有环境因素,这些因素大多是隐含的,如上所述。利用该设置,如果样式和形状的潜在空间大多不相关,则使用z和y潜在空间的笛卡尔积应当捕获包括在面部图像中的所有变化在那里-因此,基于风格和结构重新渲染人脸图像的生成器可以被建模为p(x|y,z)。对风格和结构信息进行编码,并计算参数分布p(x|y,z),其是引入两个编码器的基于条件变分自动编码器的网络。我们的网络由一个结构估计器E结构组成,用于将地标热图编码为结构潜在空间,风格编码器Estyle,学习图像的风格嵌入,以及解码器,将风格和结构重新呈现到图像空间。作为该任务中可用的地标,面部几何形状通过将地标堆叠到热图来表示因此,我们的目标是通过最大化条件来从人脸图像及其结构中推断解纠缠的风格代码z。z10156KL-发散损失Kullback-Leiber(KL)散度损失作为我们设计的一个关键组成部分,编码器学习体面的表示。基本上,KL-散度度量变分后验分布和先验分布之间的相似性。在我们的框架中,它被视为正则化,阻碍E风格编码结构相关的信息。 由于先验分布是通常假设为单位高斯分布p<$N(0,1),学习的风格特征被正则化以通过重构来抑制包含的结构信息。KL发散损失限制了风格特征的分布范围通过将推断的风格码z与编码的结构表示融合,可以通过多级跳跃连接从先验中获得足够的结构信息。在z中编码的额外结构会招致惩罚概率p(x|y,z),而没有捕获新的信息。 这样,E风格就不被鼓励了。在训练过程中由Estruct提供的学习结构信息。为了更好地重建原始图像,E风格被强制学习结构不变的风格信息。重建损失方程中的第二项Lrec (2)是指自动编码器帧中的重构损失-10157满2图3:样式转换的可视化给定红色的输入图像,提供4种不同的样式来执行向输入结构的转换。提供了合成图像以及输入的原始标志,以证明结构的强相干性。工作正如广泛讨论的[79,28],基本的像素级L1或L2损失不能很好地模拟图像中的丰富信息。相反,我们采用感知损失来捕捉风格信息和更好的视觉质量。Lrec公式化为:XL(x,θ,φ)=||(Φ(x)−Φ(G(x,y))||、被表示为xij=Drender(Estyle(xj,yi),Estruct(yi)).(四)如示于图2、我们的框架的第一阶段是训练分解组件。在第二阶段,由rec l lL第二章(三)用来自随机k个其他面的样式来扩充和渲染原始数据集X中的给定样本X,我们支持其中我们使用VGG-19网络Φ结构,知觉品质 l索引网络Φ的层。由于样式定义可能很复杂,这里的E样式对样式信号的语义进行编码,以模拟不同类型的降级。它不必保持细粒度的视觉细节。此外,为了保留地标y编码的结构信息的强先验,在E结构和D渲染之间建立了跳过连接,以避免通过风格转换的地标不准确在这种设计中,模型能够学习面部几何形状和图像风格的复杂表示。3.2. 通过风格翻译增强培训结构和风格的分离为在结构不变的先验下实现多样的风格化人脸图像奠定了坚实的基础。给定包含具有界标注释的n个人脸图像的数据集X,数据集中的每个人脸图像xi(1≤i≤n)具有由界标yi表示的显式结构,以及由E风格描绘和嵌入的隐式风格代码zi。 在两个图像xi和xj,将它们的潜在样式和结构代码通过E样式和E结构嵌入到D渲染器中。把图像xj的风格放在xi生成k×n个然后将这些样本送入火车-将面部标志检测器与原始数据集一起使用。 风格转换结果的可视化在图中提供。3.第三章。输入的面部几何形状保持在严重的风格变化,表明其在增强训练的面部标志检测器的潜力尽管具有内聚结构,解码器通常不重新渲染完美质量的图像,因为丰富的风格信息的复杂性已经被减少到参数高斯分布,受到其容量的限制。此外,如前所述,每个面部图像xi具有其自己的风格。从理论上讲,渲染器可以通过渲染每个可用的地标与任何其他图像的风格来合成n2个为了理解样式化的合成样本的数量如何帮助改进面部标志检测器,我们在以下实验和消融研究中分析了我们的设计的效果。4. 实验4.1. 数据集WFLW[67]数据集是一个具有挑战性的数据集,其中包含7,500张用于训练的面孔和2,500张用于测试的面孔,基于10158度量方法全套构成表达照明化妆闭塞模糊CFSS [80]9.0721.3610.098.308.7411.769.96[第68话]6.0811.546.785.735.987.336.88实验室[67]5.2710.245.515.235.156.796.32SAN [14]5.2210.395.715.195.496.835.80WING [18]5.118.755.364.935.416.375.81平均误差(%)RES-186.0910.766.975.836.197.156.67我们的w RES-185.259.105.834.935.476.265.86我们的w 实验室4.768.215.144.515.005.765.43我们的w San4.398.424.684.244.375.604.86CFSS [80]20.5666.2623.2517.3421.8432.8823.67[第68话]10.8446.9311.157.3111.6516.3013.71实验室[67]7.5628.836.376.737.7713.7210.74SAN [14]6.3227.917.014.876.3111.286.60WING [18]6.0022.704.784.307.7712.507.76失效率(%)RES-1810.9243.8713.387.3111.1716.3011.90我们的w RES-187.4432.528.604.308.2512.779.06我们的w 实验室5.2420.864.783.726.319.517.24我们的w San4.0818.104.462.724.377.744.40CFSS [80]0.36590.06320.31570.38540.36910.26880.3037[第68话]0.45510.14740.38890.47430.44940.37940.3973实验室[67]0.53230.23450.49510.54330.53940.44900.4630SAN [14]0.53550.23550.46200.55520.52220.45600.4932WING [18]0.55040.31000.49590.54080.55820.48850.4918AUC@0.1RES-180.43850.15270.37180.45590.43660.36550.3931我们的w RES-180.50340.22940.45340.52520.48490.43180.4532我们的w 实验室0.54600.27640.50980.56600.53490.47000.4923我们的w San0.59130.31090.54900.60890.58120.51640.5513表1:我们的方法在WFLW数据集上的评估。前2个结果以粗体突出显示。在WIDER Face [72]上有98个手动注释的地标[67]。根据大姿态、表情、光照、化妆、遮挡和模糊等具有挑战性的属性标注,将数据集划分为6个子集。300W[54]提供了多个人脸数据集,包括LFPW [3],AFW [52],HELEN [39],XM2VTS [47]和具有68个自动注释地标的IBUG。遵循[53]中使用的协议,使用3,148个训练图像和测试图像包括两个子集,其中来自LFPW和HELEN的554个测试样本构成公共子集,来自IBUG的135个图像构成挑战子集。AFLW[34]数据集广泛用于基准面标志定位。它包含24,386个野外面孔,具有广泛的偏航角,俯仰角和滚转角(偏航[−120○,120○],俯仰和滚转[−90○,90○])根据广泛采用的协议[80,81],AFLW-完整数据集有20,000张图像用于训练,4,386张用于测试。它最初被注释了19个稀疏的面部标志。为了提供更好的基准来评估姿势变化并允许跨数据集评估,我们使用68个面部标志重新注释它,这些标志遵循300W的通用标准[54,56]。基于新的68点注释,我们进行更精确的评估。 跨数据集评价也提供了现有的数据集[3,52,39]。COFW数据集[6]包含1,345张用于训练的图像和507张用于测试的图像,重点是遮挡。整个数据集最初注释有29个标志,并在[21]中重新注释了68个标志,以允许跨数据集评价。我们利用[21]提供的68个注释标志与其他方法进行比较4.2. 实验环境评价方法我们使用归一化特征点平均误差和累积误差分布(CED)曲线来评价人脸特征点检测对于300 W数据集,我们使用瞳孔间距离对误差进行归一化。在表2中,我们还报告了使用眼间距离的NME,以与[14,29,69,35]的算法进行比较,该算法也将其用作归一化因子。对于其他数据集,我们遵循[54,61]中使用的协议,并应用眼间距离进行归一化。在训练之前,所有图像都将使用提供的绑定框裁剪并调整为256×256 对于详细的条件变分自动编码器网络结构,我们使用一个两个分支的编码器-解码器结构,如图所示。二、我们使用6个残差编码器块对输入特征图进行下采样10159其中为了更好的合成结果而去除了批次归一化。面部标志检测器主干是可替换的,并且不同的检测器可用于实现改进,这将在稍后讨论。为了训练解开步骤,我们使用Adam [32],初始学习率为0。01,线性下降到0。0001没有增加为了训练检测器,我们首先用从其他人脸图像中采样的k个随机样式来增强每个地标图。 数字设为8如果在实验中没有特别提到的话。对于检测器架构,通过将最后一个FC 层 的 输 出 维 度 更 改 为 landmark× 2 来 选 择 基 于ResNet- 18 [22]的简单基线网络,以证明样式转换带来的增加。与国家相比-艺术和进一步验证我们的方法的有效性,我们用[67,14]中提出的类似结构替换我们的基线模型,具有相同的仿射增强。4.3. 与现有技术的WFLW我们在WFLW [67]数据集上评估我们的方法。WFLW是最近提出的具有挑战性的数据集,包含来自野外环境的图像。 我们根据[67]中使用的方案,在NME(%)、失败率(%)和AUC(@0.1)方面对算法进行了比较。使用合成图像,Res-18基线得到强烈增强。为了进一步验证使用风格信息的有效性和通用性,我们用两个强基线[14,67]代替网络,并在表1中报告结果。重量轻的Res-18改进了13。百分之八通过使用更强的基线,我们的模型达到4。39%的NME在风格增强的训练下,表现远远优于最先进的参赛作品。特别是,对于强基线,我们的方法也带来了15。SAN [14]模型提高9%,LAB [67]从5. 27% NME至4。百分之七十六高程也由模型容量确定。在表2中,我们报告了300W数据集上的不同面部标志检测器性能(在归一化平均误差方面)。基线网络遵循Res-18结构。通过额外的“风格增强”合成训练样本,我们基于简单骨干的模型优于以前最先进的方法。我们还报告了在原始数据上训练的模型的结果,这些结果反映了我们的方法带来的性能增益。同样,我们用最先进的方法替换基线模型[14]。在同样的背景下,这个基线也被大大提高了.请注意,4-stack LAB [67]和SAN [14]是开源框架。我们从头开始训练模型,这些模型的表现不如原始论文中报道的模型。然而,我们的模型仍然产生1。8%和3. LAB和SAN恢复率提高了1%,这表明使用“风格增强”策略时具有一致的优势方法公共加密全集子集子集瞳孔间归一化[第71话]5.5715.407.52[75]第七十五话5.5016.787.69ESR [7]5.2817.007.58LBF [53]4.9511.986.32CFSS [80]4.739.985.76TCDCN [78]4.808.605.54RCN [25]4.678.445.413DDFA [82]6.1510.597.01SeqMT [24]4.849.935.74RAR [70]4.128.354.94[43]第四十三话4.367.564.99DCFE [63]3.837.544.55实验室[67]4.207.414.92RES-184.538.415.30我们的实验室4.237.324.83Ours w Res-183.987.214.54眼间归一化PIFA [29]5.439.886.30RDR [69]5.038.955.80PCD-CNN [35]3.677.624.44SAN [14]3.346.603.98我们的w SAN3.216.493.86表2:300 W常见、挑战性子集和全集的归一化平均误差(%)。图4:COFW 68点测试集的累积误差分布曲线COFW的跨数据集评估为了全面评估我们的方法对封闭性的鲁棒性,COFW-68也用于跨数据集评估。我们在图中对几种最先进的方法进行了比较。4.第一章我们的模型在4. 43%的平均误差和2。82%的失败率,这表明由于我们正确利用了样式转换,因此对遮挡具有很高的鲁棒性10160图5:原始基线模型和通过样式转换增强的框架之间的WFLW测试集的视觉比较。数据集PCT(%)NME(%)Res-18 w我们的改进表3:重新注释的68-pt AFLW额叶子集和全集的标准化平均误差(%)。AFLW我们在AFLW [34]数据集上按照AFLW Full协议进一步评估我们的算法。AFLW也因其大的姿态变化而具有挑战性。 它最初用19个相对稀疏的面部标志进行注释。为了使它更有用,我们通过用68点面部标志重新注释它来丰富数据集。这组新的数据也是公开的。我们将我们的方法与表3中的几个模型进行比较,通过在新数据集上重新实现它们的算法以及我们的样式增强样本。利用风格信息还可以通过大规模的训练集(AFLW中有25000张有趣的是,我们的方法提高了SAN基线方面的NME从6。94%到6。01%,这表明风格级别的增强在解决大姿态变化方面带来了有希望的改进图1B中的视觉比较。图5显示隐藏的面部部分使用我们的策略更好地建模。4.4. 消融研究4.4.1有限数据的改进风格与结构的分离是影响风格增强样本质量的关键我们评估的表4:当训练图像分为10倍时,300 W常见和WFLW数据集的 归 一 化 平 均 误 差 ( % ) 。 当 使 用 训 练 集 的 百 分 比(PCT%)训练模型时,每行表示测试集上的NME。标志性的检测器主干是Res-18。解纠缠的完整性,特别是当训练样本有限时。当训练数据有限时,评估我们的方法的性能和相对增益。训练集被分成10个子集,我们分别在训练数据的不同部分上评估我们的模型。请注意,对于不同的部分,我们从头开始训练模型,不使用额外的数据。定量结果报告于表4和表5中。在表4中,光基线网络Res-18用于方法NME(%))AUC@0.1FR(%)正面充分充分充分实验室[67]2.237.150.3911.28SAN [14]2.016.940.4410.43RES-182.307.230.3711.89我们的w RES-182.207.170.3811.91我们的w实验室2.107.060.4210.011013.727.86+42.71%209.666.07+37.16%308.95.86+34.16%408.865.29+40.29%300W507.965.23+34.30%607.895.18+34.35%707.025.04+28.21%806.664.82+27.63%906.584.69+28.72%1022.0910.81+51.06%2016.048.98+44.01%3013.918.24+40.76%4012.198.03+34.13%WFLW5011.787.75+34.21%6010.417.31+29.78%709.877.29+26.14%809.667.25+24.95%909.047.19+20.46%10161数据集PCT(%)NME(%)SAN与我们的改进1084.334.27+94.94%205.083.85+24.21%304.053.65+9.88%403.83.49+8.16%300W503.63.39+5.83%603.543.32+6.21%703.483.29+5.46%803.393.21+5.31%903.383.19+5.62%109.167.2+21.40%207.416+19.03%306.735.48+18.57%406.265.21+16.77%WFLW505.954.98+16.30%605.724.84+15.38%705.54.69+14.73%805.434.63+14.73%905.234.6+12.05%表5:当使用不同百分比的训练集时,300 W常见和WFLW数据集的归一化平均误差(%),方案与表4中相同,更强的基线。这里的基线网络遵循SAN [14]结构。显示了不同训练样本的相对改善。风格增强的合成图像可以大幅提高检测器的性能,而当训练图像的数量相当小时,这种提高甚至更大。在表5中,选择了更强的基线SAN [14]。令人惊讶的是,与表1中提供的先前方法相比,基线仅使用50%标记的图像就可以轻松达到最先进的性能。此外,Fig.6提供了一个直观的可视化结果生成的脸时,使用的数据的一部分。当使用面部图像数据的一部分时,每个列包含从输入结构和给定样式呈现的输出它表明,当数据有限时,我们的分离组件倾向于捕获弱风格信息,如颜色和照明。如果有更多的数据作为示例,样式会变得复杂,并捕获详细的纹理和退化,如遮挡。结果表明,即使使用有限的标记图像,我们的设计也能够解开风格信息,并不断改进那些已经非常强大的基线方法4.4.2估计上限如前所述,我们的方法在概念上和经验上增加了n2个合成样本的训练。八月,图6:使用不同数量的数据进行样式转换的结果。左边的两个图像是输入,有两种不同的参考样式。百分比指的是有多少数据用于训练解缠模块。Number02481632NME(%)6.225.895.545.315.295.34表6:使用不同数量的样式转换的WFLW测试集上的归一化平均误差(%)。用k个随机样式分割每个面部图像,训练集可能非常大,并且减慢了收敛。在本节中,我们尝试选择风格增 强 因 子 k 并 测 试 风 格 翻 译 的 上 限 。 我 们 通 过 在ResNet-50基线上添加每个注释地标的随机采样样式k的数量来评估我们的方法结果报告于表6中。通过增加一些增强的风格,该模型继续获得改善-是的。当k≥8时,性能增长变慢。 当k达到32时,它开始下降。 究其原因,是由于实、虚之间的数量失衡,当生成的图像数量较大时,很大的k使得模型过拟合到合成图像纹理。5. 结论和未来工作本文从隐式风格和环境因素分离和利用的新角度分析了人脸标志点检测问题。我们的方法利用面部几何形状和无约束风格的解纠缠表示,通过风格转换提供合成面部,进一步提高面部标志的质量。大量的实验结果证明了其有效性和优越性。我们还注意到,利用合成数据进行更高层次的视觉任务仍然是一个悬而未决的问题,主要是由于生成的图像和真实图像之间存在很大的领域差距在我们未来的工作中,我们计划通过考虑详细的退化类型和视觉质量,以更逼真的方式建模风格我们还计划将我们的结构推广到其他视觉任务。10162引用[1] Guha Balakrishnan,Amy Zhao,Adrian V Dalca,FredoDu- rand,and John Guttag.合成人类在看不见的姿势的图像。在CVPR,2018年。2[2] Mohamed Ishmael Belghazi , Aristide Baratin , SaiRajesh- war , Sherjil Ozair , Yoelman Bengio , DevonHjelm , and Aaron Courville. 互 信 息 神 经 估 计 。 在ICML,2018。2[3] Peter N Belhumeur , David W Jacobs , David JKriegman,and Neeraj Kumar.使用样本的共识定位面部的 部 分 。 IEEE transactions on pattern analysis andmachine intelligence,35(12):2930-2940,2013。5[4] Adrian Bulat和Georgios Tzimiropoulos用于大姿态人脸对准的局部证据的卷积聚合。2016. 2[5] Adrian Bulat和Georgios Tzimiropoulos我们离解决二维和三维人脸对齐问题还有多远?(and 230,000个3D面部标志的数据集)。InICCV,2017. 1[6] X a vierPBu r gos-Artizzu,PietroPerona,andPiotrDolla'r.遮挡情况下鲁棒的人脸特征点估计。CVPR,2013。一、二、五[7] 曹旭东,魏一晨,方文,孙健。通过显式形状回归进行面部对齐。IJCV,2014年。二、六[8] 陈冬,任少卿,魏亦琛,曹旭东,孙坚。联合级联人脸检测和对齐。2014年,在ECCV。2[9] Xi Chen,Yan Duan,Rein Houthooft,John Schulman,Ilya Sutskever,and Pieter Abbeel. Infogan:通过信息最大化生成对抗网络进行可解释的表示学习。在NIPS,2016年。一、二[10] Timothy F Cootes,Gareth J Edwards,and Christopher JTay- lor.活动外观模型。IEEE模式分析机器智能汇刊,2001年。2[11] 大卫·克里斯蒂娜和蒂莫西·F·库茨。具有约束局部模型的特征检测和跟踪。InBmvc,2006. 2[12] 邓建康、乔治·特里乔治斯、周宇翔和斯特法诺斯·扎菲里乌。在野外联合多视图面对齐arXiv预印本arXiv:1708.06023,2017。2[13] Carl Doersch、Abhinav Gupta和Alexei A Efros。通过上下文预测的无监督视觉表示学习在ICCV。2[14] 董宣仪、严妍、欧阳万里、杨毅。用于人脸标志点检测的风格聚合网络。在CVPR,2018年。一、二、五、六、七、八[15] Patri c kEsse r,EkaterinaSutte r,andBj oürnOmme r. 用于条件外观和形状生成的可变u-网在CVPR,2018年。一、二[16] Yao Feng,Fan Wu,Xiaohu Shao,Yafeng Wang,andXi Zhou. 结合位置映射回归网络的三维人脸重建与密集对齐在ECCV,2018。1[17] Zhen-Hua Feng,Guosheng Hu,Josef Kittler,WilliamChristmas,and Xiao-Jun Wu.使用动态加权的合成图像和真实图像的混合训练的用于鲁棒面部标志检测的级联协作回归。IEEE Transactions on Image Processing,24(11):34252[18] Zhen-Hua Feng , Josef Kittler , Muhammad Awais ,Patrik Hu- ber,and Xiao-Jun Wu.用卷积神经网络进行鲁棒面部标志定位的翼损失。在CVPR,2018年。一、五[19] Pet e rFoldia'k. 从 变 换 序 列 中 学 习 新 方 法 NeuralComputation,3(2):194-200,1991. 2[20] Leon A Gatys,Alexander S Ecker,and Matthias Bethge.使用卷积神经网络的图像风格转换。在CVPR,2016年。一、二[21] 戈尔纳兹·吉亚西和查利斯·C·福克斯。闭塞一致性:用分层可变形零件模型定位遮挡面。CVPR,2014。5[22] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.深度剩余网络中的身份映射。在ECCV,2016年。6[23] Irina Higgins 、 Loic Matthey 、 Arka Pal 、 ChristopherBurgess 、 Xavier Glorot 、 Matthew Botvinick 、 ShakirMohamed和Alexander Lerchner。beta-vae:使用受约束的变分框架学习基本视觉概念。在ICLR,2017。1[24] Sina Honari、Pavlo Molchanov、Stephen Tyree、PascalVin- cent、Christopher Pal和Jan Kautz。用半监督学习改进地标定位。在CVPR,2018年。二、六[25] Sina Honari , Jason Yosinski , Pascal Vincent , andChristo-pher.重组子网络:学习从粗到细的特征聚合。在CVPR,2016年。6[26] Xun Huang , Ming-Yu Liu , Serge Belongie , and JanKautz. 多 模 态 无 监 督 图 像 到 图 像 翻 译 。 在 ECCV ,2018。2[27] Phillip Isola,Jun-Yan Zhu,Tinghui Zhou,and Alexei AEfros.使用条件对抗网络的图像到图像翻译。在CVPR,2017年。2[28] 贾斯汀·约翰逊,亚历山大·阿拉希,李飞飞。实时风格转换和超分辨率的感知损失。在ECCV,2016年。1、4[29] Amin Jourabloo,Mao Ye,Xiaoming Liu,and Liu Ren.用单个cnn实现姿态不变的人脸对齐。在CVPR,2017年。一、五、六[30] Fatih Kahraman、Muhittin Gokmen、Sune Darkner和Ras-mus Larsen。一种用于人脸对齐的主动光照和外观模型。CVPR,2007。2[31] 穆罕默德·哈里斯·汗,约翰·麦克唐纳,乔治斯·兹米罗普洛斯。通过区分性全局一致性优化的人脸对齐和跟踪之间的协同。InICCV,2017. 1[32] Diederik P Kingma和Jimmy Ba。Adam:随机最佳化的方法。arXiv预印本arXiv:1412.6980,2014。6[33] Diederik P Kingma和Max Welling。自动编码变分贝叶斯。arXiv预印本arXiv:1312.6114,2013。2[34] Martin Koestinger,Paul Wohlhart,Peter M Roth,andHorst Bischof.野生动物的面部标志:用于面部标志定位的大规模真实世界数据库。在ICCV研讨会上。IEEE,2011年。一、二、五、七[35] 阿米特·库马尔和拉玛·切拉帕在树状cnn中解开3d姿态用于无约束的2d面部对准。在CVPR,2018年。一、五、六10163[36] 古斯塔夫·拉尔森迈克尔·梅尔格雷戈里·沙赫纳洛维奇。学习自动着色的表示。在ECCV,2016年。2[37] 古斯塔夫·拉尔森迈克尔·梅尔格雷戈里·沙赫纳洛维奇。着色作为视觉理解的代理任务。在CVPR,2017年。2[38] Quoc V Le,Will Y Zou,Serena Y Yeung和Andrew YNg。独立子空间分析学习分层不变时空2011. 2[39] Vuong Le , Jonathan Brandt ,
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Android圆角进度条控件的设计与应用
- mui框架实现带侧边栏的响应式布局
- Android仿知乎横线直线进度条实现教程
- SSM选课系统实现:Spring+SpringMVC+MyBatis源码剖析
- 使用JavaScript开发的流星待办事项应用
- Google Code Jam 2015竞赛回顾与Java编程实践
- Angular 2与NW.js集成:通过Webpack和Gulp构建环境详解
- OneDayTripPlanner:数字化城市旅游活动规划助手
- TinySTM 轻量级原子操作库的详细介绍与安装指南
- 模拟PHP序列化:JavaScript实现序列化与反序列化技术
- ***进销存系统全面功能介绍与开发指南
- 掌握Clojure命名空间的正确重新加载技巧
- 免费获取VMD模态分解Matlab源代码与案例数据
- BuglyEasyToUnity最新更新优化:简化Unity开发者接入流程
- Android学生俱乐部项目任务2解析与实践
- 掌握Elixir语言构建高效分布式网络爬虫
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功