基于BridgeNet的连续性年龄估计方法

16 浏览量更新于2023-10-19 收藏 1008KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1145BridgeNet：一种用于年龄估计的李万华1，2，3，4，陆继文1，2，3，刘伟，冯建江1，2，3，徐春静4，周杰1，2，3，田齐41清华大学自动化系2智能技术与系统国家重点实验室3北京国家信息科学技术研究中心4诺亚li-wh17@mails.tsinghua.edu.cn{lujiwen，jfeng，jzhou}@tsinghua.edu.cn{xuchunjing，tian.qi1}@ huawei.com摘要年龄估计是计算机视觉中一个重要而又极具挑战性的问题。现有的年龄估计方法通常采用分而治之的策略来处理非平稳老化过程造成的异构数据。然而，面部衰老过程也是一个连续的过程，不同组成部分之间的连续性关系本文提出了一种基于BridgeNet的年龄估计算法，旨在有效地挖掘年龄标签之间的连续关系建议的BridgeNet由本地regres组成-年龄：19 21 26 28 62 63sors和gating网络。局部回归器将数据空间划分为多个重叠的子空间，以处理高相似性非平稳异构数据和选通网络通过采用所提出的桥树结构来学习局部回归器的结果的连续性感知权重，所述桥树结构将桥连接引入树模型中以加强相邻节点之间的此外，BridgeNet的这两个组件可以以端到端的方式联合学习。我们展示了在MORPH II，FG-NET和Chalearn2015数据集上的实验结果，发现BridgeNet优于最先进的方法。1. 介绍年龄估计试图基于面部图像预测真实年龄值或年龄组，由于视觉监控[38]，人机交互[9]，社交媒体[31]和面部检索[22]等广泛应用，这是计算机视觉中的重要任务。虽然这个问题已经被广泛研究了很多年，但从单个图像精确估计人类年龄仍然非常具有挑战性。*通讯作者图1.不同年龄的面部图像。每一行的图像都来自同一个人。一方面，我们可以看到老化模式的非平稳面部衰老过程主要体现在儿童时期的脸型和成年时期的皮肤纹理上。另一方面，由于不断的老化过程，相邻年龄的面部图像显示出非常高的相似性年龄估计可以通过将年龄标签视为数值来转换为回归问题。然而，人类的脸在不同的年龄以不同的方式成熟，儿童期的骨骼生长和成年期的皮肤皱纹[28]。这种非平稳的老化过程意味着年龄估计的数据是异质的。因此，许多非线性回归方法[12，15]不可避免地受到异质数据分布的影响，并且它们易于过拟合训练数据[4]。许多努力[34，31，15，24]已致力于解决这个问题。分治被证明是处理异构数据的一个很好的策略[18]，它将数据空间划分为多个子空间。 Huang等人使用本地回归器学习如何-年龄：5713155052年龄：017915171146mogeneous data partitions [18].许多基于排序的方法将回归问题转化为一系列二元分类子问题[6，4]。另一方面，人脸的衰老过程也是一个连续的过程，也就是说，人脸随着年龄的增长而逐渐发生变化。这样一个连续的过程使得相邻年龄段的人的脸看起来非常相似。例如，当你31岁和32岁时，你的面部外观会非常相似。更多示例如图1所示。这种由连续性引起的相似关系在相邻的时代起主导作用。同样的现象可以在相邻的局部回归或相邻的二进制分类子问题中发现然而，在现有方法中没有利用这种关系。在本文中，我们提出了一个连续性感知的概率网络，称为 BridgeNet ，以解决上述挑战。建议的BridgeNet由本地回归器和门控网络。局部回归器划分数据空间，门控网络提供连续性感知权重。加权回归结果的混合给出了最终的准确估计。BridgeNet有许多优点。首先，异构数据显式建模的局部回归作为一个分而治之的方法。第二，门控网络具有桥树结构，该结构通过在树模型中引入桥连接来增强桥树的同一层上的邻居节点之间的相似性。因此，门控网络可以知道局部回归变量之间的连续性第三，BridgeNet的选通网络使用概率软判决而不是硬判决，使得局部回归量的集合可以给出精确和鲁棒的估计。第四，我们可以联合训练局部回归器和门控网络，并轻松将BridgeNet与任何深度神经网络集成到端到端模型中。我们在三个具有挑战性的数据集上验证了所提出的BridgeNet年龄估计： MORPH Album II [29] ， FG-NET [26] 和Chalearn 2015数据集[7]，实验结果表明我们的方法优于最先进的方法。2. 相关工作年龄估计：现有的年龄估计方法可分为三类：基于回归的方法、基于分类的方法和基于排名的方法[25]。基于回归的方法将年龄标签视为数值，并利用回归量来回归年龄。Guo等人介绍了许多基于回归的年龄估计方法，如SVR，PLS和CCA [14，13，15]。Zhang等人提出了多任务扭曲高斯过程[45]来预测人脸图像的年龄。然而，这些通用的回归遭受处理异质数据。分层模型[16]和群体特异性回归通过将数据按年龄划分显示出有希望的结果。Huang等人提出了软边混合回归学习同质分区并为每个分区学习局部回归器[18]。但这些方法都忽略了被划分构件之间的连续性关系。基于分类的方法通常将不同年龄或年龄组视为独立的类别标签[15]。 Dex[31]作为101个类别的分类问题的铸件年龄估计因此，任何类型的分类错误的成本是相同的，这最近，一些研究人员将排名技术引入年龄估计问题这些方法通常利用一系列简单的二进制分类器来确定给定输入人脸图像的年龄等级最后通过组合这些二元分类子问题的结果得到最终的年龄值 Chang等人[4]提出了一种有序超平面排序器，利用年龄之间的相对顺序信息。Niu等人。 [24]用多输出CNN解决了顺序回归问题Chen等人。 [6]提出了Ranking-CNN，并为基于排名的年龄估计建立了更严格的误差范围。然而，这些方法忽略了二元子问题之间的关系，并且有序回归仅限于标量输出[18]。随机森林：随机森林[3]是机器学习和计算机视觉领域中广泛使用的分类器。它们的性能已经在许多任务中得到了经验证明，例如人体姿势估计[36]或图像分类[2]。同时，深度CNN [21，17]显示了特征学习的优越性能。在[20]中提出了深度神经决策森林（dDNF）来结合这两个世界。每个神经决策树由若干分裂节点和叶节点组成。每个分裂节点以概率方式确定路由方向，并且每个叶节点保持类标签分布。dDNF是可微的，并且使用两步优化策略交替学习分裂节点和叶节点。作为一种分类器，dDNF在许多分类任务中表现出了优异的效果。已经有一些努力将dDNF迁移到回归问题。 Shen等人通过将叶节点的分布扩展到连续高斯分布，提出了用于年龄估计的DR-F [34]。NRF [32]是为单目深度估计而设计的，它使用CNN层来构建随机森林的结构。如何-以往任何时候，正如将提到的第二节。3、在一些回归任务中，如年龄估计，不适合直接使用树结构。3. 该方法3.1. 总体框架我们的方法的流程图如图2所示。对于任何输入图像x∈ X，我们首先从图像中裁剪人脸以去除背景，然后对齐人脸。对齐的人脸图像被发送到深度卷积神经网络，1147l llLl ll35.2结果图2.我们提出的年龄估计方法的流程图。对于给定的输入图像，我们首先应用人脸对齐算法来获得对齐的人脸图像。然后将对齐的图像通过CNN进行特征提取。提取的特征与BridgeNet的两个部分相连：本地回归器和门控网络分开。选通网络生成连续性感知的选通函数，以对局部回归器提供的回归结果进行通过对加权回归结果求和来计算最终年龄网络来提取特征。然后将这些功能与BridgeNet的两个部分连接起来：局部回归和门控x通过计算条件概率分布的期望：网分开。最后的年龄估计为所有局部回归变量的局部回归函数用于处理异构数据Σy=E[p（y|x）]=E[LΣπ（x）N（y|µ（x），σ2）]（三）数据，它将训练数据分成k个重叠的子集.每个子集用于学习局部回归量。我们将y∈ Y表示为输入样本x ∈ X的输出目标，因此第l个子集（l=1，2，.，k）可以被公式化为：f（y|x，z = l）= N（y|µ（x），σ2），（1）L=π l（x）µ l（x）。L因此，通过门控函数加权的回归结果之和在以下章节中，我们将详细描述局部回归器和门控网络如何生成回归结果L和连续性感知选通功能。其中z是表示以下关系的潜在变量：{x，y}到子集，µ l（x）表示输入样本x的第l个局部回归量的回归结果。此外，使用均值为μl（x）且方差为σ2的高斯分布N（y）来对回归误差进行建模为了有效地结合这些回归结果，提出了一种新的桥树结构的门网络，它为每个局部回归量生成一个门函数。我们表示对应于以下的门控函数：lthl o c的线性回归方程为πl（x）。显然，πl（x）s是正的，lπ l（x）=1，对任意x∈ X. 然后我们可以通过对条件概率函数进行建模来处理年龄估计：Σp（y|x）= π（x）N（y|µ（x），σ2）。（二）L年龄估计的目标是找到一个映射g：x-y。对于输入样本，估计输出y3.2. 局部回归局部回归作为一种分而治之的方法，可以有效地对异构数据进行建模。局部回归器将数据空间划分为多个子空间，每个局部回归器只对一个子空间进行回归。我们可以把局部回归看作多个专家-S.每个专家在一个小的回归区域中具有良好的知识，并且不同的专家覆盖不同的回归区域。因此，集成的专家可以给一个理想的结果，即使异构数据。在这里，我们按年龄标签划分数据，每个回归变量都被分配了一个年龄组的数据。局部回归变量回归区域的中值均匀分布在整个回归空间中，所有局部回归变量的回归区域长度相同。为了进一步对年龄标签的连续性进行建模，我们让局部回归变量的回归区域密集重叠。相邻的局部回归变量具有非常高的过-桥网选通函数面部对准. . . . . . . . . ..门控网络......门控×CNNFC输入图像…局部回归回归结果...…1148二叉树二叉桥树相邻的叶子节点，但它们的第一个共同祖先节点是根节点，因此不能很好地建模由连续性引起的l4和l5我们在树模型中引入桥连接来加强相邻节点之间的相似性。对于同一层上的两个相邻节点，左节点的最右子节点和右节点的最左子节点合并为一个节点。我们把这种操作称为桥接(a) 图解如何建立一个四层二叉桥树。二叉树中的节点o5和o6、节点l2和l3、节点l6和l7分别合并为二叉桥树中的节点o5、l2和l3节点l4和l5被截断。o1o1层1O2O3O4o2o3o4第2L1L2L333L444L5L666L777L8L9l1 l2l3l4l5l6l7 层3因为它像桥一样连接着两个遥远的节点。合并点在这里被称为桥节点，它在左节点的子节点和右节点的子节点之间起着传递信息通过对树模型逐层进行这种操作，得到了一种新的连续性感知结构桥树图3（a）显示了如何通过将桥连接应用于4层二叉树来获得4层二叉我们可以看到在二叉桥树中，节点o2的最右边的孩子和节点o3的最左边的孩子被合并成桥接桥连接桥节点桥节点三叉树(b) 图解如何建立一个三层的三叉桥树。将三叉树中的节点l3和l4、节点l6和l7分别合并到三叉桥树中的节点l3和l5图3.图解如何建立一个桥树重叠在它们的责任区域中，这使得它们具有高度的相似性。因此，对于任何值，都有多个回归器负责回归它，这允许我们采用集成学习来使回归结果更准确。3.3. 门控网络桥梁连接：局部回归的设计遵循分治原则。在我们的方法中，需要门控网络来决定局部回归量的权重。因此，使用具有分而治之架构的门控网络使得门控网络和局部回归器更好地彼此协作。树结构是一种广泛使用的分层体系结构，具有分治原则。例如，决策树是机器学习和计算机视觉领域中流行的分类器，其具有树结构和由粗到细的决策过程。另一方面，由于连续老化过程，局部回归变量之间存在连续性关系。密集重叠的局部回归的设计进一步加强了这种关系。然而，直接使用树结构不能很好地建模这种局部回归变量之间的关系，考虑到决策树的叶子是独立的类标签，而我们方法的叶子节点05. 桥节点o5是信息通信在节点o2的子节点和节点o3的子节点之间桥接。相同的操作应用于二叉树中的节点l2和l3、节点l6和l7它们分别合并到二叉桥树的l2和l3二进树中节点l4和l5被截断，因为二进树中的节点o5和o6已经合并为一个节点。此外，还可以将桥连接应用于多路树，得到多路桥树。特别是，图3（b）给出了如何构建一个三叉桥树的另一个例子。值得注意的是，三叉桥树的结点数增长率与二叉树的结点数增长率非常接近。门控功能：在本节中，我们将描述如何使用桥树结构的门控网络来生成连续性感知的门控函数。桥树包含两种类型的节点：决策（或分裂）节点和预测（或叶）节点。由O索引的决策节点在-外部节点，由L索引的预测节点是终端节点每个预测节点l∈ L对应于回归结果μl（x）和门函数πl（x）。回归结果由局部回归量给出，选通函数由选通网络给出。为了方便后面的部分，N用于索引桥树中的所有节点，E用于索引桥树中的所有边。我们还将Fn和Cn分别记为节点n∈ N的父节点集和子节点集。当样本x∈ X到达决策节点o时，它将被发送到该节点的子节点。在[20，34，35]之后，我们使用概率软决策。每个边e∈E都有一个概率值。连接的边缘-判定节点O及其子节点在节点O处形成判定概率分布。这意味着em（x）s对于Σmom是具有强相关性的局部回归变量考试-任意节点m∈Co，m∈Coeo（x）=1，其中eo（x）图3（a）左侧的叶节点l4和l5表示位于边缘的概率值，01110111层10203020 3层2桥接040555066607040 50 6第3网桥节点L1l2l2l2l3l3l3L444L555l6l6l6l7l7l7L8L1L2L3L4层4网桥节点网桥节点桥接截短桥接1149层21MΣ深度CNNFC由下式给出：L（x，y）=Σ I（x，y）（y−µ（x））2，（6）regL ll∈L图4.图解如何实现门控网络。采用与深度CNN连接的FC层。全连接层中的每个神经元对应于桥树的一条边。例如，神经元f1、f2和f3分别对应于边o1-o2、o1-o3和o1-o4。对于三桥树，每三个神经元使用softmax层进行归一化。然后，神经元的归一化输出给出桥树边缘上的所有概率值。最后，叶节点的门控函数计算使用Eq。4和方程式五、节点O到节点M。一旦样本在叶节点l中结束，就可以通过累积从根节点到叶节点l的路径的所有概率值来获得叶节点l的门控函数。例如，在二叉桥树中，从根节点o1到叶节点l2在图3（a）中：o1−o2−o4−l2，o1−o2−o5−l2，以及o1−o3−o5−l2。所以叶节点的门控函数l2可以计算为πl（x）=eo2（x）eo4（x）el2（x）+其中Il（x，y）表示y是否位于第l个局部回归量的责任区域中。图4演示了门控网络的实现，它也采用了全连接层。全连接层中的每个神经元对应于桥树的一条边。我们让B表示每个决策节点的分支数。考虑到从同一节点开始的B条边形成概率分布，我们对全连接层的每个B个神经元应用softmax函数进行归一化。叶节点的门控函数4和方程式五、由于用于监督门控函数的基础真值不可用，我们为输入样本（x，y）构建近似的门控目标，如下所示：πl（x）=Il（x，y），（7）R其中R=II（x，y）用于归一化。尽管标签不准确，但我们的门控网络可以意识到局部回归之间的连续性，因此即使在弱监督信号的情况下也可以实现令人满意的结果。KL散度被用作损失项来训练奥奥勒2o1o o四氧化二BridgeNet的门控网络eo2（x）eo5（x）e2（x）+eo3（x）eo5（x）el2（x）。而且我们12051 3o5通过推广，对所有节点n∈ N的门控函数的定义：Lgate（x，y）=−l∈Lπl（x）lo g（πl（x））.（八）πn（x）=πn0（x）=1（4）Σπm（x）en（x），（5）最后，我们通过定义总损失来联合学习局部回归器和门控网络，如下所示：Ltotal（x，y）=Lreg（x，y）+λLgate（x，y），（9）m∈Fn其中πn（x）表示节点n的门函数，节点n0是桥树的根节点。我们建立了门网络与桥树边缘上的概率值之间的一一对应关系，即每个门网络对应于桥树边缘上的一个概率值。然后，叶节点的门控函数可以以上述递归方式使用门控网络的输出来计算。3.4. 实现细节我们采用一个全连接层来实现密集重叠的局部回归。利用sigmoid函数作为激活函数。然后每个局部回归器将激活值映射到其回归空间作为专家结果。如上所述，我们使用µl（x）表示第l个局部回归量的结果，则回归损失其中λ用于平衡回归任务和门控任务之间的重要性我们观察到，通过使用现有深度学习框架（如TensorFlow [1]，PyTorch [27]等）中通常可用的全连接，softmax 和sigmoid 层，可以轻松实现所提出的BridgeNet。此外，我们的完全可微BridgeNet可以嵌入任何深度卷积神经网络中，这使我们能够进行端到端训练并获得更好的特征表示。4. 实验在本节中，我们首先介绍数据集，并介绍有关我们实验设置的一些细节。最后，通过实验验证了该方法的有效性.f111F222f3f3f3f4f4f4F555F666F777F888f9f10f11f11f11F1212120111层1022203330444层2L1L2L3L4L5L6L711504.1. 数据集MORPH II是最大的公开可用的纵向人脸数据集，也是最受欢迎的年龄估计数据集该数据集包括来自约13，000名受试者的55，000多张图像，年龄范围从16岁到77岁。在本文中，两个广泛使用的协议进行评估MORPHII。第一种设置使用MORPH II的子集，如[4，5，41]中所述。该设置选择了5，492张白人后裔的图像，以避免跨种族影响。然后，将这5，492个图像随机地分成两个不重叠的部分：80%的数据用于训练，20%用于测试。[43，13]中使用的第二组随机将整个MORPHII数据集分为三个不重叠的子集S1，S2，S3，遵循[43]中详细描述的规则。在这种情况下，训练和测试重复两次：1）在S1上训练，在S2 +S3上测试; 2）在S2上训练，在S1 +S3上测试。我们将报告这两个实验的性能及其平均值。FG-NET由82个人的1002张彩色或灰度人脸图像组成，年龄从0到69岁不等科目对于评估，我们采用[12，31]的设置，该设置使用留一人（LOPO）交叉验证。报告了82次拆分的平均性能Chalearn 2015是第一个关于表观年龄估计的数据集。对于任何图像，至少需要10个独立用户给出他们的意见，然后平均年龄被用作注释。此外，还提供了给定图像的意见的标准偏差。该数据集包含4699张图像，其中2476张图像用于训练，1136张图像用于验证，1087张图像用于测试。年龄范围从0岁到100岁。IMDB-WIKI包含超过50万张名人的标记图像，这些图像是从IMDb和维基百科抓取的。此数据集包含太多噪声，因此不适合评估。不过，还是不错的选择在数据清理后使用此数据集进行预训练。我们根据[31]中的设置选择了大约20万张图像来预训练我们的网络。4.2. 实验设置人脸对齐是年龄估计的一个常见预处理步骤。首先，所有图像都被发送到MTCNN [44]进行人脸检测。然后我们将所有的人脸图像通过simi-基于检测到的五个面部界标的局部变换。之后，所有图像都被调整为256 ×256。数据扩充是避免过拟合的有效方法-提高深度网络的泛化能力，尤其是在训练数据不足的情况下。在这里，我们使用水平翻转和随机裁剪来增强训练图像。VGG-16 [37]被用作所提出的方法的基本骨干网络我们先初始化VGG-16网络-表1.在MORPH II数据集（设置I）和FG-NET数据集上将该方法与其他最先进的方法进行了比较方法形态IIFG-NET年人类[16]6.304.70-年龄[8]8.836.772007IIS-LDL [10]-5.772010[第11话]-4.762013MTWGP [45]6.284.832010OHRank [4]6.074.482011CA-SVR [5]5.884.672013DRF [34]2.913.852018Dex [31]2.683.092016Pan等人 [25日]-2.682018桥网2.382.56-表2.MORPH II数据集上的结果（设置II）。报告了两种不同设置的性能及其平均值我们的方法达到了国家的最先进的性能。方法火车测试MaeAvgKPLS [13]S1S2S2+S3S1+S34.214.154.18BIF+KCCA [14]S1S2S2+S3S1+S34.003.953.98葡萄牙语国家共同体[43]S1S2S2+S3S1+S33.723.543.63Tan等人 [第四十届]S1S2S2+S3S1+S33.142.923.03DRF [34]S1S2S2+S3S1+S3--2.98桥网S1S2S2+S3S1+S32.742.512.63使用ImageNet 2012 [33]数据集上的训练权重然后在IMDB-WIKI数据集上对网络进行预训练为了优化所提出的网络，我们使用小批量随机梯度下降（SGD ），批量大小为64，并应用Adam 优化器[19]。对于MORPH II数据集上的实验，初始学习率设置为0.0001。 FG-NET和Chalearn 2015数据集上的训练图像非常不足，因此我们将CNN部分的初始学习率设置为0.00001，用于这些数据集上的实验，以避免过拟合。BridgeNet部分的初始学习率在这些数据集上仍然是0.0001，以加速收敛。我们训练我们的网络60个epoch，并将λ设置为0.001以平衡门控损失和回归损失。局部回归量的回归区域长度设置为25。我们选择了深度为5的三叉桥树作为我们的BridgeNet的架构，这是效率和复杂性的折衷我们的算法在PyTorch [27]框架内实现GeForce GTX1151K′2表3. 与Chalearn 2015数据集上最先进方法的比较秩团队验证集MAE错误测试集MAE错误预训练设置内特罗克数量网络-桥网2.980.262.870.255140IMDB-WIKIVGG-161-Tan等人 [39]第三十九届3.210.282.940.263547IMDB-WIKIVGG-1681CVL ETHZ [31]3.250.28-0.264975IMDB-WIKIVGG-16202[23]第二十三话3.330.29-0.270685MORPH，CACD，等.GoogLeNet83[46]第四十六话-0.31-0.294835MORPH，CACD，等.GoogLeNet54[42]第四十二话-0.34-0.305763FG-NET，MORPH，等.GoogLeNet6人类---0.34---表5.二叉桥树结构在MORPH II数据集上的结果（设置I）Num.个叶节点163264128Mae2.432.392.362.351080Ti GPU用于神经网络加速。4.3. 评估指标使用平均绝对误差（MAE）和累积评分（CS）作为MORPH II和FG- NET数据集的评价指标。使用平均绝对值计算MAE估计结果与地面实况之间的误差MAE=1K|y′−yi|，其中y′表示预测-，导致业绩不理想。DRF [34]使用树结构来加权几个高斯分布，Pan等人提出了年龄估计的均值方差损失。这两种方法都不能有效地模拟老化过程的连续性。图5显示了CS与MORPH II和FG-NET上最先进方法的比较。实验结果表明，我们的方法始终优于其他方法。除了这两个数据集，我们还提出了结果，我们的方法在Chalearn 2015数据集上。接下来[31，30，39]，在这个竞争数据集上使用了一些技巧。为了获得测试集上的性能，我们在训练集和验证集上对网络进行微调，Ki=1 i i第i幅图像的年龄值，K是测试样本的数量显然，较低的MAE结果意味着更好的性能。CS（θ）计算如下：CS（θ）=Kθ，其中K θ表示估计结果与地面实况之间的绝对误差不大于θ年的测试图像的数目。当然，CS （θ ）越高，它的性能就越好。ChalearnChallenge提出了一种定量测量方法，（y−yi）在IMDB-WIKI数据集上调优在测试阶段，对于任何给定图像，我们将其裁剪成四个角和一个中心裁剪，然后将五个裁剪加上这些翻转的版本发送到我们的网络，并将这十个预测平均化。值得注意的是为了进行更全面的比较，我们还展示了验证集的性能，它只使用训练集进行微调。实验结果示于表3中。桌子的下半部分1K−I2其定义为：k=1−Ki=1e2σi，其中σi显示了参赛队伍的成绩，上半部分是第i个图像的标准差。显然，较低的错误越小，性能越好。4.4. 结果和分析与最新技术水平的比较：我们首先将所提出的BridgeNet 与其他最先进的方法在具有不同设置的MORPH II数据集和FG-NET数据集上进行比较。表1和表2显示了结果 MORPH II和FG-NET上使用MAE度量。结果表明，我们的方法优于国家的最先进的方法，在两个数据集上都有明显的差距。我们的方法在MORPH II（设置I）、MORPH II（设置II）和FG-NET上分别实现了2.38、2.63和2.56的最低MAE。基于分类的方法，如DEX [31]，Tan et al. [40]，并不是最优的，因为它们将不同的年龄视为独立的类别标签。另一方面，基于排名的方法，如OHRank [4]，显示了我们的方法和另一种最先进的方法的结果我们可以看到，我们的方法取得了更好的性能比其他方法。我们的方法在验证集上实现了2.98的MAE和0.26的平均误差，这将最先进的性能降低了0.23年的MAE和0.02年的平均误差。对于测试集，我们也实现了较低的MAE和平均误差。本文方法的上述结果都是通过使用单个网络获得的，而其他方法使用多个网络的集成，这进一步说明了本文方法的优越性。消融研究和参数讨论：为了验证所提出的BridgeNet的有效性，我们将其与两种基本架构进行了比较：一种使用树结构来构造门函数，另一种使用软最大层来构造门函数。为了公平起见，我们使用了三叉桥树结构，其节点增长率接近于二叉树。实验在MORPH II数据集（设置I）上进行，表4显示了结果。1152年龄WTWGPOHRankDEX桥网DEX*DEX桥网累积评分（%）10010010090909080808070707060606050505040404030203030101 2 3 4 5 67误差水平θ8 9 10201 2 3 4 5 67误差水平θ8 9 10201 2 3 4 5 67误差水平θ8 9 10(a) MORPH II（设置I）(b) MORPH II（设置II）(c) FG-NET图5.（a）在MORPH II数据集上使用设置I将CS曲线与其他方法进行比较（b）在MORPH II数据集上使用设置II与其他方法比较的CS曲线* 表示IMDB-WIKI数据集未用于预训练模型。（c）在FG-NET上与其他方法比较的CS曲线表4.MORPH II数据集上不同架构的比较（设置I）架构Softmax树（二进制）桥树（三重）深度-45673456Num.个叶节点163264128163264128153163127Num.个决策节点-153163127112657120Mae2.682.592.542.532.662.542.512.492.512.432.382.38从表4中可以得出几个结论。首先，在任何上述架构中，可以通过使用更多的叶节点来获得较低的MAE，这是合理的，因为更多的叶节点意味着更多的局部回归器，并且更多的局部回归器意味着更多的专家智能。此外，当叶节点的数量足够大时，性能趋于饱和。这是因为过多的叶节点使得一些相邻的局部回归器对应于相同的其次，我们观察到，当叶节点的数量相同时，基于树的方法略优于基于softmax的方法。基于树的方法具有由粗到细、由上而下的决策过程，是一种层次结构，因此它比基于softmax的方法具有更好的性能。然而，它没有显式地模拟局部回归之间的连续性关系，因此性能增益很小。第三，基于桥树的方法（BridgeNet）显著优于-S是基于树的方法在类似数量的叶节点处，即使具有较浅的深度和较少的决策节点。五层三叉桥树的MAE为2.38，与六层二叉树相比，MAE减少了0.13年。这显示了引入桥接连接和显式建模连续性关系的好处为了进一步证明桥树的优越性，我们在表5中显示了在MORPH II数据集（设置I）上使用二叉桥树架构的结果。我们可以看到二叉桥树进一步提高了准确性。这是这是因为，在叶节点数相同的情况下，二叉桥树具有更多的桥节点，这使得二叉桥树能够更好地捕捉局部回归变量之间的连续性关系。5. 结论在本文中，我们提出了BridgeNet，一个连续性感知的概率网络的年龄估计。BridgeNet使用具有桥树架构的概率网络显式地对由局部回归器构造的不同分量之间的连续性关系进行建模。在三个数据集上的实验表明，我们的方法比其他国家的最先进的方法更准确。虽然我们的方法是为年龄估计而设计的，但它也可以用于其他基于回归的计算机视觉任务。在未来的工作中，我们计划研究BridgeNet在人群计数，姿势估计和其他基于回归的任务中的有效性。确认这项工作部分由中国国家重点研究与发展计划资助2017 YFA 0700802，部分由中国国家自然科学基金资助61822603、资助U1813218、资助U1713214、资助61672306 、资助 61572271 、资助 61572272 、资助61572273、61527273、6152部分由深圳市基础研究基金（课题安排）资助J-CYJ 20170412170602564。AGESWTWGPOHRankDEX桥网累积评分（%）累积评分（%）1153引用[1] M. Abadi、A.Agarwal，P.Barham，E.Brevdo，Z.ChenC.，马缨丹属C-硝基，G。S. Corrado，A. Davis，J.Dean，and M.戴文Ten- sorflow：异构分布式系统上的大规模机器学习2016. 5[2] A. Bosch，A.Zisserman和X.穆尼奥斯使用随机森林和蕨类植物的图像ICCV，第1-8页，2007年。2[3] L.布莱曼乱林。Machine Learning，45（1）：5- 32，2001. 2[4] K. Y.昌角，澳-地S. Chen和Y.洪伯。用于年龄估计的具有成本敏感性的有序超平面排序器。在CVPR中，第585-592页，2011年。一、二、六、七[5] K. Chen，S.龚氏T.Xiang和C.L. 尘用于年龄和人群密度估计的累积贡献空间在CVPR，第2467-2474页6[6] S. Chen C.，马缨丹属Zhang，M. Dong，J. Le，and M.娆使用ranking-cnn进行年龄估计。在CVPR，第742-751页，2017年。2[7] S. Escalera ， J. Fabian ， P. Pardo ， X. Baro ， J.Gonzalez，H. J. Escalante，D.米舍维奇大学斯泰纳和我。Guyon 2015年，Chalearn看着人们：表观年龄和文化事件识别数据集和结果。ICCVW，第243-251页，2015年。2[8] 耿、辛、周、志华、史密斯迈尔斯和凯特。基于面部老化模式的自动年龄估计。TPAMI，29（12）：2234-2240，2007. 6[9] 耿、辛、周、志华、张、余、李、刚、戴。从面部老化模式中学习自动年龄估计。ACM MM，第307-316页，2006年。1[10] X.耿角Yin和Z. H.舟基于标签分布学习的人脸年龄估计。在AAAI，第451-456页，2010中。6[11] X.耿角Yin和Z. H.舟基于标签分布学习的人脸年龄估计。TPAMI，35（10）：2401- 2412，2013。6[12] G. Guo，Y.富角，澳-地R. Dyer和T. S.煌基于图像的人类年龄估计流形学习和局部调整鲁棒回归。 TIP，17（7）：1178-1188，2008. 1、6[13] G. Guo和G. Mu.通过核偏最小二乘回归同时降维和人类年龄估计在CVPR中，第657-664页，2011年。二、六[14] G. Guo和G. Mu.年龄、性别和种族的联合估计：Cca vs.pls.在FG，第1-6页，2013年。二、六[15] G. Guo，G.穆，Y. Fu和T. S.煌使用生物启发特征的人类年龄估计在CVPR，第1122009年6月一、二[16] H.汉角，澳-地奥托，X。Liu和A. K.贾恩。根据面部图像进行人口统计学估计：人与机器的性能。TPAMI，37（6）：1148-1161，2015。二、六[17] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。CVPR，第770-778页，2016年。2[18] D.黄湖，澳-地Han和F. D. L.托瑞软边混合回归。在CVPR中，第4058-4066页，2017年。一、二[19] D. P. Kingma和J. BA. Adam：随机最佳化的方法。计算机科学，2014年。6[20] P. Kontakeder，M.菲特劳，A.Criminisi和S.罗塔布洛深度神经决策森林在ICCV，第1467-1475页，2015年。二、四[21] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分类与深度卷积神经网络。在NIPS，第1097-1105页，2012中。2[22] A.拉尼蒂斯角Draganova和C.克里斯托杜鲁比较不同的分类器自动年龄估计。台积电，Part B（Cybernetics），34（1）：621-628，Feb 2004. 1[23] X. Liu，S. Li，M. Kan，J. Zhang，S.吴，W. Liu，H. 阿憨，S. Shan和X.尘深度学习的回归器和分类器，用于鲁棒的表观年龄估计。ICCVW，第258-266页，2015年。7[24] Z.牛，M.周湖，加-地Wang，X. Gao和G.华年龄估计的多输出cnn序回归。在CVPR中，第4920-4928页，2016年。一、二[25] H.潘，H.汉，S. Shan和X.尘从人脸进行深度年龄估计的均值方差损失。在CVPR，2018年6月。二、六[26] G. Panis，A. Lanitis，N. Tsapatsoulis和T. F.虱子使用fg-net年龄数据库对面部老化的研究概述。et Biometrics，5（2）：37-46，2016. 2[27] A. Paszke，S.格罗斯，S。钦塔拉湾Chanan、E.杨，Z.De Vito，Z. Lin，L.德迈松湖Antiga和A. Lerer pytorch中的自动微分。2017. 五、六[28] N.拉马纳坦河Chellappa和S.比斯瓦斯人脸的年龄增长：一个调查。JVLC，15，2009. 1[29] K. Ricanek和T.特萨法耶Morph：正常成人年龄进程的纵向图像数据库。在FG，第3412[30] R. 罗特河Timofte和L.诉好极了德克斯：从一张照片中对明显年龄的深层ICCVW，2015年12月。7[31] R.罗特河Timofte和L. V.Gool 从没有面部标志的单个图像中对真实和明显年龄的深度期望。IJCV，第1-14页，2016年。一、二、六、七[32] A. Roy和S.托多洛维奇使用神经回归森林的单目深度估计在CVPR中，第5506-5514页，2016年。2[33] O. 鲁萨科夫斯基Deng，H.Su，J.Krause，S.萨蒂希S.妈Z。Huang，黄背天蛾A.卡帕西A. Khosla，和M。伯恩斯坦。图像网大规模视觉识别挑战。我...JCV，115（3）：211-252，2015。6[34] W.沈，Y. Guo，Y. Wang，K.

下载后可阅读完整内容，剩余1页未读，立即下载