基于不一致标注数据集的人脸表情识别方法及验证

163 浏览量更新于2023-10-13 收藏 1.54MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

基于不一致标注数据集的人脸表情识别曾家贝1、Shiguang Shan1、 2、 3和Xilin Chen1、 2中国科学院智能信息处理重点实验室，中国科学院计算技术研究所，北京1001901中国科学院大学，北京100190 2中科院脑科学与智能技术卓越中心3{jiabei.zeng，sgshan，xlchen}@ ict.ac.cn抽象。由于人脸表情标注的主观性，不同的人脸表情数据集之间不可避免地存在标注错误和偏差。社交用语由于标注的不一致性，现有的人脸表情识别（FER）方法在通过合并多个数据集来扩大训练集时性能不能保持提高。为了解决这种不一致性，我们提出了一个不一致的伪标注到潜在真相（IPA2LT）框架，从多个不一致的标记数据集和大规模未标记数据中训练FER模型。在IPA2LT中，我们为每个样本分配了多个带有人类注释或模型预测的标签。然后，我们提出了一个端到端的LTNet的计划，发现潜在的真相，从不一致的伪标签和输入的人脸图像。据我们所知，IPA2LT是解决不一致标记FER数据集的训练问题的第一项工作。合成数据的实验验证了该方法在不一致标签学习中的有效性。我们还进行了广泛的实验，在FER和表明，我们的方法优于其他国家的最先进的和可选的方法下，严格的评估协议，涉及7 FER数据集。1介绍面部表情传达了各种各样的微妙的含义。自动识别面部表情有助于理解人类的表情和表情，并与之保持在过去的几十年中，该社区在构建数据集和开发用于面部表情识别（FER）的方法实验室和野外面部表情的数据集如雨后春笋般涌现，如 CK+[20] ， MMI[28] ， Oulu-CASIA[33] ， SFEW/AFEW[7] ， AffectNet[22] ， EmotioNet[2] ， RAF-DB[16]等。基于这些数据集，提出了许多FER方法，并实现了最先进的性能[27，25，30，4，14，34，18]。然而，不同的数据集之间存在人类注释的错误和偏差如已知的，将面部表情分类为若干情绪类别是主观的。人类对建筑的理解因文化、生活环境和其他经历的不同而不同虽然人的2J. Zeng，S.Shan和X.陈73.4872.9973.5863.74（一）AffectNet训练的模型预测：恐惧RAF训练的模型预测：厌恶RAF试验90858075姿势（平均值）75686670646265606058野生（平均值）总体（平均值）75706560A：在AffectNet上R：在英国皇家空军A+R：在AffectNet+RAF上训练提出ARA+R提议ARA+R提议ARA+R提议（b）第（1）款ARA+R提议图1.一、（a）由于AffectNet和RAF中的注释偏差导致的不一致预测。(b) 测试不同数据集的准确性与训练数据的不同组合编码人员声称在注释任务之前进行了培训[16，30]，注释的偏差在不同的数据集之间是不可避免的，因为来自不同背景的团队在控制发布的数据集的质量时会有不同的标准注释偏差导致两个主要问题：（1）FER系统容易继承训练数据集的识别偏差。图1（a）显示了由AffectNet和RAF数据集中的注释偏差引起的不一致预测的示例。在左侧呈现的面部具有类似的表情，但是在Affect Ne中被称为“fear”，在RAF中被称为“dis gust”。因此，从AffectNet和RAF训练的两个模型对右侧未标记图像的预测不一致。他们被预测为(2)在训练过程中，很难通过简单地将不同数据集合并为一个整体来积累它们的好处。图1（b）显示了不同测试集上的测试准确度，其中包含不同的训练数据组合。可以看出，从大多数数据训练的模型不足以成为最好的模型。在RAF测试中，从AffectNet和RAF（A+R）的联合训练的模型具有比仅从RAF训练的模型更低的测试准确性。在提出的面部表情数据上，模型A+R的表现比仅来自AffectNet的模型差。为了解决这些问题，我们提出了一个3步框架，建立一个FER系统不一致的注释数据集。我们将该框架命名为不一致的伪注释到潜在真相（IPA2LT），因为它使用人类注释或预测的伪标签为每个图像标记多个标签，然后学习FER模型以从不一致的伪标签中拟合潜在真相。图2说明了IPA2LT框架的主要思想。IPA2LT由三个步骤组成。它首先分别从数据A和B训练两个机器注释器。机器注释者的预测和人类注释可能是不一致的。它们用作中每个图像的多个标签AffectNet注释：恐惧RAF注释：厌恶未标记数据66.7263.8860.5065.48试验依据（%）86.7785.1079.5083.2869.3769.7770.6462.35基于不一致标注数据集的人脸表情识别3步骤1：训练机器注释器步骤2：预测伪标签数据A模型B数据B模型A模型B数据U模型A标签A：快乐predB：快乐标签A：厌恶predB：生气labelB：sadpredA：sadlabelB：恐惧predA：愤怒predA：厌恶predB：厌恶predA：sad数据A、数据B：两个一致注释的数据集数据U：未标记的数据集labelA、labelB：数据A和BpredA，predB：模型A和BLT：潜在的真相步骤3：使用不一致的标签训练LTNet图二. 潜在真相的不一致伪注释（IPA2LT）框架的三个步骤。几个人类标记的数据集以及大规模未标记的数据。未标记的数据通过与数据A和B共享相同的机器注释器来然后，IPA2LT训练潜在真值网络（LTNet）以发现潜在真值标签。LTNet是端到端可训练的，因此它可以根据输入的人脸图像和不一致的标签来估计潜在的真相在推理过程中，学习的LTNet被应用于估计新人脸的真实标签我们的贡献总结如下：1. 我们提出了一个相对未探索的问题：如何从多个具有不同注释偏好的数据集学习分类器据我们所知，这是第一个工作，解决了不同的FER数据集的注释不一致。2. 我们引入了一个IPA2LT框架，从多个不一致的标记数据集和大规模未标记数据中训练FER模型。在这个框架中，我们提出了一个端到端的可训练LTNet1，嵌入了一个发现潜在真相的方案，给出了多个观察到的（或预测的）标签和输入的人脸图像。3. 在合成数据和真实数据上的实验验证了该方法在不一致标签学习我们在FER中进行了广泛的实验，并在涉及7个FER数据集的严格评估协议下显示了IPA2LT的优势1代码可从www.example.com获得https://github.com/dualplus/LTNet。数据ALT：厌恶标签A：厌恶predB：生气估计数据B潜在真值（LT）LT：生气LT：生气数据UlabelB：恐惧predA：愤怒predA：厌恶predB：厌恶…LT：悲predA：sadpredB：厌恶数据A数据B标签A：快乐标签B：悲伤标签A：厌恶labelB：恐惧模型A模型B…………4J. Zeng，S.Shan和X.陈2相关工作所提出的方法的目的是从不一致的标记数据集训练分类器不一致的标签与多个噪声标签相关联。因此，我们回顾了不一致标签和噪声标签的方法的相关工作。标签不一致的方法：解决信息不对称的直接方法是在实施过程中使用“一个或多个信息”。对于放大器，He et.al. [11]通过提出一个在一个最大范围内的、来自多个注释器的噪声标签，来处理来自多个注释器的噪声标签。基于软标签的方法假设所有注释在重要性评级中具有相等的贡献，并且忽略了一些注释比其他注释更不可靠。另一种典型的方法是在众包中估计地面实况的方法[35]。这些工作估计潜在的真理，从不同的注释者使用EM算法。早在1979年，Dawid和Skene[5]就提出通过假设每个工人与k×k混淆矩阵相关联来解决k个不同类别的标记任务，其中第（l，c）个条目表示工人将类别l中的样本标记为类别c的基于EM的方法在确定众包中的标签方面取得了经验上的成功[3，19，36，32]。考虑到来自不同注释器的标签质量，提出了迭代地限定注释器并估计潜在真相的方法，例如使用高斯混合模型和贝叶斯信息准则[31]，中国餐馆过程[23]和其他概率框架。然而，众包中的方法集中于估计已经具有一组不一致注释的样本的地面它们忽略了潜在事实和输入数据之间的映射，并且很少努力学习预测器来估计未见过样本的标签我们专注于训练未知样本的预测器，并捕捉输入数据和真实标签之间的关系。具有噪声标签的方法：为了解决噪声标签，提出了许多方法。一个想法是利用一小部分干净的数据。干净的数据用于在训练过程中评估标签的质量[17，29，6]，或训练特征提取器[1]，或估计噪声标签的分布[26]。例如，Li et.al. [17]提出了一个统一的蒸馏框架，使用来自一个小的干净的数据集和知识图中的标签关系的信息，以对冲从噪声标签中学习的风险。Veit等人[29]包括多任务网络，其联合学习以清除噪声注释并对图像进行分类。Azadi等人[1]通过辅助图像正则化为具有噪声标签的深度CNN选择可靠的图像CNN特征提取器是从一组干净的数据中训练出来的。 Sukhbaatar和Fergus [26]在网络中引入了一个额外的层，以使网络输出与噪声标签数据相匹配，并且使噪声标签数据与来自噪声和噪声数据的噪声数据相匹配。其他方法不需要一组干净的数据，但假设噪声标签上有额外的约束或分布[21]，例如提出随机翻转标签的损失[24]，通过Metor正则化损坏标签上的深度网络基于不一致标注数据集的人脸表情识别5Net[13]，用相似性增强预测目标，并使用自举迭代改进学习器[15]，以及其他引入约束的方法。作为与所提出的LTNet非常类似的工作，Goldberger和Ben-Reuven[9]通过将正确标签连接到噪声标签的softmax层对噪声进行建模他们提出了一种神经网络方法，该方法优化了与EM算法优化的相同的似然函数。LT- Net与这项工作以及其他带有噪声标签的方法不同，因为我们认为每个样本都有几个注释，而不是每个注释一个。因此，我们可以从多个标注中发现噪声模式。3该方法3.1IPA2LT框架我们提出了一个不一致的伪注释潜在真相（IPA2LT）框架，从多个不一致的标记数据集训练FER模型IPA2LT利用大规模未标记数据以及几个人工标记数据集。在IPA2LT中，每个样本具有多于一个注释，包括观察到的或预测的注释。利用不一致的伪标注，IPA2LT构建了一个端到端的网络LTNet来适应潜在的真相。图2示出了3步IPA2LT框架。假设我们有两个人类标记的数据集A和B，以及未标记的数据U。注意，IPA2LT框架是灵活的，以适应多于两个人类标记的数据集。如图1中的步骤1所示。2，IPA2LT分别从两个数据集A和B训练两个机器编码器（M A和M B）。在步骤2中，IPA2LT使用机器编码器的预测对人类标记和未标记的数据进行伪注释。具体地，我们使用M_B预测数据A，因此数据A具有两组标签，即，人类注释的和MB预测的。类似地，数据B具有两个集合标签，作为人类注释的集合标签和MA预测的集合标签。对于大规模的未标记数据U，我们也分别使用MA和MB估计了两组标记。然后，每个样本都有两个可能不一致的标签。在步骤3中，IPA2LT训练端到端潜在真相网（LTNet），以发现考虑不一致标签和输入图像的潜在真相。在LTNet中嵌入了一个发现潜在真相的方案在推理过程中，学习的LTNet可用于估计新人脸图像的真实标签。前两个步骤可以很容易地通过采用任何分类方法作为机器编码器并使用它们来预测伪标签来补充然而，在提供多个不一致的注释的情况下，训练适合潜在事实的模型是不平凡的。为了实现这一目标，我们提出了一个端到端的可训练LTNet，它嵌入了一个从多个观察到的（或预测的）标签和输入图像中发现潜在真相的方案。3.2LTNet公式不一致的标注是由不同标注者在标注一组数据时的标注偏好偏差引起的每个注释者都有一个编码器-6J. Zeng，S.Shan和X.陈nnIJnnnnIJnnIJjnn伊季将样本分配到某些类别时的特定偏差从数学上讲-ing，令X={xi，. . . .，XN}表示数据，yc=[yc，. . .，y c]的注释1N编码器角不一致的注释假定P（yi|xn）P（yj|xn），xn∈X，i/=j（1）其中P（y）是|Xn）表示编码器i注释样本Xn的概率分布。LTNet假设每个样本xn具有潜在真值yn。未经失去一般性，让我们假设LTNet以概率P（yn= i）将xn分类到类别i|其中Θ表示网络参数。如果xn有i的基础事实，编码器c具有τc的机会=P（yc= j|y n= i）至将xn注释为j，其中yc是编码器c对样本xn的注释。然后，编码器c将样本Xn注释为标签j，概率为：ΣLP（y c= j| x n; Θ）=P（y c= j|yn= i）P（y n= i|（ 2）i=1其中L是类别数，ΣL P（y c= j|y=i）=ΣLτc = 1时。给定C不同编码器对数据X的注释，LTNet的目标是最大化所观察到的注释的对数似然，如下：Max.12CΣΘ，T1，···， TC 日志P（y，y，···，y |X;Θ）、（3）其中yc= [yc，yc，· · ·，yc]是编码器c对图1中的N个样本的注释。12NX. Tc= [τc]L×L表示行和为1的转移矩阵。对数似然计算为：日志 . P（y1，···，y C|X; Θ）Σ=log.YNΣYCP（y c|X η; Θ）n=1c =1ΣN ΣC=ΣL1（yc=j）log.Στ cP（y n= i|X η;Θ）（四）n=1c =1j =1其中1（·）是独立函数。如果区块中的约束条件成立，则等于1，否则等于0。3.3LTNet目标函数的求解目标函数（3）旨在找到用于计算输入数据X的潜在真相的转移矩阵T1、...、Tc和最佳参数Θ。优化（3）是困难的，因为它是NP难的。一种直观的方法是解决（3）在不同的标签中：使用Dawid&Skene的EM算法[5]确定标签的生成时间的EM基于不一致标注数据集的人脸表情识别7n=1nIJn=1n=1IJ潜在真值层概率转移层C注释的预测注释图三. 端到端可训练LTNet的架构。转移矩阵T的每一行被约束为求和为1。算法交替地优化潜在真值{yn}N和过渡矩阵Tc，c∈ { 1，· · ·，C}，通过最大化：{yn}N Max、T1、···、TClogP（yi，y2，···，yC），（5）n=1其中P（yi，y2，···，yC）=QNn=1 QCc=1 QCj=1.τc P（yn=i）Σ1（yc=j）. 期间在EM算法的每一步迭代中，我们固定转移矩阵Tc，c∈{1，· · ·，C}，并计算潜在真值{yn}N. 期间M步，我们修复潜在的真相{yn}N并优化转换矩阵Tc，c∈{ 1，· · ·，C}.在EM算法中经过几次迭代之后，我们可以得到每个样本的估计的潜在真相。然后，我们训练FER的卷积神经网络，其参数为Θ，以拟合估计的潜在真相。2步解决方案估计潜在的真相，并分别学习分类器参数。它忽略了输入图像和潜在真相之间的关系。潜在的真相也应该根据原始图像而不是仅根据多个编码器的注释来确定。为此，我们将D和&Skene [ 5]和C NN划分为一个独立的可靠架构LTNet。图3示出了LTNet的架构。LTNet以人脸图像为输入，通过一个深度卷积神经网络来确定最终目标的性能。然后，LTNet不是直接最小化估计的事实与观察到的标签之间的差异，而是预测注释并最小化根据所预测的和观察到的注释来确定的差异。具体地，所估计的真相通过编码器性能测试器层传递，以获得编码器和非编码器的预编码。Cderc的概率分布取决于RL×L作为参数，其中L是类元的集合。Tc表示如果样本具有基本事实i，则编码器C将样本注释为类别j的概率。T。的每一行指示概率分布并且因此被求和为1。概率转换层将输入作为基础t;rut;s; p; r; b; b; b; p = [ P（y =1|，P（y=L|x，Θ）]，并且不将编码的预定义的分布表示为p（c = p Tc。Toenurethat输入交叉熵损失…基本网络（推理部分）注释交叉熵损失………………8J. Zeng，S.Shan和X.陈τnIJIJT c的每一行被求和为1，我们在每个前向过程之前对T c的每一行进行归一化。但其他的策略也不能让Tc的策略保持不变例如，概率转变层可以将T。的行作为对L维向量的软最大运算的输出。最后，通过最小化每个编码器的预测和观察注释的交叉熵损失来学习LTNet中的参数，如下：minΣN ΣC−ΣL 1（yc=k）log（pc（k））（6）Θ，{T1，···，TC}n nn=1c =1k=1ΣLS.T.c= 1，i = 1，. . . 、L（7）J其中N是样本的数量，C是编码器的数量，并且L是编码器的数量。类别的数量。τc是Tc的元素。yc是第n个由c oderc提供。p（c）=[p（c（1），···，p（c（L）]]n n n的代码不存在于该内存中。因此，求解（6）等于求解目标函数（3）。LTNet可以通过反向传播方法进行优化。4实验4.1合成不一致标记数据的评价数据合成数据是从广泛使用的CIFAR-10数据集构建的，该数据集包含10个类别的60，000张微小图像。在CIFAR-10中，选择10000幅图像（1000幅图像/类别）作为测试部分，其余图像作为训练部分。我们分别通过随机修改20%、30%和40%的校正标签来合成训练样本的3个不一致的注释。人工噪声标签均匀分布在不同的类别。测试集保持干净，并用于评估我们实验中的我们将LTNet与3种类型的方法进行了比较：i）在单组噪声标签上训练的基本CNN; ii）在具有不同标签选择策略的所有3个噪声标签上训练的基本CNN，即，简单地混合所有标签或选择多数评级作为标签;以及iii）解决不一致或噪声标签的现有技术方法，即，AIR[1]，NAL[9]，EM+CNN[5，32]。在AIR中，我们从噪声标签的混合物中训练CNN，并使用来自训练的CNN的特征来进行随后的L12范数正则化。在NAL中，我们将三个噪声集合的混合物视为一个整体。EM+CNN类似于第3.3节中的两步解决方案，其中我们使用EM算法来估计潜在真相，然后在潜在真相上训练CNN在我们的实验中，我们使用两种方式来初始化EM算法，即，多数评级[5]和谱方法[32]。 AIR和EM的源代码从所有软件库中加载。 NAL由我们自己重新实现。在所有实验中没有使用其他数据集来预训练或初始化模型基于不一致标注数据集的人脸表情识别9表1.在带有噪声标签的CIFAR-10上测试准确度训练数据方法测试Acc.（%）清洁基本CNN87.4340%噪音（A）基本CNN62.5030%噪音（B）基本CNN68.7020%噪音（C）基本CNN75.15ABC混合物基本CNN84.04ABC混合物空气[1]76.37ABC混合物 NAL[9]（重新实施）84.41美国广播公司的多数评级基本CNN82.95注释不一致 EM+CNN（majorityinit.[5]）77.65注释不一致 EM+CNN（频谱初始化）[32]）78.82注释不一致 LTNet（拟议）87.23所有方法的检测准确度见表1。我们还报告了在干净数据上训练的基本CNN的测试准确性。从表1中可以看出，无论使用哪种方法，使用所有不一致标记的集合都会提高使用单个噪声集合的模型的性能。因为多个注释虽然不一致，但比单个噪声标签集合传达更多正确的信息。在对混合数据训练的方法中，我们观察到端到端方法（例如，基于混合数据或多数评级的基本CNN，NAL，LTNet）显著优于逐步方法（例如，AIR、EM+CNN）。一个可行的解释是，端到端的方法可以内在地捕捉输入图像和不一致的标签之间的关系。但是，逐步的方法分别捕获输入图像和估计的标签之间的关系，以及潜在的真相和不一致的标签之间的关系。在所有端到端方法中，所提出的LTNet实现了最高的测试精度，并且与从干净数据训练的CNN具有相当的性能。为了进一步研究这些方法，我们在图1中绘制了训练迭代期间的测试准确度曲线。第4（a）段。X轴是训练过程中的迭代次数。可以看出，LTNet、CNN（干净数据）、CNN（混合所有）和ANL的测试准确度曲线在训练期间保持增加，而CNN（具有40%、30%或20%噪声标签）和EM+CNN（频谱或主要init）的测试准确度曲线达到峰值，然后随着训练迭代而降低。因为后一种方法无法将不正确的标签信息与噪声标签或估计的地面实况区分开。这也是为什么后一种方法比表1中的前一种方法具有更低的测试准确度。潜在真相学习为了研究LTNet是否可以发现给定多个不一致标签的潜在真相，我们在图4（b）中说明了地面真相标签和LTNet学习的潜在真相之间的混淆矩阵。可以看出，对角线值大于0.9，并且它们中的大多数大于0.95。真实标签和LTNet学习的潜在真相之间的平均一致性为0.964。请注意，LTNet是在具有三组噪声标签的图像上训练的。噪声百分比分别为20%、30%和40%10J. Zeng，S.Shan和X.陈0.90.850.80.750.70.650.60.550.50.450.40k10k20k30k40k50k迭代LTNet学习的潜在真相(a)（b）第（1）款见图4。（a）在训练过程中测试不同方法的精度曲线。(b)真实标签和LTNet学习的潜在真相之间的混淆矩阵LTNet是从具有20%、30%和40%噪声的混合数据中训练出来的地面实况和三个噪声标签之间的平均一致性为0.7.如果我们绘制真实标签和三个噪声标签之间的混淆矩阵，则对角线值应分别约为0.8、0.7和0.6地面真相和LTNet学习的潜在真相之间的高度一致性表明，LTNet能够从几个不一致和嘈杂的标签中发现潜在真相4.2面部表情数据集为了验证所提出的方法在现实世界中的FER应用的有效性，我们首先比较了它与国家的最先进的方法。由于错误和偏见存在于不同的FER数据集的注释中，我们采用了严格的跨数据集评估协议，并通过它们在7个不同的数据集上的平均性能来评估这些方法，这些数据集涵盖了野外和实验室（构成）的面部表情。然后，我们分析了不一致的标签在FER数据集使用所提出的方法。数据在实验中使用人类注释数据和未标记数据。注释数据包括三个野外FER数据集（RAF[16]，AffectNet[22]和SFEW[7]）和四个实验室数据集（CK+[20]，CFEE[8]，MMI[28]和Oulu-CASIA[33]）。野外数据集包含现实世界中的面部表情，具有各种姿势、光照、强度和其他不受控制的条件。RAF和AffectNet都有从网络搜索引擎下载的图像。RAF[16]包含12，271个训练样本和3，068个测试样本，其中标注了六个基本情感类别（愤怒，厌恶，恐惧，快乐，悲伤，惊讶）和中性。RAF中的图像由315个人类编码器标记，并且通过众包技术确定AffectNet[22]包含CNN（40%噪声）CNN（30%噪声）CNN（20%噪声）CNN（cleadata）ANLCNN（混合所有）CNN（多数标签）EM+CNN（光谱初始化）EM+CNN（主初始化）LTNet（拟议）测试精度基于不一致标注数据集的人脸表情识别11大约400，000个带注释的图像，并且每个图像仅由一个人类编码器标记它包括10个类别中的5，000个标记图像作为验证集。我们选择了大约280，000张图像作为训练样本，并选择了3，500张图像作为中性和六种基本情绪的验证样本。SFEW[7]包含来自电影的带有中性或六种基本情绪之一的图像。它有879个训练样本和406个验证样本。实验室数据集记录了受控环境中的面部表情CK+[20]包含来自123个受试者的593个序列，其中只有327个序列用7个情感标签（6个基本情感和蔑视）进行了注释。我们只使用具有基本情感标签的图像，并选择每个序列的第一帧作为中性人脸，最后一个峰值帧作为情感人脸。因此，总共选择了636幅图像CFEE[8]包含230名受试者，每个受试者有22张图像。对于每个主题，我们选择了7张具有六种基本情绪和中性面孔的图像。MMI[28]包含30个主题和213个视频。对于每个视频，我们选择前两个图像作为中性面孔，中间三分之一部分作为情感面孔。Oulu-CASIA[33]包含80个主题和480个视频。我们还选择了前2张图像作为中性面孔，最后两张图像作为情感面孔。未标记的数据包括AffectNet的未注释部分（约700，000张图像）和从Bing下载的未标记面部图像集合（约500，000张图像）。为了评估在不可见条件下的方法的生成能力，对SFEW、CK+、CFEE、MMI和Oulu-CASIA数据集应用交叉数据集评估方案。换句话说，仅利用AffectNet（AffTr）和RAF（RAFTr）数据集的训练部分以及未标记的数据来学习模型。在我们的实验中，我们采用了80层残差网络[10]作为基本网络。在所提出的IPA2LT框架中，我们首先分别从AffTr和RAFTr训练两个基本模型MA和MR然后，我们使用MA对RAFTr以及未标记的数据进行类似地，我们使用MR为AffTr和未标记数据分配另一组注释。估计的注释和人类注释构成了不一致的标签，我们从中训练LTNet。LTNet中的参数通过在数据集AffTr和RAFTr的并集上对它们进行预训练来初始化。过渡层初始化为一个接近身份的矩阵它是通过将单位矩阵和随机矩阵相加来计算的，其中每个元素都是正的。然后，初始矩阵的每一行被归一化为具有和1。我们不通过单位矩阵初始化概率转移所提出的LTNet在Caffe的框架下实现[12]。采用随机梯度下降法进行参数优化。动量为0.9，重量衰减为0.0005。学习率未达到0。00001并使用“poly”policy来定义。学习率策略的参数和功率分别为0.1和0.5。最大迭代被设置为300，000。与现有技术的比较我们比较了所提出的方法12J. Zeng，S.Shan和X.陈表2. 测试不同方法在不同测试集上的准确度（%），包括野外和实验室面部表情。（粗体：最佳。下划线：第二好。）测试集in-the-wild构成平均方法英国皇家空军影响网（te.）（val.）SFEW(tr+val）CK+ CFEE MMI奥卢-Casia野生整体造型AffTr（碱） 79.5056.5155.6491.04 76.09 65.32 61.4963.88 73.48 69.37RAFTr（碱） 85.1044.6651.7579.87 64.41 58.1752.5060.50 63.7462.35AffTr+RAFTr（碱） 83.2856.5756.5892.45 76.09 62.9060.5065.48 72.9969.77E2E-Fc 23.9924.0022.3351.73 26.52 22.2531.2823.44 32.9528.87空气[1] 67.3754.2349.8843.87 64.47 59.6447.0357.16 53.7555.21NAL[9] 84.2255.9758.1391.20 75.84 64.7161.00IPA2LT（EM[5]+CNN）65.85 70.5468.5385.3057.3154.9486.64 72.48 63.1159.9586.7755.1158.2991.67 76.02 65.61 61.02 66.72 73.58 70.64IPA2LT（LTNet）使用从AffTr和RAFTr中的任一个或两者训练的模型，以及解决噪声或不一致标记的现有技术方法。表2列出了不同测试数据集上方法的测试准确度。当与直接从AffTr和RAFTr中的任一个或两者训练的模型相比时，所提出的具有 LTNet 的 IPA2LT 框架（表示为 IPA2LT（LTNet））在野外、姿势和整体面部表情数据集上实现了最高的平均测试准确度一致的改进表明，所提出的方法通过以端到端的训练方式探索不一致的标签来切割边缘在E2e-fc中，我们替换了图2中的概率转移层3具有完全连接的层，其是类别通用但编码器特定的。E2E-Fc的性能较低，因为概率分布约束在LTNet中非常关键。在概率分布约束下，LTNet中的最后一个第二层可以被解释为概率分布的隐藏真相。然而，在没有约束的情况下，E2 E-FC的最后第二层的输出本质上不是隐藏真相的反映。AIR[1]和NAL[9]是解决噪声标签的方法在AIR和NAL的实验中，我们将AffTr和RAFTr与它们的人类注释的联合视为一组噪声训练数据。从表2中可以看出，AIR和NAL的测试精度都低于IPA2LT（LTNet）。因为AIR和NAL没有考虑不同注释者的注释偏差。我们还通过比较IPA2LT（EM+CNN）和IPA2LT（LTNet）来研究发现潜在真相的两种解决方案。对于IPA2LT（EM+CNN），我们使用第3.3节中的两步解决方案来估计潜在真相。表2中的结果表明，LTNet优于EM+CNN，因为EM+CNN估计了潜在的真相并单独训练网络，忽略了输入面部图像与给定的不一致标签之间的关系FER中不一致标签的分析为了调查LTNet是否已经学习了合理的潜在真相，我们通过绘制LTNet学习的转移矩阵和混淆矩阵来分析不一致标签，这些矩阵是根据图1中的估计真相和观察到的注释计算的。5. 顶行示出了不同编码器的转换矩阵底行基于不一致标注数据集的人脸表情识别13（a）（b）（c）（d）(e)（f）（g）（h）图五. LTNet学习的转换矩阵（顶行）和混淆矩阵从估计的真值和人类/预测的注释（底行）计数。顶行示出了编码器（a）AffectNet、（b）RAF、（c）AffectNet训练的模型和（d）RAF训练的模型的转换矩阵底行显示数据集的统计信息(e)（f）RAF，（g）由AffectNet训练的模型注释的未标记数据，以及(h) 由RAF训练模型注释的未标记数据。情况1：标签1=标签2=标签3 案例2：标签1 →标签2 →标签3情况3：标签3辛标签2=标签1情况4：标签3=标签1辛标签2情况2：标签3=标签2辛标签1标签1：人类注释标签2：预报RAFTr-traind型号标签3：潜在真理标签1：人类注释标签2：预报AffTr-traind模型标签3：潜在真理标签1：预测AffTr-traind模型标签2：预报RAFTr-traind型号标签3：潜在真理(a)(b)（c）第（1）款图六、（a）AffTr、（b）RAFTr和（c）未标记数据中的5个病例的统计。显示了从不同数据集计算的混淆矩阵。虽然LTNet学习的转移矩阵比统计中的混淆矩阵具有更大的对角值RAF数据集的转移矩阵和混淆矩阵都具有最接近1的对角值。这意味着RAF的人类注释是最可靠的。这是合理的，因为RAF从数十个人类编码器中确定标签，而AffectNet每个图像只有一个编码器，并且未标记的数据由训练模型标记。我们还可以从图中看到。在图5（c）、（d）、（g）和（h）中，训练模型的注释是最不可靠的。我们统计了具有一致和不一致注释的图像在AffTr、RAFTr和未标记数据中。图6绘制了不同情况下样本的统计数据。案例1包含具有一致的人类注释的样品14J. Zeng，S.Shan和X.陈案例1案例2案例3案例4案例5H ：NeR：H ：哈R：H ：NeR ：H：NeR：H ：SuR ：H ：NeR：H ：NeR：H：AnR：H：NeR：H：NeR：H：Sa H：Di H：Ne H：Ne H：Ne H：Ne H：Di H：Ha H：Fe H：Ne R：Sa R：Di R：Ha R：Ha R：NeR：Ne R：SaR：Ne R： Sa R： Ne R：Sa R：Ne R：Su R：SaH ：SuA ：H ：FeA ：H ：SuA ：H：DiA：H ：SaA ：H ：AnA ：H ：SaA ：H ：DiA ：H：HaA：H ：DiA ：H：Ha H：Sa H：Di H：Su H：Ne H：Fe H：Fe H：Ha H：An H：Di A：Ha A：Sa A：Sa A：An A：Ne A：Fe A：Sa A：Ne A：Ha A：AnG：Ha G：Sa G：FeG：Fe G：Ha G：Su G：Fe G：HaG：Ha G：Ha G： Ha G：AnA：Sa A：Ne A：Ne A：Ha A：Sa A：Sa A：Ne A：Ne B：Sa B：Ne B：Di B：Sa B：Ha B：Sa B：Ha B：Di B：Sa B：SuG：Sa G：Ne G：An G：Ha G：Su G：Fe G：Sa G：Ne G：Sa G： Sa G： SuA：An A：Ha A：Ha A：An A：An A：An A：An A：Ha A：An A：An A：An B：An B： An B： Ha B：Sa B：Ne B：An B：An B：An B：Di B：An B：Ha B：DiG：An G：Ha G：Su G：Sa G：Ne G：HaG：An G：HaG：Ha G：Di见图7。AffectNet、RAF和未标记数据中5例病例的示例。（H：人类注释，A：通过AffTr-trained模型预测，R：通过RAFTr训练的模型进行预测，G：LTNet学习的事实。Ne：中性，An：愤怒，Di：厌恶，Fe：恐惧，Ha：快乐，Sa：悲伤，Su：惊讶。潜在的真相和模型预测的标签。在情况2中，所有三个注释彼此不同。在案例3中，潜在的真理与其他两个不同，而其他两个相同。在事例4和事例5中，潜在的真理与一个相一致，但与另一个不同。大多数样本具有一致的标签，并且其中很少有与其他两个标签不同的潜在真相。根据图6（c）潜在事实与来自AffTr训练的模型的预测更一致，因为AffTr包含比RAFTr多得多的样本并且导致更鲁棒的FER模型。图7示出了来自三个数据集中的5个病例的一些样品。可以看出，无论其他两个标签是什么，估计的真理都是合理的。5结论本文提出了一个IPA2LT框架来解决一个相对未开发的问题，即，如何从多个标签不一致的数据集中学习分类器据我们所知，这是第一个工作，以解决不同的面部表情数据集的注释不一致性在IPA2LT框架中，我们提出了一个端到端的可训练网络LTNet，嵌入了一个从多个不一致的标签和输入图像中发现潜在真相的方案合成和真实数据的实验验证了所提出的方法的有效性和优势，比其他国家的最先进的方法，处理噪声或不一致的标签。鸣谢：感谢国家重点&研发计划（2017YFA0700800）、国家自然科学基金（61702481）和中国科学院对外合作项目（GJHZ1843）的支持。基于不一致标注数据集的人脸表情识别15引用1. Azadi，S.，冯杰，Jegelka，S.，达雷尔，T.：带噪声标签的深度cnn的辅助图像正则化In：ICLR（2016）2. 贝尼特斯-基罗斯，C.F.，斯里尼瓦桑河马丁内斯上午等：Emotionet：一种精确、实时的算法，用于自动注释野外一百万个面部表情。在：CVPR中。pp. 55623. 陈旭，林昆，Zhou，D.：众包中最优预算分配在：ICML。pp. 第644. Chu，W. S.，De la Torre，F.，科恩，J.F.：用于个性化面部表情分析的选择性转印机。IEEE Transactions on Pattern Analysis and Machine Intelligence39（3），5295. Dawid，A.P.，Skene，A.M.：观测器误差率的极大似然估计使用EM算法。应用统计学206. Dehghani，M.，Severyn，A.，Rothe，S.，Kamps，J.：避免老师的错误理解：用受控弱监督训练神经网络。arXiv预印本arXiv：1711.00313（2017）7. Dhall，A.，Goecke河Lucey，S.，Gedeon，T.：恶劣条件下的静态面部表情分析：数据、评价方案和基准。在：ICCV研讨会。pp. 21068. Du，S.，Tao，Y.，Martinez，A.M.：复杂的面部表情。美国国家科学院院士111（15），E14549. Goldberger，J.，Ben-R

下载后可阅读完整内容，剩余1页未读，立即下载