面部表情识别中标签不确定性的学习方法

143 浏览量更新于2023-10-16 收藏 15.38MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Nhat Le∗1, 2, 3, Khanh Nguyen∗1, 2, 5, Quang Tran3, Erman Tjiputra3, Bac Le1, 2, and Anh Nguyen460880面部表情识别的不确定性感知标签分布学习01 越南胡志明市科学大学信息技术学院 2 越南胡志明市国家大学 3 新加坡AIOZ公司 4英国利物浦大学计算机科学系 5 越南FPT软件人工智能中心0摘要0尽管在过去几年取得了显著进展，但模糊性仍然是面部表情识别（FER）中的一个关键挑战。它可能导致嘈杂和不一致的注释，从而阻碍深度学习模型在实际场景中的性能。在本文中，我们提出了一种新的不确定性感知标签分布学习方法，以提高深度模型对不确定性和模糊性的鲁棒性。我们利用价值-唤醒空间中的邻域信息，为训练样本自适应地构建情感分布。在将它们纳入标签分布时，我们还考虑到了提供的标签的不确定性。我们的方法可以轻松集成到深度网络中，以获得更多的训练监督并提高识别准确性。在各种嘈杂和模糊的设置下进行的大量实验表明，我们的方法取得了竞争性的结果，并超过了最近的最先进方法。我们的代码和模型可在https://github.com/minhnhatvt/label-distribution-learning-fer-tf上获得。01. 引言0面部表情识别（FER）在理解人们的情感和人际互动中起着重要作用。最近，自动情感识别在研究界引起了很多关注[43]，因为它在医疗保健[35]、监控[7]或人机交互[8]等领域有应用。最近的FER方法利用深度学习[28]，并取得了比手工特征方法[9, 44]更好的结果。0* 相等贡献0深度网络的成功可以归因于大规模FER数据集，如AffectNet[37]，EmotioNet [3]和RAF-DB[33]。一些数据集以行动单元（AUs）描述情绪，遵循面部动作编码系统[6]，或者以连续尺度（如价值和唤醒）量化情感，而大多数数据集将面部表情分类为基本的普遍情感[12,36]和中性状态。不幸的是，大规模FER数据集经常面临标签不确定性和注释模糊性的问题[58, 5,45]。不同背景的人可能会以不同的方式感知和解释面部表情，这可能导致不一致和不确定的标签[58,45]。此外，现实生活中的面部表情通常表现出多种感觉的混合[67,5]，而不是实验室控制环境中经常出现的单一夸张情绪。例如，图1显示人们对表达的情绪可能有不同的看法，特别是在模糊的图像中。因此，情感类别的分布比单一标签更好，因为它考虑了所有情感类别，并可以涵盖各种解释，从而减轻了模糊性的影响[16]。然而，大多数当前的大规模FER数据集只为每个样本提供一个单一标签，而不是一个标签分布，这意味着我们对每个面部表情没有全面的描述。这可能导致训练过程中监督不足，并对许多FER系统构成巨大挑战。为了克服FER中的注释模糊性，本文提出了一种新的不确定性感知标签分布学习方法，为训练样本构建情感分布。具体而言，对于每个实例，我们利用价值-唤醒信息识别一组邻居，并使用自适应相似性机制计算它们的相应贡献。然后，我们将邻域信息与提供的单一标签进行聚合，60890高兴高兴伤心0低不确定性高不确定性0图1：50名志愿者对RAF-DB数据集中的三个随机图像进行的用户研究结果。右侧图像的表情更加模糊，导致情绪标签的不确定性较高。底部的标签表示数据集中提供的注释。（Su=惊讶，Fe=恐惧，Di=厌恶，Ha=高兴，Sa=伤心，An=愤怒，Ne=中立）0通过可学习的不确定性因子调整，生成目标标签分布。最后，我们使用构建的分布作为监督信号，通过标签分布学习来优化模型。我们还引入了一种判别损失，减少类内变异，鼓励类间差异，提高模型对模糊特征的鲁棒性。需要注意的是，分布构建仅在训练过程中发生，而推理过程保持不变。总之，我们的贡献如下：01.我们提出了一种新的方法，即基于价值-唤醒的标签分布学习（LDLVA），用于处理FER中的模糊注释，通过利用唤醒-价值空间中的邻域信息。02.我们的不确定性感知标签分布构建为深度FER网络提供更准确和丰富的监督，使其能够以端到端的方式有效地学习模糊数据。03.我们在各种合成和真实世界的模糊设置下进行了大量实验，并在RAF-DB、AffectNet和SFEW数据集上取得了最先进的结果。02. 相关工作0最近的方法[57, 25, 64, 15, 5, 52, 58, 31, 61, 50,30]将面部表情分为与基本普遍情绪[12,36]相对应的离散类别，这易于解释且对人类直观。其他方法[62,39]尝试使用动作单元（AUs）[6]或连续的价值和唤醒等刻度来表示人类情绪[41]。在这项工作中，我们利用连续刻度的辅助信息，以在预测给定面部表情的离散情绪时减轻FER数据集中的不确定性和模糊性的影响。FER的一个挑战性问题是模糊的面部表情可能会使正确识别表达的情绪变得困难，这可能导致嘈杂和不确定的注释[5, 45]。实证研究也显示0神经网络对噪声敏感，很容易过拟合噪声数据[1, 48,29]。为了克服这个挑战，之前的方法通过一个转换矩阵来建模噪声[47, 20, 40,58]。在[2]中，从预训练模型中提取精确的图像特征，以调节带有噪声标签的学习过程。[63,54]中的作者使用耐噪声损失函数来增加噪声鲁棒性。其他方法[59,52]测量每个样本的不确定性，并利用样本加权策略来帮助网络容忍噪声样本。最近，张等人[60]提出通过特征混合来量化样本的相对困难度的不确定性。然而，这些方法只关注改善错误标记数据上的准确性，而不处理面部表情的模糊性质。0解决标签噪声和模糊性的另一种方法是标签分布学习（LDL）[17]。在其他领域，之前的工作[19, 18,16]利用先验知识将逻辑标签转化为离散的双变量高斯标签分布。[48,29]中的作者利用网络的预测作为标签分布来纠正噪声，但这可能不稳定且难以优化。相反，我们的方法不仅自适应地利用模型的预测，还利用唤醒-价值空间的领域知识来构建目标分布。在FER文献中，Zhou等人[67]引入了一个框架，将面部表情映射到具有相应强度的多个情绪。Jia等人[23]提出通过利用局部级别的标签相关性来学习情绪分布。Zhao等人[65]使用预训练的标签分布生成器生成情绪分布。其他工作通过计算到标签的成员度来创建标签分布[13, 24, 46,34,22]。最近，Chen等人[5]利用面部标志和动作单元空间中的拓扑结构来获取更多的标签分布学习信息。She等人[45]提出利用多个分支来获取潜在分布。然而，这些方法要么严重依赖于具有局部线性性的良好特征才能正常工作[13, 11, 24,46, 34, 38,22]，要么仅使用挖掘的标签分布来规范模型的训练过程Lcls =n�i=1CE�di, f(xi; θ)�= −n�i=1m�j=1dij log fj(xi; θ).(1)60900与之前的工作不同，我们的方法为训练实例构建情感分布，并直接使用它们作为监督信息，从而减少了注释模糊性的影响。我们不需要提供标签分布来训练网络，因为它们可以通过我们的自适应相似度机制和可学习的不确定性因素准确地估计。我们通过实验证明，与使用标签分布进行端到端训练的方法相比，我们的方法更有效，这为训练过程提供了更有意义的信息。03. 方法0首先，我们介绍一系列将在本文中使用的符号。令 x ∈ X 为输入空间 X中的实例变量，令 x i 为第 i 个特定实例。标签集合表示为 Y = { y 1 , y 2 , ..., y m }，其中 m 为类别数量， y j 为第 j 个类别的标签值。 x i 的逻辑标签向量由 l i 表示。0= ( l i y 1 , l i y 2 , ..., l i y m ) ，其中 i y j ∈ { 0 , 1 }，且 ∥ l ∥ 1 = 1 。我们将 x i 的标签分布定义为 d i = (d i y 1 , d i y 2 , ..., d i y m ) ，其中 ∥ d ∥ 1 = 1 ，且 di y j ∈ [0 , 1] ，表示 x i 属于类别 y j的相对程度。带有参数 θ的神经网络后跟一个softmax层，表示为 f ( x ; θ )。由CNN骨干模型提取的 x i 的相应特征向量表示为 v i ∈03.1. 概述0大多数现有的FER数据集仅为每个训练样本 x i分配单个类别或等效的逻辑标签 l i。特别地，给定的训练数据集是一个包含逻辑标签的 n个样本的集合 D l = { ( x i , l i ) | 1 ≤ i ≤ n }。然而，如图1所示，标签分布 d i对于图像而言比单个标签更全面、更合适的注释。受到最近标签分布学习（LDL）在解决标签模糊性方面的成功启发[16]，我们的目标是为每个训练样本 x i 构建一个情感分布 d i，从而将训练集 D l 转化为 D d = { ( x i , d i ) | 1 ≤ i≤ n }，这可以提供更丰富的监督信息并有助于减轻模糊性问题。因此，我们的目标是优化神经网络 f ( x ; θ ) 的参数 θ，使其能够学习从输入空间到目标标签分布 d i的适当映射函数。数学上，我们使用交叉熵来衡量模型预测与构建的目标分布之间的差异[16]。因此，解决方案可以通过最小化以下分类损失来获得：0我们的方法的概述如图2所示。为了为每个训练实例 x i构建标签分布，我们利用其在情感-唤醒空间中的邻域信息。具体而言，我们为每个训练样本 x i 确定 K个邻居实例，并利用我们的自适应相似度机制确定它们对目标分布 d i的贡献程度。然后，我们将邻居的预测结果及其相应的贡献程度与提供的标签 l i及其不确定性因素相结合，得到标签分布 d i 。构建的分布 d i将作为监督信息用于通过标签分布学习来训练模型。值得注意的是，这些步骤仅在训练过程中发生，因此在推理时不会引入额外的成本。03.2. 自适应相似度测量0与以前的工作[68, 56,5]一样，我们假设面部图像在辅助或支持空间中应该具有与其邻居相似的情绪。因此，一个实例的标签分布可以使用其邻居的信息来构建。由于我们的目标是以高保真度重建目标标签分布，所选择的支持空间应与情绪空间高度相关，以尽可能多地传递信息。尽管可以利用面部标志和动作单元等信息作为支持空间，但我们发现情绪价值-唤醒值更与离散情绪密切相关，因此特别适合作为辅助空间。在实践中，情绪价值-唤醒值被广泛用于表示人类情绪谱，其中情绪价值描述表情的积极或消极程度，唤醒值表示表情的强度或激活程度[42]。与平滑性假设[68]类似，我们假设主实例 x i的标签分布可以计算为其邻居分布的线性组合。为了确定每个邻居的贡献度，我们提出了一种自适应相似度机制，不仅利用了主实例 x i与其邻居在辅助空间中的关系，还利用了它们从主干提取的特征向量。具体而言，我们首先使用K最近邻算法根据情绪价值-唤醒值空间中的训练实例之间的距离，为每个训练样本x i 找到 K 个最近点，表示为 N(i)。然后，我们计算 x i 与其 K个邻居之间的局部相似度得分：0使用以下公式计算 x i 和其 K 个邻居之间的局部相似度：0s i k = exp(−∥a i − a k ∥^2) ，� x k∈ N(i) ，(2)0分类器0其中 a 是 x 的相应辅助情绪价值-唤醒值向量，δ是控制相似度度量的超参数。直观地说，s i k 越高，x k 对x i 的标签分布的贡献越大。𝑐!𝑐"𝑐#𝑐$𝜁!𝜁"𝜁#𝜁$𝑠!𝑠"𝑠#𝑠$!Figure 2: An overview of our Label Distribution Learning with Valence-Arousal (LDLVA) for facial expression recognitionunder ambiguity. Dotted lines denote components used in training only while solid lines denote components used in bothtraining and testing.cik =�ζiksik,for xk ∈ N(i),0,otherwise.(4)˜di =�k cikf(xk; θ)�k cik,(5)di = (1λi)li + λi ˜di,(6)∂Lcls∂λi= ∂d , f(x ; θ)∂λi(7)= −�j˜dij log fj(xi; θ) +�jlij log fj(xi; θ)(8)= CE( ˜di, f(xi; θ)) − CE(li, f(xi; θ)).(9)60910CNN0判别损失0特征向量0分类损失总损失0：训练和推断都使用：仅用于训练0：主实例：邻居实例：可训练组件0λ0输入0逻辑标签0预测分布和贡献度0标签分布0因子0不确定性0MLP + Sigmoid0：逐元素乘法！0然而，在实践中，并不总是能够获得情绪价值-唤醒值。因此，我们利用现有的方法[49]生成伪情绪价值-唤醒值。因此，这些值可能不准确，导致 s i k的计算错误。因此，我们提出了自适应相似度机制来纠正这些潜在的错误。具体而言，我们使用由 x i 和其邻居实例 x k∈ N(i) 的CNN主干提取的特征向量（v i，vk）计算每个（x i，x k）对的校准分数如下：0ζ i k = Sigmoid(g([v i, v k]; φ)) ，(3)0其中 [ ∙ , ∙ ] 是连接运算符，g 是具有参数 φ的三层感知器（MLP）。每一层的维度分别为512、256和1。我们还在前两层应用了层归一化和ReLU非线性激活函数。邻居实例的最终贡献度由局部相似度和校准分数的乘积计算得出：03.3. 不确定性感知标签分布构建0在获得每个邻居 x k ∈ N ( i )的贡献度之后，我们现在可以生成主实例 x i的目标标签分布 d i 。目标标签分布是使用逻辑标签 l i和聚合分布 ˜ d i 计算得到的0聚合分布 ˜ d i 定义如下：0其中 λ i ∈ [0 , 1] 是逻辑标签的不确定因子。它控制提供的标签 l i 和聚合标签 ˜ d i之间的平衡0以及来自局部邻域的聚合分布 ˜ d i 。直观地，λ i的高值表示逻辑标签高度不确定，这可能是由于模糊表达或低质量的输入图像引起的，如图6所示，因此我们应该更加重视邻域信息 ˜ d i 。相反，当 λ i 很小时，标签分布 d i应该接近于 l i ，因为我们对提供的手动标签非常确定。在我们的实现中，λ i0是每个实例的可训练参数，并将与模型参数一起使用梯度下降进行优化。从数学上讲，考虑方程1和6，L cls 对 λ i的导数可以计算如下：0如果 CE ( l i , f ( x i ; θ )) 小于 CE ( ˜ d i , f ( x i ; θ )) ，则L cls 对 λ i 的导数是正的，这导致LD = 12ni=1(1 − λi)∥vi − µyi∥22+m�j=1̸60920根据梯度下降优化方案，将导致 λ i的负更新。这是可取的，因为在这种情况下，网络输出与逻辑标签比聚合邻域分布更一致。换句话说，它对提供的标签更有信心，因此我们应该减小不确定性因子 λ i的值。相反的情况也可以应用相同的推理。03.4. 损失函数0最近的文献已经显示了在FER中学习判别特征的好处[4, 27,14,15]。受此启发，我们认为鼓励网络学习良好的面部描述是有益的，因为它可以帮助提高模型区分模糊情绪的能力。我们发现中心损失[55]适用于我们的目的，因为它在减少学习表示的类内变化方面简单而有效。然而，在传统的中心损失[55]的公式中，样本的特征在给定其标签的情况下“盲目地"被拉向其对应的类中心。这意味着当提供的标签不正确时，它可能导致网络学习不准确的特征。我们提出通过引入标签不确定性因子 λ i来自适应地惩罚样本与其对应中心之间的距离来解决这个问题。对于不确定性较高的实例，网络可以在优化过程中有效地容忍它们的特征。此外，我们还添加了类中心之间的成对距离，以鼓励不同类之间的大间隔，从而增强判别能力。我们的判别损失计算如下：0m0exp(−∥µj−µk∥22)0，（10）0其中yi是第i个样本的类索引，而µj，µk和µyi∈RV是第j个、第k个和第yi个类的中心向量。在训练阶段，所有中心向量都被初始化为零，并使用公式10进行优化。直观地说，L D的第一项鼓励一个类的特征向量接近其相应的中心[55]，而第二项通过将聚类中心相互推开来改善类间区分度。结合公式1和公式10，我们得到训练的总损失：0L=Lcls+γLD，（11）0其中γ是平衡两个损失之间的超参数。04. 实验0在本节中，我们首先验证了我们的方法对由嘈杂标签数据引起的合成模糊性的有效性。接下来，我们评估了我们的LDLVA在处理由模糊面部表情引起的不一致标签时的性能。然后，我们将LDLVA与最先进的方法进行比较，以展示我们的方法对于现实世界数据中固有的注释模糊性的鲁棒性。最后，我们进行消融研究并呈现定性结果，以调查每个组件的有效性以及我们方法的优势。04.1. 数据集0我们在三个流行的FER数据集AffectNet [37]，RAF-DB[33]和SFEW[10]上进行实验。它们是通过从互联网收集数据并反映现实生活场景而创建的。AffectNet[37]有超过400,000张手动注释的面部图像，注释了离散的情绪和价值-唤醒。根据之前的工作[5, 58,15]，我们选择了大约280,000张和3,500张图像用于训练和测试，全部属于六种基本情绪（惊讶，恐惧，厌恶，快乐，悲伤和愤怒）和中性表情。RAF-DB[33]被分为训练集和测试集，分别有超过12,000张和3,000张图像。SFEW[10]有879张训练图像和406张测试图像，全部来自电影视频。04.2. 实验设置0默认情况下，我们使用预训练的ResNet-50[21]作为CNN骨干。我们在训练期间对输入图像进行对齐，并进行即时增强，通过在水平方向随机翻转图像并在每个边上填充16个像素后随机裁剪大小为224×224的图像。在测试时，我们使用图像的中心裁剪作为模型的输入。在训练期间，对于每个实例，我们考虑8个最近的邻居，并将其不确定性因子λi初始化为零。为了优化判别损失（公式10），我们遵循[55]中的相同设置。我们使用Adam优化器[26]对批量大小为32的网络进行30个时期的训练，初始学习率为0.001。根据验证结果，将公式2中的参数δ和公式11中的参数γ设置为0.5和0.1。与之前的工作[5, 60,52]类似，我们使用整体准确性作为评估模型的指标。04.3. 带有噪声标签的实验0FER中标注模糊性的两个主要方面是噪声标签和不确定的视觉特征[52]。特别是，人们很难准确识别模糊的面部图像上的情绪，这可能导致嘈杂和错误的标签。因此，我们进行实验研究了我们的LDLVA在错误标记上的鲁棒性SFEW10%20%30%AIR [2]54.2367.3749.8857.16NAL [20]55.9784.2258.1366.11IPA2LT [58]57.8583.8053.1564.93LDL-ALSG [5]58.2985.3355.8766.50if-meford--ets.SFEWIsland Loss [4]--52.52IP FR [51]57.40-55.10EfﬁcientFace [66]63.7088.36-DACL [15]65.2087.78-MViT [32]64.5788.62-RAN [53]-86.9056.4SCN [52]-87.03-DMUE [45]-88.7657.12RUL [60]-88.98-P SR [50]63.3788.98-c-ob-e-et-y,omedursetsr-anoi-on-alsoionota-ofen-is60930表1：合成噪声的准确性。0噪声比0方法准确性（%）0基准 60.14±0.23 83.28±0.45 45.98±0.930SCN [52] 61.57 ± 0.15 84.65 ± 0.32 49.51 ± 0.760RUL [60] 62.89 ± 0.13 86.24 ± 0.22 47.82 ± 1.320LDLVA（我们的方法） 64.37 ± 0.11 87.98 ± 0.10 53.33 ± 0.570基准 58.37 ± 0.35 81.89 ± 0.61 41.25 ± 1.120SCN [52] 60.83 ± 0.19 83.21 ± 0.49 46.26 ± 1.240RUL [60] 61.74 ± 0.18 84.49 ± 0.24 44.78 ± 1.040LDLVA（我们的方法） 63.89 ± 0.14 86.81 ± 0.12 51.53 ± 0.920基准 56.94 ± 0.43 78.92 ± 0.59 38.51 ± 1.690SCN [52] 58.80 ± 0.32 80.61 ± 0.54 43.28 ± 2.060RUL [60] 60.77 ± 0.15 82.59 ± 0.42 41.79 ± 0.810LDLVA（我们的方法） 62.57 ± 0.15 85.85 ± 0.09 50.3 ± 0.880通过向AffectNet、RAF-DB和SFEW数据集添加合成噪声，我们扩充了数据。具体而言，我们将手动标签随机翻转为其他类别之一。我们在实验中研究了三个噪声水平。我们定量评估了我们的方法，并与基准ResNet-50 [21]以及包括SCN[52]和RUL[60]在内的最新抗噪FER方法进行了比较。我们每个实验重复三次，并在表1中报告平均准确率和标准误差。结果清楚地表明，我们的方法在所有情况下始终优于其他方法。特别是，在AffectNet、RAF-DB和SFEW数据集上，我们的模型相对于基准的平均准确率提高了5.13%、5.52%和9.81%。我们还观察到，当噪声比例增加时，改进效果更加明显，例如，在RAF-DB上的准确率改进为10%噪声时为4.7%，30%噪声时为6.93%。在各种设置下的一致结果证明了我们的方法有效处理噪声注释的能力，这对于抵抗标签模糊性至关重要。04.4. 使用不一致标签的实验0表2：不一致标签的准确率。0方法准确率（%）0AffectNet RAF-DB SFEW 平均0LDLVA（我们的方法） 62.89 87.26 58.70 69.620由于面部表情的模糊性质，不同的个体可能会为同一张图像分配不同的标签，如图1所示。由于大规模FER数据的注释通常是通过众包获得的，这可能会导致标签不一致，特别是在0表3：原始数据集上不同方法的准确率。0方法准确率（%）0LDLVA（我们的方法） 66.23 90.51 59.900为了检验所提出的方法在处理这个问题时的有效性，我们采用了之前最先进方法中的跨数据集协议[5,58]，并采用了[5]中提出的实验设置进行公平比较。具体而言，模型使用来自RAF-DB和AffectNet的联合训练数据集进行训练。然后，使用该模型在RAF-DB、AffectNet和SFEW数据集上进行测试。0表2报告了我们实验的结果。我们的方法在所有三个数据集上都取得了最好的性能和最高的平均准确率。值得注意的是，LDLVA相对于当前最先进的LDL-ALSG[5]平均准确率提高了3.12%。与我们的方法相比，LDL-ALSG只使用邻居的分布来约束网络预测，而没有为中心实例构建标签分布。它还缺乏一种自适应地衡量每个邻居的贡献和所提供注释的不确定性的机制。有利的性能证实了我们的方法相对于以前的工作的优势，并展示了对具有标签不一致性的数据的泛化能力，这对于实际FER应用至关重要。04.5. 在原始数据集上的实验0我们进一步在原始的AffectNet、RAF-DB和SFEW数据集上进行实验，以评估我们的方法对现实世界FER数据集中不可避免的不确定性和模糊性的鲁棒性。我们在表3中将提出的LDLVA与几种最先进的方法进行了比较。通过在价值-唤醒空间上利用标签分布学习，我们的模型在AffectNet、RAF-DB和SFEW上的性能超过了其他方法，并取得了最先进的性能。尽管这些数据集被认为是“干净”的，但结果表明它们确实存在不确定性和模糊性。60940惊讶0快乐0厌恶0图3：我们的调查结果与我们的模型结果的比较。更多结果可以在补充材料中找到。04.6. 定性分析0现实世界的模糊性。为了更好地了解现实世界中的模糊表情，我们进行了一项用户研究，我们要求50名参与者从RAF-DB和AffectNet数据集的随机测试图像中选择最清晰表达的情绪。每个类别的投票数进行了归一化处理，以获得情绪分布。我们将我们模型的预测结果与调查结果在图3中进行了比较。我们可以看到这些图像是模糊的，因为它们表达了不同情绪的组合，因此参与者对面部上最突出的情绪没有完全一致的意见。进一步显示LDLVA可以给出一致的结果，并在一定程度上与人类的感知达成一致，这表明我们的模型可以有效地解决面部表情中的模糊性问题。自适应相似度。图4展示了由我们的自适应相似度机制计算得到的不同邻居相对于中心实例的归一化校准分数。可以看到，一些邻居在视觉上看起来相似，但并不表达相同的情绪。通过给予较低的校准值，我们的方法可以有效地抑制这些邻居的负面影响，降低它们的贡献，从而得到更稳健和准确的情绪分布估计。构建的标签分布。在图5中，我们可视化了我们的方法在错误标注的图像上重建的情绪分布。尽管注释有误，我们的方法能够构建出合理的分布并发现正确的标签。值得注意的是，一些表情表现出多种情绪，而不仅仅是提供的单一类别，这意味着发现的分布可以为训练提供更多的监督。不确定因素。图6展示了RAF-DB数据集中一些训练图像的估计不确定因素和它们的原始标签。不确定性值从上到下递减。高度不确定的标签可能是由于低质量的输入（如图中的愤怒和惊讶列）或模糊的面部表情引起的。相反，当情绪可以很容易地被识别为最后一行中的情绪时，不确定因素被赋予较低的值。这个特点可以指导模型决定是更加重视提供的标签还是邻域信息。因此，模型可以更加鲁棒地应对不确定性和模糊性。0表4：组件分析（LD：标签分布，AS：自适应相似度，UF：不确定因素，DL：判别性损失）0设置 LD AS UF DL RAF-DB（原始） RAF-DB（30%噪声）0(i) - - - - 87.06 78.920(ii) - - - 88.95 82.69 (iii) - - - 89.57 84.380(iv) - - 89.31 83.56 (v) - - - 90.51 85.850更加鲁棒对抗不确定性和模糊性。04.7. 消融研究0每个组件的贡献。在表4中，我们呈现了与我们的组件不同组合对应的准确性：标签分布（是否构建di），自适应相似度（是否计算校准分数或直接使用局部相似度分数作为贡献度），不确定性因素（是否为每个实例使用单独的λ i或为所有训练样本共享固定值λ），以及判别损失（是否在方程式11中加入LD）。通过使用标签分布和自适应相似度（ii），我们可以显著提高原始RAF-DB上的基准方法（i）的准确性，分别提高1.89％和30％噪声RAF-DB上的3.77％。进一步整合不确定性因素和判别损失可以持续提升模型的性能，如（iii）和（v）的结果所示。结果显示了每个组件的有效性以及它们在我们的LDLVA方法中组合的优势。最近邻居的数量。我们在图7中呈现了最近邻居数量K对模型性能的影响。对于原始RAF-DB数据，较高的K值可以获得更好的结果，但也需要更多的训练时间。特别是，在AffectNet上，K= 8和K =16的训练时间分别为12小时和20小时。在噪声条件下，最佳结果是使用K =8，而较大或较小的K可能导致稍微较差的性能。原因是使用较大的K可能会包含更多的损坏标签，而使用过少的邻居可能会限制可利用信息的数量。0.290.040.330.330.450.440.050.050.330.040.300.340.040.300.380.280.970.890.950.980.920.960.520.530.510.550.410.430.090.060.030.100.050.07AngryDisgustFearHappySadSurpriseAngryDisgustFearHappySadSurpriseAngryDisgustFearHappySadSurprise24681012141684.0 %85.0 %86.0 %87.0 %88.0 %89.0 %90.0 %91.0 %92.0 %Accuracyno noise30% noise60950悲伤0悲伤开心悲伤悲伤0开心0惊讶开心开心开心0惊讶0惊讶开心惊讶惊讶0恐惧0恐惧恐惧开心开心0图4：相对于主实例的邻居图像的校准分数。左侧的大图像是主实例。邻居图像显示在顶部，它们对应的分数显示在底部。0惊讶0中性0愤怒0开心0厌恶0悲伤中性0恐惧0悲伤0恐惧0开心0恐惧0图5：当数据集受到噪声标签污染时，我们的方法恢复的情绪分布示例。每个图像顶部的标签是合成的噪声标签，底部表示人工注释。0图6：RAF-DB数据集中一些示例的不确定性值可视化。05. 结论0本文介绍了一种新的面部表情识别标签分布学习方法，通过利用愉悦-唤醒空间中的结构信息来恢复分布在情绪类别上的强度。我们首先采用自适应相似度来解决由伪愉悦-唤醒引起的错误，并鲁棒地测量每个邻居的贡献度。然后，通过将提供的单个标签和由不确定性值引导的邻居分布的组合，构建目标标签分布。构建的标签分布提供了关于情绪的丰富信息，因此可以有效地描述面部图像的模糊程度。对流行数据集进行的大量实验证明了我们的方法在面部表情识别中在不一致和不确定条件下的有效性。致谢。作者对ThieuVo博士在准备本文过程中提供的宝贵反馈表示感谢。我们还要感谢所有参与我们用户研究的志愿者。0图7：不同邻居数量的评估结果。0图7：不同邻居数量的评估结果。60960参考文献0[1] Devansh Arpit，Stanisław Jastrz˛ebski，Nicolas Ballas，DavidKrueger，Emmanuel Bengio，Maxinder S. Kanwal，TeganMaharaj，Asja Fischer，Aaron Courville，Yoshua Bengio和SimonLacoste-Julien。深度网络中记忆化的更详细研究。在ICML，2017年。0[2] Samaneh Azadi，Jiashi Feng，Stefanie Jegelka和TrevorDarrell。带有噪声标签的深度CNN的辅助图像正则化。在ICLR，2016年。0[3] C. Fabian Benitez-Quiroz，Ramprakash Srinivasan和AleixM.Martinez。Emotionet：在野外自动注释一百万个面部表情的准确实时算法。在CVPR，2016年。0[4] Jie Cai，Zibo Meng，Ahmed Shehab Khan，ZhiyuanLi，James O’Reilly和YanTong。岛损失用于学习面部表情识别中的判别特征。在IEEE国际自动人脸与手势识别大会（FG），2018年。0[5] S. Chen，J. Wang，Y. Chen，Z. Shi，X. Geng和Y.Rui。面部表情识别中辅助标签空间图上的标签分布学习。在CVPR，2020年。0[6] Elizabeth A. Clark，J’Nai Kessinger，Susan E.Duncan，Martha Ann Bell，Jacob Lahne，Daniel L.Gallagher和Sean F.O’Keefe。用于表征人类对消费产品刺激的情感响应的面部动作编码系统：系统综述。心理学前沿，2020年。0[7] Chloé Clavel，Ioana Vasilescu，Laurence Devillers，GaëlRichard和ThibautEhrette。用于未来基于音频的监控系统的恐惧型情感识别。语音通信，2008年。0[8] Roddy Cowie，Ellen Douglas-Cowie，NicolasTsapatsoulis，George Votsis，Stefanos Kollias，WinfriedFellenz和J.G.Taylor。人机交互中的情感识别。IEEE信号处理杂志，2001年。0[9] Navneet Dalal和BillTriggs。用于人体检测的方向梯度直方图。在CVPR，2005年。0[10] Abhinav Dhall，Roland Goecke，Simon Lucey和TomGedeon。在恶劣条件下的静态面部表情分析：数据，评估协议和基准。在ICCVW，2011年。0[11] Tuong Do，Huy Tran，Erman Tjiputra，Quang D Tran和AnhNguyen。使用自我评估分类器的细粒度视觉分类。arXiv预印本arXiv:2205.10529，2022年。0[12] P Ekman和WVFriesen。面部和情感的跨文化常数。个性与社会心理学杂志，1971年。0[13] Neamat El Gayar，Friedhelm Schwenker和GüntherPalm。使用软标签训练的knn分类器的鲁棒性研究。在模式识别的人工神经网络。Springer Berlin Heidelberg，2006年。0[14] Amir Hossein Farzaneh和XiaojunQi。野外面部表情识别中的判别分布不可知损失。在CVPRW，2020年。0[15] Amir Hossein Farzaneh和XiaojunQi。通过深度专注中心损失在野外进行面部表情识别。在WACV，2021年。0[16] B. Gao，C. Xing，C. Xie，J. Wu和X.Geng。具有标签模糊性的深度标签分布学习。IEEE图像处理交易，2017年。0[17] Xin Geng。标签分布学习。IEEE知识与数据工程交易。0[18] Xin Geng，Qin Wang和YuXia。自适应标签分布学习的面部年龄估计。在ICPR，2014年。0[19] Xin Geng和YuXia。基于多元标签分布的头部姿势估计。在CVPR，2014年。0[20] J. Goldberger和E.Ben-Reuven。使用噪声适应层训练深度神经网络。在ICLR，2017年。0[21] Kaiming He，Xiangyu Zhang，Shaoqing Ren和JianSun。用于图像识别的深度残差学习。在CVPR，2016年。0[22] Peng Hou, Xin Geng, and Min-Ling Zhang.多标签流形学习. 《AAAI》, 2016.0[23] Xiuyi Jia, Xiang Zheng, Weiwei Li, Changqing Zhang, andZechao Li. 利用局部低秩标签相关性学习面部情感分布. 《CVPR》,2019.0[24] Xiufeng Jiang, Zhang Yi, and Jian Lv.具有新的模糊隶属函数的模糊支持向量机. 《神经计算与应用》,2006.0[25] Corentin Kervadec, Valentin Vielzeuf, Stéphane Pateux,Alexis Lechervy, and Frédéric Jurie. Cake:紧凑准确的k维情感表示. 《BMVC》, 2018.0[26] Diederik P. Kingma and Jimmy Ba. Adam:一种随机优化方法. 《I

下载后可阅读完整内容，剩余1页未读，立即下载