平衡MSE：从统计角度平衡不平衡视觉回归的损失函数

122 浏览量更新于2023-10-25 收藏 15.69MB PDF 举报

数据不平衡

均方误差

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

𝑝bal(𝑦|𝑥)NLL 𝑝train(𝑦)𝑝bal(𝑦)𝑝train(𝑦|𝑥)𝜃NLL 𝑝train(𝑦)𝑝train(𝑦|𝑥)𝑝train(𝑦|𝑥)𝑝bal(𝑦)𝑝bal(𝑦|𝑥)𝜃𝜃79260用于不平衡视觉回归的平衡MSE0Jiawei Ren 1，Mingyuan Zhang 1，Cunjun Yu 2，Ziwei Liu 101 S-Lab，南洋理工大学 2 计算机学院，新加坡国立大学0{jiawei011，mingyuan001}@e.ntu.edu.sg，cunjun.yu@comp.nus.edu.sg，ziwei.liu@ntu.edu.sg0摘要0数据不平衡在现实世界的视觉回归中普遍存在，例如年龄估计和姿态估计，这损害了模型的泛化能力和公平性。因此，不平衡回归近年来受到越来越多的研究关注。与不平衡分类相比，不平衡回归关注连续标签，这些标签可以是无限的和高维的，因此更具挑战性。在这项工作中，我们从统计角度重新审视了广泛使用的均方误差（MSE）损失函数，并提出了一种新的损失函数，平衡MSE，以适应不平衡的训练标签分布。我们进一步设计了多个平衡MSE的实现，以应对不同的现实场景，特别是那些不需要关于训练标签分布的先验知识的场景。此外，据我们所知，平衡MSE是现代环境下高维不平衡回归的第一个通用解决方案。在合成数据和三个真实世界基准测试上进行了大量实验证明了平衡MSE的有效性。代码和模型可在github.com/jiawei-ren/BalancedMSE上找到。01. 引言0视觉回归是模型学习预测连续标签的最基本任务之一。然而，在实际应用中，数据不平衡是普遍存在的，这损害了模型的泛化能力和公平性。例如，年龄估计从人们的视觉外貌预测年龄，其中年龄是一个连续标签。在实践中，大多数训练图像来自成年人，而很少有图像来自儿童和老年人。因此，从这样一个不平衡的数据集训练的模型在少数群体上的性能可能较差[38]。因此，不平衡回归0对应作者。0训练0测试0训练测试0MSE0�0图1.MSE和平衡MSE的比较。MSE等同于预测分布上的NLL，其中回归器θ的预测是分布的均值。MSE让回归器建模ptrain(y|x)，这对于推断测试集是不适合的，因为训练标签分布ptrain(y)和平衡测试标签分布pbal(y)之间存在偏移。相比之下，平衡MSE利用p train(y)对pbal(y|x)进行统计转换，从而允许回归器通过最小化ptrain(y|x)的NLL来建模所需的p bal(y|x)。0受到越来越多的研究关注。最近，在现代深度学习环境中，还特别策划了一个新的不平衡回归基准测试[38]。与研究分类标签的不平衡和长尾分类[4, 12,24]相比，不平衡回归关注连续标签，这些标签可以是无限的、高维的，因此更具挑战性。不同于广泛讨论的不平衡分类[15, 20, 35, 39]，不平衡回归的研究较少。以前的工作[1,33]侧重于为罕见标签合成样本，但在输入始终是高维的现代深度学习中，这种方法的可行性有限。最近的研究[31,38]侧重于损失重新加权。重新加权将罕见样本分配更大的损失权重，将常见样本分配更小的损失权重。[31,38]使用核密度估计（KDE）估计训练标签分布，并相应地重新加权损失。然而，之前的研究[5,36]表明，重新加权在不平衡分类上的效果有限。在后续的案例研究中，我们验证了这一发现在不平衡79270正态分布指数分布0偏度0图2.在一个1-D不平衡线性回归合成基准测试上，平衡MSE和现有方法的比较。第1列和第3列是回归结果的可视化：点表示训练数据，x是输入，y是标签；(x,y)由一个线性关系（蓝色）通过噪声生成，并人为地使其标签不平衡；其他线条表示不同的回归器，越接近原始线性关系越好。第2列和第4列是标签分布的可视化：蓝色阴影的直方图表示训练标签分布ptrain(y)，它从上到下变得更加倾斜；紫色直方图表示测试标签分布，它是平衡的；其他直方图是不同回归器在测试集上预测的边际标签分布，越接近测试分布越好。尽管重新加权（绿色）相对于最小二乘法（黄色）更接近原始线性关系（蓝色），但当ptrain(y)变得更加倾斜时，它会产生更大的误差。我们的方法（红色），平衡MSE，使估计结果最接近原始线性关系，并在测试集上具有均匀的边际标签分布。0同样适用于回归。总之，不平衡回归仍处于早期阶段，缺乏有效的方法。为了弥合差距，我们提出了一种统计上合理的损失函数，平衡MSE，用于不平衡回归。我们从统计的角度重新审视了回归中的标准损失函数均方误差（MSE）。我们发现MSE将标签不平衡带入预测中，导致在稀有标签上表现较差。我们提出了平衡MSE，通过利用训练标签分布先验来恢复平衡的预测，进行统计转换。此外，我们为平衡MSE提供了各种实现选项，包括在线估计训练标签分布且不需要额外先验知识，使平衡MSE适用于不同的现实场景。平衡MSE在理论和实践上都明显优于现有方法。作为一个激励性的例子，我们在图2中将平衡MSE与重新加权进行了比较，使用了一个1-D线性回归合成基准测试。使用平衡MSE训练的回归器显示出一致的性能，对训练标签分布的倾斜度不变。相反，重新加权在训练标签分布变得更加倾斜时，预测误差显著增大。0训练标签分布变得更加倾斜。我们进一步展示了平衡MSE在现有的真实世界基准测试中的实证成功，包括年龄估计和深度估计[38]。需要注意的是，现有的不平衡回归基准测试只考虑了单维标签空间，例如年龄和深度。然而，在现实世界的应用中，标签有时具有多个维度。为了弥合差距，我们在Human Mesh Recovery (HMR)[18]上提出了一个新的多维不平衡回归基准测试，该任务是从单眼图像中估计3D人体网格。我们将HMR的标准度量指标（例如平均每个关节位置误差（MPJPE））扩展为平衡度量指标，以便我们可以公平地评估对具有不同稀缺性的人体网格的回归性能。我们将这个新的不平衡回归基准测试称为Imbalanced HMR(IHMR)。我们展示了平衡MSE在单维和多维基准测试上的强大实证结果。据我们所知，平衡MSE是现代环境中高维不平衡回归的第一个通用解决方案。总之，我们的贡献有三个方面：1）我们确定了MSE在不平衡回归中的无效性，并提出了一种统计上合理的损失函数。Balanced MSE, that leverages the training label distribu-tion prior to restore a balanced prediction. 2) We devisevarious implementation options of Balanced MSE to tackledifferent real-world scenarios, including the one that esti-mates the training label distribution online and requires noprior knowledge beforehand. 3) We propose a new multi-dimensional benchmark IHMR, and show that BalancedMSE achieves state-of-the-art performance on both uni- andmulti-dimensional real-world benchmarks.MSE(y, ypred) = ∥y − ypred∥22 ,(3.1)p(y|x; θ) = N(y; ypred, σ2noiseI),(3.2)ptrain(y|x)pbal(y|x) ∝ ptrain(y)pbal(y)(3.3)792802. 相关工作0不平衡和长尾分类。已经探索了许多技术用于不平衡和长尾分类，例如重新采样[7,9,13,21]和重新加权[6,10,16,17]。在这里，我们关注与本工作最相关的逻辑调整技术。最近的研究[27,29,32]表明，通过将映射函数（例如Softmax或Sigmoid）中的logits修改为与log ptrain(y)成比例的偏移量，可以得到pbal(y|x)的贝叶斯最优估计。逻辑调整技术可以作为训练时的损失函数或测试时的调整。[34]进一步开发了一种在线版本，它在训练期间累积标签分布的统计信息，而不是要求提前获得所有训练标签的统计信息。不平衡回归。不平衡回归相对较少研究。早期的研究[1,33]专注于为罕见标签重新采样和合成新样本。进一步的工作[2]在不同的重新采样策略下集成训练的回归器。将他们的方法扩展到像图像这样的高维观测是非平凡的。最近的研究[31,38]提出使用KDE估计经验训练分布，然后应用标准的重新加权技术。[38]还提出了一种特征级平滑方法，与本工作相辅相成。03. 方法论03.1. 问题设置0我们研究一个回归任务。我们考虑输入 x ∈ X 和标签 y ∈ Y = Rd。与[38]只讨论一维（d =1）回归不同，我们在本文中也讨论多维（d >1）回归。通常，训练集和测试集都是从相同的联合分布中抽取的。然而，当标签分布高度倾斜时，模型可能通过始终预测频繁标签来学习一个平凡解。平凡模型在测试集上的错误率仍然很低[27]。为了解决这个问题，要么使用平衡的评估指标，要么使用平衡的测试集来公平地评估模型在不同稀有度样本上的性能。此外，可以证明，在任意的平衡指标上使用平衡指标等价于在一个假设存在的平衡测试集上使用整体指标[3]。因此，不平衡回归假设训练集和测试集是从不同的联合分布p train(x,y)和p bal(x, y)中抽取的，其中训练集的标签分布ptrain(y)是倾斜的，平衡测试集的标签分布pbal(y)是均匀的[38]。标签条件概率p(x|y)在训练和测试中被假设是相同的。不平衡回归的目标不是学习p train(y|x)，而是估计pbal(y|x)以在平衡测试集上更好地表现。不平衡分类文献中也普遍采用类似的设置[6,15,27,29]。0使用整体指标在不平衡的测试集上等效于在一个假设存在的平衡测试集上使用整体指标[3]。因此，不平衡回归假设训练集和测试集是从不同的联合分布p train(x, y)和p bal(x,y)中抽取的，其中训练集的标签分布ptrain(y)是倾斜的，平衡测试集的标签分布pbal(y)是均匀的[38]。标签条件概率p(x|y)在训练和测试中被假设是相同的。不平衡回归的目标不是学习ptrain(y|x)，而是估计pbal(y|x)以在平衡测试集上更好地表现。不平衡分类文献中也普遍采用类似的设置[6,15,27,29]。03.2. 重新审视均方误差0在本节中，我们从统计学的角度重新审视均方误差（MSE）。MSE损失是回归中最常用的损失函数。对于预测标签ypred和目标标签y，MSE损失可以写成0其中∥.∥2表示L2范数。众所周知，最小化MSE可以等价于回归中的最大似然估计[28]。回归器的预测ypred可以被视为噪声预测分布的均值，在经典的概率解释中被建模为高斯分布[26]：0其中θ是回归器的参数，y pred是回归器的预测，σnoise是一个独立同分布误差项ϵ � N(0, σ 2 noiseI)的尺度。很容易证明，MSE等于预测分布p(y|x;θ)的负对数似然（NLL）损失[28]。因此，使用MSE训练的回归器实际上是学习建模ptrain(y|x)。然而，如问题设置中所提到的，我们感兴趣的是估计p bal(y|x)而不是p train(y|x)。由于从长尾训练分布ptrain(y)到平衡测试分布p bal(y)的转变，p train(y|x)和pbal(y|x)之间存在不匹配。根据贝叶斯定理，我们有ptrain(y|x) ∝ p(x|y) ∙ p train(y)和p bal(y|x) ∝ p(x|y) ∙ pbal(y)。通过变量的变换，我们有：0方程3.3量化了p train ( y | x )和p bal ( y | x )之间的比例与p train (y )成正比，当一个标签在训练集中很少出现时，p train ( y)较低。因此，使用MSE训练的回归器会低估罕见标签。尽管这种不匹配在不平衡分类中是一个众所周知的观察结果[15, 27, 29,32]，但我们是第一个在不平衡回归中解决这种不匹配的。不同的ptrain(y|x) =pbal(y|x) · ptrain(y)Y pbal(y′|x) · ptrain(y′)dy′ .(3.4)pbal(y|x; θ) = N(y; ypred, σ2noiseI)(3.5)L = − log ptrain(y|x; θ)= − logpbal(y|x; θ) · ptrain(y)�Y pbal(y′|x; θ) · ptrain(y′)dy′∼= − log N(y; ypred, σ2noiseI)+ log�YN(y′; ypred, σ2noiseI) · ptrain(y′)dy′,(3.6)ptrain(y|x) =pbal(y|x; θ) =ptrain(y|x; θ) =79290与通过Softmax分数显式建模预测分布的分类任务不同，回归任务隐式建模预测分布：只有预测分布的均值在训练和测试中起作用。因此，现有研究一直忽视了不平衡回归的概率意义。我们的工作是对不平衡回归在统计框架下重新思考的初步尝试。我们将在接下来的章节中展示统计洞察如何为不平衡回归提供启示。03.3. 平衡MSE0我们提出了平衡MSE来恢复p bal ( y | x)。首先，我们讨论了使用训练标签分布p train ( y )将p bal( y | x )转换为p train ( y | x )的统计转换。0定理1（统计转换）设p train ( x , y )为训练分布，其中ptrain ( y )不平衡，p bal ( x , y )为平衡测试分布，其中pbal ( y )是均匀的。p train ( x , y )和p bal ( x , y)具有相同的标签条件分布p ( x | y )。p train ( y | x)可以总是用p bal ( y | x )和p train ( y )表示如下：0证明可以在补充材料中找到。定理1允许我们通过最小化ptrain ( y | x )的NLL损失来估计p bal ( y | x)。具体来说，我们让回归器直接估计所需的p bal ( y | x)，即0如图1所示，在训练中，我们首先预测p bal ( y | x ; θ)，使用方程3.4将其转换为p train ( y | x ;θ)，然后计算NLL损失来更新θ；在测试中，我们跳过转换，直接输出回归器的预测p bal ( y | x ;θ)。我们将转换后的条件概率的NLL损失称为平衡MSE。0定义3.1（平衡MSE）对于一个回归器的预测ypred和一个训练标签分布先验p train ( y )，平衡MSE损失定义如下：0其中� =隐藏了一个常数项−log p train ( y )。0平衡MSE有两个部分：第一部分等同于标准MSE损失，第二部分是一个新的平衡项，需要计算一个积分。我们0在补充材料中展示，当训练标签分布p train ( y)均匀时，新的平衡项等于一个常数。因此，标准MSE损失可以看作是平衡MSE的特例。平衡MSE消除了训练和测试之间的分布不匹配，因此是一种对不平衡回归的统计原则性损失函数。在接下来的章节中，我们将讨论平衡MSE与不平衡分类的关系以及如何在实践中实现平衡MSE。03.4. 与不平衡分类的关联0我们展示了平衡均方误差与不平衡分类中现有解决方案之间的潜在联系。定理1不仅适用于不平衡回归，也适用于不平衡分类。在不平衡分类中，标签空间 Y 是一维离散的，Y上的积分可以写成求和形式，Eq. 3.4 变为：0y ′ ∈ Y p bal ( y ′ | x ) ∙ p train ( y′ ) ，(3.7)0通常，在分类中使用Softmax将模型输出转换为预测分布。当使用Softmax来表示所需的 p bal ( y | x ) 时，我们有：0y ′ ∈ Y exp( η [ y ′ ]) ，(3.8)0其中 η [ y ] 是模型对类别 y 的输出。将 Eq. 3.8 中的Softmax 表达式代入 Eq. 3.7 ，我们有：0y ′ ∈ Y exp( η [ y ′ ]) ∙ p train ( y′ ) ，(3.9)0这与不平衡分类文献中的逻辑调整技术具有相同的形式[15,27,29]。因此，平衡均方误差和逻辑调整技术可以被视为不平衡回归和不平衡分类的两种不同实例。我们的工作首次提供了统一的统计视角，同时涵盖了不平衡分类和回归任务。我们希望这种统一的视角能够帮助未来的研究进一步桥接这两个任务。03.5. 实现选项0我们讨论如何在实践中实现平衡均方误差。平衡均方误差（Eq.3.6）中的积分可能很难计算。在接下来的几节中，我们提供了计算积分的闭式选项和数值选项。特别地，批次蒙特卡洛（BMC）选项不需要先验知识来计算训练标签分布，因此可以更普遍地应用于实际应用中。ptrain(y) =K�YN(y; ypred, σ2noiseI) ·K�i=1ϕiN(y; µi, Σi)dy=K�i=1ϕiSi�(3.11)L = − log N(y; ypred, σ2noiseI)K(3.12)�YN(y; ypred, σ2noiseI) · ptrain(y)dy= Ey∼ptrain(y)[N(y; ypred, σ2noiseI)]≈ 1NN(y(i); ypred, σ2noiseI).(3.13)L = − log N(y; ypred, σ2noiseI)+ logN(y(i); ypred, σ2noiseI).(3.14)L = − logexp(− ∥ypred − y∥22 /τ)y′∈By exp(− ∥ypred − y′∥22 /τ),(3.15)L = − log N(y; ypred, σ2noiseI)+ logptrain(y(i)) · N(y(i); ypred, σ2noiseI).(3.16)793003.5.1 闭式选项0在本节中，我们的目标是找到一个闭式表达式来计算积分 �0Y N ( y ; y pred , σ 2 noise I ) ∙ p train ( y ) d y。主要的挑战是如何表达 p train ( y )以使积分可计算。在这里，我们讨论了一种可行的选择，即将 p train ( y )表示为高斯混合模型（GMM）。基于GMM的解析积分（GAI）。使用GMM的优势在于两个高斯分布的乘积是一个非标准化的高斯分布。具体而言，让我们用高斯混合模型表示p train ( y ) ：0i =1 ϕ i N ( y ; µ i , Σ i )，(3.10)0其中 K 是高斯分量的数量，ϕ、µ、Σ是GMM的权重、均值和协方差。由于两个高斯分布的乘积是一个非标准化的高斯分布，我们有：0Y N ( y ; ˜ µ i , ˜ Σ i )d y 。0其中 S， ˜ µ， ˜ Σ是新的非标准化高斯的范数、均值和协方差。现在，积分是在高斯分布上进行的，可以轻松解决。我们将详细的推导留在补充材料中。最终的损失形式为：0+ log0i =1 ϕ i ∙ N ( y pred ; µ i , Σ i + σ 2 noise I ) 。03.5.2 数值选项0上述的闭式解对 p train ( y )的建模施加了约束。然而，在现代深度学习任务中， ptrain ( y )可能是非常高维的，并且具有复杂的潜在分布。在对分布建模的约束下，解析地表达 p train ( y )可能具有挑战性。因此，我们讨论了一些数值方法，这些方法可能更普遍适用于所有类型的标签数据，但在优化中可能具有更大的方差。本质上，我们使用蒙特卡洛方法（MCM）来近似 p train ( y )：0N0基于批次的蒙特卡洛（BMC）。BMC不需要关于 p train (y ) 的先验知识。它将训练批次中的所有标签视为从 p train( y ) 中随机采样的样本。对于训练批次中的标签 B y = { y(1) , y (2) , ... y ( N ) } ，损失函数为：0N0此外，公式3.14中的BMC可以像带有温度的Softmax一样重写：0其中 τ = 2 σ 2 noise是一个温度系数。BMC易于实现。有趣的是，公式3.15中的形式等同于在一个批次中进行分类，并且与自训练中使用的对比损失函数（如[8,14]）相似。这种相似性可能与自训练在不平衡学习中的有效性相关，这是我们留待将来讨论的。基于区间的数值积分（BNI）。尽管“区间”这个概念主要适用于一维标签空间，但它使我们能够利用最近在使用KDE估计标签密度方面取得的进展[31,38]。这些先前的工作首先将标签空间划分为均匀分布的区间，然后使用KDE估计区间中心的 p train ( y)。我们可以直接使用他们的结果进行数值积分。对于 N个区间中心 { y (1) , y (2) , ..., y ( N ) } ，损失函数为：0N03.5.3 寻找最佳噪声尺度0与标准的MSE损失不同，噪声尺度 σ noise在提出的方法中起到了作用。因此，确定最佳噪声尺度非常重要。鉴于 σ noise 定义在 R +上，并且受到训练时和测试时MSE的平方根的限制，对 σnoise进行超参数搜索是可行的。然而，在本文中，我们不使用超参数搜索，而是在模型训练过程中与 y pred 一起联合优化σ noise。我们观察到，通过将 σ noise设置为可学习参数，我们可以获得接近最优的 σnoise。在补充材料中展示了使用真实噪声尺度和使用联合学习的 σ noise的比较。因此，平衡MSE不需要额外的超参数调整，更加适合实践者使用。除非另有说明，我们在所有实证分析中都采用联合优化范式。𝑦 = tan (𝑥)𝑦 = 𝑥!𝑦 = 𝑒"𝑦 = log (𝑥)79310训练测试最小二乘反加权我们的0图3.2D线性回归的边际标签分布比较。最小二乘和反加权显示出对中心周围高频区域的明显偏差。相比之下，平衡MSE实现了最接近均匀测试分布的边际标签分布。0图4. 非线性回归的定性比较。研究了四个非线性函数。平衡MSE（红色）给出了最接近真实值（蓝色）的估计。04. 实验04.1. 合成基准0我们构建了一个简单的一维线性不平衡回归数据集，训练标签分布为正态分布或指数分布，并且倾斜程度不同。我们在不平衡的训练集上训练一个单层线性回归器，并在没有附加噪声的均匀测试集上进行测试。我们比较了三种类型的回归器：最小二乘估计器，根据真实的 p train ( y )进行反加权的线性回归器（如[38]所述），以及具有真实噪声尺度的平衡MSE的闭式选项GAI。我们在图2中展示了可视化结果。我们观察到，当训练分布变得更加倾斜时，反加权回归器的误差越来越大。相比之下，平衡MSE给出了一个准确的估计，对不同程度的倾斜具有鲁棒性。我们还在二维回归上比较了这三种方法。训练标签分布设置为多元正态分布（MVN）。我们在图3中展示了边际标签分布，其中平衡MSE实现了最接近均匀分布的边际标签分布。对于非线性回归，平衡MSE也同样有效，如图4所示。我们在补充材料中对随机种子进行了另一个实验，以展示平衡MSE对噪声的鲁棒性。尽管最近的研究[31,38]集中于估计训练标签分布，但我们的合成基准显示，现有技术的瓶颈在于加权。即使给定真实的标签分布，加权也会失败。0在所有设置中找到最佳的估计器。我们的结论与最近的研究一致，表明重新加权在不平衡分类上的无能为力[5,36]。相比之下，我们提出的平衡均方误差对训练分布的不同偏斜和噪声具有鲁棒性，同时适用于非线性和多维回归。我们在补充材料中提供了上述合成基准测试的定量结果，其中我们比较了不同的实现选项和噪声尺度的选择。结果显示，数值选项在大多数情况下可以达到与闭式选项相当的结果。此外，联合优化的噪声尺度在大多数情况下可以达到近乎最优的结果。04.2.真实世界基准测试04.2.1 数据集和设置0年龄和深度估计。我们从[38]的DIR基准测试中选择了两个代表性的任务。我们在IMDB-WIKI-DIR数据集上估计人脸图像的年龄，并在NYUD2-DIR数据集上估计室内场景图像的深度图。不平衡的人体网格恢复（IHMR）。IHMR是一个新的、多维度的不平衡回归基准。我们从图像中估计人体网格，其中网格由称为SMPL的参数化人体模型表示[25]。通常，SMPL模型有两个参数：θ ∈ R 24 ×3表示23个身体关节和1个全局方向的旋转，β ∈ R10表示身体形状的10个PCA分量。因此，IHMR的标签空间是多维的。与最近的工作[30]一致，我们观察到人体网格的分布是长尾的。↓↓Vanilla†13.927.3215.9332.788.067.2315.1226.33RRT†13.127.2714.0330.487.817.0714.0625.13RRT+LDS†13.097.3014.0530.267.797.0813.7624.64↓δ1 ↑Vanilla†1.4770.5910.9522.1230.6770.7770.6930.570Vanilla + LDS†1.3870.6710.9131.9540.6720.7010.7060.63079320表1. IMDB-WIKI-DIR的比较实验。†：[38]中报告的MAE度量。最佳结果用粗体表示。0方法全部多个中等少量全部多个中等少量0我们的（BMC）12.69 7.59 12.90 28.28 8.08 7.52 12.47 23.29我们的（GAI）12.66 7.65 12.68 28.14 8.12 7.58 12.27 23.050表2. NYUD2-DIR的比较实验。†：[38]中报告的。最佳结果用粗体表示。0方法全部多个中等少量全部多个中等少量0我们的（BNI）1.283 0.787 0.870 1.736 0.694 0.622 0.806 0.723 我们的（GAI）1.2510.692 0.959 1.703 0.702 0.676 0.734 0.7150我们在补充材料中展示了训练分布的可视化。根据[23]，我们在3D和2D人体数据集的组合上进行训练，并在野外3D数据集上进行测试。详细的设置可以在补充材料中找到。04.2.2 评估指标0DIR基准测试[38]主要使用整体度量，例如平均绝对误差（MAE）来报告基准测试的性能。这是在假设测试数据集完全平衡的情况下进行的。然而，我们观察到IMDB-WIKI-DIR的测试集中存在可见的尾部，如补充材料所示。为了公平地衡量模型在尾部标签上的性能，我们采用平衡度量[3]的思想，将标签空间划分为有限数量的均匀子区域，计算子区域内的平均值，并取所有子区域的平均值。我们称之为“平衡-”（“b-”）度量，例如bMAE。年龄和深度估计。我们主要报告IMDB-WIKI-DIR上的bMAE。NYUD2-DIR的测试集是平衡的，我们遵循[38]并报告RMSE。不平衡的人体网格恢复（IHMR）。我们将HMR的评估指标扩展为IHMR中的平衡指标。我们根据它们相对于平均参数的基于顶点的距离将标签空间均匀地划分为100个子区域，并按上述方法计算平衡指标。根据[30]，我们主要报告平衡的顶点位置误差（bMPVPE）。我们还报告平衡的关节位置误差（bMPJPE）和平衡的Procrustes对齐的关节位置误差（bPA-MPJPE）。我们还包括“尾部5%”指标和“尾部10%”指标以显示在极端姿势下的性能。04.2.3比较结果0表1显示了年龄估计方面与最先进方法的比较。回归器重新训练（RRT）[38]首先正常训练特征提取器，然后使用逆加权重新训练最后的线性层。RRT+LDS是RRT的改进版本，其中使用标签分布平滑[38]估计训练标签分布。RRT和RRT+LDS是IMDB-WIKI-DIR中[38]的回归器学习方法中表现最好的方法。平衡MSE在很大程度上优于以前的方法。值得注意的是，BMC选项在不依赖预处理的训练标签分布的情况下，以很大的优势超过了最先进的方法。我们在图5中进一步分析了bMAE的增益，并观察到在频繁和罕见标签之间实现了有效的权衡估计。需要注意的是，我们在比较中没有包括特征分布平滑（FDS），因为它是在特征学习上工作，应该与我们的方法互补。0表2显示了深度估计方面与最先进方法的比较。需要注意的是深度图具有像素间的依赖关系，像素级误差σ噪声可能被低估，BMC可能会对ptrain(y)给出不准确的估计。我们将固定σ噪声为1，并使用BNI进行数值选项评估。与最先进方法相比，闭式和数值实现都取得了明显的改进。0表3显示了平衡MSE和现有HMR方法之间的比较。平衡MSE在主要指标bMPVPE上的表现优于基准方法（-3.4）。我们在图6中展示了定性比较。PM-Net[30]在尾部5%的bMPVPE上取得了更好的结果，通过设计原型并自适应地选择它们作为SMPL回归的初始化。值得注意的是01020304050607080901001101202.50.02.55.07.510.012.5bMPVPE↓bMPJPE↓bPA-MPJPE↓SPIN†-130.0130.6------PM-Net†-124.9126.4------SPIN-RT116.1127.0130.599.58113.5114.566.5377.7176.6679330图5. 平衡MSE相对于基准方法的bMAE增益。背景中的浅蓝色区域显示了IMDB-WIKI-DIR的训练标签直方图。平衡MSE在尾部标签（年龄<20和>70）上显著提高了性能。0图6.平衡MSE和基准方法SPIN-RT的定性比较。左图：SPIN-RT。右图：平衡MSE。我们观察到基准方法的预测结果没有那么分散。它们偏向于平均姿势，特别是对于像举手和弯腿这样的姿势。相比之下，我们的方法有效地消除了偏差并恢复了罕见的姿势。0表3.不平衡人体网格恢复的比较实验。†：参考文献[30]中的结果。SPIN-RT：保持SPIN的特征提取器固定，并重新训练最后的线性回归层。最佳结果以粗体显示。0方法全部 10% 5% 全部 10% 5% 全部 10% 5%0我们的（BMC） 113.9 128.6 129.6 97.87 113.7 113.0 65.90 77.73 76.35 我们的（GAI）112.7 122.9 128.1 96.70 108.8 111.9 64.69 74.04 74.350PM-Net改进了回归初始化，并且应该与我们的方法互补。05. 讨论和结论0总之，我们重新审视了MSE的概率解释，并确定其在不平衡回归中的无效性。因此，我们提出了一种统计上合理的损失函数，平衡MSE，用于不平衡回归。我们进一步讨论了平衡MSE的各种实现选项，包括闭式选项和数值选项。平衡MSE在各种一维和多维不平衡回归基准测试中优于现有方法。未来的工作可以将平衡MSE作为一个桥梁，将在不平衡分类上开发的更多方法引入到不平衡回归中。例如，方程3.15可以被视为具有温度的Softmax。基于边界的方法可以被引入到其中。0还可以调整成对距离。还可以利用深度生成模型，例如VAE[22]和GAN[11]，更好地建模ptrain(y)。更广泛的影响。我们的方法只解决了由不平衡标签分布带来的偏见。然而，除了提到的标签不平衡之外，训练数据集中仍然存在其他类型的偏见。即使应用了所提出的方法，回归器仍然可能学习这些偏见，并产生产生负面社会影响的预测。06. 致谢0本工作得到新加坡国家研究基金会在其AI新加坡计划（AISG奖项编号：AISG2-PhD-2021-08-018）、NTUNAP、MOE AcRF Tier2（T2EP20221-0033）以及RIE2020工业对齐基金-工业合作项目（IAF-ICP）资金计划的支持，以及来自行业合作伙伴的现金和实物贡献。[16] Chen Huang, Yining Li, Chen Change Loy, and XiaoouTang. Learning deep representation for imbalanced classifi-cation. In Proceedings of the IEEE conference on computervision and pattern recognition, pages 5375–5384, 2016. 379340参考文献0[1] Paula Branco, Lu´ıs Torgo, and Rita P Ribeiro. Smogn:一种用于不平衡回归的预处理方法。在第一届不平衡领域学习国际研讨会上，页码36-50，2017年。 1 , 30[2] Paula Branco, Luis Torgo, and Rita P Ribeiro. Rebagg:用于不平衡回归的重新采样装袋方法。在第二届不平衡领域学习国际研讨会上，页码67-81，2018年。 30[3] Kay Henning Brodersen, Cheng Soon Ong, Klaas EnnoStephan, and Joachim M Buhmann.平衡准确率及其后验分布。在2010年第20届国际模式识别大会上，页码3121-3124，IEEE，2010年。 3 , 70[4] Mateusz Buda, Atsuto Maki, and Maciej A Mazurowski.对卷积神经网络中类别不平衡问题的系统研究。《神经网络》，106:249-259，2018年。 10[5] Jonathon Byrd and Zachary Lipton.权重重要性在深度学习中的影响是什么？在机器学习国际会议上，页码872-881，2019年。 1 , 60[6] Kaidi Cao, Colin Wei, Adrien Gaidon, Nikos Ar´echiga,and Tengyu Ma.使用标签分布感知边界损失学习不平衡数据集。在NeurIPS上，页码1565-1576，2019年。 30[7] Nitesh V Chawla, Kevin W Bowyer, Lawrence O Hall, andW Philip Kegelmeyer.SMOTE:合成少数类过采样技术。《人工智能研究杂志》，16:321-357，2002年。 30[8] Ting Chen, Simon Kornblith, Mohammad Norouzi, andGeoffrey Hinton.一种用于对比学习视觉表示的简单框架。在机器学习国际会议上，页码1597-1607，2020年。 50[9] Peng Chu, Xiao Bian, Shaopeng Liu, and Haibin Ling.针对长尾数据的特征空间增强。在计算机视觉-ECCV2020:第16届欧洲会议，格拉斯哥，英国，2020年8月23-28日，第29部分16，页码694-710。Springer，2020年。 30[10] Yin Cui, Menglin Jia, Tsung-Yi Lin, Yang Song, and SergeBelongie.基于有效样本数量的类平衡损失。在IEEE/CVF计算机视觉与模式识别会议上的论文集，页码9268-9277，2019年。 30[11] Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, BingXu, David Warde-Farley, Sherjil Ozair, Aaron Courville, andYoshua Bengio.生成对抗网络。《神经信息处理系统进展》，27，2014年。 80[12] Agri

下载后可阅读完整内容，剩余1页未读，立即下载