深度鲁棒回归的高斯-均匀混合模型学习方法

94 浏览量更新于2023-10-13 收藏 801KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

DeepGUM：使用高斯-均匀混合模型学习深度稳健回归Ste´ phane Lathuilie` re1，3，Pablo Mesejo1，2，Xa vier Alameda-Pineda1，and Radu Horaud11InriaGrenobleRhoCologne-Alpes，Montbonnot-Saint-Martin，法国，2格拉纳达大学，西班牙3意大利特伦托特伦托大学firstname.name邮件inria.fr抽象。在本文中，我们解决了如何鲁棒地训练回归或深度鲁棒回归的Con-vNet的问题。传统上，深度回归采用L2损失函数，已知其对异常值敏感，即样本位于远离大多数训练样本的异常距离处，或者对应于错误注释的目标。这意味着，在回归的过程中--在传播中，异常值可能由于其梯度的高幅度而使训练过程偏置。在本文中，我们提出了DeepGUM：一种深度回归模型，由于使用了高斯均匀混合模型，它对离群值具有鲁棒性。我们推导出一种优化算法，该算法在使用期望最大化的离群值的无监督检测和使用随机梯度下降的清洁样本的监督训练之间交替DeepGUM能够适应不断变化的离群值分布，避免手动对训练集中的离群值比例施加任何阈值。对四个不同任务（面部和时尚地标检测，年龄和头部姿势估计）的广泛实验评估使我们得出结论，我们的新型鲁棒技术提供了在各种类型的噪声存在下的可靠性和对高比例离群值的保护关键词：鲁棒回归·深度神经网络·混合模型·离群点检测1介绍在过去的十年中，深度学习架构无疑在计算机视觉任务中建立了最先进的技术，例如图像分类[18，38]或对象检测[15，33]。这些架构，例如ConvNets由几个卷积层组成，后面是几个完全连接的层，以及一个分类softmax层，例如交叉熵损失。ConvNets也被用于回归，即预测连续输出值，而不是分类输出值。经典的基于回归的计算机视觉方法已经解决了人类姿势估计[39]、年龄估计[30]、头部姿势估计[9]或面部地标检测[37]，仅举几例。每当2S. Lathuilie` re etal.21 5262290图1：将高斯均匀混合模型与ConvNet架构相结合，以降低错误注释的目标（离群值）对学习过程的影响ConvNets用于学习回归网络，softmax层被完全连接的层取代，具有线性或sigmoid激活，L2通常用于测量预测和目标变量之间的差异。众所周知，L2损失对离群值非常敏感，可能导致泛化性能较差[17]。虽然稳健回归在统计学中得到了很好的研究，但只有少数方法将稳健回归与深度架构相结合。本文提出在使用深度神经架构学习回归函数时，特别是ConvNets 更确切地说，我们研究了一种专门设计用于处理经常遇到的两种异常值的方法：（i）位于远离其他训练样本的异常距离处的样本，以及（ii）错误注释的训练样本。一方面，异常样本存在于几乎任何测量系统中，并且已知它们使回归参数偏置。另一方面，深度学习需要非常大量的数据，并且注释过程（无论是自动的还是手动的）固有地容易出错。这些不可避免的问题充分证明了鲁棒深度回归的发展。所提出的方法将ConvNets的表示能力与用于离群值检测和拒绝的原则性概率混合框架相结合，例如。图1.我们建议使用高斯均匀混合（GUM）作为Con-vNet的最后一层，我们将这种组合称为DeepGUM。4混合模型假设内点为高斯分布，外点为均匀分布我们交错的EM过程中的随机梯度下降（SGD）降级的离群值的影响，以稳健地估计网络参数。我们经验验证了所提出的方法的有效性与四个计算机视觉问题和相关的数据集：面部和时尚地标检测，年龄估计，头部姿势估计。标准回归测量伴随着统计测试，可以区分随机差异和系统改进。本文的其余部分组织如下。第2节介绍了相关工作。第3节详细描述了所提出的方法和相关的算法。第4节描述了几个应用程序和相关的广泛实验。4在稿件被接受的情况下，代码将公开。DeepGUM：学习深度鲁棒回归3数据集。第5节得出结论并讨论了计算机视觉中鲁棒深度回归的潜力。2相关工作稳健回归在统计学[17，24，31]和计算机视觉[6，25，36]中已经研究了很长时间。稳健回归方法具有高崩溃点，这是估计器在产生不良结果之前可以处理的最小离群值污染量。突出的例子是最小修剪平方，Theil-Sen估计或重尾分布[14]。人工神经网络的几种鲁棒训练策略也是可用的[5，27]。最常用的稳健统计方法包括M估计量、抽样方法、修剪方法和稳健聚类M-估计量[17]最小化残差的正定函数的和，并试图减少大残差值的影响。最小化进行我们的加权最小二乘技术，大多数M-估计的收敛性没有证明。采样方法[25]，如最小二乘中位数或随机样本一致性（RANSAC），通过求解为随机选择的数据子集定义的方程组抽样方法的主要缺点是它们需要复杂的数据抽样程序，并且使用它们来估计大量参数是乏味的。修剪方法[31]对残差进行排序，并对与大残差相关的数据点进行降权。它们通常被转换成（非线性）加权最小二乘优化问题，其中权重在每次迭代时被修改，从而导致迭代地重新加权最小二乘问题。稳健统计也在混合模型的框架中得到了解决，并且提出了许多稳健混合模型，例如具有均匀噪声分量的高斯混合[2，8]，重尾分布[11]，修剪似然估计[12，28]或加权数据混合[13]。重要的是，最近有报道称，用均匀分量建模离群值会产生非常好的性能[8，13]。最近解决了深度鲁棒分类，例如[3]假设观察标签是从具有未知噪声参数的真实标签生成的：提出了一种将真实标签映射到观测标签上的概率模型，并导出了EM算法。在[41]中提出了一种概率模型，该模型利用类别，图像和噪声标签之间的关系进行大规模图像分类。该框架需要具有明确的干净和噪声标签注释的数据集以及针对每个样本用噪声类型注释的附加数据集，从而使得该方法难以在实践中使用最近提出了基于蒸馏过程从噪声数据中学习的分类算法[21]。最近，提出了深度回归方法，例如[26、29、37、39、19]。尽管有大量的鲁棒统计文献和回归在计算机视觉中的重要性，但据我们所知，只有一次尝试将鲁棒回归与深度网络结合起来[4]，其中通过最小化Tukey的双权重损失函数来实现鲁棒性M-估计量在本文中，我们采取了一个激进的不同4S. Lathuilie` re etal.n=1n方法，并建议在ConvNet中使用鲁棒的混合建模。我们推测，虽然内点噪声遵循高斯分布，但离群值误差均匀分布在数据所占的体积上。混合建模提供了一种基于后验概率单独表征数据点的原则方法。我们提出了一种算法，交织一个强大的混合模型与网络训练，即EM和SGD之间的交替。EM评估数据后验概率，然后用于加权网络损失函数所使用的残差，从而降低从均匀分布中提取的样本的影响。然后，更新网络参数，这些参数又被EM使用。该算法的一个突出特点这与需要显式内点/离群点注释的[41]和使用固定超参数（c = 4）的[4]形成对比。6851）这允许从具有高残差的SGD样本中排除。3基于稳健混合模型的我们假设内点噪声服从高斯分布，而离群点误差服从均匀分布。设x∈RM和y∈RD分别是输入图像和输出向量，维数分别为M和D，其中DM。令φ表示具有参数w的ConvNet，使得y=φ（x，w）。我们的目标是训练一个模型，该模型可以检测异常值并降低它们在预测网络输出中的作用，同时没有关于异常值的百分比和分布的先验信息由x调节的y的概率遵循高斯均匀混合模型（GUM）：p（y|x; θ，w）= π N（y; φ（x; w），Σ）+（1 − π）U（y; γ），（1）其中π是内点样本的先验概率，γ是均匀分布的归一化参数，Σ∈RD×D是多元高斯分布的协方差矩阵。设θ={π，γ，Σ}为GUM的参数集。在训练时，我们估计混合模型的参数θ和网络的参数w。的EM算法估计前者和责任rn，将责任rn代入网络损耗中，用SGD最小化3.1EM算法假设训练数据集由N个图像-向量对{xn，yn}N. 在每个迭代中-EM在评估期望的完全数据对数似然（E-R）和期望的完全数据对数似然（E-R）步骤）和更新由网络参数调节的参数集θ（M-步骤）。在实践中，E步骤评估图像-向量对η为内点的后验概率（责任）：（一）π（i）N（yn;φ（xn，w（c）），φ（i））rn（θ）=π（i）N（y;φ（x，w（c）），φ（i））+（1−π（i））γ（i），（2）nDeepGUM：学习深度鲁棒回归5C−n2其中⑴表示EM迭代索引，并且w（c）表示当前估计的网络参数。第n个数据对成为异常值的后验概率为1−rn（θ（i））。M步用以下公式更新混合参数θΣNΣ（i+1）=rn（θ（i））δ（i）δ（i），（3）n nn=1ΣNπ（i+1）=n=1rn（θ（i））/N，（4）.1γ（i+1）YD=2d=1.（i+1）2个d.（i+1）1个dΣ2Σ、（五）其中δ（i）=yn−φ（xn;w（c）），C1和C2是使用以下公式计算的一阶和二阶中心数据矩（δ（i）表示δ（i）的第d个条目）：C（i+1）=1ΣN（1−rnnd（θ（i））（i）（i+1）δ，C=1ΣNn（1−rn（θ（i）。Σ2δ（i） . （六）1dNn=11−π（i+1）nd2dNn=11−π（i+1）nd刚刚提出的γ的迭代估计比基于数据量使用常数值具有优势，如在稳健混合模型[8]中所做的那样。实际上，使用异常值占据的实际体积来更新γ，这增加了算法区分内点和异常值的能力。DeepGUM用于稳健地预测多维输出的另一个突出优点是其用于处理离群值的粒度的灵活性。例如考虑在图像中定位界标问题人们可能想要设计一种方法，其忽略外围界标而不是整个图像。在这种情况下，可以针对每个地标类别使用GUM模型。在二维地标的情况下，这导致大小为2的D/2个协方差矩阵（D是目标空间的维度）。类似地，可以使用坐标方式的离群值模型，即D标量变化。最后，可以使用逐图像离群值模型，即，上面详述的模型这种灵活性是所提出的模型的一个有吸引力的特性，而不是[4]，它使用了坐标方式的离群值模型。3.2网络损耗函数如前所述，我们使用SGD来估计网络参数w。给定用EM估计的更新的GUM参数，θ（c），回归损失函数用每个数据对的责任加权：ΣNLDEEPGUM =n=1rn（θ（c））||yn-Φ（Xη;w）||二、（七）有了这个公式，训练对损失梯度的贡献消失了C36S. Lathuilie` re etal.图2：Bifweight（黑色）、Huber（青色）、L2（品红色）和Deep-GUM（其余颜色）的损失梯度。Huber 和 L2重叠到 δ=4 。6851 （图沿垂直坐标截断）。DeepGUM针对π和γ的不同值示出，尽管在实践中它们经由EM估计。DeepGUM和Biweight的梯度对于大残差消失。DeepGUM由于π和γ而提供了比Bifweight更大的灵活性。（i）如果样本是具有小误差的内点（δn2→0，rn→1）或（ii）如果样本是离群点（rn→0）。在这两种情况下，网络都不会反向传播任何错误。因此，仅用内点更新参数w。这是用图形显示的在图2中，我们绘制了损失梯度作为一维残差δ的函数，用于DeepGUM、Bifight、Huber和L2。为了与Biwight和Huber进行公平比较，图对应于单位方差（即，单位方差）。标准正常值，参见下面的讨论。（3）在[4]中）。我们绘制了不同π和γ值的DeepGUM损失梯度，以讨论不同的情况，尽管实际上所有参数都是用EM估计的。我们观察到Huber损失的梯度随着δ线性增加，直到达到稳定点（对应于c=4）。[4]中的6851）。相反，DeepGUM和Bifweight的梯度对于大的残差（即，δ> c）。重要的是，DeepGUM与Bifweight相比提供了一些灵活性。实际上，我们观察到，当内点的数量增加（大π）或离群点的扩散增加（小γ）时，给予内点的重要性更高，这是期望的性质。对于较少量的内点和/或减小的离群点扩散，发生相反的3.3训练算法为了训练所提出的模型，我们假设存在一个训练和vali-数据集，表示为T={xT，yT}NT且V={xV，yV}NV分别表示。的nn n =1nnn =1训练在第3.1节的无监督EM算法和超级EM算法之间交替进行第3.2节的约束SGD算法，即算法1.EM将训练集作为输入，在责任评估（2）和混合参数更新（3）、（4）、（5）之间交替，并且迭代直到收敛，即直到混合参数不再演变。当前混合参数用于评价验证集的责任。SGD算法将训练集和验证集作为输入，DeepGUM：学习深度鲁棒回归7算法1DeepGUM训练输入：T=（xT，yT）NT ，V={xV，yV}NV，且>0（收敛阈值）。nn n=1nn n =1初始化：在T上运行SGD以最小化（7），其中rn=1，n，直到达到V上的收敛标准。重复EM算法：无监督离群点检测重复用（2）更新rn用（3）、（4）、（5）更新混合参数。直到参数θ稳定。SGD：深度回归学习重复运行SGD以最小化（7）中的L DEEPGUM。直到以K个时期的耐心提前停止直到LDEEPGUM在V上生长。以及相关的责任。为了防止过度拟合，我们以K个时期的耐心对验证集执行请注意，训练过程既不需要离群值的特定注释，也不需要数据中存在的离群值的比率。如刚刚所描述的，通过执行SGD来初始化该过程，其中所有样本被假定为内点，即rn=1，n.当LDEEPGUM不再减小时，算法1停止重要的是要注意，我们不需要约束模型来避免平凡的解决方案，即所有的样本都被认为是异常值。这是因为在第一SGD执行之后在极端情况下，当DeepGUM将所有样本视为离群值时，算法将在第一次SGD运行后停止并输出初始模型。由于EM提供数据协方差矩阵Σ，因此使用Mahalanobis范数而不是（7）中的L2范数协方差矩阵在具有低幅度噪声的情况下沿着输出维度是窄的马哈拉诺比斯距离将给予低振幅噪声维度和高振幅噪声维度同等的重要性，这是不期望的。所提出的算法的另一个有趣的特点是后验rn加权样本n的学习率，因为它的梯度简单地乘以rn。因此，所提出的算法自动地为每个单独的训练样本选择学习率。4实验实验验证的目的是双重的。首先，我们用三个自然被离群值破坏的数据集来经验性地验证DeepGUM。使用以下应用程序进行验证：时尚标志检测（第4.1节）、年龄估计（第4.2节）和头部姿势估计（第4.3节）。其次，我们深入研究了DeepGUM的鲁棒性，并与8S. Lathuilie` re etal.现有的鲁棒深度回归技术通过在面部标志检测任务上用增加的异常值百分比来破坏注释（第4.4节）。我们系统地比较了DeepGUM与标准L2损失、Huber损失和Biweight损失（在[4]中使用）。在所有这些情况下，我们使用在ImageNet[32]上预训练的VGG-16架构[35]。我们还尝试使用[4]中提出的架构，但我们无法使用作者提供的代码在LSP和Parse数据集上重现[4]中报告的结果因此，为了可重复性和不同鲁棒损失函数之间的公平比较，我们在所有实验中使用根据[20]的建议，我们对最后一个卷积块和两个全连接层进行了微调，小批量大小为128，学习率设置为10- 4。微调从3个时期的L2损失开始，然后利用Biweight、Huber或DeepGUM损失。当使用这三种损失中的任何一种时，网络输出用中位数绝对偏差进行归一化（如[4]中所示），在每个时期之后在整个数据集上计算。采用具有K = 5个时期的耐心的早期停止，并且使用镜像来增强数据。为了评估这些方法，我们报告了测试集上回归目标和网络输出之间的平均绝对误差（MAE）。受[20]的启发，我们使用统计检验完成了评估，这些检验允许指出方法之间的差异何时具有系统性和统计学显著性或由于偶然性。统计测试是按图像回归误差运行的，因此只能应用于代码可用的方法，而不能应用于文献中报告的平均误差;在后一种情况下，只有MAE可用。在实践中，我们使用非参数Wilcoxon符号秩检验[40]来评估零假设（观察值对之间的中位差为零）是真还是假。我们用 *、** 或 * 表示统计显著性，对应于小于p = 0的p值（假设原假设为真，得到一个检验统计量为极端或比计算的检验统计量更极端的条件概率）。05，p =0。01或p = 0。001，分别。我们仅报告了MAE最低的方法的统计学显著性。例如，A *表示方法A等价于任何其他方法的概率小于p= 0。001。4.1时尚地标检测视觉时尚分析提出了广泛的应用，如服装识别，检索和推荐。我们采用时尚地标数据集（FLD）[22]，其包括超过120K的图像，其中每个图像用八个地标标记。该数据集平均分为三个子集：上身衣服（6个界标）、全身衣服（8个界标）和下身衣服（4个界标）。我们将数据集的每个子集随机分为测试（5K），验证（5K）和训练。ing（30K）。使用了两个指标：地标定位的平均绝对误差（MAE）和失败的百分比（从地面进一步检测到的地标比一个给定的阈值）。我们采用地标式的rn。表1报告了在时尚地标数据集的上半身子集上获得的结果（关于全身和下半身子集的附加结果包括在表1中）。DeepGUM：学习深度鲁棒回归9表1：FLD上身子集的平均绝对误差，每个标志和平均值。标志是左（L）和右（R）衣领（C）、袖子（S）和下摆（H）。DFA的结果来自[23]，因此不参与统计比较。方法上体标志DeepGUM11.97柠檬酸11.99柠檬酸 18.59柠檬酸 18.50柠檬酸 16.44柠檬酸 16.29柠檬酸 15.63柠檬酸补充材料）。我们单独报告每个界标的平均误差（以像素为单位）和总体平均值（最后一列）。虽然对于第一个子集，我们可以与[23]中报道的最近结果进行比较，但对于其他子集，以前没有报道过结果。一般来说，我们的平均表现优于所有其他基线，但在每个单独的地标中也是如此。唯一的例外是与利用五个VGG管线来估计界标的位置的方法的比较。尽管该方法报告了对于表1的一些列比DeepGUM稍好的性能，但是我们回想起我们使用一个单个VGG作为前端，并且因此表示能力不能与与采用五个VGG的流水线相有趣的是，DeepGUM比 L2回归产生更好的结果，并且比Bigweight [4]和Huber [16]有重大改进。这种行为是系统的所有时尚地标和统计学显着（p <0.05）。001）的情况下。为了更好地理解这种行为，我们计算了由DeepGUM和Bi-weight检测到的异常值的百分比，其分别为3%和10%（收敛后）。我们认为，在这一差异（7%对应于2。1K图像），大多数是“困难的”内点，如果它们没有像Bifweight那样被丢弃，网络可以从中学习很多东西（并且在DeepGUM中也是如此）。这说明了拒绝离群值同时将内点保持在学习循环中的重要性，并且展示了DeepGUM在这样做时的鲁棒性。图3显示了DeepGUM估计的一些地标。4.2年龄估计从单幅人脸图像中进行年龄估计是计算机视觉中的一项重要任务，在门禁控制和人机交互中有着广泛的应用。该任务与其他生物特征和面部属性的预测密切相关，例如性别、种族和头发颜色。我们使用跨年龄名人数据集（CACD）[7]，其中包含来自2000位名人的163446张这些图片是从搜索引擎LCRCLSRsLHRHAvg.DFA [23]（L2）15.9015.9030.0229.1223.0722.8522.85DFA [23]（5VGG）10.7510.7520.3819.9315.9016.1215.23L212.0812.0818.8718.9116.4716.4015.80胡贝尔[16]14.3213.7120.8519.5720.0619.9918.08双权重[4]13.3213.2921.8821.8418.4918.4417.8810S. Lathuilie` re etal.图3：DeepGUM检测到的时尚地标方法MaeL2五、75胡贝尔[16]5.59双权重[4]五、55141414162023德克斯[30]五、25DexGUM五、14DeepGUM五、08495160606062图4：CACD数据集上的结果：（左）平均绝对误差和（右）被DeepGUM视为离群值的图像，注释显示在每个图像下方。使用名人的名字和期望的年份（从2004年到2013年数据集分为3部分，1800名名人用于训练，80名用于验证，120名用于测试。验证集和测试集是手动清理的，而训练集是有噪声的。在我们的实验中，我们报告使用图像明智的rn的结果。除了DeepGUM、L2、Bifweight和Huber之外，我们还比较了基于深度期望（Dex）的年龄估计方法[30]，该方法是2015年Looking at People挑战赛的获胜者该方法使用VGG-16架构，并将年龄估计问题作为分类问题，然后进行softmax期望值细化。还提出了针对可记忆性和病毒性的分类回归策略[34，1]。我们使用Dex报告两种不同方法的结果首先，我们实现了原始的Dex模型。其次，在Dex架构的基础上增加了GUM模型;我们将这种结构称为DexGUM。图4中的表格报告了在CACD测试集上获得的用于年龄估计的结果我们报告的平均绝对误差（年）的大小不同的方法。我们可以很容易地观察到DeepGUM表现出最好的结果：5. 08年MAE（0. 比L2好7年）。重要的是，使用GUM的架构（DeepGUM和DexGUM）是提供最佳性能的架构这一说法得到了统计检验结果的支持，该结果表明DexGUM和DeepGUM在统计学上优于其余两种（p <<0. 05）。001），并且它们之间没有统计学差异补充材料中包含的误差直方图进一步支持了这一点DeepGUM认为7%的图像是离群值，因此这些图像在训练期间被低估图4中的图像对应于DeepGUM：学习深度鲁棒回归11图10示出了在训练期间由DeepGUM检测到的异常值的示例，并且示出了DeepGUM检测异常值的能力。由于数据集是自动注释的，因此很容易出现注释损坏的情况。实际上，每个名人的年龄都是通过从照片时间戳中减去出生日期来自动标注的直观地，该过程是有问题的，因为它假设自动收集和注释的图像示出了正确的名人并且时间戳和出生日期是正确的。我们的实验评估清楚地表明了一个强大的回归技术的好处，操作与离群值填充的数据集。4.3头部姿态估计McGill真实世界人脸视频数据集[9]由60个视频组成（每个视频一个参与者，31名女性和29名男性），其目的是研究无约束人脸分类。这些视频是在室内和室外环境下录制的，在不同的照明条件下，参与者可以自由移动。因此，一些帧遭受重要的遮挡。偏航角（范围从−90◦到90◦）使用两步标记程序进行注释，首先自动提供最可能的角度以及置信度，然后由人类注释者在合理的角度值中选择最终标签。因为生成的注释并不完美，这使得该数据集适合对稳健回归模型进行基准测试。由于训练集和测试集在原始数据集中没有分开，我们执行了7重交叉验证。我们报告了倍数MAE平均值和标准偏差以及与7个倍数的测试结果的串联相对应的统计学显著性。重要的是，只有数据集的一个子集是公开的（35个视频超过60个）。在表2中，我们报告了用不同方法获得的结果，并采用了一个dag- ger来指示特定方法何时使用整个数据集（60个视频）进行训练。我们可以很容易地注意到，与其他ConvNets方法（分别为0. 99◦，0。50和0。20◦低于L2，Huber和Bi-MAE中的重量）。最后三种方法都使用深度架构，显著优于当前最先进的方法[10]。其中，DeepGUM显著优于p 0的其余物质<。001。4.4面部标志检测我们在LFW和NET面部地标检测数据集[37]上进行了实验，这些数据集分别由5590和7876张我们结合了两个数据集，并采用了与[37]相同的数据分区。每个面部用笛卡尔坐标中的五个关键点的位置标记，即左眼和右眼、鼻子以及左嘴角和右嘴角。检测误差是用估计的地标位置和地面真实位置之间的欧几里得距离除以面部图像的宽度来测量的，如[37]所示。通过每个标志的故障率测量性能，其中大于5%的误差被视为故障。的12S. Lathuilie` re etal.表2：McGill数据集上的平均误差表的前半部分的结果直接取自相应的论文，因此不可能进行统计学†使用额外的训练数据。方法MAE RMSEXiong et al.[42]注29。81±7。73朱和拉玛南[43]-三十五 70±7 。48Demirkus等人。[9] †-12. 41±1 。60 Drouard 等人。 [10 个国家 ]12 个。22±6。42 23. 00±9。42L 28. 60± 1。十八十二03± 1。66[16]第十六话11±1。八点十一分。79± 1。59[4]第七章. 81±1。3111 56± 1。95DeepGUM7. 61±1。00 11. 37± 1。34由于文献中报道的平均故障率低于1%，因此可以认为两个上述数据集是无异常值的。因此，我们人为地修改面部标志检测数据集的注释，以找到DeepGUM的故障点。我们的目的是研究所提出的深度混合模型的鲁棒性，在受控条件下产生的离群值我们使用三种不同类型的离群值：– 正常生成的异常值（NGO）：选择一定百分比的界标，不管它们是否属于同一图像，并且在均匀选择的随机方向上移位d个像素的距离距离d遵循高斯分布N（25，2）。非政府组织模拟人类注释者产生的错误单击时出错，因此在稍微错误的位置进行了注释。– 局部均匀生成的异常值（I-UGO）：其遵循与NGO相同的理念，从图像上的均匀分布而不是高斯分布对距离d进行这样的误差模拟与人的精度无关的人的误差，诸如未选择点或误解图像。– 全局均匀生成的异常值（g-UGO）：如在先前的情况下，界标被均匀噪声破坏。然而，在g-UGO中，将被破坏的地标按图像分组。换句话说，我们不破坏所有地标的子集，而不管它们属于哪个图像，而是破坏图像的子集此策略模拟注释文件或传感器中自动注释的问题第一和第二种类型的离群污染采用地标式rn，而第三种使用图像式rn。图5中的图报告了干净测试集上DeepGUM、Bifweight、Huber和L2（顶部）的失败率，以及损坏训练集上三种类型的合成噪声的所有异常值检测精度和召回率，除了L2精确度对应于分类为异常值的训练样本是真实异常值的百分比;并且召回对应于被分类为这样的异常值的百分比。从这个图中可以直接得出的第一个结论是，一方面，Bifight和Huber系统地呈现出比DeepGUM更低的召回率DeepGUM：学习深度鲁棒回归1310080604020010 20 30 40 506010080604020010 20 30 40 5060108642010 20 30 40 50 6010010010080 80 8060 60 6040 40 4020 20 200010 20 30 40 50 60(a) l-UGO010 20 30 40 50 60(b) g-UGO10 20 30 40 50 60(c) NGO图5：当增加所考虑的3种类型的离群值的噪声时，失效率的演变（顶部）。我们还显示了异常值类的相应精确度和召回率（百分比）最好看的颜色换句话说，DeepGUM在识别方面表现出最高的可靠性，因此在训练期间忽略离群值。另一方面，DeepGUM在大多数预期场景中的故障率往往低于Biwight，Huber和L2关于四个最左边的图，l-UGO和g-UGO，我们可以清楚地观察到，而对于有限数量的离群值（即，<10%）所有方法都报告了相当的性能，对于大量的离群值，DeepGUM明显优于L2、Bifweight和Huber。我们还可以安全地识别I-UGO上DeepGUM的故障点40% 这与离群值检测任务的报告精度和召回率一致而对于Biwight和Huber，当离群值的数量增加时，两者都会下降，DeepGUM的这些测量值始终在99%左右（在l-UGO的40%之前）。DeepGUM在g-UGO下的崩溃点高于50%的事实是由于异常值的先验模型（即，均匀分布）对应于数据被破坏的方式。对于非政府组织来说，被破坏的注释总是围绕着基本事实，导致所有方法的失败率小于7%。我们可以看到，所有四种方法表现出相当的性能高达30%的离群值。超过该阈值，尽管呈现出逐渐降低的召回率和高准确率（即，biwight识别很少的异常值，但识别的异常值是真正的异常值）。这种行为也表现在胡贝尔身上。关于DeepGUM，我们观察到，在这个特定的设置中，结果与L2一致。这是因为SGD过程在第一个时期之后不能找到更好的最优值，因此触发提前停止机制，并且SFD 输出对应于 L2的初始网络。我们可以得出结论，DeepGUM的策略（包括重新移动检测为离群值的所有点）在该特定实验中无效。换句话说，在0均值高度相关噪声的这种特定情况下，具有更多噪声数据比仅具有少量干净数据更好。然而，我们认为DeepGUM的吸引力属性是它可以自动识别这些特定情况并返回可接受的解决方案。14S. Lathuilie` re etal.5结论提出了一种基于高斯均匀混合模型的深度鲁棒回归学习方法.本文的新颖之处在于以联合可训练的方式将概率鲁棒混合模型与深度学习相结合。在这种情况下，以前的研究只涉及经典的L2损失函数或Tukey我们的建议产生更好的性能比以前的深度回归方法，提出了一种新的技术，和衍生的优化过程，交替之间的无监督任务的离群值检测和监督任务的学习网络参数。实验验证解决了四个不同的任务：面部和时尚地标检测，年龄估计，头部姿势估计。我们的经验表明，DeepGUM（i）是一种强大的深度回归方法，不需要严格指定先验离群值的分布（数量和分布），（ii）当离群值从均匀分布中采样时，表现出比实验方法更高的崩溃点（能够处理超过50%的离群值污染而不会提供不正确的结果），以及（iii）能够在上述四个任务中提供与现有技术方法相当或更好的结果。最后，DeepGUM可以很容易地用于删除繁琐的手动注释中出现的不需要的样本它还可以处理自动收集的巨大数据集中固有的高度不寻常的训练样本，目前使用容易出错和耗时的人类监督来解决这个问题。致谢。这项工作得到了欧洲研究委员会通过ERC高级资助VHIA（Vision andHearing in Action）#113340的支持。引用1. Alameda-Pineda，X.，Pilzer，A.，徐，D.，塞贝，N.，Ricci，E.：病毒性：汇集本地病毒性。IEEE计算机视觉与模式识别会议（2017）2. Banfield，J.D.，Raftery，A.E.：基于模型的高斯和非高斯聚类。Biometrics pp. 8033. Bekker，A.J.，Goldberger，J.：基于不可靠标签训练深度神经网络在：ICASSP中。pp. 26824. Belagiannis，V.，鲁普雷希特角Carneiro，G. Navab，N.：深度回归的鲁棒优化。In：ICCV（2015）5. Beliakov，G. Kelarev，A.V.，Yearwood，J.：鲁棒人工神经网络与离群点检测。技术报告。CoRRabs/1110.0169（2011年）6. 布莱克，MJRangarajan，A.：线性过程、异常值剔除和鲁棒性的统一统计学在早期视觉中的应用。IJCV19（1），577. Chen，B.C.，Chen，C.S.，许文宏：用于年龄不变人脸识别的跨年龄参考编码点火和回收In：ECCV（2014）8. Coretto，P.，Hennig，C.：鲁棒不适当最大似然：调谐，计算，并与其他方法的鲁棒高斯聚类的比较。JASA111，16489. Demirkus，M.，普雷卡普，D.，克拉克杰杰Arbel，T.：层次时态图模型真实世界视频中头部姿态估计和后续属性分类。CVIU pp.128DeepGUM：学习深度鲁棒回归1510. Drouard，V.Horaud河Deleforge，A.Ba，S.，Evangelidis，G.：基于部分隐式混合线性回归的鲁棒头部姿态TIP26，142811. Forbes，F.，Wraith，D.：一类新的含变量的多元重尾分布尾重的边际量：应用于鲁棒聚类。统计与计算24（6），97112. Galimzianova，A.，Pernus，F.，Likar，B.，Spiclin，Z.：非平衡混料模型对具有异常值样本的稳健估计TPAMI37（11），227313. Gebru身份证Alameda-Pineda，X.，Forbes，F.，Horaud，R.：加权数据的Em算法聚类与视听场景分析的应用。IEEE TPAMI38（12），240214. Gelman，A.，Carlin，J.，Stern，H.Rubin，D.：贝叶斯数据分析。ChapmanHall/CRC Texts in Statistical Science，Taylor Francis（2003）15. 格尔希克河Donahue，J.，Darrell，T.，Malik，J.：丰富的特征层次结构，用于精确的对象检测和语义分割。在：CVPR（2014）16. Huber，P.J.：位置参数的鲁棒估计数学统计年鉴。7317. Huber，P.：稳健统计。03 The Dog（2004）18. Krizhevsky，A.，萨茨克弗岛Hinton，G.E.：使用深度卷积神经网络的ImageNet分类。在：NIPS（2012）19. Lathu i li e`re，S.，朱日河Mesejo，P.， Mu n ozSalinas，R.，Horaud，R.：深度混合线性逆回归应用于头部姿态估计。在：CVPR（2017）20. Lathu i li e`re，S.，Mesejo，P.，Alameda-Pineda，X.，Horaud，R.：深度回归的综合分析arXiv预印本arXiv：1803.08450（2018）21. 李，Y.，杨杰，Song，Y.，曹，L.罗，J.，李杰：使用Distillation从嘈杂的标签中学习arXiv预印本arXiv：1703.02391（2017）22. 刘志，Luo，P.，Qiu，S.，王，X.，唐X：Deepfashion：通过丰富的注释为强大的服装识别和检索提供动力见：CVPR（2016）23. 刘志，Yan，S.，Luo，P.，王，X.，唐X：时尚地标检测在野外。In：ECCV（2016）24. Maronna，R.A.，马丁，D.R.，Yohai，V.J.：稳健的统计数据。02 The Dog（2006）25. Meer，P.，Mintz，D.，Rosenfeld，A.，Kim，D.Y.：用于计算机视觉的稳健回归方法：审查. IJCV6（1），5926. Mukherjee，S.，罗伯逊，N.：深头姿势：多模态中的注视方向估计视频. TMM17（11），209427. 纽尼尔河Zimmermann，H.G.：如何训练神经网络《神经网络：交易技巧》（NeuralNetworks：Tricks of the Trade）373-423. 03 The Dog of the Dog（1998）28. Neykov，N.，Filzmoser，P.，迪莫瓦河Neytchev，P.：使用截尾似然估计的混合物的稳健拟合。CSDA52（1），29929. Ranjan河帕特尔，V.M.，切拉帕河：Hyperface：一个深度多任务学习框架用于面部检测、地标定位、姿态估计和性别识别。Corrabs/1603.01249（2016）30. 罗斯河Timofte河，Van Gool，L.：从没有面部标志的单个图像中对真实和明显年龄的深度期望IJCV（2016）31. Rousseeuw，P.J.，Leroy，A.M.：鲁棒回归和离群值检测，卷。589 02 The Dog（2005）32. Russakovsky，O.，Deng，J.，Su，H.，Krause，J.，Satheesh，S.，妈妈，S.，黄志，Karpathy，A.，Khosla，A.Bernstein，M.Berg，A.C.，李菲菲：ImageNet大规模视觉识别挑战。I

下载后可阅读完整内容，剩余1页未读，立即下载