搜索鲁棒性：损失学习中的噪声分类任务

200 浏览量更新于2023-10-15 收藏 1.06MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1搜索鲁棒性：噪声分类任务的损失学习高博彦1郭亨利1蒂莫西M.医院1、21英国爱丁堡大学信息学院2英国剑桥三星人工智能中心{boyan.gao，henry.gouk，t.hospedales} @ ed.ac.uk摘要我们提出了一种我们使用泰勒多项式参数化一个灵活的家庭的损失函数，并应用进化策略来搜索在这个空间中的噪声鲁棒损失。为了学习可应用于新任务的可重用损失函数，我们的适应度函数在一系列训练数据集和架构上对其性能进行了综合评分。所得到的白盒损失提供了简单且快速的我们的损失的功效证明了各种数据集与合成和真实的标签噪声，在那里我们比较有利，以前的工作。1. 介绍现代深度学习的成功取决于大量准确标记的训练数据。然而，使用大量黄金标准标记的数据进行训练通常是无法实现的。这是因为专业注释通常成本太高而无法大规模实现，因此机器学习从业者求助于不太可靠的众包、网络抓取的附带注释[6]或不完善的机器注释[27];而在其他情况下，即使是人类专家也难以可靠地对数据进行分类，因此标签噪声是不可避免的。这些考虑导致了大量的工作集中在开发噪声鲁棒学习方法[38，13]。已经研究了各种解决方案，包括通过师生[23，13]学习修改训练算法，或识别和降低噪声实例[38]的解决方案。更简单，因此更广泛适用的是尝试定义噪声鲁棒损失函数，其为标准损失提供直接替代，例如交叉熵[45，54，10]。这些研究手工设计了稳健的损失，出于不同的考虑，包括风险最小化[10]和信息元测试帽衫+培训滚！∗我的天哪！∗嘈杂的时尚数据Meta-Train部署CMA-ES损失优化失去我！清洁MNIST架构/准确性数据集随机化+f#*J培训清洁MNIST噪声MNIST图1.我们强大的损失搜索框架的示意图。(1)我们训练了一个鲁棒的损失函数，以便使用这种损失来优化用合成标签噪声训练的CNN的验证(2)由于数据集和架构随机化，我们的AutoRobust-Loss（ARL）可重复使用，并可部署到新任务中，包括那些没有干净验证集的任务，以驱动强大的学习。理论[51]。在本文中，我们探索了另一种数据驱动的AutoML [21]方法来进行损耗设计，并搜索一个简单的白盒函数，该函数提供了通用的噪声鲁棒性下降损耗。虽然AutoML方法已被广泛[36，9]并成功[43]应用于通用神经架构搜索（NAS），但它们在发现可重复使用的损失方面的应用研究要少得多。我们进行进化搜索的损失函数参数化为泰勒多项式的空间。这个空间中的每个函数都是平滑和可微的，因此提供了一个可以轻松插入现有深度学习框架的有效损失同时，这个搜索空间提供了一个很好的权衡之间的灵活性，以表示非平凡的损失，和低维白盒参数化，是有效的搜索和可重用的任务，而不会过度拟合。为了在搜索过程中对给定的损失进行评分，我们使用它来训练噪声数据上的神经网络，然后评估66706671图2.现有的手工设计的鲁棒损失和我们的元学习鲁棒损失。左上：常规交叉熵（CE）;中上：广义交叉熵（GCE）[54];右上：平均绝对误差（MAE）[10];左下角：标签平滑[34]。底部中间：对称交叉熵（SCE）[45]。右下角：我们博学的ARL。训练模型的干净验证性能为了学习通用损失，而不是特定于给定架构或数据集的损失，我们在架构和数据集的空间中探索域根据其在不同条件下的验证性能对损失进行评分，从而产生可重用的功能，这些功能可以应用于新的数据集和架构，如图1所示。我们应用我们学到的ARL在几个基准测试上训练各种MLP和CNN架构，包括MNIST，FashionMNIST，USPS，CIFAR-10和CIFAR-100，具有不同类型的模拟标签噪声。我们还在一个大型的真实世界噪声标签数据集Clothing1M上测试了我们的结果验证了ARL的可重复使用性及其在各种环境中与最新技术相比的功效。这意味着，类似于NAS [36，43]发现的CNN，读者可以自由地将我们的损失用于新的噪声问题，而无需进一步复杂或昂贵的AutoML。与使用AutoML或元学习技术来执行噪声鲁棒学习的先前工作相比，这是我们方法的重要区别和主要优势[38，39]。这些方法通常需要（i）基于每个问题的昂贵的Meta学习，以及（ii）干净的（即，无噪声）验证数据集以用作元监督信号，其在实际应用中可能不可用。相比之下，我们的最终贡献是通用损失（图2，右下角），它为标准学习管道中的常规损失（如交叉熵）提供了简单快速的插入式替换;而且不需要干净的验证集来使用它。2. 相关工作使用标签噪声学习标签噪声学习由于其重要的实际意义而成为一个很大的研究领域。Song等人[41]详细介绍各种现有的方法，包括设计噪声鲁棒神经网络架构[6]，正则化器，如标签平滑[42，34]，试图过滤掉噪声样本的样本选择方法-通常通过与多个神经网络的共同教学或学生教师学习[23，13，46，29]，各种元学习方法，通常旨在使用元学习来降低噪声样本的权重。梯度从验证集[38，39，52]，和鲁棒损失设计。在这些家庭的方法，我们的动机是专注于稳健的损失设计，由于简单性和普遍适用性–现有的主要稳健损失包括：平均绝对误差（MAE），在[10]中显示出理论上的鲁棒性，但在[54]中难以训练;广义交叉熵（GCE），其试图具有鲁棒性但易于训练[54];双温度[1]、双温度[2]和Huber [15]，由重尾离群值鲁棒性驱动;对称交叉熵[45]，由减少过拟合驱动;以及有源-无源损耗（APL）[31]其目的是平衡鲁棒损失的过拟合和欠拟合这些损失都是基于各种良好的动机而手工设计的，但是（正如我们将在评估中看到的那样）没有一个能提供可靠的高性能。相反，我们采用数据驱动的AutoML方法，并搜索在各种基准和神经架构中具有经验稳健性这利用了元学习技术，但与现有的元鲁棒性工作不同，它专注于发现可以在任何下游问题中重用的一般白盒损失（图1），而不像其他[39，38，29，52]需要昂贵的每个问题元学习。顺便说一句，我们注意到我们的最终损失涵盖了[41]中概述的噪声鲁棒学习的所有六个必要条件。元学习，AutoML和损失学习元学习，又名学习学习，和AutoML已被应用于各种各样的目的，如总结6672D22联系我们D✓LLLLLLLMMuM··✓iu（k）J在[17，21]中。特别相关的是损失函数的元学习，其已经被研究用于各种目的，包括提供不可微目标的可微代理[19]，优化学习的效率和渐近性能[22，4，18，48，11，12]，以及提高训练/测试域偏移的鲁棒性[3，30]。我们感兴趣的是学习白盒损失-即，那些可以表示为短的人类可读参数方程的参数方程-白盒模型组件的元学习算法1鲁棒损失函数搜索1：输入：、F、µ（0）、（0）2：输出：p（✓;µ，）3：t= 04：未收敛或达到最大步长时5：=✓1，✓2，…，✓np（✓;µ（t），（t））#勘探样本6：G=F#将数据集和架构分配给损失7： s=零Rn8：f或所有（f （k），Dj，✓i）Gdo9：（Dtrain，Dval）=split（Dj） # Train/val splits已被证明为优化器[47]，激活函数-j j问题[35]，神经架构[43]和加速传统监督学习的损失[11，12]。我们10：！=argminL（f，Dtrain）#Trainthenet11：si=si+1M（f（k），Dval）#求值| |||第一个演示自动损失函数的值用于通用标签噪声鲁棒学习的发现。F D验证数据12：结束乌日3. 方法我们的目标是学习多类分类的损失函数，它对训练集中的噪声标签具有鲁棒性。概述我们的工作流程分为两个阶段（图1）。Meta训练：给定一组辅助数据集和网络架构，结构，我们Meta学习一个贝尔噪声鲁棒损失L✓。的13：（µ（t+1），（t+1））=CMA-ES（µ（t），（t），，s）#根据CMA-ES更新µ和14：t=t+ 1十五： end whileVal假设辅助数据集是干净的（在这种情况下，我们在元训练期间模拟标签噪声）或有噪声的但带有干净的验证集。损失应该是在清洁验证在噪声训练集上学习后的集合元检验：给定S.t.！DmaxED，f[M（fuD，D ）]（1）=argmin✓（fu，Dtrain），u从上一步学习的鲁棒损失✓，表示为AutoRobustLoss（ARL），我们可以部署它来学习任何目标噪声标签学习问题，而不需要验证集。目标数据集和神经架构不需要与来自元训练步骤的源数据集/架构重叠。该损失提供了对常规学习管道中的标准交叉熵的直接替代。3.1. 元培训程序我们将损失函数学习形式化为双层优化，其中上/外循环问题定义为优化。设置自适应损失函数的参数✓，以及使用损失函数训练神经网络fu✓. 上层优化问题使用干净验证作为监督信号用预期损失函数训练的模型的性能，在各种域上平均。较低层次的优化问题包括学习一个集合使用预期损失函数在噪声标签数据集上对神经网络进行融合✓。预期损失函数由其参数✓表示，其对应于n阶多项式的系数。这些多项式可以被视为理想损失函数的泰勒展开。双层优化问题由下式给出：其中（，）是测量网络性能的适应度函数，D是表示域的随机变量，其中噪声训练D训练和清洁验证Dval分裂，并且f是由以下参数化的神经网络工作：. fuD的性能，通过以下方式测量：反映了由数据集D上的候选损失V提供的鲁棒监督的质量。我们采用协方差矩阵自适应进化策略（CMA-ES）[14]来解决上层问题，以及标准的基于随机梯度的优化方法来解决下层问题。算法1总结了我们用于求解等式1中的优化的算法。CMA-ES用于损失函数学习我们使用CMA-ES来解决上层优化问题，并使用随机梯度下降的任何变体来解决下层问题。CMA-ES发现在✓的搜索空间上定义的高斯分布，其将大部分质量放在优化问题的高质量解决方案上。使用CMA-ES的一个好处是它不需要性能测量是可微分的，这意味着可以使用信息度量（诸如准确度）来评估所学习的损失函数。每一代都由一组损失函数组成，这些损失函数是通过从参数分布p（✓;µ，）=N（µ，）中对多个个体进行采样而获得的。每一个个体，6673u3Rn！00✓C✓我我2241XS.T.！j=argminL✓（f，D），Ø图3.左：超参数选择的初步实验通过具有不同阶数的ARL损失函数训练的线性模型与使用交叉熵（CE）训练的线性模型的性能中/右：当使用不同的鲁棒损失时，测试精度与迭代的示例学习曲线中：USPS/VGG-11/80%对称噪声。右：USPS/ResNet-18/40%非对称噪声。✓i2，根据下式计算NE[M（f，Dval）]M（f （j），Dval）（2）执行这种简化的另一个优点是损失函数可以用于具有不同数量的类的各种设置中。我们发现Ø= 4是一个很好的折衷D，f uDNj=1ujj建模能力和元训练效率。在泰勒展开式中，多项式系数由固定的（j）火车我uJu其中f（j）和Dj分别是不同的网络架构和数据集，如稍后所讨论的。我们应用一个尺度附录A.3中详细说明的标准化，最终损失函数。计算泰勒展开的点因此，对于学习二元函数，我们说（✓0，✓1）giv e固定点的位置，以及（✓2，…11）编码最优损失函数的梯度值，当它被评估为（✓0，✓1）时。由此产生的损失具有以下形式Taylor多项式表示CMA-ES搜索的潜在损失函数空间是一个关键1个2个`✓（yi，yi）=✓2（yi-✓0）+2✓3（yi-✓0）（五）设计参数对于搜索效率，我们应该考虑由少量值参数化的空间这1个3+6✓4（yi-✓0）1个4+24✓5（yi-✓0）必须与代表足够广泛各种功能，以便找到一个很好的解决方案。通过选择具有良好理解的非线性形式的低维空间，应该可以重新使用所学习的+✓6（yi-✓0）（yi-✓1）1212+✓7（yi-✓0）（yi-✓1）+✓8（yi-✓0）（yi-✓1）各种问题的损失我们选择的函数空间1+✓（y1-✓）（y--✓）（y- ✓）是所有Ø倍差分69i0i✓1）+6✓10（yi0i11表函数[12]，g：Rm！R，g（x）=X1rng（x）T（x-x）n.（三）n=0+✓1 1（yi-✓0）2（yi-✓1）2.注意，我们省略了不出现y的项，如这些不影响优化问题的解决方案总共只有12个参数要拟合，这被认为是-其中每个ng（x0）是在固定点x0处计算的g的n阶梯度。我们做了一个简化的假设，即损失函数应该是类可分的。也就是说，每个潜在的类别被单独考虑，并且我们学习损失函数，该损失函数测量有噪声的二进制标签与由网络预测的概率之间的偏差为了计算向量的损失，我们对C个可能的类求和，C明显小于典型神经网络参数化损失函数中的参数数量[30，4，25]。为了能够在部署（元测试）中实现对新架构的良好概括，我们应用域随机化[44]策略来评估元训练期间一系列架构的预期性能。具体来说，我们使用一组架构，F，包含各种常见的神经网络设计。进化的总人口L（y，y）=1X`（y，y），（4）3⇥i=1然后通过笛卡尔积F给出优化。然后，可以如等式2中所示计算适应度函数6674其中，y和y分别是预测概率和（可能有噪声的）地面实况标签的向量结果第2部分，其中在用相同损失训练的所有不同架构上取平均值6675DD在数据集上的泛化学习损失也应该推广到部署中的新数据集（Meta测试）。为此，我们研究在训练期间将其暴露于多个数据集，以确保它对特定的训练数据集最大限度地不可知。采样损失函数用于训练具有相同架构和初始权重但在不同数据集上的多个模型。与架构概括类似，我们使用一组数据集，并取笛卡尔积，，以生成待评估的群体。损失函数的性能通过所有网络在其相应数据集上的平均性能来评估。原则上，可以同时执行数据集和架构随机化。然而，由于隐含的三向笛卡尔积，我们发现这在计算上是不可行的。4. 实验在本节中，我们评估了各种噪声标签学习任务的ARL。具体而言，我们旨在回答三个问题：（Q1）我们的AutoRobustLoss（ARL）是否可以在不同的数据集和架构中通用？(Q2)ARL在不同噪声水平下的泛化能力如何（Q3）ARL可以扩展到更大的现实世界噪声标签任务吗？数据集我们在七个数据集上进行实验：[28]，CIFAR-10，CIFAR-100，KMNIST [7]，USPS [20]，Fash-[49]和Clothing1M [50]。Clothing1M是包含14个类别（T恤、衬衫、针织品、雪纺、毛衣、连帽衫、防风衣、夹克、羽绒服、西装、披肩、连衣裙、背心、内衣）中的100万个服装图像的数据集。从购物网站收集图像，并且从图像周围的文本生成标签，从而提供逼真的噪声标签设置。MNIST，以及可选的KMNIST和CIFAR-10，用于学习损失函数（元训练），其他的完全用于实验评估（元测试）。噪声类型对于损失学习，我们模拟对称和非对称（对翻转）噪声类型。对称噪声标签通过从正标签均匀翻转到负标签来生成，而非对称噪声标签被产生以模拟更现实的场景，其中类别的粒子对比其他更容易被注释者混淆例如，在数字之间，标签噪声可能以这样的方式表现，即7更可能被错误标记为1而不是6;或者把3误标成8而不是4。架构我们使用一系列神经网络来训练和评估ARL，包括浅层（2层MLP，3层MLP和4层CNN）和深层（VGG-11 [40]和ResNet- 18 [16]）。我们还使用[46]中的中等规模架构，我们称之为JoCoR-Net（详细信息请参见补充）。为了公平比较，我们使用SGD优化器训练2层MLP，3层MLP和4层CNN，学习率为0。01和动量0。9 .第九条。对于JoCor-Net，我们应用Adam [24]，学习率为0。001。对于ResNet-18和VGG-11，我们遵循训练方案[53]。泰勒多项式阶数选择我们进行了初步的实验来选择ARL的阶数。我们在数据集随机化算法（MNIST，KMNIST和CIFAR-10）的内部循环中训练线性分类器，并评估多项式阶数2，3，4和5的性能。从图3（左）中的结果可以看出，与损失学习的整体影响相比，特定多项式阶数的尽管如此，我们为后续实验选择了4阶，因为这是实现最佳性能的超参数。我们将我们的ARL与标准交叉熵（CE）基线进行了比较，同时还比较了几种针对标签噪声鲁棒性而手工设计的强替代损耗：MAE：[10]中理论上证明平均绝对误差具有稳健性。GCE：[54]分析了MAE难以训练，并提出了广义交叉熵来提供CE和MAE的最佳效果;FW：[33]迭代地估计标签噪声传递矩阵，并训练由标签噪声估计校正的模型; SCE：[45]认为通过添加反向交叉熵（RCE）来对称交叉熵可以提高标签噪声鲁棒性; Bootstrap：一种通过预测和给定标签的凸组合来替换训练中的噪声标签的经典方法[37]。LSR：标签平滑是一种有效的通用正则化器[34，42，32]，其在提高噪声鲁棒性方面的特性Huber[15]和Bi-Temper[1]：基于鲁棒重尾损失函数的经典和最新方法。主动被动：[31]中提出的标准化损失选择中的最佳选择。早期停止和超参数调整虽然传统的监督学习可以使用早期停止，但在元测试期间缺乏干净的验证集使得这是不可能的。因此，我们的主要实验通过报告收敛时的性能来遵循该领域的大多数工作[23，46]类似地，缺乏干净的验证集阻止了自动化的超参数调整，因此我们重用在元训练集上选择的单个超参数集。4.1. 训练通用鲁棒损失函数元训练设置我们考虑用于训练通用损失函数的两个域随机化策略在AR中，我们构建了一个训练架构池，包括2层MLP，3层MLP和4层CNN，并单独使用MNIST作为训练集。在DR中，我们仅使用4层CNN作为架构，构建MNIST、KM-NIST和CIFAR-10的数据集池我们为80%对称和40%不对称噪声条件训练模型更多详情见附录。元测试（部署）设置给定我们在元培训中学习的ARL，我们通过在6676⇥ ⇥⇥表1.鲁棒损耗的准确度（%），80%对称噪声条件。我们在架构随机化（AR）和数据集随机化（DR）条件下训练的损失灰色列：DR训练期间看到的数据集。White Cols：全新的数据集。架构数据集类型VGG11CIFAR10VGG11CIFAR100VGG11FashionMNISTVGG11USPSResNet18Cifar10ResNet18Cifar100ResNet18FashionMNISTResNet18USPSAvg.RankCE普通教育证书[54]SCE [45][33]Bootstrap [37]MAE [10]标签平滑[34]胡贝尔[15]NCE+MAE [31][31]第三十一话双回火[1]18.38 ±0.2116.56 ±0.5428.61 ±0.6416.97 ±0.4417.58 ±0.8214.20 ±0.4217.74 ±0.4610.28 ±0.6840.47 ±0.9341.91 ±0.9810.44 ±0.964.25 ±0.281.04 ±0.472.31 ±0.801.41 ±0.074.18 ±0.721.01 ±0.114.47 ±0.121.30 ±0.572.06 ±0.442.54 ±0.633.23 ±0.1120.55 ±0.9325.10 ±0.6836.64 ±0.5922.57 ±0.7620.40 ±0.3163.40 ±0.1621.19 ±0.3919.66 ±0.6748.40 ±1.0145.06 ±1.0615.00 ±0.4651.42 ±0.9463.45 ±0.8663.68 ±0.5653.66 ±0.4064.58 ±0.2130.94 ±0.3554.26 ±0.1923.92 ±1.3470.75 ±0.7169.36 ±0.8417.67 ±0.5618.44 ±0.3431.69 ±0.3645.34± 0.4010.15 ±0.6812.10 ±0.3222.95 ±1.2517.67 ±0.3513.56 ±0.7533.57 ±1.1737.66 ±0.6440.41 ±1.338.86 ±0.1011.98 ±0.188.16 ±0.071.16 ±0.048.67 ±0.610.82 ±0.177.66 ±1.521.14 ±1.115.72 ±0.926.03 ±0.919.35 ±0.5221.92 ±0.7442.62 ±0.8959.93 ±0.7513.18 ±0.3522.36 ±1.7668.20 ±1.8720.99 ±0.8317.59 ±0.9148.65 ±0.9654.43 ±1.1530.06 ±0.7257.05 ±0.4279.52± 0.6358.35 ±0.7642.80 ±0.7772.17 ±1.2437.17 ±0.9359.94 ±0.5424.61 ±0.3171.25 ±1.2472.25 ±1.6026.91 ±0.646.875.634.639.386.388.136.8611.004.503.507.75ARL-ARARL-DR41.36±0.4731.12 ±0.235.63±0.245.04 ±0.1470.16± 0.8767.29 ±1.0178.71± 0.9077.34 ±1.3429.50 ±0.3035.23 ±0.2314.94± 0.2613.36 ±0.6371.96 ±0.8971.97± 0.8768.80 ±0.9270.17 ±0.641.631.75表2.鲁棒损失的准确度（%）。40%非对称噪声条件。我们在架构（AR）和数据集（DR）随机化条件下训练的损失具有最佳平均排名。灰色列：DR训练期间看到的数据集。White Cols：全新的数据集。建筑类型数据集VGG11CIFAR10VGG11CIFAR100VGG11FashionMNISTVGG11USPSResNet18CIFAR10ResNet18CIFAR100ResNet18FashionMNISTResNet18USPSAvg.RankCE56.43±0.1256.42±0.5478.23±0.5554.42±0.7957.69±0.1149.06±0.2257.76±0.3738.28±0.8066.22±0.6465.55±1.7610.12±0.1730.20±0.1822.39±0.3525.33±0.735.21±0.3931.07± 1.090.96±0.1020.64±0.185.18±0.722.06±0.362.59±0.1734.22±1.2350.34±1.2353.57±0.4764.47±0.9745.18±0.8453.23±1.5349.02±0.2751.12±1.0375.57±0.9369.83±0.7369.51±1.5918.02±0.8777.74±0.7478.72±0.7285.50±0.4376.41±0.8177.81±0.6162.38±0.8977.49±0.1173.44±2.7087.05±1.3289.24±1.9217.89±0.8258.69±0.4357.90±0.3163.22±0.2248.40±0.0857.69±0.7655.67±3.0559.69±0.3656.11±0.4160.51±0.9662.51±0.8317.74±0.7344.14±0.1540.76±0.2440.90±0.373.83±0.2345.78± 0.151.02±0.1439.92±0.494.14±0.3745.00±0.8744.84±1.7645.36±0.4358.68±0.6358.51±0.7059.63±0.9649.46±0.7354.60±0.8556.31±1.2157.53±0.7377.50±1.6463.00±1.9758.55±1.0419.44±1.3273.84±0.8580.77±0.3581.57±0.1746.04±0.1875.67±0.5670.05±0.3578.97±0.4679.37±1.5581.81±1.3182.96±2.8227.85±0.946.256.253.6310.135.7510.506.887.384.004.259.13普通教育证书[54]SCE [45][33]Bootstrap [37]MAE [10]标签平滑[34]胡贝尔[15]NCE+MAE [31][31]第三十一话双回火[1]ARL-ARARL-DR74.30±0.2079.09± 0.5122.50±0.3318.30±0.2787.23± 1.2281.18±0.8090.67± 1.2189.78±0.4686.70±0.1268.88±0.4144.47±0.4831.47±0.6589.24± 0.2588.22±0.9791.17± 0.2589.59±1.051.252.63一套全新的评估数据集和架构，包括培训期间看不到我们报告了收敛准确性方面的结果，并通过不同数据集和架构中每个损失的平均排名进行总结基准测试结果对称和非对称噪声的结果从结果中，我们可以看到，我们的ARL表现良好的手工设计的替代品相比，在各种基准，具有较高的平均排名比竞争对手在两个实验。然而，对于Meta学习，在架构（AR）和数据集（DR）随机化之间没有明显的赢家我们希望通过在元训练期间同时执行这些操作来获得最佳性能，但由于该实验的计算成本很高，因此我们将其留给未来的注意，在部署期间，所有方法都具有类似的计算成本，除了FW，其需要训练网络两次以进行噪声估计。学习曲线分析图3（右）中的曲线比较了USPS/VGG-11和USPS/ResNet-18分别在80%对称和40%不对称噪声下的测试准确度的学习曲线我们可以看到，虽然一些替代损失有早期峰值，但在持续训练后它们都过拟合如前所述，渐近性能mance是该领域的相关和标准[23，46]度量，因为缺乏干净的验证集来挑选好的迭代;从这个角度来看我们的损失显然是赢家之前的实验报告了在手动损坏的标签上训练后学习模型的性能。在本节中，我们遵循[46]中描述的ResNet-18设置，将我们学到的损失应用于现实世界的Clothing1 M 噪声标签基准测试。请注意， Clothing 1 M 和ResNet-18均未出现在上面的丢失发现元学习期间。我们使用学习率8和亚当一起训练10-4，510-4，510- 5，每个5个时期。我们在表4中报告了10次试验后每个模型的平均准确度。在竞争者中，JoCoR是在更广泛的噪声鲁棒范围内的最先进方法学习者它使用具有多个网络分支的复杂共蒸馏方案，而其他列出的竞争对手是应用于vanilla ResNet训练的简单插件鲁棒损失。然而，ARL获得了最高的性能。4.2. 额外分析最近，在前一节中使用的噪声标签实验的既定协议在[5]中受到挑战，他们声称验证的度量6677毫米40%图4.学习的ARL损失的泛化到不同的噪声水平。左：VGG 11-FashionMNIST（对称噪声），中：VGG 11- FashionMNIST（非对称噪声），右：ResNet 18-USPS（非对称噪声）。表3.使用基于噪声验证的早期停止和超参数调整的不同鲁棒损失的准确度（%）和平均秩架构类型VGG11VGG11VGG11VGG11 ResNet18ResNet18ResNet18ResNet18平均等级数据集Cifar10CIFAR100FashionMNISTUSPSCIFAR10Cifar100 FashionMNIST USPS对称80%CE四十一点九四12.1276.0375.1939.8018.1872.1875.882.88普通教育证书[54]四十三点九四5.2574.8877.6840.8015.1672.5075.883.00SCE [45]四十八点四十八7.3372.1771.9545.8116.9975.3677.912.38NCE+MAE [31]38.962.2875.6374.3920.4710.3374.3382.213.86[31]第三十一话四十三点三十五2.6173.0873.4442.922.6970.4576.834.00ARL-AR四十二点五二13.7171.4779.3735.8620.8777.2379.771.88ARL-DR四十二点七十六分7.1777.5877.5834.7717.7573.2874.933.00CE七十九点四七29.8984.0792.3382.1540.3687.9189.742.86普通教育证书[54]七十七点一三24.3085.1688.0978.0243.7387.5791.633.86SCE [45]七十八点三九29.9082.9591.6878.9843.0687.2093.472.86NCE+MAE [31]七十四点八七7.4986.8190.8780.0540.8982.2390.634.38[31]第三十一话七十六点六一7.7886.3689.7976.3936.7988.4292.484.25AsyARL-AR七十六点一三25.3788.8194.2787.0345.4189.4494.571.25ARL-DR80.8229.2187.1491.7876.6247.1989.7993.171.50表4.使用ResNet18在Clothing1M上测试鲁棒学习器的准确率（%）JoCoR是一个多网络共蒸馏训练框架。其他的是简单的插入式鲁棒损耗。方法NCE+MAE [31][31]第三十一话双回火[1]ARL（AR-A40）ARL（DR-A40）ARL（AR-S80）ARL（DR-S80）精度66.1565.979.4669.1470.0968.8569.34即使当验证集本身包含标签噪声时，集精度也提供了有效的模型选择标准因此，我们从先前的实验中选择表现最好的损失，并根据该代理度量使用早期停止和超参数调整来报告它们在新的部署条件下的性能从表3中的结果，我们可以看出：（i）早期停止允许CE减少对噪声的过拟合，并且因此与表1-2中的渐近结果相比在秩上改进，但是它仍然不是最好的;（ii）与先前的条件相比，大多数准确度已经增加（例如，Fashion-MNIST），但是相比之下，我们的损失增加得更少，这表明与替代方案相比，AR和DR更少地依赖于仔细的参数调整和检查点选择(iii)总体而言，AR和DR学习损失表现强劲，其中AR在两种噪声条件下总体表现最佳。我们在高水平的标签噪声（80%-对称，40% -对称）上训练我们的损失。方法CE[54]第五十四话：我的世界[33]SCE [45][46]第四十六话：我的世界精度66.8867.28 66.6368.3367.6310.83 69.796678不对称），推测在困难任务上的训练将足以推广到具有不同噪声条件的其他任务，如在Cloth-ing 1 M上所示为了更系统地评估这一点，我们接下来将损失应用于具有一系列噪声水平的问题。从图4中的结果可以看出，我们的损失确实在一系列操作点上提供了强大的性能。值得注意的是，每个图上的最左边的点对应于干净数据（0%噪声）条件。这里，我们的ARL损失提供了与标准相当的性能（即，交叉熵）方法，从而确认它们在未知是否存在标签噪声的情况下使用是安全的。我们在图5中可视化了在40%对称标签噪声下应用于CIFAR-10时通过损失学习的特征分布我们可以看到，应用于噪声标签的传统CE导致实例的非常混合的分布，而我们的损失导致尽管有标签噪声，但仍然可以非常干净地分离集群。6679CIFAR-100 MNIST⇡-表5.不同鲁棒学习器的准确率（%）JoCoR net CNN在整个过程中使用针对每个目标问题训练ARL59.51±0.70 52.66±0.43 94.14±1.32 67.38±0.53 94.25±0.43 51.53±1.56 96.64±0.1296.71±0.2122.43±1.21 23.43±0.31 40.57±0.72 31.23±0.89 54.01±1.82 23.46±0.46 84.89±4.5589.88±0.3478.73±1.16 79.00±0.28 81.94±1.22 79.87±0.78 90.14±0.67 78.31±2.34 95.24±0.1097.38±0.172019 -01- 22 10：00 - 12：0019.50±0.43 16.97±0.40 10.29±0.53 18.54±0.29 3.25±0.15 18.36±0.6343.49±0.4642.18±0.27Sym-80% 5.56±0.24 4.41±0.14 2.03±0.36 5.75±0.39 6.12±0.27 2.33±0.13 15.49±0.9820.20±0.42非对称-40% 30.16±0.44 27.29±0.25 1.32±0.23 27.07±0.42 4.23±0.51 31.72±0.74 32.70±0.35 36.01±0.39平均排名5.25 6.13 5.62 5.00 4.38 6.63 1.631.38图5.在具有40%对称标签噪声的CIFAR-10上学习后的倒数第二层ResNet-18特征的t-SNE可视化。左：CE培训。中：Bootstrap训练。右：我们的ARL培训。特定于数据集的损失学习我们在本文中的主要目标是学习通用的鲁棒损失。在本节中，我们将研究应用我们的框架来训练特定于数据集的鲁棒损失的替代用例，在这种情况下，可以通过为目标问题定制损失来为了实现这一点，我们现在额外地假设目标问题的数据的干净子集是可用的（与之前的实验不同，但类似于该领域的几种替代方法[46]），以便驱动损失学习。对于该实验，我们专注于与JoCoR [46]的比较，因为这是当前最先进的模型。我们使用与JoCoR相同的中型CNN架构进行公平比较，并训练我们的损失以优化验证性能。从表5中的结果可以看出，我们的ARL提供了与现有技术竞争对手JoCoR相当或更好的然而，这现在的成本明显更高，因为特定于数据的丢失训练的成本不能像以前那样在多个任务上分摊学习损失的定性分析和直觉为了获得一些关于损失有效性的直觉将我们的ARL损失与替代品进行比较，我们推测有两个属性可以解释我们在实践中的标签噪声鲁棒性：响应于网络感知的主要预测错误的反馈，以及网络预测最大限度地满足损失的最小值的位置的情况下网络实际上正确分类的带噪声标记的示例ytrue=1，ylabel=0，ypred1），常规CE指数级的巨大损失。这种积极的反馈导致在干净数据上快速训练，但在嘈杂数据中过拟合[54]。与CE相比，现有稳健替代方案MAE [10]和GCE [54]的明确动机是软化这种积极的虽然没有明确的动机同时，在最好地满足损失的最小值方面，常规CE以及SCE、GCE和MAE导致最大置信度的预测（最小值为0或1）;如果将其应用于噪声标签，则导致过拟合。相比之下，标签平滑[34，45]通过在[0+，1]处引入更软的最小值来[ 01 - 02][02 - 02] 然而，LS发出与CE相同的大误差的积极校正只有我们的ARL学会了利用这些不那么激进的“修正”和软目标的策略5. 结论在这项工作中，我们采取了AutoML的角度对噪声鲁棒损失函数设计的问题。我们的研究结果揭示了一个新的损失函数，结合低惩罚和软极小值功能，产生一个噪声鲁棒的损失函数。ARL提供了一个简单的可重用的损失，可以插入到不同的基准和模型架构中，以在存在标签噪声的情况下学习鲁棒的特征和分类器，所有这些都不需要干净的验证集或昂贵的Meta学习或蒸馏过程。Sym-80%不对称-噪声类型CE（重现）CE（JoCoR）普通教育证书[54]SCE [45][33]Bootstrap [37][46]第四十六话Sym-20%Sym-50%81.21±0.5379.56±0.4497.64±0.6589.50±0.4496.85±0.6776.18±0.9898.06± 0.0497.90±0.126680引用[1] Ehsan Amid ， Manfred K Warmuth ， Rohan A

下载后可阅读完整内容，剩余1页未读，立即下载