没有合适的资源?快使用搜索试试~ 我知道了~
挖掘标签噪音中的监管有效性
1从标签噪音中提炼有效监管Zhang Zizhao,Han Zhang,Sercan Zhang.Arık,Honglak Lee,Tomas Pfister Google Cloud AI,Google Brain摘要85收集具有干净标签的大规模数据用于神经网络的监督训练实际上具有挑战性。虽然噪声标签通常是廉价的获取,现有的方法遭受了很多标签噪声。本文的目标是在高标签噪声制度的鲁棒训练的挑战实现这一目标的关键见解是明智地利用一个小的可信集来估计噪声数据的样本权重和伪标签,以便重用它们用于监督训练。我们提出了一个整体框架,以一种高度不受标签噪声影响的方式训练深度我们的方法在不同的领域开创了新的技术水平8075706560550.0 0.2 0.4 0.6 0.8 1.0噪声比八十2±0。3%的分类精度,其中错误率仅比没有标签噪声训练的神经网络高1.4%。此外,将噪声比提高到80%,我们的方法仍然保持75的高精度。5±0。2%,com-48.第48章. 2%1.1. 介绍训练深度神经网络通常需要大规模的标记数据。然而,由人类标记数据的过程在实践中是具有挑战性的并且是昂贵的,特别是在需要专家注释者的领域中,诸如医学成像。噪声标签的获取要便宜得多(例如,通过众包、网络搜索等)。因此,已经提出了大量的方法来改进神经网络训练,从带有噪声标签的数据集中利用廉价的标签实践[48]。然而,深度神经网络具有很高的记忆能力。当噪声标签变得突出时,深度神经网络不可避免地过拟合噪声标签数据[46,37]。为了克服这个问题,我们认为明智地构建数据集是必要的。大多数方法都考虑使用1源代码网址:https://github.com/google-research/google-research/tree/master/ieg图1:CIFAR100上的图像分类结果。完全监督表示使用没有标签噪声的所有数据训练的模型。噪声鲁棒性(上一级)best)表示噪声标签的最佳结果(该方法使用每类50个可信数据)。每类10个可信数据可用于半监督和噪声鲁棒(我们的)。底部-汤姆表提供了超过80%的噪声比设置的准确性。半监督是Mix-Match的改进版本[4]。我们的方法在高达95%的噪声比下优于半监督。下表显示了三次运行的平均准确度。更多详情请参见第5.4相同的标签质量。然而,除了大规模的噪声训练数据集之外,还可以用人工验证的标签构建小数据集。如果基于此设置的方法可以证明对噪声标签的高鲁棒性,则可以在数据标签实践中开辟新的视野[21,42]。最近有一些方法通过在大型噪声数据集上训练时对小型可信数据集进行训练来表现出良好的性能,包括训练数据的学习权重[17,33],损失校正[16]和知识图[25]。然而,这些方法要么需要相当大的可信集,要么在高噪声状态下变得无效。相比之下,我们的方法保持了卓越的性能与备注-9294全苏半监督(1000噪声鲁棒(Prev. B我们的(Ours)噪音抢劫标签)est)经检查的准确度(%)我们的算法可以有效地消除各种类型的标签噪声,并在具有真实标签噪声的大规模数据集上实现出色的因为在-比0.85 0.90.93 0.95 0.960.980.99在CIFAR100上,具有40%的均匀噪声比,是说74.7 70.968.8 64.8 62.658.454.49295可信集的大小适当地更小(例如,以前的最佳方法[17]使用了高达总训练数据的10%,而我们的方法仅使用了0.2%就获得了优异的结果。给定一个小的可信数据集和一个大的噪声数据集,有两种常见的机器学习方法来训练神经网络。第一个是噪声鲁棒性训练,它需要处理标签噪声效应以及从大型噪声数据集中提取正确的监督。考虑到标签噪声可能带来的有害影响,第二种方法是半监督学习,它丢弃噪声标签并将噪声数据集视为大规模未标记数据集。在图1中,我们比较了这种设置下两种方向的方法。我们可以观察到,先进的噪声鲁棒方法甚至在50%噪声比的情况下也劣于半监督方法(即,它们不能利用来自其他数据的许多正确标签),从而激发了进一步研究噪声鲁棒训练的必要性。这也提出了一个实际上有趣的问题:我们应该放弃嘈杂的标签,选择半监督训练吗?在高噪音区域部署模型?贡献:针对这个问题,我们提出了一种高效的抗噪声训练方法。我们的方法明智地利用了一个小的可信数据集来优化错误标记数据的样本权重和标签,以便从中提取有效的监督用于监督训练。为此,我们推广了Meta重加权框架,并提出了一个新的元重标记扩展,它将传统的伪标记到元优化。我们进一步利用探测数据作为锚点,使用学习的数据权重和标签来重建整个噪声数据集综合实验表明,即使是非常嘈杂的标签,我们的方法表现出极大的超级鲁棒性相比,以前的方法(图1)。此外,我们的方法被设计为与模型无关,并可推广到各种标签噪声类型,如在实验中验证的。我们的方法在CIFAR10和CIFAR100上设置了新的技术水平,并在大规模WebVi上实现了出色的性能。选择性地相互训练和馈送数据。[1]对每个样本的损失进行建模并校正损失权重。另一个方向是对损失校正的混淆矩阵进行建模,这在[36,29,38,30,1]中得到了广泛的研究比如说,[16] 表明使用一组可信数据来估计混淆矩阵具有显著的增益。估计噪声样本的伪标签的方法是另一个方向,并且与半监督学习有密切关系[25,37,39,14,19,35,31]。沿着这个方向,[32]使用自举来生成新的标签。[23]利用流行的MAML Meta框架[11]在实际训练之前验证所有标签候选者。除了伪标签之外,最近还研究了与半监督学习的连接[18]。例如,[15]提出使用mixup直接连接噪声和干净的数据,这表明了正则化对于鲁棒训练的重要性[15,1]使用mixup [47]来增加数据并证明了明显的好处。[10,18]首先识别错误标记的数据,然后进行半监督训练。3. 背景减少错误标记数据的损失权重已被证明在噪声鲁棒训练中是有效的在这里,我们简要介绍了一种基于Meta学习的重新加权(L2R)方法[33],作为所提出方法的基础L2R是一个重新加权的框架,它优化了数据权重,以最小化与测试数据匹配的无偏可信集的损失该公式可简要概括如下。给定具有噪声标签的N个输入的数据集Du={(xi,yi),1ω0− <$ωLp获得|ω=ω0,然后归一化以满足等式(2)中的ω的约束。该方法期望优化后的ωk系数应该为错误标记的数据分配较低的权重值,以将错误标记的数据与干净的数据隔离开来。注意,由于Θt+1(ω)是ω的函数,因此使用Lp对ω的优化需要二阶逆推。传播(有时称为梯度-梯度)[33]。4. 该方法除了从噪声数据中估计样本权重外,通过以下方法估计正确的标签也很重要:为了使伪标签最终对监督训练有效,伪标签的分布需要在输入的增强版本中保持清晰和一致。如果输入增强的预测彼此不一致,则用等式(3)对它们进行平均将导致它们的贡献被抵消,从而产生平坦的伪标签分布。从这一观点出发,减少预测增强的不一致性是必要的。因此,我们建议通过引入KL发散损失1ΣN。..Σ重新标记过程。我们非正式地将该过程称为“数据系数”的估计(即,示例重量和最小LKL=ΘNKLΦ(xi;Θ). Φ(x∈i;Θ),(4)我真标签),这是用于构造监督训练的两个主要信息我们提出了一个广义的框架,估计数据系数,通过Meta优化。研究再标记的动机是直接的。当噪声比很高时,大量的数据将被丢弃,从而对模型训练没有贡献。为了解决这一低效问题,有必要重新使用错误标记的数据,以提高高噪声状态下的性能。与半监督学习[19]中的伪标签不同,噪声数据集中的一部分标签是正确的。因此,有效地提取它们会带来额外的好处。与先前的伪标记噪声鲁棒方法[23]相比,我们的pro-提出的方法构造了一个可微的伪重标记这惩罚了xi的任意输入增广x∈i的不一致性。在实验中研究了这种损失的影响。4.3. Meta re标记对于每个训练数据x,我们现在有初始伪标签g(x,Φ)和它的原始标签y。我们将重新标记的问题表述为有效地为每个数据找到两个候选数据的最佳选择,以最大限度地减少探测数据的错误基于Meta重加权思想[33],我们提出了一个新的目标,有效地结合了数据系数的估计ΣNΣ目的是有效地选择最佳方案θ(ω,λ)=argminΘi=1ωiLP(λi),Φ(xi;Θ),(五)4.1. 初始伪标号估计器利用未标记训练数据的伪标签被广泛研究用于半监督学习[19,37,19]。伪标签通常由模型预测推断神经网络可能对输入增强不稳定[49,2]。为了生成更鲁棒的标签猜测,最近的半监督学习方法[4]考虑平均P(λi)= λiyi+(1 − λi)g(xi,Φ)s.t. 0 ≤ λi≤1,其中P是参数λi的可微函数。在Meta步骤中,λi被设计为聚合原始标签和伪标签,这简化了后处理。传播类似于二阶反向传播的重新加权工作方式,我们可以使用9297我我0uu我.我我uu探针数据上的损失Lp以优化重新标记系数λp。在我们的实现中,我们计算每个数据xi的梯度的符号并对其进行校正:算法一:我们的方法在时间步t处的训练步骤输入:当前模型参数Θt,Σ∂ΣΣΣΣ训练数据XufromDu,一批探针λ=签署- -E级 Lp|λ=λ,ω=ω∂λ.(六)数据Xp从Dp,损失重量k和p,i+阈值T使用梯度的(校正)符号而不是λ<$λ0−<$λLp 的 动 机|λ=λ0(当计算h o wω时)是两个倍数:1)当伪标签接近真实标签时,在学习的后期,<$λLp会变得很小(see附录A的数学说明)和2)使用标量(λ0−λLp)简单地聚合yi和g(xi,Φ)将使所得伪标签分布对于监督训练不够清晰因此,我们的方法建议获得最终的伪标签,.yi,如果λ>0输出:更新模型参数Θt+11生成X u的增广Xu。2 通过以下方式估计伪标签g(xu,Φ),xu<$Xu <$X<$u(第4.1节和第4.2节)。3通过Meta步骤计算最佳数据系数λ和ω(第4.3节)。4分割训练批次Xu(也对应Xu)使用二进制准则I(ω
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- IEEE 14总线系统Simulink模型开发指南与案例研究
- STLinkV2.J16.S4固件更新与应用指南
- Java并发处理的实用示例分析
- Linux下简化部署与日志查看的Shell脚本工具
- Maven增量编译技术详解及应用示例
- MyEclipse 2021.5.24a最新版本发布
- Indore探索前端代码库使用指南与开发环境搭建
- 电子技术基础数字部分PPT课件第六版康华光
- MySQL 8.0.25版本可视化安装包详细介绍
- 易语言实现主流搜索引擎快速集成
- 使用asyncio-sse包装器实现服务器事件推送简易指南
- Java高级开发工程师面试要点总结
- R语言项目ClearningData-Proj1的数据处理
- VFP成本费用计算系统源码及论文全面解析
- Qt5与C++打造书籍管理系统教程
- React 应用入门:开发、测试及生产部署教程
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功