没有合适的资源?快使用搜索试试~ 我知道了~
深度双层学习中的交叉验证正则化方法
深度双层学习Simon Jenni[0000−0002−9472−0425]和Paolo Favaro[0000−0003−3546−8247]瑞士伯尔尼大学{jenni,favaro}@ inf.unibe.ch抽象。我们提出了一种新的正则化方法来训练神经网络,比标准的随机梯度下降具有更好的泛化和测试误差我们的方法是基于交叉验证的原则,其中验证集用于限制模型过拟合。我们制定这样的原则作为一个双层优化问题。该公式允许我们定义验证集上的成本的优化,该优化受到训练集上的另一优化通过在训练集中的每个小批次上引入权重并通过选择它们的值来控制过拟合,使得它们最小化验证集上的误差在实践中,这些权重定义了梯度下降更新方程中的小批量学习率,这些小批量学习率有利于具有更好泛化能力的梯度。 由于其简单性,该方法可以与其他正则化方法和训练方案集成。我们广泛地评估我们提出的算法在几个神经网络架构和数据集,并发现它始终改善-证明模型的泛化,特别是当标签是嘈杂的。关键词:双层优化·正则化·泛化·神经网络·噪声标签1介绍机器学习的一个核心目标是建立泛化能力好的模型,即。例如,能够很好地处理新的未知数据。实现泛化的常见策略是采用正则化,这是一种结合关于合适模型的空间的附加信息的方法原则上,这可以防止估计模型过度拟合训练数据。然而,最近的工作[36]表明,目前应用于神经网络的正则化方法并不符合传统智慧。事实上,已经证明,神经网络可以学习将数据样本映射到任意标签,尽管使用了正则化技术,如权重衰减,dropout和数据增强。虽然神经网络的单独模型架构似乎具有隐式正则化效应[33],但实验表明,如果有足够的训练时间,它可以在任何数据集上过拟合这对任何经过训练的神经网络的性能造成了限制,特别是当标签部分有噪声时。在本文中,我们引入了一种新的学习框架,通过将训练公式化为双层优化问题来减少过拟合[5,6]。虽然2S. Jenni和P. Favaro训练小批量r`(θt),如果梯度一致i2T测试!i`i(θ)我r`j(θt)小批量权重是积极的和大的小批量权重!/Xr`j(θt)>r`i(θt)验证小批次我j2V测试|2+ µg|2+µˆj2V测试`j(θ)θ=θt−εi2T测试!ir`i(θt)随机梯度下降具有小批量自适应权重数据集图1.一、我们的双层公式的训练过程在每次迭代中,我们从数据集中抽取小批量样本,并将其分为验证集和训练集。验证用于定义随机梯度下降中使用的损失梯度的权重,如果训练集的梯度和验证集的梯度一致,则权重较大且为正。反之亦然,如果他们不同意,权重可能为零或负数。通常涉及到二层优化的数学公式,我们的最终算法是对当前训练方法的一个非常直接的修改。双层优化不同于传统的约束之一,也是一个优化问题。主要目标函数被称为上层优化任务,约束集中的优化问题被称为下层优化任务。在我们的公式中,较低级别的问题是对来自训练集的样本进行模型参数优化,而较高级别的问题则是对来自单独验证集的样本进行性能评估。因此,最佳模型是在一个数据集上训练,但在另一个数据集上表现良好的模型,这是一个严格遵循泛化定义的属性。在优化过程中,我们引入了一个标量权重为每个样本的小批量。这些变量的目的是从训练集中找到最接近验证集误差的小批次子集的线性组合。 它们也可以被视为一种方式:1)丢弃噪声样本和2)调整参数优化路径。最后,这些权重也可以被解释为超参数。因此,双层优化可以被看作是一种集成的方式,以不断优化的模型参数和超参数,如在交叉验证。在其一般形式中,已知双层优化提出计算挑战。为了解决这些挑战,我们建议在每次迭代时用二次函数近似损失这些近似结果在封闭形式的解决方案,类似于众所周知的随机梯度下降(SGD)更新规则。本质上,我们的双层优化计算训练集上的损失梯度,然后规定对SGD迭代的学习率的调整,使得更新的参数在训练集上表现良好。深度双层学习3验证集如我们稍后将展示的,这些调整取决于在验证集上计算的gradies与在验证集上计算的gradies在测试集“agree”上的计算情况①的人。我们的方法可以很容易地集成到当前的神经网络训练过程中,我们的实验表明,它产生的模型具有更好的一般化的几个网络架构和数据集。2先前工作我们给出了与本文的三个主要方面有关的先前工作的概述:1)深度网络的泛化特性以及学习算法如何影响它们,2)作为过拟合和3)深度学习背景下的双层优化。我们方法中的部分技术也可以在其他工作中找到,但具有不同的用途和目的。因此,我们不讨论这些情况。例如,Lopez和Ran- zato [20]也在训练梯度之间使用点积,但将其应用于多个任务的持续学习环境。理解深度学习中的泛化。虽然使用随机梯度下降训练的卷积神经网络在实践中推广得很好,但Zhanget al.[36]实验表明,这些模型能够拟合训练数据的随机标记。即使使用常见的显式正则化技术也是如此。最近的几项工作提供了可能的解释,尽管模型的高容量的明显的悖论良好的泛化。Kawaguchi等的工作。[16]提供了基于模型选择的解释(e.例如,在一个实施例中,网络体系结构)。他们的理论分析也导致了新的推广界和正则化策略。Zhang等人[37]将卷积神经网络(CNN)的泛化特性归因于随机梯度下降优化器的特性他们的结果表明,SGD有利于平坦的最小值,这反过来又对应于大(几何)边缘分类器。Smith和Le [29]通过评估有利于每个模型的贝叶斯证据提供了一种解释,该模型惩罚了尖锐的最小值。相比之下,我们认为,目前的神经网络训练方案可以通过在优化过程中利用交叉验证来完全避免过拟合。对抗嘈杂标签的记忆。损坏的标签的记忆是一种过拟合的形式,其具有实际的重要性,因为标签是不可靠的。因此,有几项工作已经解决了带噪声标签的学习问题。Rolnick等人[28]表明,神经网络可以对提供良好超参数选择的高噪声水平具有鲁棒性他们特别证明,较大的批量是有益的标签噪音的情况Patriani等人[25]用丢失校正方法解决标签噪声Nataran- jan等。[22]提供了一个理论研究的标签噪声的存在下的二进制分类问题,并提供相应地修改损失的方法。Jindal和Chen [15]使用具有softmax层的dropout和augment网络,该softmax层对标签噪声进行建模,并与net联合训练4S. Jenni和P. Favaro工作Sukhabar等人[31]在网络中引入额外的噪声层,该额外的噪声层使网络输出适应于匹配噪声标签分布。Reed等人[27]通过在给定类似感知的情况下用一致性的概念来增强分类目标来解决该问题。除了显式建模噪声分布的方法之外,几种正则化技术已被证明在这种情况下是有效的Jiang等的近期工作。[14]引入正则化技术来对抗标签噪声。他们训练一个网络(MentorNet)为每个训练样本分配权重。另一个最近的正则化技术由Zhang等人引入。[38]第30段。他们的方法是一种数据增强的形式,其中两个训练示例(图像和标签)以凸组合的形式混合。Azadi等人[2]提出了一种基于重叠群范数的正则化技术。他们的正则化器表现出良好的性能,但依赖于在正确标记的数据上训练的特征。我们的方法与上述方法不同,因为我们只鼓励模型参数更新,以减少共享样本模式的错误,而不是特定于示例的细节,从而避免记忆。双层优化不同的作者已经提出了双层优化方法来求解关于验证集上的性能的超参数[4,3]。Domke [8]介绍了一种截断的双层优化方法,其中通过运行给定步骤数的迭代算法来近似较低级别,随后通过算法微分计算验证损失的梯度我们的方法使用的限制情况下,使用一个单一的步骤,在较低级别的问题。Ochs等人[24]通过区分原始-对偶算法的迭代,将类似的技术引入到非光滑低级问题的情况Maclaurin等人[21]通过导出一种算法来精确地反转SGD,同时仅存储最少量的信息,来解决这种优化所需的昂贵的高速缓存的Ku- nish等[19]应用双层优化来学习变分图像去噪模型的参数。我们不使用双层优化来解决现有的超参数,而是通过在每次迭代中为随机梯度样本分配权重来引入和解决新的超参数。Meta学习。我们提出的算法与Meta学习文献[10,23,34]有一些相似之处。 最值得注意的是,Finn等人的MAML算法。[10]还结合了两个数据集的梯度信息,但以不同的方式进行:他们的方法使用二阶导数,而我们只使用一阶导数。总的来说,我们的方法的目的和数据与元学习设置完全不同:我们只有一个任务,而在元学习中有多个任务。3学习概括给出m个样本对(x(k),y(k))k=1,…m,其中x(k)∈X表示输入数据,y(k)∈ Y表示目标/标签。我们用φθ:X›→Y表示一个依赖于参数θ∈Rd的模型,其中d是正整数。在我们所有的实验中,这个模型是一个神经网络,θ收集了它的所有参数。为了衡量模型的性能,我们引入损失函数L:Y ×Y›→深度双层学习5(θ),(k)(k)θ,ωj∈VtΣ2R/样品。 由于我们评估了b个小批次Bi∈ {1,. . . ,m},i= 1,. . . ,b,其中,对于i j,Bi∩ Bj= Ø,我们将损失重新定义为Σ。.ΣΣik∈BiL φθx,y.(一)在每次迭代时,我们收集小批量U t{1,. . . ,b},我们将其划分为两个单独的集合:一个用于训练T t<$U t,一个用于验证Vt <$U t,其中T t<$Vt= U t和T t<$Vt= U t。因此,训练集中的小批量Bi具有i∈ Tt,并且验证集中的小批量B i具有i∈ Vt。在我们所有的实验中,验证集Vt总是单例(一个小批)。3.1双层学习在第t次迭代时,随机梯度下降(SGD)仅使用一个小批量来通过以下方式更新参数:θt+1=θt−i(θt),(2)其中,是SGD学习率,i∈ Ut。相反,我们考虑小批量的子集TtUt,并寻找最接近验证误差的损失的线性组合。我们引入一个附加系数!i在Tt中的每个小批次,我们在训练期间估计。然后,我们的任务是通过在训练集T t <$U t中专门使用小批量来找到我们模型的参数θ,并识别系数(超参数)!i,使得模型在验证集VtUt上表现良好。因此,我们建议优化θ,ω=argminj(θ(ω))+µ|ω|2su bj. toθ(ω)=argminθ¯|1 = 1,|1=1,i∈Tt!ii(θ<$)(三)其中ω是收集所有的向量!i,i∈ Tt和μ >0是调节权重分布的参数(大值将鼓励跨小批次的请注意,如果我们将所有系数相乘,则较低级别问题的解不会改变!i是严格的正常数。因此,要固定ωweint的大小,必须使用L1normalizationctrat|ω|1=1。解决上述两层问题的经典方法是求解较低层问题的二阶导数中的线性系统,即所谓的隐式微分[8]。这个步骤导致求解非常高维的线性系统。为了避免这些计算挑战,在下一节中,我们引入了一个近似。请注意,当我们在实验中比较双层公式(3)与SGD时,我们通过使用每个样本相同的访问次数来平衡计算复杂性。3.2近端制剂为了简化二层公式(3),我们建议解决一系列近似问题。第t次近似问题的参数估计6S. Jenni和P. Favaro2i ∈T t我我λˆΣaredenotedθt+1. 基于先前的参数估计θ t,经由损失函数的一阶泰勒展开来近似上、下水平和下水平预测。例如,我们让i(θ)(四)由于上述泰勒展开仅在前一个参数θt附近成立,因此,我们可以选择近似二次多项式。|θ−θt|二、通过插入线性近似(4)和问题(3)中的近似项,我们得到以下公式θt+1,ωε=argminθ,ωΣj∈Vtj(θt)+j(θt)(θ(ω)−θt)+|2|22λ+µ|ω|2S. t.θ(ω)=argminθ¯|1 = 1,|1=1,Σi ∈Tt!我Σ Σi(θt)+|2|22ǫ(五)其中系数λ,λ>0。较低层次的问题现在是二次的,可以用封闭形式求解。这将产生与SGD相同的更新规则步骤(2)当!i=1θ(ω)=θt− Σ! ∇ℓ (θt).(6)现在我们可以把这个解代入上层问题中,得到Σ|ω(θt)|2ω=argmin-!∇ℓ (θt) ⊤∇ℓ(θt)++µ|ω|2θ,ωj∈Vt,i∈Tt i ji2λ/2S. t.|1 =1。|1=1.(七)我们通过计算λ=λ/和µ=µ/来实现这一点。为了找到最佳的计算效率,请执行以下操作:|ω|1=1并且简单地求解无约束优化。之后,我们执行L1标准化到解决方案。作为第一步,我们计算成本泛函关于wi的导数,并将其设置为零i。例如,i∈ T t0 =−(θt)(θt)+1! ∇ℓ(θt)⊤∇ℓ(θt)+µˆ! .(八)j∈Vtjiλk∈T tkkii我们现在通过忽略所有项来近似第二和,使得k1=i,i。例如,Σ0 =j∈Vt−j(θt)i(θt)+ .Σ1|∇ℓi(θt)|2+µg!第九章从而得到权重更新规则i ∈ T t,!我Σ←j∈Vt∇ℓj(θt)⊤∇ℓi(θt)|2/ λ + µ|2/λˆ+µˆω=ω/|ω|1.(十)由于eq.(8)描述了一个线性系统,它可以通过几种迭代方法精确求解,例如Gauss-Seidel或连续的过松弛[12]。然而,我们发现,使用这种水平的准确性并没有给一个实质性的改善,在模型的性能,以证明额外的计算成本。我们、深度双层学习7i ∈T t我我然后可以将更新规则(10)与参数θ的更新(6)并获得新的梯度下降步骤θ(ω)=θt−Σ!ˆ∇ℓ(θt).(十一)我不相信!可以看作是一个简单的网络,可以在网络上运行。权重的更新规则遵循一个非常直观的方案:如果训练集中的小批量的梯度与在训练集上的小批量的梯度一致,则训练集上的小批量的梯度也是正的且大的,并且它们对应的权重也是正的且大的。这意味着我们鼓励更新参数,同时最小化上层问题。当这两个梯度不一致时,即如果它们正交∇ℓj(θt)⊤∇ℓi(θt)=0orintheoppositedirections∇ ℓj(θt)⊤∇ ℓi(θt)0,then相应的权重也被分别设置为零或负值(见图2)。培训程序的一般概述)。此外,这些内积通过来自训练集的小批次的梯度幅度进行缩放,并且当μ >0时避免除以零。注1. 必须注意每个小批次中的样品组成,因为我们的目标是用几个小批次的线性组合近似验证误差事实上,如果训练集的小批量中的样本与验证集的小批量中的样本非常独立(例如,它们属于分类问题中非常不同的类别),则它们的内积平均将趋于非常小。这将不允许参数θ的估计中的任何进展。在每次迭代中,我们确保来自训练集的每个小批次中的样本具有与来自验证集的小批次中的样本重叠的标签。4执行为了实现我们的方法,我们用动量修改SGD [26]。首先,在每次迭代t,我们以这样的方式对k个小批次B1进行采样,使得标签在k个小批次上 的分 布是 相同 的( 在实 验中 ,我 们考 虑k∈{2, 4, 8, 16,32})。接下来,我们计算每个小批次Bi上损失函数的梯度θt(θt)。Vt仅含有一个小批次的索引,且Tt为所有所述最小批次的索引。我们把u∈v∈i∈Tt,u∈q. (十)、这是-加权梯度i∈T t!ii(θt)然后被馈送到神经网络优化器。5实验我们进行了广泛的实验,用于训练图像分类器的几个常见的数据集第5.1节显示了验证几种设计选择的消融。在第5.2和5.3节中,我们遵循Zhang等人的实验设置。[36]以证明我们的方法减少了样本记忆并提高了测试时对噪声标签的性能。在第5.4节中,我们展示了小数据集的改进。本节考虑的数据集如下:8S. Jenni和P. FavaroCIFAR-10 [17]:它包含大小为32 × 32像素的50 K训练图像和10 K测试图像,平均分布在10个类中。CIFAR-100 [17]:它包含50 K训练图像和10 K测试图像,大小为32× 32像素,平均分布在100个类中。Pascal VOC 2007 [9]:它包含5,011个训练图像和4,952个测试图像(训练值集)的20个对象类。ImageNet [7]:它是一个包含来自1K类的对象的1.28M训练图像的大型数据集。我们在验证集上进行测试,该验证集具有50K图像。我们评估我们的方法在几个网络架构。在Pascal VOC和ImageNet上,我 们 使 用 AlexNet [18] 。 继 Zhanget al. [36] 我 们 使 用 CifarNet ( 一 种AlexNet风格的网络)和一个小的Inception架构,该架构适用于CIFAR-10和CIFAR-100的较小图像尺寸。我们建议读者参考[36]以获得这些架构的详细描述。我们还训练了ResNet架构的变体[13],以与其他方法进行比较。5.1消融我们使用CifarNet和Inception网络对CIFAR-10进行了广泛的消融实验网络在干净标签和具有50%随机噪声的标签上进行训练我们报告训练标签(干净或嘈杂)的分类准确性和干净测试标签的准确性所有消融实验中的基线比较8个小批次,并使用μ = 0。01且λ= 1。两个网络都具有单个丢弃层,并且基线配置在所有比较的小批量中使用相同的丢弃网络在大小为128的小批量上训练了200个epoch我们不使用CifarNet的数据增强,但我们使用Inception网络的标准增强(即。例如,随机裁剪以及亮度和对比度的扰动因此,Inception网络的情况更接近于训练神经网络的常见设置,而CifarNet的情况下没有增强使得过拟合更有可能。 我们使用动量为0的SGD。9,初始学习率为0。在CifarNet的情况下为01,在CifarNet的情况下为0。1为Inception 学习率降低了0倍。95后每一个时代虽然在我们的公式中,验证和训练集将所选择的小批量分成两个单独的集合,但是在一个时期之后,验证集中使用的小批量可以用于训练集中,反之亦然。我们测试的情况下,我们手动强制验证集中使用的任何示例(在小批量中)都不用于训练,并且没有发现我们探索不同大小的单独验证集和训练集。我们定义为验证比的样本的分数从数据集用于验证。图图2展示了验证比(顶行)、比较的小批次的数量(第二行)、比较的小批次的大小(第三行)和超参数μ(底行)的影响我们可以观察到,验证比率对性能只有很小的影响我们看到随着验证集大小的增加,测试准确度总体呈负趋势,这可能是由于训练集大小的相应减少小批量的数量对深度双层学习9图二、CIFAR-10上的烧蚀实验,使用CifarNet(小型AlexNet风格网络)(左)和小型Inception网络(右)。我们改变验证集的大小(第1行),比较的小批量的数量(第2行),小批量大小(第3行)和超参数μ(第4行)。这些网络在干净和50%嘈杂的标签上进行训练。训练期间的标签噪声的量在括号中指示。我们在干净或有噪声的训练数据上显示准确性,但总是在干净的数据上评估它。注意,使用完整训练数据作为验证集的基线在顶行上用虚线指示。10S. Jenni和P. Favaro我我网络性能,特别是在CifarNet的情况下,其中过拟合更有可能。请注意,在本实验中,我们保持训练步骤的数量不变。因此,具有更多小批次的情况对应于较小的批次大小。虽然在嘈杂的标签的情况下的性能随着比较的小批量的数量而增加,但我们观察到在干净的数据上的性能下降我们想提到的是,2个小批次的情况是相当有趣的,因为它相当于基于具有单个验证梯度的点积翻转(或不翻转)单个训练梯度的符号。为了测试在批次数量增加的情况下的性能是否是由于批次大小,我们进行了实验,其中我们改变批次大小,同时保持比较批次的数量固定在8。由于这种修改会导致更多的迭代,因此我们相应地调整学习率计划。请注意,所有比较都使用相同的每个样本使用的总次数。我们可以观察到与不同数量的小批量的情况相似或类似的情况。这表明,在标签噪声存在的情况下,小的小批量会导致更好的泛化。还要注意批大小为1的特殊情况,这对应于每个示例的权重。除了较差的性能,我们发现这种选择是计算效率低下,干扰批量规范。有趣的是,参数μ似乎对两个网络的性能没有显著影响。总体而言,干净标签的性能对于超参数选择是相当稳健的,除了小批量的大小。在表1中,我们还总结了以下一组消融实验:a) ω上无L1-C导通电阻:我 们 如 何 使 用 L1导通电阻|ω|1=1对于干净标签和噪声标签都是有益的。 我们设置µ = 0。01和λ = 1,以确定权重的大小!i类似于具有L1约束的情况。 虽然μ和λ的调整可能会导致改进,但L1约束的使用允许在不调整现有模型的学习率计划的情况下插入我们的优化方法;b) 每层重量:在这个实验中,我们计算一个单独的!对于对应于每个层l的梯度,然后,我们还将L1归一化应用于权重!(l)每层。虽然在这种情况下,CifarNet在噪声数据上的结果有所改善,但CifarNet在干净数据上的性能和Inception网络在两个数据集上的性能明显下降;c) 小批量取样:这里我们不强制分配(噪声)比较的小批次中的标签相同。在这种情况下的差的性能突出了相同分布的标签在比较的小批量中的重要性;d) 丢弃:我们在所有比较的小批次中移除相等丢弃的限制。有些令人惊讶的是,这在大多数情况下提高了性能。注意,不相等的丢弃降低了深度全连接层中梯度的影响,因此在点积中给予早期卷积层的梯度更多权重此外,dropout本质上相当于在每次迭代时使用不同的分类器我们的方法可以鼓励梯度更新,适用于不同的分类器,可能会导致更普遍的表示。深度双层学习11表1. CIFAR-10上的烧蚀实验的结果,如在第2.2节中所述。5.1.模型在干净标签和具有50%随机噪声的标签上进行训练。我们在干净或嘈杂的训练标签和干净的测试标签上报告分类精度。还包括干净数据上的泛化差距(训练和测试准确性之间的差异)。我们还展示了基线模型和使用标准SGD训练的模型的结果实验CifarNet成立清洁50%随机清洁50%随机火车测试间隙火车测试火车测试间隙 火车测试SGD99.9975.6824.3196.7545.1599.9188.1311.7865.0647.64基线97.6075.5222.0889.2847.6296.1387.788.3545.4373.081a)L96.4474.3222.1295.5045.7979.4677.072.3933.8662.16b)每层ω97.4374.3623.0781.6049.6290.3885.255.1381.6049.62c)取样72.6968.194.5016.1323.9379.7878.251.5317.7127.20(d)辍学95.9274.7621.1682.2249.2395.5887.867.7244.6175.71表2. Inception网络在具有随机像素排列的数据上训练时的结果(每个图像固定)。我们观察到少得多的过拟合使用我们的方法相比,标准SGD模型火车测试间隙SGD50.033.216.8双层34.833.61.25.2拟合随机像素排列Zhang等人[36]证明CNN能够拟合训练数据,即使图像经历像素的随机排列。由于对象模式在这样的操作下被破坏,学习应该是非常有限的(限于像素颜色的简单统计)。我们使用Inception网络测试了我们的方法,该网络在经历像素的固定随机排列的图像上训练了200个epoch,并在表2中报告了与标准SGD的比较虽然这两种变体的测试精度相似,但使用我们的优化训练的网络显示出非常小的泛化差距。5.3部分损坏标签标签噪声的问题具有实际重要性,因为标记过程通常是不可靠的,并且在该过程中经常引入不正确的标签。因此,提供对训练标签中的噪声鲁棒 的方法是令 人感兴趣的 。在本节中 ,我们在 几个数据集(CIFAR-10,CIFAR-100,ImageNet)上进行实验我们比较其他国家的最先进的正则化和标签噪声的方法CIFAR-10和CIFAR-100。CIFAR-10和CIFAR-100随机标签损坏。我们测试我们的方法在不同水平的合成标签噪声。对于噪声水平π∈[0,1]和具有c个类的数据集,我们随机选择每个类的π样本的一部分,并均匀分配其他c−1个类的标签注意,这导致在CIFAR-10上90%标记噪声的情况下完全随机标记12S. Jenni和P. Favaro表3.与最先进的正则化技术和方法进行比较,以处理40%损坏标签上的标签噪声。方法参考文献网络CIFAR-10CIFAR-100Reed等人[27日][14个]ResNet百分之六十二点三百分之四十六点五Golderberger等人[第十一届][14个]ResNet百分之六十九点九45.8%Azadi等人[二]《中国日报》[二]《中国日报》AlexNet百分之七十五点零-吉朗等[14个][14个]ResNet76.6%56.9%Zhang等人[38个]-PreAct ResNet-1888.3%百分之五十六点四标准SGD-PreAct ResNet-1869.6%百分之四十四点九脱落(p = 0. 3)[30]-PreAct ResNet-1884.5%百分之五十点一标签平滑(0.1)[32]-PreAct ResNet-18百分之六十九点三46.1%双层-PreAct ResNet-1887.0%百分之五十九点八双层+[38]-PreAct ResNet-1889.0%61.6%图三. CifarNet是在CIFAR-10和CIFAR-100的数据上训练的,其中包含不同数量的随机标签噪声。我们观察到,我们的优化导致更高的测试精度和更少的过拟合在所有情况下相比,标准SGD。网络在具有不同数量标签噪声的数据集上进行训练。我们用我们的双层优化器训练网络,使用8个小批量,并使用训练集进行验证。该网络在大小为64的小批量上训练了100个epoch。学习时间表,初始学习率和数据增强与sec中的第5.1条使用CifarNet的结果总结在图中。3和图中的Inception的结果4.第一章我们观察到CifarNet上的标准SGD有了一致的改进在CIFAR-100上,我们的方法在高达50%的噪声水平下得到了更好的结果。我们比较了最先进的正则化方法以及表3中用于处理标签噪声的方法。比较中使用的网络是ResNet架构[13]的变体,如[14]和[38]中所述一个例外是[2],它使用AlexNet,但依赖于为其模型提供具有干净标签的单独大型数据集。我们使用与Zhang等人的最先进方法相同的架构。[38]我们的成果我们还探索了我们的双层优化与最后一行中[38]引入的数据增强的组合。这导致CIFAR-10和CIFAR-100的最佳性能。我们还包括使用Dropout [30]的结果,保持较低深度双层学习13见图4。Inception网络使用来自CIFAR-10和CIFAR-100的数据进行训练,其中随机标签噪声的数量在CIFAR-10上,与标准SGD相比,我们的优化在大多数情况下导致了更我们的方法还显示出更强的鲁棒性,噪声水平高达50%的CIFAR-100。表4. ImageNet上真实噪声模型的实验方法44%噪音清洁SGD50.75%百分之五十七点四双层52.69%百分之五十八点二概率P,如Arpit等人所建议的。[1]和标签平滑的结果如Szegedy等人所建议的。[32].在ImageNet上模拟真实标签噪声。为了在更真实的标签噪声上测试该方法,我们执行以下实验:我们使用预训练的AlexNet的预测标签来模拟现实的标签噪声。我们的理性是,神经网络的预测会犯与人类注释者类似的错误为了获得高噪声水平,我们在对训练集进行预测时保持dropout活动。这导致大约44%的标签噪声。然后,我们使用标准SGD和我们的双层优化器在这些标签上从头开始重新训练AlexNet表4中给出了该实验的结果和对干净数据的比较。在两种情况下,双层优化都带来了更好的性能,在有噪声标签的情况下,比标准SGD提高了近2%。在带有噪声标签的真实世界数据上进行实验。我们测试我们的方法上介绍的Xiao等人的Clothing1M数据集。[35]第35段。该数据集由属于14类的时尚图像组成它包含100万张带有噪声标签的图像,以及带有干净标签的其他较小集合,用于训练(50K),验证(14K)和测试(10K)。我们遵循与Patrini等人的最新技术相同的设置。[25]使用ImageNet预训练的50层ResNet。我们只在噪声数据上训练后达到69.9%,在干净的训练数据上微调后达到79.9%这些结果与[25]相当,分别为69.8%和80.4%14S. Jenni和P. Favaro图五.我们在Pascal VOC 2007训练集的不同分数上训练AlexNet进行多标签分类,并在测试集和完整的训练集上报告mAP。我们的优化技术导致更高的测试性能和更小的泛化差距在所有情况下。5.4小数据集小数据集带来了挑战,因为在这种情况下,深度网络很容易过拟合在这种情况下,我们通过在Pascal VOC 2007的多标签分类任务上训练AlexNet来测试我们的方法。训练图像被随机裁剪到原始图像的30%到100%之间的区域,然后调整大小为227 ×227。我们将学习率从0线性衰减。01到0,并在大小为64的minibatch上训练1K个epoch。我们使用双层优化方法,4个小批量,没有一个单独的验证集。在图5中,我们报告了在原始数据集的不同部分上从10种随机作物的平均预测在所有情况下,我们观察到一个小的,但一致的,比基线的改善。6结论与机器学习中的替代模型相比,神经网络似乎受益于训练期间的额外正则化。然而,神经网络仍然存在过拟合问题,目前的正则化方法影响有限。我们引入了一种新的正则化方法,实现了交叉验证的原则作为一个双层优化问题。该公式计算效率高,可以与其他正则化结合,并且可以在CIFAR 10/100,Pascal VOC 2007和ImageNet等具有挑战性的数据集上持续改进几种神经网络架构的泛化能力特别是,我们表明,所提出的方法是有效的,在避免过拟合噪声标签。鸣 谢 。 这 项 工 作 得 到 了 瑞 士 国 家 科 学 基 金 会 ( SNSF ) 资 助 号200021169622的支持。深度双层学习15引用1. Arpit,D.,Jastrzebski,S.,北卡罗来纳州巴拉斯Krueger,D.,Bengio,E.,Kanwal,M.S.,玛哈拉杰,T.,Fischer,A.,Courville,A. Bengio,Y.,等:深入研究深度网络中的记忆。arXiv预印本arXiv:1706.05394(2017)2. Azadi,S.,冯杰,Jegelka,S.,达雷尔,T.:带噪声标签的深度cnn的辅助图像正则化国际学习代表大会3. Baydin,A.G.,Pearlmutter,B.A.:机器学习算法的自动微分。ArXiv预印本arXiv:1404.7456(2014)4. Bengio,Y.:基于梯度的超参数优化神经计算12(8),18895. Bracken,J.,麦吉尔,J.T.:具有最优化问题的数学规划Inthe我的意思是。手术室Res.21(1)、37(Feb1973年)。https://doi.org/10.1287/opre.21.1.37,http://dx.doi.org/10.1287/opre.21.1.376. Colson,B.Marcotte,P.,Savard,G.:二层优化概述Annals ofOperrat ionsResearc h153 ( 1 ) , 235http : //doi. org/10 。 1007/s10479-007-0176-2 ,https://doi.org/10.1007/s10479-007-0176-27. Deng,J.,Dong,W.,索赫尔河Li,L.J.,Li,K.,李菲菲:Imagenet:一个大规模的分层图像数据库。计算机视觉与模式识别。pp. 248-255 第一章(20 09)8. Domke , J. : 基 于 优 化 建 模 的 通 用 方 法 In : Artificial Intel-LigENCEandSTATIS.pp. 3189. Everingham,M.凡古尔湖威廉姆斯,C.K.,Winn,J.,齐瑟曼,A.:pascal视 觉 对 象 类 ( voc ) 的 挑 战 。 International Journal of Computer Vision88(2),30310. Finn,C.,Abbeel,P.,Levine,S.:模型不可知元学习,用于快速适应深度网络。arXiv预印本arXiv:1703.03400(2017)11. Goldberger,J.,Ben-Reuven,E.:使用噪声自适应层训练深度神经网络国际学习代表大会(2016)12. Hadjidimos , A. : 逐 次 超 松 弛 法 及 相 关 方 法 。 J. Com-put.Appl.MATH。 123(1-2),177- 199(N 〇 v 2000)。 http://doi. org/10。1016/S0377-0427 ( 00 ) 00403-9 , http : //dx.doi.org/10.1016/S0377-0427(00)00403-913. 他,K.,张,X.,Ren,S.,孙杰:用于图像识别的深度残差学习。Iη:C〇mputerVisisinandPater nRecognitin。pp. 77014. 江,L.周志,Leung,T.,Li,L.J.,李菲菲:Mentornet:在损坏的标签上正则化非常深的神经网络arXiv预印本arXiv:1712.05055(2017)15. 金达尔岛Nokleby,M.,Chen,X.:使用dropout正则化从噪声标签中学习深度网络。arXiv预印本arXiv:1705.03419(2017)16. Kawaguchi,K.,Kaelbling,L.P. Bengio,Y.:深度学习中的泛化。arXiv预印本arXiv:1710.05468(2017)17. Krizhevsky,A.:从微小图像中学习多层特征(2009)18. Krizhevsky,A.,萨茨克弗岛Hinton,G.E.:使用深度卷积神经网络的图像网分类。在:神经信息处理系统的进展。pp. 109719. Kunisch,K.,Pock,T.:一种用于向量模型参数学习的双层优化方法。S1AMJ〇urnal〇nImag ingSciences6(2),93820. Lopez-Paz , D. , 等 : 持 续 学 习 的 梯 度 情 景 记 忆 。 In : Ad-vancesinNeuralInforRmatinProcessi ngSyss.pp. 647016S. Jenni和P. Favaro21. Maclaurin,D.,Duvenaud,D. Adams,R.:通过可逆学习的基于一致性的超参数优化。在:国际会议上的机器学习。pp. 211322. Natarajan,N.,迪隆岛Ravikumar,P.K.,Tewari,A.:在嘈杂的环境中学习。 在:Avancesineuralinner matonpoce ssssysss in。pp. 119623. Nichol,A.,Schulman,J.:爬虫:可扩展的元学习算法。arXiv预印本arXiv:1803.02999(2018)24. Ochs,P.,Ranftl,R.,Brox,T.,Pock,T.:具有非光滑下层问题的双层优化。在:国际会议上规模空间和变分方法在CommputerrVision。pp.65402TheDog(2015)25. Patrini,G.,Rozza,A. Menon,A.,诺克河Qu,L.:使神经网络对标签噪声具有鲁棒性:损失校正方法。计算机视觉与模式识别(2017)26. Qian,N.:梯度下降学习算法中的动量项神经网络12(1),14527. Reed,S.,李,H.,Anguelov,D.,塞格迪角Erhan,D.,Rabinovich,A.:使用自举在噪声标签上训练深度神经网络。ArXiv
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功