没有合适的资源?快使用搜索试试~ 我知道了~
Σ◦L F FFΣ我i=1D{}FF → L→LDF →F利用凸性的分类问题的块坐标下降优化器拉维湾作者声明:A.Trask,Mamikon A.作者:Eric C.Cyr计算研究中心,桑迪亚国家实验室,新墨西哥州阿尔伯克基,87123{rgpatel,natrask,mgulian,eccyr}@sandia.gov摘要二阶优化器对于深度学习具有令人感兴趣的潜力,但是与基于梯度的方法相比,二阶优化器具有增加的成本和对损失表面的非凸性的敏感性。 我们引入了一种坐标下降方法来训练深度神经网络,用于分类任务,该任务利用了线性层权重中交叉熵损失的全局凸性。我们的混合牛顿/梯度下降(NGD)方法是一致的隐藏层的解释,提供一个自适应的基础和线性层提供一个最佳的基础上的数据。通过交替其中CE、SM、LL和HL分别表示交叉熵损失、softmax层、线性层和隐藏层,并且是合成。我们用W表示线性层权重,并考虑一般类别的隐藏层(例如,密集网络,卷积网络等),由参数k表示相关联的权重和偏置。 最后三层表示为NcLCE(x;y)= −yilogxi,i=1在二阶方法找到全局最优参数之间,iexp(xi)(二)线性层的参数和梯度下降来训练隐藏层,我们确保自适应基的最佳拟合,FSM(x)=Ncj=1、exp(xj)数据贯穿训练始终。二阶步长中的Hessian的大小仅与线性步长中的权重数成比例。FLL(x)=Wx,层而不是隐藏层的深度和宽度;此外,该方法适用于任意隐藏层架构。以前的工作应用这种自适应基透视回归问题证明了显着的improvements的准确性,减少训练成本,这项工作可以被看作是这种方法的分类问题的扩展我们首先证明了所得到的Hessian矩阵是对称半定的,并且牛顿步实现了全局极小。通过研究制造的二维点云数据的分类,我们证明了使用NGD训练时,验证误差的改善和隐藏层中编码的基函数的显著定性差异应用于密集和卷积架构的图像分类基准,显示出提高的训练准确性,表明二阶方法优于梯 度 下 降 。 该 算 法 的 Tensorflow 实 现 可 在www.example.com上github.com/rgp62/。用于分类的牛顿/梯度坐标表示为=(xi,yi)N数据/标签对,并考虑以下类别的深度学习架构:L(W,N, D)=和地图HL:RN,以RN为基础;LL:RN基RN类;SM:RN类;以及CE:RN类R 。 这里,Nbasis是隐藏层输出的维数;这个符号在下一段中解释。标准分类问题是为了解决( W, W ) =argmin( W , C , ) .(三)W,Cyr et al.最近的工作(2019)对回归问题进行了类似的权重划分,将权重划分为线性层权重W和隐藏层权重W。使用这种分解进行了两个重要的观察。首先,隐藏层的输出可以被视为具有与产生预测的系数相对应的学习权重W的自适应基础。第二,保持k固定会导致基系数W的线性最小二乘问题,该问题可以求解全局最小值。这项工作建立在这两个观察分类问题。隐藏层FHL的输出定义了一个基础Φα(·,α):RNin→R,其中α=1。 . . 其中Φα(x,n)是HL(x,n)的行α。因此,softmax分类层的输入是N个类函数,每个类函数定义使用自适应基Φα和单行的权矩阵W.这种分类方法的关键在于(xi≠yi)∈DLCE(·;yi)<$FSM<$FLL(·;W)<$FHL(xi;n), (一)是观察到,对于所有n,函数S(W,D)=L(W,N,D)(5)版权所有© 2021本文由其作者。 知识共享许可署名4.0国际(CC BY 4.0)对于W是凸的,所以全局最小值W=argminS(W,D)(6)WSL FLDB DW←W+λs;oldB DΣΣΣΣS×ΣΣ.函数f(x):=logexp(x)通过写i.ΣBB DBSL FSΣ我N类exp(xj)可以通过具有线搜索的牛顿迭代来获得 在算法部分,我们介绍了一个坐标下降优化器,它在(6)的全局最优解和(3)的梯度下降步骤最小化之间交替。将其与隐藏层的解释结合起来作为提供数据驱动的自适应基础,这确保了在训练期间参数沿着流形演变,提供自适应基础与数据的最佳拟合(Cyret al. 2019年)。 我们在与以前工作的关系部分总结了这一观点,在结果部分,我们研究了这种方法与随机梯度下降(GD)在准确性和隐藏层基础的定性属性方面的不同之处。Hessian的凸性分析和可逆性在 下 文 中 , 我 们 使 用 凸 函 数 的 基 本 性 质 ( Boyd ,Boyd,and Vandenberghe 2004)和Cauchy-Schwartz不等式(F olland1999)来证明(5)是凸的。 回想一下,凸性在仿射变换下是保持的。我们首先注意到LL(Wi,Wi)是线性的。通过(1),只剩下表明组合CESM是凸的。我们写,对于任何数据向量y,LCEFSM(x;y)数据:批次、老化时间、老化时间、α、ρ结果:无新,W新对于j ∈ {1,...,牛顿步骤计算梯度G=WS(Wold,B)和HessianH=WWS(Wold,B);求解Hs=−G;W<$←Wold+s;λ←1;当S(W†,B)> S(Wold,B)+αλG·s时,λ←<$λρ;结束结束Wnew←W<$;new←GD(算法1:将用于分类的坐标下降算法应用于单个批次。 在本文中,我们使用ρ = 0。5,α = 10−4。算法传统牛顿法在该问题中的应用(3)需要解决一个稠密矩阵问题,N个种类=−.exp(x)j=1等于网络中参数的总数在相比之下,我们在应用牛顿方法仅求解(6)中的W和梯度的单步之间交替N个种类=−i=1xi+N个种类i=1N个种类yilogj=1exp(xj)整数基于剩余参数的优化器;牛顿因此,step与线性层中的权重(N个基N个类)由于是凸的,牛顿我们一直在追求一个N个种类=−i=1N个种类yixi+ logj=1exp(xj)简单的回溯方法,从标准牛顿获得步长方向和大小,并反复减小步长方向,直到满足Armijo条件,确保充分减少损失(Armijo1966;DennisJr和上面的第一项是仿射的,因此是凸的。我们证明了第二项的凸性N类i=1f(θx+(1−θ)y)Schnabel1996)。 对于梯度下降步骤,我们应用Adam(Kingma和Ba 2014),尽管可以应用任何基于梯度的优化器;我们通过函数GD(λ,,W)表示对固定W的隐藏层的这种更新。为了处理大型数据集,随机梯度下降(GD)更新使用在不相交子集上计算的梯度的参数= logN个种类i=1(exp(xi))θ(exp(yi))1−θ。(Bottou2010)。 为了暴露相同的并行性,我们通过求解限制于B的(6)来在相同的批次上应用我们的坐标下降更新。请注意,这意味着最佳的应用Cauchy-Schwartz,1/p=θ和1/q=1−θ,f(θx+(1−θ)y)只选择W我们总结的方法,Alg. 1.一、虽然H和G可以从(2)解析地计算≤log- 是的N类exp(xi)是的N类exp(yi)Σ1−θ为了便于实现,我们使用了自动微分系统Hs=−G可以使用稠密或i=1i=1迭代法在(6)中证明了S的凸性,并且=θf(x)+(1 − θ)f(y)。因 此,f , 以及 CESM和 ,是 凸 的。 因 此, 关于 W 的HessianH是对称半正定函数,允许在以下部分中应用凸优化器来实现全局最小值。因此,半正定的Hessian,我们可以应用共轭梯度法。我们观察到,求解相对紧密的残差会导致训练过程中的过拟合,而运行固定数量的Ncg迭代会提高验证精度。因此,我们在下面的研究中将Ncg我们还试验了稠密求解器;由于秩不足,我们考虑了yilogi=1·BBD形式H†=(H +I)−1,其中取有限的> 0提供类似的精度增益。我们推测,这些方法可能隐含地使训练规则化。为简洁起见,仅使用迭代方法呈现结果;所得精度与密集求解器相当。在下面的部分中,我们通常只使用少量的牛顿和CG迭代,因此额外的成本相对较小。我们稍后提供收敛性研究,比较我们的技术GD使用亚当优化器和相同的算法。我们注意到,缺乏优化的软件阻止了我们的方法与标准GD的性能的直接比较;虽然优化的GPU实现已经可用于GD,但如何最有效地并行化当前方法仍是一个悬而未决的问题。出于这个原因,我们根据迭代来比较性能,将挂钟基准测试推迟到将来的工作中,当公平的比较是可能的时候。与以前作品的我们寻求Cyr等人的扩展。(2019年)。 这项工作使用了自适应基础的角度来激励块坐标下降的方法,利用线性最小二乘求解器。他们开发的训练策略可以在变量投影的名称下找到,并用于训练小型网络(McLooneet al.1998;Pereyra,Scherer,and Wong2006). 除了Cyretal. (2019),神经网络产生自适应基础的观点已经被几个近 似 理 论 家 考 虑 , 以 研 究 深 度 网 络 的 准 确 性( Yarotsky2017;Opschoor , Petersen 和 Schwab2019;Daubechies等人。2019年)。Cyr等人将自适应基视角与块坐标下降优化相结合,证明了准确性和性能的显著提高。(2019年),但仅限于L2亏损。没有以前的工作已经考虑了这种方法训练深度神经网络,交叉熵损失通常用于我们在这里开发的分类Bottou,Curtis和Nocedal(2018)提供了关于机器学习中使用的数值优化器的工作广度的简要总结。最近的几项工作已经寻求不同的方法来结合二阶优化器以加速训练并避 免 选 择 超 参 数 和 训 练 时 间 表 的问题( Osawaet al.2019 , 2020;Botev , Ritter 和 Barber 2017; Martens2010)。一些人采用拟牛顿方法,定义近似海森函数,或应用因子分解来降低海森函数的有效带宽(Botev,Ritter和Barber 2017; Xu,Roosta和Ma-honey 2019)。 我们的工作采用(块)坐标下降策略,将自由度划分为适合更复杂优化的子问题(Nesterov2012;Wright2015;Blondel,Seki和Uehara2013)。许多工作已经成功地在ML上下文中采用 了 这 种 方 案 ( 例 如 ( Blondel , Seki 和Uehara2013;Fu1998;Shevade和Keerthi2003;Clarkson,Hazan和Woodruff 2012)),但它们通常依赖于变量的随机分区,而不是将深度神经网络的权重划分为隐藏层变量及其补充。 提取非线性损失函数的凸近似的策略是经典的(Bubeck2014),一些工作试图通过最小化替代l2问题来最小化一般损失函数(Barratt和Boyd2020)。结果我们研究的性能和性质的NGD算法相比,标准的随机梯度下降(GD)的几个基准问题与各种架构的tures。我们首先将密集网络架构应用于峰值问题的分类。这允许我们绘制和比较当用以下训练时在隐藏层(4)中编码的基函数Φα(,Φ α)的定性性质:这两种方法。然后,我们比较了NGD的性能和GD的标准图像分类基准CIFAR-10,MNIST,和时尚MNIST使用密集和卷积(ConvNet)架构。 在本节中,我们将比较Alg的迭代性能。对于NGD和随机梯度下降的迭代 , 每 个 迭 代 都 基 于 一 批 实 现 相 应 算 法 中 的 参 数(W,ω)的单次更新;这是epoch数乘以batch数峰值问题峰值基准是一个用于理解分类算法定性性能的合成数据集(Haber和Ruthotto 2017)。这里,二维单位正方形[0,1]2中的散乱点云被划分为不相交的集合. 分类问题是确定哪一个一个给定的2D点所属的那些集合。 二维性质允许NGD和GD如何对数据进行分类的可视化。特别地,容易获得由隐藏层编码的非线性基如何映射到分类空间上以及线性层如何组合基函数以在输入空间上分配概率图的图。我们训练一个深度为4的稠密网络,其形式为(1),其中Nin=2,三个隐藏层的宽度为12,收缩为宽度N基=6的最终隐藏层,具有双曲正切激活和批量归一化,并且N类=5类。正如Haber和Ruthotto(2017)所指出的从[0,1]2中采样5000个训练点。图2中最左上角的图像显示了采样数据点及其观察到的类。对于峰值基准,我们使用包含所有训练点的单个批次,即=. NGD算法每个训练步骤使用5次牛顿迭代,其中3次CG迭代近似线性求解。亚当在NGD和GD的学习率都是10−4。图1展示了对于相同的体系结构,经过几次迭代后,NGD在训练和验证准确性方面都比GD快速提高对于大量的迭代,这两种方法都达到了相当的训练精度,尽管NGD更好地推广到验证集。验证准确性的提高在图2中得到了证实,图2比较了使用GD和NGD进行训练的代表性虽然只显示了一个实例,但这些结果的特征与以相同方式针对峰值问题训练的其他神经网络一致。最上面一行说明了预测的类argmax[FSM(x)]∈{0,1,2,3,4},x∈[0,1]2,GDNGDF∈{}1.01.00.80.80.60.60.40.20 2000 4000 6000 800010000迭代0.40.20.00 2000 4000 6000 8000 10000迭代图1:梯度下降(GD)和牛顿/梯度下降(NGD)算法的峰值问题的训练(左)和验证(右)精度。 实线表示16次独立运行的平均值,阴影区域表示平均值±一个标准差。训练数据,表明NGD训练的网络比GD训练的网络更准确地预测最低训练点密度的类别i = 2。剩余的图像集将分类概率图[SM(x)]i(i为0,1,2,3,4)(中间行)和由每个优化器学习的六个基函数Φα(x,x)(底部行)学习基础的差异是惊人的。GD学习了一个几乎不连续的基础,其中,每个基函数的端口似乎适合类边界。另一方面,NGD学习一个更平滑的基础,可以组合起来给出更清晰的类边界预测。这体现在分配给每个类别的所得概率图中;较粗糙的GD基础的线性组合导致远离相关类别的概率的印记和分配。这解释了与GD相比,NGD的验证准确度提高,尽管最终训练准确度相似。 NGD算法将基的细化与系数的确定分开。 这提供了对最终基础的有效调节,从而导致改进的泛化。图像识别基准在本节中,我们考虑了图像分类基准的集合:MNIST(Deng2012;Grother1995),fash-ion MNIST(Xiao,Rasul和 Vollingen2017 ) 和 CIFAR- 10 ( Krizhevsky ,Hinton等人)。2009年)。 我们主要关注CIFAR-10,因为它增加了难度;众所周知,人们可以在MNIST基准测试中获得近乎完美的精度,而无需复杂的架构选择。对于所有问题,我们考虑一个简单的密集网络架构-一 个 简 单 的 比 较 。 本 研 究 的 代 码 见github.com/rgp62/。对于本节中报告的所有结果,我们首先通过最大化训练运行的验证准确度来优化表1中列出的超参数我们使用scikit-optimize包中的高斯过程优化工具和默认选项执行此搜索(Headet al. 2018年)。这一过程是为全球发展和国家发展执行的,以便进行公平的比较。搜索范围如表1所示,其中包含本研究中检查的对于所有问题,我们将数据划分为训练集、验证集和测试集,以确保超参数优化不会过拟合。对于MNIST和时尚MNIST,我们考虑50K/10K/10K分区,而对于CIFAR-10我们考虑40K/10K/10K分区。所有的训练都是在100个时期内以1000的批量大小执行的对于所有结果,测试准确度均在第一标准范围内图3中包含的偏差误差条。图3显示了使用最佳超参数的密集架构的训练和验证精度,该架构具有宽度为128和10的两个隐藏层以及ReLU激活函数。我们发现,对于所有数据集,NGD更快地达到最大验证精度相比,GD,而这两个优化器实现了类似的最终验证精度。对于更困难的CIFAR-10基准测试,NGD在大约四分之一的迭代次数内达到了GD的最大验证精度。在图3中,我们还使用CIFAR-10数据集将密集架构与以下ConvNet架构进行比较,卷积→最大池化→卷积真正强调优化器的作用,对于CIFAR-108通道,3x3内核2x2窗口16通道,3x3内核我们还利用卷积架构(ConvNet)。这→最大池化→卷积→密集→密集强调了我们的方法适用于一般隐藏层2x2窗口16通道,3x3内核宽度64宽度10建筑我们的目标是证明在所有其他方面保持平等的情况下,由于优化而提高了准确性。例如,对于CIFAR-10,最先进的技术要求应用数据增强和复杂架构等技术来实现良好的简单起见,我们不考虑此类复杂性,其中卷积层和密集层使用ReLU激活函数。再次,NGD达到GD的最大验证精度在四分之一的迭代次数,也导致最终测试精度的1.76%的提高。这说明NGD可以加速训练,并可以提高各种架构的准确性GDNGD训练精度验证精度训练数据GD预测NGD预测43210GD:类别NGD:类别GD:基函数NGD:基函数图2:峰值基准测试的结果,以及在相同架构上的NGD和GD之间的比较在这个例子中,GD获得了99.3%的训练准确度和96.2%的验证准确度,而NGD获得了99.6%的训练准确度和98.0%的验证准确度上图:训练数据(左)、GD分类(中)和NGD分类(右)。GD错误地分类了大部分输入空间。中:线性层和softmax层结合基函数为每个类分配分类概率。在GD中学习的尖锐基础导致远离集合的伪影和概率属性(左),而NGD中的扩散基础提供了类边界的尖锐特征(右)。底部:隐藏层编码的自适应基础,如GD(左)和NGD(右)所学习的。对于GD,基是尖锐的,并且各个基函数符合分类边界,而NGD学习更规则的基。超参数范围MNIST时尚MNISTCIFAR-10CIFAR-10ConvNet学习率[10-8,10- 2]10 - 28110 - 22610 - 3 3310 - 23010 - 3 5710 - 25010 - 26610 - 230亚当衰变参数1[0。5、 1]0。5370。6300。7560。6570。6290。8910。7550。657亚当衰变参数2[0。5、 1]0。8300。6160。8080。9760。7820。8080。8580。976CG迭代[1、 10]3122牛顿迭代法[1、 10]6547表1:研究中的超参数变化(第一列),考虑的范围(第二列),以及MNIST(第三列),Fashion MNIST(第四列),CIFAR-10(第五列)和CIFAR-10与ConvNet架构(最后一列)的最佳值。对于学习率和亚当衰减参数,示出了NGD之后是GD的最佳值 最优CG和牛顿迭代仅适用于NGD。CIFAR-10图3:使用密集架构的CIFAR-10、Fashion MNIST和MNIST数据集以及使用ConvNet架构的CIFAR-10的训练精度(顶行)和验证精度(底行)显示了10次训练运行的平均值和标准差。结论由深度神经网络的自适应基解释激发的NGD方法是用于分类问题的块坐标下降方法。该方法将线性层的权值与前几层非线性层的权值分离。NGD使用这种分解来利用交叉熵损失相对于线性层变量的凸性。它利用牛顿法来近似全局最小值为一个给定的一批数据之前,执行一个步骤的梯度下降的其余变量。因此,它是一种混合的一阶/二阶优化器,它从仅与线性层中的权重数量成比例的二阶子步骤中提取显著的性能,使其成为用于训练非常深的神经网络的二阶方法的有吸引力和可行的应用。将此优化器应用于密集和卷积 网 络, 我 们已 经证 明 了峰值,MNIST,Fashion MNIST 和 CIFAR-10 基 准 测 试 的 验 证 损 失 的epoch数量的加速,以及使用卷积网络的峰值基准测试和CIFAR- 10基准测试的准确性的提高在峰值基准中检查网络隐藏层中编码的基函数,发现NGD和随机梯度下降在探索对应于隐藏层变量的参数空间方面存在显着的定性差异。这一点,以及牛顿步骤中的公差作为隐式正则化子的作用,值得进一步研究。学习的基础和概率类的规律性的差异表明,可以通过仅改变所使用的优化方案来获得质量上不同的模型 我们假设,这种更经常的基础可能具有理想的鲁棒性,这可能会影响模型的灵敏度。这可以应用于训练网络,使其更强大地抵御对抗性攻击。确认桑迪亚国家实验室是一个多任务实验室,由霍尼韦尔国际公司的全资子公司桑迪亚有限责任公司的国家技术和工程解决方案管理和运营,根据合同DE-NA 0003525,为美国能源部国家核安全管理局提供服务。本文介绍了客观的技术成果和分析。任何主观的观点或意见,可能会在文件中表达并不一定代表美国的意见能源部或美国政府。SAND编号:SAND 2021 -3013 C.R.帕特尔,北Trask和M.古莲是由美国资助的。美国能源 部 高 级 科 学 计 算 研 究 办 公 室 ( Office of AdvancedScientific Computing Research under the Collaboratoryon Mathematics and Physics-Informed Learning Machinesfor Multiscale and Multiphysics Problems,PhILMs)。E.C. Cyr得到了能源部早期职业计划的支持。M. Gulian得到了桑迪亚国家实验室的John von Neumann奖学金的支持引用阿米霍湖1966.具有Lips-chitz连续一阶偏导数的函数的极小化.太平洋数学杂志16(1):1Barratt,S.T.; 和Boyd,S.P. 2020年。最小二乘自动调整。工程优化1-22.Blondel,M.; Seki,K.;和Uehara,K. 2013. 大规模稀疏多类分类的块坐标下降算法。机器学习93(1):31Botev,A.;Ritter,H.;Barber,D.2017年。深度学习的实用高斯-牛顿优化。 第34届机器学习国际会议论文集-第70卷,557-565。JMLR。org.博图湖2010.大规模机器学习与随机-tic梯度下降在COMPSTAT'2010的会议记录斯普林格。博图湖;Curtis,F.E.的; 和Nocedal,J.2018年大规模机器学习的优化方法。Siam Review 60(2):223-311.Boyd,S.; Boyd,S. P的;和Vandenberghe,L. 2004. 凸优化。剑桥大学出版社.Bubeck,S. 2014.凸优化:算法和复杂性。arXiv预印本arXiv:1405.4980。Clarkson,K. L.的; Hazan,E.;和Woodruff,D. P. 2012.机器学习的次线性优化。 Journal of the ACM(JACM)59(5):1-49.Cyr,E. C.的; Gulian,M.一、帕特尔河,巴西-地G.地;Perego,M.;和Trask,N. A. 2019.深度神经网络的鲁棒训练和初始化:自适应基础观点。 arXiv 预印本arXiv:1912.04862。多 贝 西 岛 DeVore , R.; Foucart , S.; Hanin , B.; 和Petrova,G. 2019年。非线性近似和(深度)ReLU网络。arXiv预印本arXiv:1905.02199。登湖,澳-地2012.用于机器学习研究的手写数字图像MNIST 数 据 库 [ 最 佳 网 络 ] 。 IEEESignal ProcessingMagazine 29(6):141-142.Dennis Jr,J. E.;和Schnabel,R. B. 1996. 无约束最优化和非线性方程的数值方法,第16卷。暹罗Folland,G. B. 1999. 实分析:现代技术及其应用,第40卷。约翰·威利父子公司傅,W.J. 1998年惩罚性回归:桥与套索。Journal ofComputational and Graphical Statistics7(3):397-416.Grother,P.J. 一九九五年NIST专用数据库19个手写表格和字符数据库。国家标准与技术研究所。Haber,E.;和Ruthotto,L. 2017.深度神经网络的稳定架构逆问题34(1):014004。Head , T.;MechCoder; Louppe , G.;Shcherbatyi ,I.;fcharras; Vinícius,Z.; Cmmalone; Schröder ,C.; nel215; Campos,N.; and et al. 2018. scikit-optimize/scikit-optimize:v0.5.1-re-releasedoi:10.5281/zenodo.1170575.Kingma,D.P的; 和Ba,J.2014年。亚当:随机优化的一种方法arXiv预印本arXiv:1412.6980。Krizhevsky,A.; Hinton,G.;等人,2009年。从微小的图像中学习多层特征。Martens , J.2010 年 。 通 过 无 海 森 优 化 的 深 度 学 习InICML,volume 27,735McLoone,S.;布朗,M。D.的; Irwin,G.;和Lightbody,A. 1998. 前馈神经网络的一种混合线性/非线性训练算法。IEEE Transactions on Neural Net-works9(4):669-684.涅斯捷罗夫河2012年。坐标下降法在大规模优化问题上的效率SIAM Journal on Optimization22(2):341Opschoor,J. A.; Petersen,P.;和Schwab,C. 2019.深度ReLU网络和高阶有限元方法。萨姆,苏黎世。Osawa,K.; Tsuji,Y.; Ueno,Y.; Naruse,A.; Foo,C.- S.的; 和Yokota,R. 2020.适用于大规模深度学习的 可 扩 展 实 用 自 然 梯 度 arXiv 预 印 本 arXiv :2002.06015。Osawa,K.; Tsuji,Y.; Ueno,Y.; Naruse,A.; Yokota,R.;和Matsuoka,S. 2019.大规模分布式二阶优化使用Kronecker因子近似曲线深度卷积神经网络。IEEE计算机视觉与模式识别会议论文集,12359-12367。Pereyra,V.; Scherer,G.;和Wong,F. 2006.变投影神经网络 训 练 。 Mathematics and Computers in Simulation73(1-4):231Shevade,S. K.的;和Keerthi,S. S. 2003.一种简单有效的稀疏逻辑回归基因选择算法。Bioinformatics19(17):2246赖特,S。J. 2015年。坐标下降算法。MathematicalProgramming151(1):3肖 , H.; Rasul , K.; 和 Volllavis , R. 2017. Fashion-MNIST:一种用于基准机器学习算法的新型图像数据集arXiv预印本arXiv:1708.07747。徐,P.;Roosta,F.;和Mahoney,M.W. 2019年。非精确海森信息下非凸优化的牛顿型方法。数学规划1-36Yarotsky,D.2017年。深度ReLU网络近似的误差界神经网络94:103
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功