没有合适的资源?快使用搜索试试~ 我知道了~
α=1Σα单位网络的划分:深度hp近似1,Nathaniel A.Trask2,Ravi G.2、第二章Gulian2,Eric C.Cyr21极端规模数据科学分析部门,桑迪亚国家实验室2计算研究中心,桑迪亚国家实验室阿尔伯克基,新墨西哥州,87123{koolee,natrask,rgpatel,mgulian,eccyr}@sandia.gov摘要近似理论家已经通过利用深度神经网络同时模拟单位和单项式分区的能力,出于这一动机,我们提出了统一网络(POUnets)的分区,将这些元素直接纳入架构。用于学习概率度量的类型的分类架构用于构建空间的无网格分区,而具有可学习系数的多项式空间与每个分区相关联所得到的类似hp一个抽象的近似结果建立理想的属性,以指导网络设计。两种结构选择的数值结果表明,POUnet产生的光滑函数的hp-收敛性和一致优于MLP的分段多项式函数与大量的不连续性。概述我们考虑在集合D={(xi,yi)}N数据上的回归,工作试图理解在没有优化误差的情况下宽度/深度的作用 ( He 等 人 , 2018; Daubechies et al. 2019; Yarotsky2017,2018; Opschoor,Petersen,and Schwab 2019)。特别地,Yarotsky和Opschoor等人证明了深度神经网络架构的参数的存在性,该深度神经网络架构在网络的深度中将代数运算、单位分割(POU)和多项式近似为指数精度这表明,足够深的DNN在理论上可以通过构造POU来局部化多项式逼近来学习谱收敛的hp元然而,在实践中,当使用梯度下降优化器训练DNN时,即使对于平滑目标函数,也无法实现这种收敛近似(Fokina和Oseledets 2019; Adcock和Dexter 2020)。这项工作的主题是将POU和多项式元素直接纳入深度学习架构。而不是试图迫使DNN同时执行本地化和高阶近似,引入本地化多项式空间使DNN能够通过专注于划分空间来发挥其优势,就像在分类问题中一样。所提出的架构的一个有吸引力的特性是其哪里 xi∈Rdi=1yi=y(xi)是一块的点样本,适应快速训练策略。在以前的工作中,我们开发了一个优化器,它在梯度wise smooth函数分类成功后由于高维空间中的问题(Chollet 2017),深度神经网络(DNN)作为回归问题和数值分析的工具已经引起了极大的兴趣,部分原因是它们在潜在低维结构存在的情况下明显能够缓解维数灾难。这与经典方法相反,经典方法的计算费用随d呈指数增长,这是解决高维PDE的主要挑战(Bach 2017; Bengio和Bengio 2000; Han,Jentzen和Weinan 2018)。理解DNN的性能需要考虑最佳近似误差和优化误差。虽然可以证明DNN参数的存在提供相对于架构大小的指数收敛,但在实践中,许多问题共同阻止实现这种收敛。几种近似理论版权所有© 2021本文由其作者。在知识共享许可署名4.0国际(CC BY)下允许使用隐藏层参数的下降更新和最终线性层的全局最优最小二乘求解(Cyr et al. 2019);这也适用于分类问题(Patelet al.2020年)。在当前的工作中应用了类似的策略:在每次迭代中找到全局最优多项式拟合之前,使用梯度下降更新POU,以确保在训练过程中数据的最佳表示。虽 然 DNN 已 经 被 探 索 作 为 解 决 高 维 PDE 的 手 段(Geist et al.2020; Han,Jentzen和Weinan 2018),优化误差阻止了关于数据或模型参数大小的收敛的实际演示( Beck , Jentzen 和 Kuckuck 2019; Wang , Teng 和Perdikaris 2020)。这里考虑的相对简单的回归问题提供了一个关键的第一个例子,如何可以绕过优化误差障碍,以提供与有限元方法相竞争的精度。抽象POU网络N部分考虑单位分划Φ ={φ(x)} 满足4.0)α φα(x)= 1且φα(x)≥ 0。我们使用ΣαΣα2NN¨ΣαΣα¨ΣαA2(¨¨¨¨Σ·∈ααMα”。、α=1(Rd)的阶m的多项式,而Φ是ααN N(x;n), 1 ≤α ≤ N部分。(二)¨A2(A2(¨¨α¨yPOU−ysupp(φα)¨部分训练损失将呈现N-(m+1)/dM的缩放。¨α22部分逼近证据对于每个α,取qα∈πm(Rd)为m阶y(·)的泰勒多项式以supp(φ φ)的一个ny点为中心。N部件yPOU(x)= φα (十)dim(V) cα,βPβ(x)、(1)α则对于所有x∈supp(φ∈),α=1β=1|q α(x)− y(x)|≤ Cm,y直径supp(φ)m+1。(五)其中V = span {P β}。 对于这项工作,我们取V为定义近似式y<$POU=<$N部分φ<$(x)q(x),M参数化为具有权重和偏差的神经网络和输出尺寸N部分:形式为(1),由可行(k,c)表示。然后,根据yP的定义和(3),我们有Σ ΣǁyP∗OU(x)−y(x)ǁ2D)≤ y<$PO U(x)−y(x)<$D)我们考虑两种架构(x;n)指定后形式(1)的近似值允许N部件=¨φ(x)qα(x)−y(x)N部件φ(x)基元Pβ对空间的隐式划分=1α=1-A2(D)由φα参数化。当近似与破碎多项式空间对应于取Φ由char组成计算网格单元上的特征函数,N部件=。α=1A2(D)在数值分析中的统一性,见Strouboulis,Copps,andBabuška(2001);FriesandBelytschko(2010);Wendland(2002);关于它们在微分几何中的应用,参见Spivak(2018);Hebey(2000)。在传统的数值方法中,对于每个x=xi∈ D,如果x∈supp(D),则我们应用(5);否则,和项φ(x)(qα(x)−y(x))为零。所以yP D)2至配件Cα,β通过几何“网格化”过程转化为数据联系我们.最大值+1相反,我们使用DNN(2)形式的POUΦ,其中权重和偏差是经过训练以拟合数据的。因此,我们拟合两个局部基系数c=≤1Cm,ydiam supp(φα)φα(x)A2(D)2[cα,β]和本地化本身同时通过求解≤2.ξΣ m+1N部件ξ优化问题. N部件dim(V).Cm,y最大直径αsupp(φα).Σα=1φα(x)¨A2(D)argmin刚果民主共和国ci∈D. α=1φα(xi,n)β=1c α,β P β(xi)−y i..(三)≤Cm,y最大直径αsupp(φ)m+1.错误分析与架构设计在指定(2)中Φ的架构选择之前,我们使用POU-Net架构呈现最佳训练误差的基本估计,以突出分区所需的属性。 我们用diam(A)表示集合A的直径<$Rd。定理1. 考虑形式(1)的近似y POU,其中V=π m(Rd)。如果y()C m+1(n)和n,cn求解(3)得到应用的yPnO U,则定理1表明,对于光滑y,所得的转换-训练误差的发生率与具体的选择φ的参数化,并且仅取决于他们的支持。此外,误差并不显式地取决于问题的维度;如果训练的Φk对包含具有潜在维度d d的数据位置x的低维流形的supp(Φ k)进行覆盖编码,则近似成本仅与dim(V)成比例,因此可以打破维度的灾难,例如。 对于线性多项式逼近dim(V)= d +1. 如果参数化能够找到紧支撑的拟一致划分,2002年。中国+1使得(4)中的最大直径为N-1/dM,其中,reyP− yA2(D)表示均方根范数,在D中的训练数据对上,上述分析表明,POU功能的高度本地化、紧凑的支持。然而,在实践中,我们发现,对于POU参数化,巴塞罗和-yA2(D) =1个N个数据(x∈D,y)(yP (x)-y(x))2,通过浅RBF-Net网络(如下所述),快速衰减但全局支持的POU函数表现出更一致的训练结果。 这可能是由于对相对于数据位置放置不当的初始化的较高容忍度。同样,当POU参数化Cm,y = y <$Cm+1()。通过深度ResNet,我们使用ReLU激活函数获得了良好的结果,同时使用正则化器进行训练,空间πφα(x;θ)=DNN对Φ的参数化更广泛地推广到空间的可微划分。如属以下人士的申请─(四)n纪元,n前时代 ,λ,ρ,nstag):n,c←LSGD(k,c,nepoch,λ,ρ,nstag);预//阶段1:带有正则化器的LSGD(0,0,0,nepoch);//阶段2:没有正则化器的F←ΣS⊂简体中文(mmax!)(d!)1,α2,αβexp−|x −1,β|/μ2,β促进本地化(算法2)。因此,在上述分析中发挥作用的属性-分区函数的局部化及其在包含数据的潜在流形上的支持分布-是我们下面考虑的架构和训练策略的动机。POU #1-RBF-Net:浅RBF-network(Broomhead数据:旧,旧结果:Cnew,C new函数LSGD(λold,cold,nepoch,λ,ρ,nstag):,c←对于i ∈ {1,..., nepoch} doc←LS(λ,λ);//求解方程(1)正则化子λ<$c<$2和Lowe1988;Billings和Zheng1995)实施Φ的值由(1)给出,(c);如果LSGD停滞超过n个阶段,则exp. −|x − 1 |2/202次λ←ρλφ α=.22 -是的端C新sort(0);这里,R1表示RBF中心,R2表示RBF形状这两个参数都是在训练过程中变化的这些函数的局部化的度量可以取为α 1的量值。这种结构对于光滑函数的逼近效果很好,但C∞连续性new←算法1:正则化最小二乘梯度下降(LSGD)方法。 设置 λ = 0 可 恢 复 原 始 LSGD 方 法 ( Cyr et al. 2019年)。的Φ_(?)引起分段平滑函数数据: 老 ,coldPOU #2 - ResNet:我们构建了一个残差网络架构(Heet al. 2016),其中softmax层定义(2)。对于所考虑的实验,我们使用ReLU激活,允许在一阶导数中具有不连续性的函数的表示。所有的数值实验都采用单位超立方体<$[0,1]d内的数据.为了初始化POU#1架构,我们使用单位形状参数并均匀分布中心x1([0,1]d)。我们使用Box初始化(Cyretal. 2019年)。 我们发现,这些初始化提供了一组初始分区,这些分区在整个训练过程中充分“分布良好”,以实现成功的训练。快速优化器(3)的最小二乘结构允许应用 最小 二乘 梯度 下降(LSGD)块坐标下降策略(Cyr et al. 2019年)。 在每一个时期,可以保持隐藏参数的固定,以获得最优多项式系数c的最小二乘问题。该步骤可以通过然后对POU参数采取梯度下降的步骤来结束,因此沿着对应于数据的最佳表示的流形 来演化分区;对于细节,参见(Cyr et al. 2019年)。λ = 0的算法1规定了LSGD对等式11的应用。(三)、我们将证明,虽然有效,但几个学习的配分函数φα可能在为了补救这一点,我们还将考虑算法2中的预训练步骤,其将l2正则化器添加到多项式系数。这背后的直觉是,给定的分区使用形式为c α ,β φ α P β的元素回归数据。如果φ α按小δ >0缩放,则LSGD求解器可以针对c α,β选取缩放1/δ,并实现相同的近似。因此,限制系数间接地惩罚了这种配分函数崩溃的模式,促进了空间的更准均匀划分。结果:Cnew,Cnew功能双相-LSGD(冷却,冷却,算法2:两阶段LSGD方法,l2-正则化最小二乘求解。数值实验在本节中,我们将评估两种POU架构的POUnet的性能。我 们 在 P YTHON 中 实 现 了 所 提 出 的 算 法 , 使 用TENSORFLOW构造POUNET2.3.0 (Abadi et al.2016),并采用NUMPY和SCIPY包来生成训练数据和解决最小二乘问题。 对于所有考虑的神经网络,使用Adam优化器(Kingma和Ba 2014)通过批量梯度下降进行训练。 对于一组d元多项式{P β},我们选 择 最 大 次 数 为 mmax 的 截 断 泰 勒 多 项 式 , 条 件 是(mmax+d)!多项式每个分区的系数 通过从单位正态分布采样来初始化系数。光滑函数我们考虑一个解析函数作为我们的第一个基准,特别是定义在二维域[-1,1]2中嵌入的十字形一维流形上的正弦函数sin(2πx1),如果x2= 0,sin(2πx2),如果x1= 0。我们测试了不同数量的分区的RBF-Nets,N部分={1,2,4,8,16}和最大多项式次数{0,1,2,3,4}。对于训练,我们通过以下方式收集数据xi,i= 1,2:.y(x)=端ResNetPOUnet−--×--n个数据--.二、从域[-1,1]均匀采样501个样本,即,在去除原点上的重复点之后,总共有1001个((x1,x2),y(x))-对我们通过从域[1,1]2均匀采样来初始化RBF基函数的中心,并将形状参数初始化为1。然后,我们使用LSGD方法训练RBF-Nets,λ = 0(Al-租m 1),Adam的初始学习率设置为10−3。epoch的最大数量nepoch设置为100,我们选择产生最佳效果的中心和形状参数在指定的时期内的训练损失的结果图1(a)报告了POUnets在不同N部分和不同p下产生的近似值的相对l2-误差。对于N部分和p的每个值,从10次独立运行中获得结果,具有单个对数正态标准差。在10−10饱和之前,代数收敛的阶数随着多项式次数的增加而增加。我们变戏法-这是因为最终失去了精确度,因为生病了。条件的最小二乘矩阵;然而,我们留下一个正式的研究和治疗,为今后的工作。与POUnet实现的性能相比,我们评估了具有不同深度{4,8,12,16,20}和宽度{8,16,32,64,128}的标准MLP的性能。标准的MLP使用Adam进行训练,初始学习率为10−3,最大epoch数为1000。与基于RBF网络的POUnets,标准的MLP在停滞在10−2的误差之前短暂地表现出大致的一阶收敛。分段光滑函数接下来,我们考虑分段线性和分段二次函数:具有变化频率的三角波,即,y(x)=TRI(x;p),以及它们的二次变体y(x)=TRI2(x;p),其中TRI(x; p)= 2。px−,px +1,. -1。理论上可以通过构建精心选择的架构和权重/偏置来实现,但据我们所知,还没有通过标准训练来实现。RBF-Net分区函数(POU #1)所具有的平滑性排除了分段平滑函数的快速收敛近似,在这种情况下,我们转而使用ResNets(POU #2)进行Φ,因为这种分区函数的分段线性性质更适合。 作为性能比较的基线,我们使用标准ResNets,yMLP(x)对相同数据进行均方误差回归。标 准 ResNet 与 用 于 参 数 化 POUnet 中 的 POU 函 数 的ResNet 共 享 相同 的 架 构 唯 一 的 例 外是 输 出 层; 标 准ResNets产生标量值输出,而POU参数化产生向量值输出,然后是softmax激活。我们考虑两个目标函数,p=1,2,3,4,5,这导致具有2p个片段的分段线性和二次函数基于目标函数中的片段数,我们将基线神经网络和POUnet的宽度缩放为42p,而将深度固定为8,并且对于POUnet,分区数设置为N部分=2p。 对于POUnet,我们分别为分段线性和二次目标函数选择多项式的最大阶mmax=1和mmax=2。两个神经网络都是在相同的数据上训练的,xi,y(xi;p)i=1,其中xi是从[0,1]且n数据= 2000。标准的ResNets训练我们-使 用 梯 度 下 降 法 , 并 且 使 用 λ = 0 的 LSGD 方 法 训 练POUnet(算法1)。亚当的初始学习率设定为10−3。epoch的最大数量nepoch被设置为2000,我们选择神经网络的权重和偏差,在指定的epoch期间产生最佳的训练损失图2报告了近似式的相对l2-误差,我们研究通过增加频率p引入越来越多的不连续性。 通过ReLU网络经由两个宽网络再现这种锯齿函数(Heet al.非常深的网络(Telgarsky2016)由 标 准 ResNets 和 POUnets 导出,用 于 分 段 线 性 函 数(左)和二次分段二次函数(右)的N部分和宽度变化。统计数据来自五次独立运行。图2基本上0 00010−210−410−610−210−410−610−210−210−810−1010−121 2 4 816N部件10−810−1010−128 16 32 64128宽度10−4第一章(二)第二章(四)三(八)四(十六)五(三十二)p(N部分)10−4第一章(二)第二章(四)三(八)四(十六)五(三十二)p(N部分)(a) 普涅茨(b) MLPs(a) 三角波(b) 二次波图1:POUnet产生的近似值的相对12-误差(对数-对数标度),其中RBF-Net分区函数用于变化的N 部 分和变化的mmax ( 左 ) 以 及 标 准 MLP 用 于 变 化 的 宽 度 和 深 度(右)。图2:由标准ResNet和POUnet产生的近似值的相对12-误差(对数-对数尺度),其中ResNet分区函数用于变化N部分,用于近似具有变化p的目标函数。p=0p=1p=2P=3P=4深度4深度8深度12深度16深度20ResNetPOUnet相对l2误差相对l2误差相对l2误差相对l2误差F--×1.0Ground truth ResNet POUnet1.21.0近似目标函数的误差小于1%,而标准ResNets明显无法产生准确的近似值。0.50.00.51.00.00零点二五零点五0.75一点(a) N部分=160.80.60.40.20.00.00零点二五零点五0.75一点(b) N部分=16两相LSGD现在,我们证明了两阶段LSGD方法(算法2)在构造根据数据中的特征局部化并且几乎不相交的分区中的有效性,即,目标函数中的断点,我们发现这会导致更好的近似精度。该算法的第一阶段旨在构建这样的分区。为此,我们通过正则化多项式回归的Frobenius范数来限制多项式回归的可表达性1.01.0最小二乘求解中的系数这防止0.50.00.51.00.00零点二五零点五0.75一点(c) N部分=320.80.60.40.20.01.00.00零点二五零点五0.75一点(d) N部分=32根据我们上面对快速优化器的讨论,少数分区占主导地位,其他分区被折叠这些“准均匀”分区然后被用作非正则化第二阶段的初始猜测。最后,我们研究了由此产生的POU的定性差异,特别是网络学习空间不相交分区的能力然而,我们确实强调,对于所得到的POU没有特定的“正确”形式- 这主要是有趣的,因为它表明网络可以恢复传统的不连续多项式近似。在第一阶段,我们采用相对较大的学习率,以防止权重和偏差卡住1.00.50.00.51.00.50.625(e) N部分=32(放大)0.80.60.40.20.00.5 0.625(f) N部分=32(放大)局部极小值。另一方面,在第二阶段,我们采用相对较小的学习率,以确保训练误差减少。三角波。我们演示了两个阶段的LSGD如何在两个示例情况下工作第一组示例问题是频率参数p= 1,3的三角波。我们使用与前一节中描述的相同的POU网络架构(即,ResNet具有宽度8和深度8)和相同的初始化方案(即,盒子里,图3:ResNet和POUnet产生的目标函数y(x)和近似值的快照(即, yPOU(x))分别以黑色、浅绿色和橙色描绘。目标函数对应于三角波(左)及其二次变量(右)。下面一行描述了域[0.5,0.625]中的快照.显示POUnets在近似精度方面优于标准ResNets;具体而言,具有ReLU激活函数的标准ResNets明显无法产生准确的近似,而POUnets获得<1%的误差为大量的不连续性。图3示出了由两个神经网络针对频率参数p= 4、5的目标函数产生的目标函数和近似值的快照。图3证实了图2所示的趋势;使用POUnet的好处在近似具有较大p的函数和近似二次函数(潜在地,近似高阶多项式)中更加明显。图3(c)化)。 我们将第1阶段和第2阶段的初始学习率分别设置为0.1和0.05;我们将其他LSGD参数设置为λ= 0。1,ρ=0。9,nstag= 1000。图4(顶部)描绘了在阶段1期间如何构造分区(图4(a)-4(d)),以及在图4(e)和4(f)中的阶段2的第1000个时期处的分区和近似的快照。 以误差的相对l ~2范数衡量,其逼近精度可达6. 2042年10−8,在第2阶段的12000个纪元后。接下来我们考虑频率为参数p=3。我们使用的POU网络架构构造为ResNet,宽度为8,深度为10,并使用盒初始化。 我们将第1阶段和第2阶段的初始学习率分别设置为0.05和0.01;我们将其他LSGD参数设置为λ=0。1,ρ=0。999,nstag=1000。图4(底部)再次描绘了分区在阶段1期间如何演变以及所得到的近似。 图4(g)-4(j)描绘了两阶段LSGD构建根据第一阶段期间的特征不相交且局部化的分区。00 1 0 1 0 1 0 1 0 1 1(11 1 1 1 1001(g) 第1阶段(0)01(h)第1阶段(30000)01(i)第1阶段(60000)0 1(j)第1阶段(90000)01(k) 第二阶段(1000)0 1(l) 近似图4:两段三角波(顶部)和八段三角波(底部):第1阶段 LSGD构建局部不相交分区(4(a)二次波。最后,我们近似分段二次波的频率参数p = 1,3,同时采用相同的网络结构用于近似三角波。 对于p = 1的情况,阶段1和阶段2的学习率设置为0.5和0.25。我们使用相同的参数设置(即, λ = 0。1,ρ = 0。9,并且nstag= 1000),如在先前的实验中。同样,在阶段1中,构造不相交的分区,并且在阶段2中产生精确的近似(图5(a)-5(f))。此外,我们观察到分区在第2阶段进一步细化。对于p = 3的情况,我们再次采用用于p = 3的三角波的架构(即,ResNet,宽度为8,深度为10)。 我们使用与p = 3的三角波中相同的超参数(即,学习率为0.05和0.01,nstag= 1000)。两个例外是正则化的权重,λ = 1和ρ = 0。九九九图5(g)-5(k)示出了阶段1LSGD为分区构造不相交支持,但需要更多的时期。同样,两级LSGD产生精确的近似(图5(l))。讨论本 节 的结果表明,在预训练阶段应用良好的正则化器以获得近似不相交的分段常数分区是重要的。对于这里考虑的分段多项式函数,这种划分在某些情况下允许重新加工到接近机器的精度。给出了抽象的误差分析,可以清楚地看出,这种适应于目标函数特征的局部化划分与传统的hp-近似类似。然而,关于这种方法存在几个挑战:第1阶段期间的强正则化需要大量的训练时期,并且我们无法获得一组超参数,这些超参数在所有情况下都提供这种干净的分区。 这表明了今后工作的两个潜在领域。首先,在预训练期间进行正则化的改进方法准确性可能能够更快地训练用于参数化图表的深度学习策略(Schonsheck,Chen和Lai2019)可能对此有用。其次,它可能是富有成效的了解近似误差下限制性较低的假设,分区是紧支持或高度本地化。 我们一直受到这样一种思想的指导,即在指示函数分区上定义的多项式再现了有限元社区使用的构造,但是限制较少的范例与有效的学习策略相结合可能会证明对于一般数据集更灵活。结论借用数值分析的思想,我们已经证明了一种新的架构和优化策略,其计算复杂性不需要与环境维数成指数关系,并提供了高阶收敛光滑函数和误差consideration下1%的分段光滑问题。 这种架构有可能提供DNN方法来解决高维PDE,以与传统有限元空间竞争的方式收敛。确认桑迪亚国家实验室是一个多任务实验室,由霍尼韦尔国际公司的全资子公司桑迪亚有限责任公司的国家技术和工程解决方案管理和运营,根据合同DE-NA 0003530,为美国能源部国家核安全管理局提供服务。本文介绍了客观的技术成果和分析。任何主观的观点或意见,可能会在文件中表达并不一定代表美国的意见能源部或美国政府。SAND编号:SAND 2020 -6022 J。M的工作。古利安河Patel和N.是由美国支持的。能源部高级能源办公室11111100001(a)第1阶段(0)(b)第1阶段(15)(c)第1阶段(30)(d)第1阶段(60)0(f)近似000011111 1 1001(a) 第1阶段(0)001(b) 第1阶段(3000)001(c) 第1阶段(6000)001(d) 第1阶段(9000)001(e) 第二阶段(1000)00 1(f) 近似1111 1 10 0 000 1 0 1 0 1 00 01 0 1 0 1(g) 第1阶段(0)(h)第1阶段(100000)㈠第一阶段(150000)(j)第一阶段(300000)(k)第1阶段(500000)(l)近似图5:具有两个片段的二次波(顶部)和具有八个片段的二次波(底部):第1阶段 LSGD构造局部不相交分区(5(a)多尺度和多物理问题的数学和物理信息学习机器合作实验室(PhILMs)项目下的科学计算研究。E.C. Cyr和N.特拉斯克是由能源部早期职业计划的支持。M.Gulian得到了桑迪亚国家实验室的John von Neumann奖学金的支持。引用Abadi,M.;Barham,P.;陈杰;陈志;Davis,A.;迪恩J.道:Devin,M.;Ghemawat,S.;Irving,G.;Isard,M.;等人2016年。Tensorflow:一个大规模机器学习系统在第12届{USENIX}操作系统设计和实现({OSDI}16),265Adcock,B.;和Dexter,N. 2020. 深度神经网络函数逼近的 理 论 与 实 践 之 间 的 差 距 。 arXiv 预 印 本 arXiv :2001.07523。Bach,F. 2017.用凸神经网络打破维数灾难The Journalof Machine Learning Research18(1):629贝克,C。Jentzen,A.;和Kuckuck,B. 2019.深度神经网 络 训 练 的 全 面 误 差 分 析 。 arXiv 预 印 本 arXiv :1910.00121。Bengio,S.;和Bengio,Y. 2000.使用神经网络承担联合分布 中 的 维 数 灾 难 。 IEEE Transactions on NeuralNetworks11(3):550比林斯,S.一、和Zheng,G. L. 1995.遗传算法在径向基函数网络配置中的应用。 NeuralNetworks 8(6):877-890.Broomhead,D.S.的; 和Lowe,D.一九八八年 径向基函数,多元函数插值和自适应网络。技术报告,皇家信号和雷达机构马尔文(联合王国)。Chollet,F. 2017. 用Python进行深度学习曼宁出版公司。Cyr,E. C.的; Gulian,M.一、帕特尔河,巴西-地G.地;Perego,M.;和Trask,N. A. 2019.深度神经网络的鲁棒训练和初始化:自适应基础观点。 arXiv预印本arXiv:1912.04862。多 贝 西 岛 DeVore , R.; Foucart , S.; Hanin , B.; 和Petrova,G. 2019年。非线性近似和(深度)ReLU网络。arXiv预印本arXiv:1905.02199。Fokina,D.;和奥塞莱代茨岛2019年。生长轴突:神经网络的贪婪学习及其在函数逼近中的应用。arXiv预印本arXiv:1910.12686。弗里斯,T. P的; Belytschko,T. 2010.扩展/广义有限元法:方法及其应用概述。国际工程数值方法杂志84(3):253Geist , M.; Petersen , P.; Raslan ,M.; Schneider , R.;Ku-tyniok,G.2020年。用深度神经网络数值求解参数arXiv预印本arXiv:2004.12131。汉,J.; Jentzen,A.;和Weinan,E. 2018.使用深度学习求解高维偏微分方程。美国国家科学院院刊115(34):8505-8510。他,J.; Li,L.;徐,J.;和Zheng,C. 2018. ReLU深度神经 网 络 和 线 性 有 限 元 。arXiv 预 印 本 arXiv :1807.03973。他,K。张,X.; Ren,S.; Sun,J. 2016.深度残差学习用于图像识别。IEEE计算机视觉与模式识别会议论文集,770Hebey,E. 2000. 流形上的非线性分析:索伯列夫空间和不等式,第5卷。美国数学学会Kingma,D.P的; 和Ba,J.2014年。亚当:随机优化的一种方法arXiv预印本arXiv:1412.6980。Opschoor,J. A.; Petersen,P.;和Schwab,C. 2019.深度ReLU网络和高阶有限元方法。萨姆,苏黎世。帕特尔河,巴西-地G.地; Trask,N.一、Gulian,M.一、和Cyr,E. C. 2020年。一个块坐标下降优化分类问题,利用凸性。arXiv预印本arXiv:2006.10123.Schonsheck,S.;陈杰;和Lai,R. 2019.流形结构数据的图表自动编码器. arXiv预印本arXiv:1912.10094。斯皮瓦克,M. 2018. 流形上的微积分:高等微积分经典定理的现代方法. CRC Press.Strouboulis,T.;Copps,K.;和Babuška,I.2001年广义有限元法。应用力学与工程中的计算机方法190(32-33):4081Telgarsky,M.2016年。深度在神经网络中的好处arXiv预印本arXiv:1602.04485。Wang,S.; Teng,Y.;和Perdikaris,P. 2020。理解和减轻物理信息神经网络中的梯度病理。arXiv预印本arXiv:2001.04536。Wendland,H. 2002.径向基函数的快速计算:基于单位分 割 的 方 法 。 近 似 理 论 X : 小 波 , 样 条 和 应 用 。Citeseer。Yarotsky,D.2017年。深度ReLU网络近似的误差界神经网络94:103Yarotsky,D. 2018.通过非常深的ReLU网络实现连续函数的最佳逼近arXiv预印本arXiv:1802.03620。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功