没有合适的资源?快使用搜索试试~ 我知道了~
混合梯度下降与线性规划方法的深度神经网络训练算法
+v:mala2277获取更多论文一种求解器+梯度下降的深度神经网络训练算法Dhananjay Ashok1,Vineel Nagisetty3,Christopher Srinivasa3和Vijay Ganesh21加拿大多伦多大学2加拿大滑铁卢大学3加拿大Borealis AIdhananjay. mail.utoronto.ca,vijay. uwaterloo.ca,{vineel.nagisetty, christopher.srinivasa} @ borealis.ai摘要我们提出了一种用于训练深度神经网络的新型混合算法,该算法将最先进的梯度下降(GD)方法与混合线性规划(MILP)求解器相结合,在准确性以及回归和分类任务的资源和数据效率方面优于GD和变体我们的GD+Solver混合算法(称为GDSolver)的工作原理如下:给定DNND作为输入,GDSolver调用GD来部分训练D,直到它陷入局部最小值,此时GDSolver调用MILP求解器来彻底搜索D重复该过程,直到达到所需的精度。在我们的实验中,我们发现GD-Solver不仅可以很好地扩展到额外的数据和非常大的模型大小,而且在收敛速度和数据效率方面优于所有其他竞争方法。对于回归任务,GDSolver生成的模型平均在48%的时间内具有31.5%的MSE降低,对于MNIST和CIFAR10上的分类任务,GDSolver能够在所有竞争方法中实现最高的准确性,仅使用GD基线所需的50%的训练数据介绍在过去的几年里,大量的研究已经进入了训练深度神经网络(DNN)的算法,然而,梯度下降(GD)及其变体仍然是DNN训练的主要方法(Ruder2016)。这种情况的主要原因是基于GD的训练方法可以轻松处理各种DNN架构,并且在训练非常大的DNN时具有高度可扩展性,从而以相对较小的计算工作量实现高精度话虽如此,尽管它们取得了令人难以置信的成功,但基于GD的方法1确实存在一些明显的弱点。首先,GD和变体从根本上缺乏区分局部和全局最小值的能力,因此可能陷入局部最小值,导致次优的性能、泛化。第二,有些情况下,Copyright © 2021 , Association for the Advancement ofArtificial Intelligence(www.aaai.org). All rights reserved.[1]虽然目前有各种GD方法,但我们专注于提供最佳准确性的方法,最具可扩展性,以及截至本文撰写时使用最广泛的方法。GD和变体遭受差的数据效率,即,获得合理精度所需的数据量可能非常高。最后,近年来,研究人员已经能够证明DNN存在安全性,信任和鲁棒性问题,例如,对抗性攻击(P apernot et al.2016),并且训练DNN 遵 守 某 些 约 束 是 非 常 可 取 的 ( Verma etal.2019)。不幸的是,GD及其变体既不能提供任何担保,也不能直接处理通常在安全和再责任规范的上下文中出现的高度不可微的所有这些弱点都表明有相当大的改进空间,迫切需要重新搜索新的DNN训练算法。考虑到GD及其变体的上 述 问 题 , 研 究 人 员 提 出 了 基 于 混 合 线 性 规 划(MILP)求解器的训练方法(Icarte et al. 2019年)等。这些方法的优点在于,它们可以保证最优性,可以提醒用户注意不可微的问题,并处理高度不可微的约束,例如安全规范中出现的约束,这些约束可能会添加到优化约束集(Gupte等人,2013)。不幸的是,基于求解器的方法存在过度拟合训练数据和相对于正在训练的网络的大小的非常差的可扩展性的显著问题。虽然已经尝试用优化器来增强基于GD的方法(例如,Adam)和学习速率调度技术来克服经常重复的陷入局部最小值的问题,但它们在本质上确实具有启发性,即,它们不提供它们已经达到全局最小值的任何从实际的角度来看,也许更重要的是,这种额外的优化器也会遭受相对较差的数据效率。为了解决这些问题,我们为DNN提供了一种新的混合训练算法,称为GDSolver,基于GD和MILP求解器的组合(特别是我们使用最先进的Guidelines MILP求解器(Pedroso2011))。给定DNN D和训练数据集S作为输入,GDSolver最初调用GD使用S训练D,直到它陷入局部最小值(这可以使用各种方法检测到),此时GDSolver然后调用MILP优化求解器来彻底搜索当前权重分配周围的损失景观区域,以隧道arXiv:2207.03264v1 [cs.LG] 2022年7+v:mala2277获取更多论文基 于 求解 器 的训练梯度下降未训练模型混合训练模型图1:混合GDSolver架构通过并逃离局部最小值。GD和求解器方法交替调用,直到达到适当的精度水平。当在一套回归和分类任务中将GDSolver与多个GD基线进行比较时,我们发现GDSolver不仅可以很好地扩展到额外的数据和模型大小,而且在收敛速度和数据效率方面优于所有其他竞争方法。关键贡献。1. GDSolver算法-一种新的混合训练算法,它迭代地调用GD和MILP求解器,通过“隧道”通过它们来逃避局部最小值。为了实现这一点,我们必须提出一种新的DNN训练公式作为MILP实例,解决以前MILP公式的严重过拟合问题,并使其能够与实值DNN一起使用。GDSolver算法在能够训练非常大的DNN模型方面具有高度可扩展性,在它可以处理的DNN架构方面非常通用,并且相对于竞争方法2具有数据/资源效率。2. 广泛的实验评估:我们对四个最先进的基线,即随机 梯 度 下 降 ( SGD ) , SGD 与 学 习 速 率 调 度(LRS),亚当优化,亚当优化与LRS,对一组回归和分类任务,我们的算法进行了全面的实验评估。• 在一组回归方程上,我们表明,与最先进的竞争方法相比,GD- Solver• 在一组标准分类数据集- MNIST和CIFAR 10上,我们表明GDSolver能够实现所有竞争方法的最高准确度,仅使用50%的训练数据,而不是计算GD基线所需的相同。2代码可在:https://dhananjayashok.github.io/Hybrid- Solver-NN-Training/算法1 GDSolver算法输入:未经训练的DNN、训练数据、验证数据参数:期望损失,MaxIter输出:经过训练的DNN1:i:= 02:当验证损失减少时,做3: 使用梯度下降训练DNN4:测量验证损失5:结束时6:将最终层转换为MILP实例7:解决MILP实例8:将MILP实例的解映射回NN参数9:i++10:如果验证损失>期望损失且i最大,则<11:前往212:其他13:返回训练的DNN14:如果结束GDSolver:梯度下降+求解器DNN训练方法在本节中,我们将详细介绍图1中的架构图和上面详述的算法1中概述的步骤GDSolver的第一步是单独使用GD训练网络,就像任何DNN一样[第1-3行],直到观察到验证损失的平稳此时,GDSolver停止GD训练并继续进行第二步,即基于求解器的训练。使用GD来训练网络的价值是众所周知的,即,可扩展到非常大的网络和基于GD的方法在许多设置中获得低损耗的能力。在求解器阶段[第5-7行],GDSolver算法采用部分训练的网络,并使用MILP求解器专注于在这一步中,GD- Solver首先使用专门的公式将训练神经网络的最后一层的问题转换为MILP实例[第5行](在下面的小节中更详细地讨论)。这里的想法是在GD分配给网络的最终层权重和偏置的值周围的区域中进行搜索如果没有找到较低的损失点,GDSolver停止训练并返回训练后的DNN [第11行]。由此公式化的MILP实例由MILP求解器求解[第6行](具体地说,Guidelines求解器),然后将该我们把这个过程称为最后一层微调.训练循环的终止条件是一种检查,用于确定是否已经实现了所需的精度,或者是否可以进一步改进权重和偏差。如果是,则循环继续,否则终止[第8-12行]。+v:mala2277获取更多论文--图2:回归公式混合求解器+GD训练的动机和优势由于MILP求解器只参与微调,而不是端到端地训练整个网络,因此直到最后一层,它对神经网络的架构和大小都是 这种混合方法使GDSolver比以前单独使用求解器训练神经网络的方法更具可扩展性(Icarteet al.2019年)。此外,我们所做的具体设计选择使我们的方法GDSolver非常通用,即,处理各种体系结构,因为大量的DNN体系结构可以象征性地建模为MILP问题。同时,我们的方法GDSolver保留了对DNN的最终预测强度具有高度影响力的能力,正如我们的实验所示。单独微调最后一层的想法并不新鲜,已经提出了其他 方 法 , 对 网 络 性 能 产 生 了 巨 大 而 重 要 的 影 响(Howard和Ruder2018;Pan和Yang2009)。就我们所知,我们的工作是独一无二的,因为我们使用MILP求解器进行最终层微调。通过GDSolver与竞争方法通过求解器逃离局部最小值:正如已经指出的,GD表现良好,直到它陷入局部最小值,并且存在有限的选项来逃离局部最小值。相比之下,求解器在先前迭代中GD分配的权重和偏置周围的大空间中执行穷举搜索,因此可以发现具有较低损失的新点。通过分配这个新点(即,新的权重和偏置)到DNN,它可能能够通过隧道穿过局部最小值并且在GD的附加迭代的帮助下比仅使用GD更有效地逃脱局部最小值。Adam Optimizer和LRS:当前处理局部最小值的替代方案包括使用基于动量的优化方法(Adam(Kingma和Ba2014)、 RM- SProp(Kurbiel和Khaleghian2017)等) 和LRS(Li和Arora2019)。基于动量的优化方法在几种情况下难以实现,因为它们也使用梯度信息来决定训练中所采取的步骤的大小。虽然它们非常善于找到要采取的正确步长,但如果更好的解决方案的方向目前未知或无法确定,它们就不那么有用了图3:分类公式局部梯度信息学习率调度方法虽然简单有效,但通常高度依赖于超参数调整,因此可能不可靠。GDSolver算法的优势在于它可以与上述所有方法一起使用,并且如果它们在特定设置中表现不佳,则提供了另一种逃避局部最小值的途径。在剩下的工作中,我们专注于展示我们的混合方法在有效训练广泛有用的效率和泛化指标方面是独一无二的。MILP公式我们的GDSolver方法成功的关键是神经网络的最后一层作为MILP问题的实例的符号公式化,然后将通过调用MILP求解器获得的解决方案映射回最后一层的参数。换句话说,我们将DNN的最后一层转换为下面描述的数学公式。 对于我们的基础配方,我们使用(Icarteet al. 2019年),并在此讨论了重大改进。 完整配方见图[2]和[3]。类似于先前在DNN的符号公式化中的工作(Buneletal. 2017 ;Cheng,Nube r g和Ruess2017),我们将我们的系统限制为仅使用线性分段或最后一层的软最大激活函数。在图[2]和[3]中所示的公式中,我们将自己限制在ReLU激活函数的约束中,因为这是最常用的一个。话虽如此,我们的公式可以很容易地处理任何线性分段激活。设置和定义令f表示部分训练的神经网络,L表示其最后一层,X,Y表示具有T个数据点的数据集。令N表示最终层L的输入维度,M是输出的维度 则L:RN ×1→ RM×1:是一个可以用权重矩阵w∈+v:mala2277获取更多论文Σ◦∈∈∈∀ ∀方程ID:全球司(10)全球司(20)GDSolver方程MSE时间MSE时间MSE时间身份0.5790.03530.24120.0840.1090.043仿射16.4670.02788.0750.0717.20950.0321多项式93.860.032420.8050.07612.070240.0387式10.440.03614.2080.08643.321170.0452表1:回归实验结果:以中点为基准的最佳GD基线(SGD和LRS)GD值(10)最后一个时代(20)结果显示,GDSolver在10个GD时期后的MSE和时间方面都优于20个GD时期RM×N,偏置向量bRM×1,输入hRN×1,激活函数σ如下:L(h)=σ(wh+b)。我们可以将f表示为:f=Lf′,其中f′是DNN中除最后一层L之外的所有先前层。然后,DNN训练的目标是学习映射L f ′(X)=y惠σ(wh + b)= y,其中h = f ′(X)。回归和分类的基本公式当将该最终层L转换为MILP实例时,最终层的所有权重和偏置被表示为变量wi、j和bj。图2中的约束(1,2)(相应地,图3中的约束(8,9))是框约束,该框约束限定了求解器需要搜索的分配给变量wi、j和bj的值周围的区域。如图[2,3]基本上编码了神经网络的架构更准确地说,对于每个数据点(x t,y t),我们计算h t=f′(x t),其中h t H是最后一层的输入。然后,约束(3)(相应地,约束(12))编码将激活函数的输入作为ht和最终层的参数的线性组合,而约束(4,5,13,14)使用ReLU对激活进行编码最后,每个训练数据点还具有约束,以将神经网络的输出与预期的目标标签/值yt相关联。目标标签的编码取决于问题是回归还是分类。DNN输出回归输出:在回归公式中,约束(6)通过恒定值max loss t,j限制输出和目标的L1距离。在实践中,我们设置最大损失t,j= L1(o,y)t,j,即,使用网络当前权重分配的数据点的L1损失这确保了如果求解器找到了一个解,那么它具有在训练数据集上的L1损失比GDSolver算法的先前GD步骤给出的当前分配更好。分类输出:分类模型的输出维度通常等于可以预测的类的数量,并且神经网络的预测是对应于给定数据点的最终层中的最高输出神经元值的类。考虑到这一点,约束(15,16)对给定数据点是否被DNN正确分类进行编码,即,变量Ct是1如果数据点t被正确分类,因此,tct是一个度量网络的总精度我们将此精度设置为求解器约束的最大化目标(7),将精度的下限设置为当前精度通过GDSolver工具的先前GD步骤给出的模型的初始化,确保找到的任何解决方案在训练集上具有比当前分配更好的准确性。将解决方案映射到DNN给定这个公式,将给定网络的最后一层转换为有效的MILP问题并查询求解器以满足权重和偏差的分配是相当简单的。 如果找到一个可行的解决方案,我们简单地指定W[i,j]=wi,j<$i,j和b[j]=bj<$j。关于制定的在我们的配方和(Icarteet al. 2019年),这使我们能够更快地训练网络,减少过度拟合。局部邻域限制:首先是我们如何定义约束(1,2,8,9)中的权重和偏置变量-我们确保这些变量只能设置为GDSolver算法的先前GD步骤给出的当前权重和偏置分配的这限制了求解器必须搜索的分配空间,极大地提高了其可伸缩性。它具有防止过度拟合的额外优点,因为新的解决方案不能与当前分配太最后,在实践中,这种限制似乎并不妨碍求解器通过局部极小值隧道。回归灵活性:代替回归约束(6)和分类(7,15,16),先前的公式将神经网络的输出与具有约束的预期目标标签联系起来,t=yj,tj , t ( Icarteetal. 2019;Thorbjarnarson 和 Yorke-Smith2020)。虽然这是更多简单明了,但它有重大缺陷。这迫使网络搜索完美回归每一个训练点的分配,这很可能导致过度拟合。我们的约束(6)的替代方案承认,训练集上的完美准确性是不可取的,通过简单地要求比当前分配更低的损失来达到更好的平衡这一观察结果是我们的公式化和DNN训练工具成功的关键。分类灵活性:将网络输出与标签相关联的约束的先前公式的问题在分类领域中更加明显,其中约束不仅要求求解器在训练集上实现完美的准确性,而且还要求输出向量匹配(Icarte et al.2019;Thorbjarnar-sonandYorke-Smith2020)。分类问题的输出向量通常是每个类的类成员关系的例如,给定一个3+v:mala2277获取更多论文∈2类分类问题目标向量y3classRT ×3其中yi,3class=[1,0,0]意味着第i个数据点属于第一类。在绝大多数情况下,神经网络输出向量并不试图预测精确的0-1值,而是预测未归一化的概率,因此最终预测是具有最高输出值的类 在预测的向量中。因此,如果pred i=[0. 75,0。2,0。05]或predi=[5,1,3] DNN已正确预测输出标签,但以前的MILP配方将考虑所有这些都是不正确的,因为它们不匹配精确的向量[1,0,0]。我们的公式具有约束条件(7,15,16),这些约束条件允许模型达到完美的训练精度,并允许DNN在其最终层中预测未归一化的概率。以前公式的推广:我们新公式的优点在于它是以前公式的推广,即,前面的公式是我们的一个特例,它是通过将最大损耗和最小精度参数分别设置为0和1而实验评价实验设置:对于我们所有的实验,我们将我们的混合方法与SGD、SGD与LRS、Adam优化和Adam与LRS的四个GD基线进行比较。实验在具有以下规格的系统上运行:18.04.2-具有Intel(R)Core(TM)i7- 10750 HCPU@2.60GHz的Ubuntu。使用GD基线的标准PyTorch实现创建和训练模型,MNIST和CIFAR10的数据集是PyTorch提供的标准数据集(Paszke et al. 2019年)。所使用的MILP求解器是Guidelines求解器的Python接口-Gurobipy(Pedroso2011)。实验1:回归在这个实验中,我们的目标是确定GDSolver算法和工具是否比GD基线实现更快的收敛和更高的数据和资源效率为了使比较尽可能公平,我们使用回归数据集(即,恒等式,仿射,4次多项式,三角和指数公式。更多细节请参见Ap-pennsylvania),我们知道基线模型可以准确地预测,损失很低。实验进行如 下:我们改变时期e的数量(从 1到20),并为每个GD基线记录测试损失和e时期后所用的时间。然后,我们将其与测试损失和完成SGD的e个epoch以及最终层的单个求解器扫描所花费的时间进行我们期望看到所花费的时间严格增加,因为混合方法完成基线所做的所有迭代和额外的步骤,然而,如果损失的改善足够大,那么它将证明额外的时间成本是合理的。这也使我们能够量化需要多少额外的GD时期来实现等效损失。结果分析:第一次实验的结果见表1。为了简洁起见,所示结果是针对在中间时期和所使用的最大时期-10和20处的最佳GD基线(具有LR调度的SGD)。(显示所有时期的完整结果的图可在附录)。该表比较了10和20个epoch后的GD基线与10个epoch后的GDSolver结果表明,混合求解器方法在加快损失收敛速度方面非常有用-对于这些数据集中的每一个,在10个时期之后,混合方法在泛化方面优于其他基线,并且在大多数情况下,只有在超过20个时期之后,基线才能赶上混合求解器泛化损失。GDSolver所花费的时间大于10个epoch的基线,但显著小于20次迭代所花费的时间,这是基线实现可比损失所花费的时间-GDSolver生成的模型平均在48%的时间内降低了31.5%的MSE。这两个观察放在一起的动机的结论,混合求解器方法是一个有效的和有价值的方法,以加快收敛速度,优于经典的GD方法。实验2:分类在这个实验中,我们确定我们的求解器+GD混合方法在训练数据量变化时,在泛化到测试集方面是否我们通过改变训练数据点n和时期e的数量来进行实验。对于每一对这些变量(n,e),我们训练基线GD方法,其中n个点用于e个时期。为了进行比较,使用GDSolver算法,我们最多训练e个SGD(n数据点),如果我们检测到损失平台,则提前停止并调用求解器-我们执行此过程2次。这种2循环GD-求解器方法在其GD步骤中使用最多e个历元,因此确保任何性能的改善都不是简单的更多计算的结果。当调用求解器时,我们不会给它整个训练数据集,而是一批(32个数据点)数据点,这些数据点被GD给出的当前分配错误地分类我们将GD基线与2 LoopGDSolver在测量泛化的测试准确性上进行比较。我们在两个著名的数据集-MNIST,CI-FAR 10上执行上述实验结果分析:第二次实验的结果见图[4]和[5]。 结果表明,平均而言,混合方法在测试精度方面优于所有GD基线。趋势线可以更深入地了解混合方法提供的优势它表明,当使用更少的数据点时,混合方法的表现要好得多,即,该混合方法具有更高的数据效率。对于这两个数据集,我们可以观察到一个趋势,即随着训练数据的增加,基线方法最终实现了与我们的方法相似的性能-MNIST和CIFAR 10上的GDSolver在只有50%的训练数据的情况下实现了这种基于求解器的训练方法在数据稀缺时表现更好的现象以前已经被注意到。例如,在(Icarteet al. 2019年),他们表明,对于二进制神经网络,由有限数据的求解器训练的模型远远优于GD方法。结果也与GD-求解器工具中的求解器扫描有助于隧道穿过局部最小值的想法一致+v:mala2277获取更多论文GD基线与之斗争,从而以比GD基线更少的数据点达到图4:GDSolver(绿色,混合最后gd)实现了96%的准确度,数据点是最佳GD基线的一半图5:GDSolver(绿色,混合last gd)始终优于两个基线,特别是在数据限制:GDSolver进行了一个基本的权衡,即为了使用实值DNN,它只能在网络的最后一层执行求解器扫描,否则最终优化将是一个非线性优化问题,因此超出了MILP求解器的范围。GDSolver目前还假设它作为输入的DNN使用前馈密集连接的最终层。这个假设对于回归和分类问题大多是正确的,但是对于大多数特殊的网络(如图像生成GAN等)并不成立相关工作DNN的符号公式化:越来越多的文献用符号来解释神经网络作 为 MILP 、 SAT 或 SMT 问 题 ( Tjeng 、 Xiao 和Tedrake2017;Zhang等人2018;Bunel等人2017)。几乎所有这些工作都旨在通过DNN验证求解器验证预训练的神经网络(更多细节请参见VNN-LIB Initative)。这具有重要的意义,因为它与我们在工具中使用的公式是根本不同的公式,其中用于验证的符号公式中的变量是输入数据点,而训练上下文中的变量是网络参数。通过求解器进行DNN训练使用求解器训练神经网络主要是在二进制和整数设置中进行研究Narodytska等人(Narodytskaet al. 2019)研究了将二进制神经网络转换为SAT问题,并研究了哪些架构更“SAT”友好,因此可以 有 效 地 解 决 这 些 问 题 。 Icarte et al. ( Icarte et al.2019)建立了用于训练目的的二进制神经网络的第一个MILP公式。他们试图使用正则化目标函数来处理过拟合问题,并表明当数据点稀疏时,MILP求解器作为训 练 算 法 的 选 择 优 于 GD 。 Thorbjarnarson 等 人(Thorbjarnarson and Yorke-Smith2020)使用了相同的公式,并试图将分析扩展到整数值神经网络。然而,这两种方法都存在可扩展性、过拟合的问题,并且不能用于实值网络(Icarte et al. 2019年)。结论和未来工作我们提出了GDSolver,一个用于DNN的混合求解器和GD训练算法,在几个回归和分类任务上,它在更高的准确性和更大的数据和资源效率方面始终优于4种最先进的GD方法。此外,据我们所知,我们是第一个基于求解器的方法,可以扩展到真实世界大小的DNN。MILP求解器和GD擅长不同的设置和方式。我们的方法GDSolver利用了每种方法的优点,从而产生了一种算法,该算法结合了两个世界的最佳效果,并且在准确性和数据效率等指标上优于其通过使用求解器隧道通过和逃避局部极小值,我们解决了GD方法经常遇到的最重要和最困难的问题之一。这使得GDSolver能够很好地扩展到额外的数据和模型大小,但在收敛速度和数据效率方面也优于纯GD方法。在未来,我们计划将我们的工作扩展到处理高度非线性的约束,因为其他类的求解器,如SMT求解器,能够处理这种非线性。此外,我们的目标之一是以确保(概率)遵守安全性或可靠性约束的方式训练DNN。目前尚不清楚如何使用纯基于GD的方法来保证遵守此类规范。相比之下,我们相信基于求解器的混合训练方法可以使我们能够以确保(概率)遵守逻辑规范的方式训练DNN。引用Bunel,R.;图尔卡斯兰岛; Torr,P.H.;科利,P.;和库马尔,M. P. 2017. 分段线性神经网络的统一观点+v:mala2277获取更多论文--工作验证。arXiv预印本arXiv:1711.00455。程角,澳-地-H.; Nu?be r g,G.; Ruess,H. 2017年。人工神经网络的最大在国际自动化技术验证和分析研讨会上,251-268。斯普林格。Gupte,A.;艾哈迈德,S.;千,M。S.的; 和Dey,S.2013年 。 用MILP 公 式 求解 混 合 整 数 双线 性 问 题 . SIAMJournal on Optimization23(2):721Howard,J.;和Ruder,S. 2018. 用于文本分类的通用语言模型微调。arXiv预印本arXiv:1801.06146。伊卡特河T.; Illanes,L.;卡斯特罗,M。P的; Cire,A.一、McIl- raith,S.一、和Beck,J.C. 2019.使用MIP和CP训练二值化神经网络在约束编程的原则和实践国际会议上,401417. 斯普林格。金马D. P的;和Ba,J. 2014。Adam:随机最佳化的方法。arXiv预印本arXiv:1412.6980。Kurbiel,T.;和Khaleghian,S.2017年。使用RMSProp基于距离测量的深度神经网络训练arXiv预印本arXiv:1708.01911。Li,Z.; 和Arora,S. 2019. 指数学习-为深度学习制定速率计划。arXiv预印本arXiv:1910.07454。Narodytska,N.;张,H.;古普塔,A.;和Walsh,T. 2019.寻找SAT友好的二进制神经网络架构。在学习表征上。Pan,S. J.道:和Yang,Q. 2009.迁移学习研究综述。IEEE Transactions on Knowledge and Data Engineering22(10):1345Papernot,N.;McDaniel,P.;Jha,S.;Fredrikson,M.;塞利克Z. B.人; 和Swami,A.2016年。深度学习在对抗环境中的局限性2016年IEEE欧洲安全与隐私研讨会(EuroSP),372-387。美国电气与电子工程师学会。Paszke , A.; Gross , S.; Massa , F.; Lerer , A.;Bradbury , J.;Chanan , G.;Killeen , T.;Lin ,Z.;Gimelshein,N.;Antiga,L.;等,2019年。Pytorch:一个命令式风格的高性能深度学习库。神经信息处理系统进展32:8026Pedroso,J. P. 2011. 使用Guidance和Python进行优化。INESC Porto and Universidade do Porto,,波尔图,葡萄牙1.鲁德,S。2016.梯度下降优化算法概述。arXiv预印本arXiv:1609.04747。Thorbjarnarson,T.;和Yorke-Smith,N.2020年。用混合规划训练神经网络。arXiv预印本arXiv:2009.03825。Tjeng,V.;肖,K.;和Tedrake,R. 2017.用混合编程方法评 价 神 经 网 络 的 鲁 棒 性 。 arXiv 预 印 本 arXiv :1711.07356。维尔马,S.;王,C.; Zhu,L.,中国农业科学院;和Liu,W. 2019. DNN模型的一致性检验框架.在第28届人工智能国际联合会议上IJCAI-19机构。国际人工智能组织联席会议。张,H.;翁,T.- W的;陈佩Y的;谢角,越-地J.道:和Daniel,L. 2018.用一般激活函数进行有效的神经网络鲁棒性验证。arXiv预印本arXiv:1811.00866。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于Python和Opencv的车牌识别系统实现
- 我的代码小部件库:统计、MySQL操作与树结构功能
- React初学者入门指南:快速构建并部署你的第一个应用
- Oddish:夜潜CSGO皮肤,智能爬虫技术解析
- 利用REST HaProxy实现haproxy.cfg配置的HTTP接口化
- LeetCode用例构造实践:CMake和GoogleTest的应用
- 快速搭建vulhub靶场:简化docker-compose与vulhub-master下载
- 天秤座术语表:glossariolibras项目安装与使用指南
- 从Vercel到Firebase的全栈Amazon克隆项目指南
- ANU PK大楼Studio 1的3D声效和Ambisonic技术体验
- C#实现的鼠标事件功能演示
- 掌握DP-10:LeetCode超级掉蛋与爆破气球
- C与SDL开发的游戏如何编译至WebAssembly平台
- CastorDOC开源应用程序:文档管理功能与Alfresco集成
- LeetCode用例构造与计算机科学基础:数据结构与设计模式
- 通过travis-nightly-builder实现自动化API与Rake任务构建
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功