没有合适的资源?快使用搜索试试~ 我知道了~
首页An overview of gradient descent optimization algorithms(译文)
An overview of gradient descent optimization algorithms(译文)
需积分: 43 34 下载量 16 浏览量
更新于2023-03-16
评论
收藏 547KB PDF 举报
梯度下降法,是当今最流行的优化(optimization)算法,亦是至今最常用的优化神经网络的方法。本文旨在让你对不同的优化梯度下降法的算法有一个直观认识,以帮助你使用这些算法。我们首先会考察梯度下降法的各种变体,然后会简要地总结在训练(神经网络或是机器学习算法)的过程中可能遇到的挑战。
资源详情
资源评论
资源推荐
<1>前言
<2>梯度下降法变体
<2.1>批量梯度下降法(BatchGradientDescent)
<2.2>随机梯度下降法(StochasticGradientDescent)
<2.3>小批量梯度下降法(MiniBatchGradientDescent)
<3>面临的挑战
<4>梯度下降优化算法
<4.1>动量法
<4.2>Nesterov加速梯度法
<4.3>Adagrad法
<4.4>Adadelta法
<4.5>RMSprop
<4.6>适应性动量估计法(Adam)
<4.7>算法可视化
<4.8>如何选择优化器?
<5>对SGD进行平行计算或分布式计算
<5.1>Hogwild!
<5.2>DownpourSGD
<5.3>容忍延迟的SGD算法
<5.4>TensorFlow
<5.5>弹性平均梯度下降法(ElasticAveragingSGD)
<6>优化SGD的其他手段
<6.1>重排法(Shuffling)和递进学习(CurriculumLearning)
<6.2>批量标准化(BatchNormalization)
<6.3>早停(EarlyStopping)
<6.4>梯度噪声(GradientNoise)
<7>结论
<8>鸣谢
<9>该文的打印版及引文
<1>前言
梯度下降法,是当今最流行的最优化(optimization)算法,亦是至今最常用的最优化神经网络的方法。与此同时,
最新的深度学习程序库都包含了各种优化梯度下降的算法(可以参见如lasagne、caffe及Kera等程序库的说明文
档)。但他们的算法则不被公开,都作为黑箱优化器被使用,这也就是为什么它们的优势和劣势往往难以被实际地
解释。
该文章旨在让你对不同的优化梯度下降法的算法有一个直观认识,以帮助你使用这些算法。我们首先会考察梯度下
降法的各种变体,然后会简要地总结在训练(神经网络或是机器学习算法)的过程中可能遇到的挑战。接着,我们
将会讨论一些最常见的优化算法,研究他们的解决这些挑战的动机及他们推导出更新规律(updaterules)的过程。
我们还会简要探讨一下,在平行计算或是分布式处理情况下优化梯度下降法的算法和架构。最后,我们会考虑一下
其他有助于优化梯度下降法的策略。
Pikachu5808
- 粉丝: 39
- 资源: 18
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- stc12c5a60s2 例程
- Android通过全局变量传递数据
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0