没有合适的资源?快使用搜索试试~ 我知道了~
首页权重衰减(weight decay)与学习率衰减(learning rate decay).docx
资源详情
资源推荐
深度学习:权重衰减(weight decay)与学习率衰减(learning rate decay)
技术标签:深度学习机器学习
正则化方法:防止过拟合,提高泛化能力
避免过拟合的方法有很多:early stopping、数据集扩增(Data augmentaon)、正则化
(Regularizaon)包括 L1、L2(L2 regularizaon 也叫 weight decay),dropout。
权重衰减(weight decay)
L2 正则化的目的就是为了让权重衰减到更小的值,在一定程度上减少模型过拟合的问题,
所以权重衰减也叫 L2 正则化。
在损失函数中,weight decay 是放在正则项(regularizaon)前面的一个系数,正则项一般
指示模型的复杂度,所以 weight decay 的作用是调节模型复杂度对损失函数的影响,若
weight decay 很大,则复杂的模型损失函数的值也就大。
L2 正则化与权重衰减系数
L2 正则化就是在代价函数后面再加上一个正则化项:
其中 C0 代表原始的代价函数,后面那一项就是 L2 正则化项,它是这样来的:所有参数 w
的平方的和,除以训练集的样本大小 n。λ 就是正则项系数,权衡正则项与 C0 项的比重。
另外还有一个系数 1/2,1/2 经常会看到,主要是为了后面求导的结果方便,后面那一项求
导会产生一个 2,与 1/2 相乘刚好凑整为 1。系数 λ 就是权重衰减系数。
为什么可以对权重进行衰减
我们对加入 L2 正则化后的代价函数进行推导,先求导:
可以发现 L2 正则化项对 b 的更新没有影响,但是对于 w 的更新有影响:
*Lisen
- 粉丝: 122
- 资源: 45
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- 电力电子系统建模与控制入门
- SQL数据库基础入门:发展历程与关键概念
- DC/DC变换器动态建模与控制方法解析
- 市***专有云IaaS服务:云主机与数据库解决方案
- 紫鸟数据魔方:跨境电商选品神器,助力爆款打造
- 电力电子技术:DC-DC变换器动态模型与控制
- 视觉与实用并重:跨境电商产品开发的六重价值策略
- VB.NET三层架构下的数据库应用程序开发
- 跨境电商产品开发:关键词策略与用户痛点挖掘
- VC-MFC数据库编程技巧与实现
- 亚马逊新品开发策略:选品与市场研究
- 数据库基础知识:从数据到Visual FoxPro应用
- 计算机专业实习经验与项目总结
- Sparkle家族轻量级加密与哈希:提升IoT设备数据安全性
- SQL数据库期末考试精选题与答案解析
- H3C规模数据融合:技术探讨与应用案例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功