没有合适的资源?快使用搜索试试~ 我知道了~
首页《动手学——循环神经网络进阶、梯度消失、梯度爆炸以及Kaggle房价预测、过拟合、欠拟合及其解决方案》笔记
《动手学——循环神经网络进阶、梯度消失、梯度爆炸以及Kaggle房价预测、过拟合、欠拟合及其解决方案》笔记
9 下载量 67 浏览量
更新于2023-05-04
评论
收藏 145KB PDF 举报
《动手学——循环神经网络进阶》笔记 GRU 时间步数较大或者较小时,循环神经网络梯度较容易出现梯度衰减/梯度爆炸。 虽然裁剪梯度可以应对梯度爆炸,但没法解决梯度衰减问题。 所以提出⻔控循环神经⽹络GRU,来捕捉时间序列中时间步距离较⼤的依赖关系 RNN存在的问题:梯度较容易出现衰减或爆炸(BPTT) ⻔控循环神经⽹络:捕捉时间序列中时间步距离较⼤的依赖关系 RNN: Ht=ϕ(XtWxh+Ht−1Whh+bh) GRU: Rt=σ(XtWxr+Ht−1Whr+br) Zt=σ(XtWxz+Ht−1Whz+bz) Ht=tanh(XtWxh+(Rt⊙Ht−1)Whh+bh) Ht=Zt⊙Ht−1
资源详情
资源评论
资源推荐
《动手学《动手学——循环神经网络进阶、梯度消失、梯度爆炸以及循环神经网络进阶、梯度消失、梯度爆炸以及Kaggle房价预房价预
测、过拟合、欠拟合及其解决方案》笔记测、过拟合、欠拟合及其解决方案》笔记
《动手学《动手学——循环神经网络进阶》笔记循环神经网络进阶》笔记
GRU
时间步数较大或者较小时,循环神经网络梯度较容易出现梯度衰减/梯度爆炸。
虽然裁剪梯度可以应对梯度爆炸,但没法解决梯度衰减问题。
所以提出控循环神经络GRU,来捕捉时间序列中时间步距离较的依赖关系
RNN存在的问题:梯度较容易出现衰减或爆炸(BPTT)
控循环神经络:捕捉时间序列中时间步距离较的依赖关系
RNN:
Ht=ϕ(XtWxh+Ht−1Whh+bh)
GRU:
Rt=σ(XtWxr+Ht−1Whr+br)
Zt=σ(XtWxz+Ht−1Whz+bz)
Ht=tanh(XtWxh+(Rt⊙Ht−1)Whh+bh)
Ht=Zt⊙Ht−1+(1−Zt)⊙Ht
• 重置有助于捕捉时间序列短期的依赖关系;
• 更新有助于捕捉时间序列期的依赖关系。
初始化参数
num_inputs, num_hiddens, num_outputs = vocab_size, 256, vocab_size
print('will use', device)
def get_params():
def _one(shape):
ts = torch.tensor(np.random.normal(0, 0.01, size=shape), device=device, dtype=torch.float32) #正态分布
return torch.nn.Parameter(ts, requires_grad=True)
def _three():
return (_one((num_inputs, num_hiddens)),
_one((num_hiddens, num_hiddens)),
torch.nn.Parameter(torch.zeros(num_hiddens, device=device, dtype=torch.float32), requires_grad=True))
W_xz, W_hz, b_z = _three() # 更新门参数
W_xr, W_hr, b_r = _three() # 重置门参数
W_xh, W_hh, b_h = _three() # 候选隐藏状态参数
# W_x=x*h, W_h=h*h, b=h(x输入个数,h隐藏单元个数)
# x=n*x(n批量大小,x输入个数)
#(1*x)(x*h)+(1*h)(h*h)+h = h
# 输出层参数
#输出到一个output,如果是分类器,q个类别,则输出到形状为q的tensor上
#Ht大小为h,output大小为q,则W_hq=h*q, b_q=q
W_hq = _one((num_hiddens, num_outputs))
b_q = torch.nn.Parameter(torch.zeros(num_outputs, device=device, dtype=torch.float32), requires_grad=True)
return nn.ParameterList([W_xz, W_hz, b_z, W_xr, W_hr, b_r, W_xh, W_hh, b_h, W_hq, b_q])
def init_gru_state(batch_size, num_hiddens, device): #隐藏状态H-1初始化
return (torch.zeros((batch_size, num_hiddens), device=device), )
#每个batch_size需要一个H-1,每个H-1都初始化为0
GRU模型
def gru(inputs, state, params):
W_xz, W_hz, b_z, W_xr, W_hr, b_r, W_xh, W_hh, b_h, W_hq, b_q = params #十二个参数初始化
H, = state
outputs = [] for X in inputs: #对input的每一个样本X
Z = torch.sigmoid(torch.matmul(X, W_xz) + torch.matmul(H, W_hz) + b_z)
R = torch.sigmoid(torch.matmul(X, W_xr) + torch.matmul(H, W_hr) + b_r)
H_tilda = torch.tanh(torch.matmul(X, W_xh) + R * torch.matmul(H, W_hh) + b_h)
H = Z * H + (1 - Z) * H_tilda
Y = torch.matmul(H, W_hq) + b_q #Y即需要的output
outputs.append(Y)
return outputs, (H,) #返回output和最后一个隐藏层H
训练模型
num_epochs, num_steps, batch_size, lr, clipping_theta = 160, 35, 32, 1e2, 1e-2
pred_period, pred_len, prefixes = 40, 50, ['分开', '不分开'] 1
2
d2l.train_and_predict_rnn(gru, get_params, init_gru_state, num_hiddens,
vocab_size, device, corpus_indices, idx_to_char,
char_to_idx, False, num_epochs, num_steps, lr,
clipping_theta, batch_size, pred_period, pred_len,
prefixes)
#把第一个参数改成gru
简洁实现
num_hiddens=256
num_epochs, num_steps, batch_size, lr, clipping_theta = 160, 35, 32, 1e2, 1e-2
weixin_38617602
- 粉丝: 7
- 资源: 928
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- zigbee-cluster-library-specification
- JSBSim Reference Manual
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0