没有合适的资源?快使用搜索试试~ 我知道了~
首页Transformer (Google 机器翻译模型)
Transformer (Google 机器翻译模型)
14 下载量 83 浏览量
更新于2023-05-04
评论
收藏 427KB PDF 举报
双壁合一 卷积神经网络(CNNS) Fundamentals of Convolutional Neural Networks LeNet && ModernCNN CNNs 易于并行化,却不适合捕捉变长序列内的依赖关系。 循环神经网络(RNNS) Fundamentals of Recurrent Neural Network ModernRNN RNNs 适合捕捉长距离变长序列的依赖,但是自身的recurrent特性却难以实现并行化处理序列。 整合CNN和RNN的优势,Vaswani et al., 2017 创新性地使用注意力机制设计了 Transformer 模型。 该模型利用 at
资源详情
资源评论
资源推荐
Transformer (Google 机器翻译模型机器翻译模型)
双壁合一双壁合一
卷积神经网络卷积神经网络(CNNS)
Fundamentals of Convolutional Neural Networks
LeNet && ModernCNN
CNNs 易于并行化,却不适合捕捉变长序列内的依赖关系。
循环神经网络循环神经网络(RNNS)
Fundamentals of Recurrent Neural Network
ModernRNN
RNNs 适合捕捉长距离变长序列的依赖,但是自身的recurrent特性却难以实现并行化处理序列。
整合整合CNN和和RNN的优势,的优势,Vaswani et al., 2017 创新性地使用注意力机制设计了创新性地使用注意力机制设计了 Transformer 模型。模型。
该模型利用 attention 机制实现了并行化捕捉序列依赖,并且同时处理序列的每个位置的 tokens ,上述优势使得 Transformer 模型在性能优异的同时大大减少了训练时间。
如图展示了 Transformer 模型的架构,与机器翻译及其相关技术介绍中介绍的 seq2seq 相似相似,Transformer同样基于编码器-解码器架构,其区别主要在于以下三点:
Transformer blocks:循环网络seq2seq模型循环网络_{seq2seq模型}循环网络seq2seq模型–> Transformer Blocks
Transform Blocks模块包含一个多头注意力层(Multi-head Attention Layers)以及两个 position-wise feed-forward networks(FFN)。对于解码器来说,另一个多头注意力层被用于
接受编码器的隐藏状态。
Add and norm:多头注意力层和前馈网络的输出被送到两个“add and norm”层进行处理
该层包含残差结构以及层归一化。
Position encoding:由于自注意力层并没有区分元素的顺序,所以一个位置编码层被用于向序列元素里添加位置信息。
Transformer架构.
Transformer 架构.
Transformer架构.
鉴于新子块第一次出现,在此前 CNNS 和 RNNS 的基础上,实现 Transform 子模块,并且就机器翻译及其相关技术介绍中的英法翻译数据集实现一个新的机器翻译模型。
Transformer
import os
import math
import numpy as np
import torch
import torch.nn as nn
import torch.nn.functional as F
import sys
sys.path.append('path to file storge d2lzh1981')
import d2l
masked softmax
参考注意力机制和Seq2seq模型工具1注意力机制和Seq2seq模型_{工具1}注意力机制和Seq2seq模型工具1
def SequenceMask(X, X_len,value=-1e6):
maxlen = X.size(1)
X_len = X_len.to(X.device)
#print(X.size(),torch.arange((maxlen),dtype=torch.float)[None, :],'',X_len[:, None] )
mask = torch.arange((maxlen), dtype=torch.float, device=X.device)
weixin_38697579
- 粉丝: 4
- 资源: 928
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- zigbee-cluster-library-specification
- JSBSim Reference Manual
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0