PyTorch实现Transformer模型与数据处理

需积分: 0 129 浏览量更新于2024-08-05 收藏 452KB PDF 举报

"尹张森的机器翻译作业，基于pytorch实现Transformer模型，处理IWSLT'14德英数据集，使用BPE分词技术。" 在这个项目中，作者尹张森采用PyTorch框架来实现Transformer模型，该模型主要用于机器翻译任务。Transformer模型的特点在于它摒弃了传统循环神经网络（RNN）或长短期记忆网络（LSTM）的序列依赖性，转而使用自注意力机制（Self-Attention）和前馈神经网络，从而能够高效处理长距离依赖问题。数据处理部分是项目的关键环节。首先，Tokenizer类用于处理数据集，它从BPE（Byte Pair Encoding）表中生成两个字典：word2idx_dict用于将单词映射为整数索引，idx2word_dict则用于将整数索引还原为单词。在句子编码阶段，未出现在词表中的词汇会被替换为特殊标记。解码过程则使用idx2word_dict将索引转换回词汇。此外，Tokenizer还包括填充（padding）和去填充（depadding）功能，以确保所有输入序列具有相同的长度，以便于模型处理。在数据预处理的最后阶段，会使用torch.utils创建自定义的DataSet和DataLoader。 Transformer模型的结构包含多层编码器，每一层都由不同的模块组成，如嵌入层、位置编码层、多头自注意力层、前馈神经网络、残差连接和层标准化。嵌入层通过PyTorch的Embedding()函数将输入序列转换为向量表示。位置编码是固定矩阵，通常使用不同频率的三角函数生成，目的是为每个位置的向量添加独特的信息，帮助模型识别序列中的相对位置。这个项目展示了如何运用Transformer模型进行机器翻译，并对数据预处理进行了详尽的阐述，包括分词、编码、解码以及序列对齐等步骤，这些都是深度学习模型训练中不可或缺的部分。

机器翻译作业

作者:尹张森,2101839

本项⽬使⽤pytorch框架实现transformer[1]

1.数据集和数据处理

使⽤预处理好的IWSLT’14 De-En数据集,源语⾔德语⽬标语⾔英语,使⽤双字节编码分词.

先写⼀个Tokenizer类⽣成字典,并且有以下功能

1.读取bpe表⽣成word2idx_dict,idx2word_dict

2.句⼦编码,词表⾥没有的词⽤替换

3.句⼦解码,⽤上⾯的字典idx2word

4.padding,padding后输⼊进

5.depadding

4.debpe过程

然后⽤torch.utils实现⼀个⾃⼰的DataSet,DataLoader就⾏了

2.Transformer

根据教材2的介绍,循环神经⽹络每个循环单元都有向前依赖性,也就是当前时间步的处理依赖前⼀时间步处理的结

果。这个性质可以使序列的“历史”信息不断被传递,但是也造成模型运⾏效率的下降。特别是对于⾃然语⾔处理任务,

序列往往较⻓,⽆论是传统的 RNN 结构,还是更为复杂的 LSTM 结构,都需要很多次循环单元的处理才能够捕捉到单

词之间的⻓距离依赖。由于需要多个循环单元的处理,距离较远的两个单词之间的信息传递变得很复杂.

Transformer 模型仅仅使⽤⾃注意⼒机制和标准的前馈神经⽹络,完全不依赖任何循环单元或者卷积操作。⾃注意

⼒机制的优点在于可以直接对序列中任意两个单元之间的关系进⾏建模,这使得⻓距离依赖等问题可以更好地被求

解。

下图展示了 Transformer 的结构。编码器由若⼲层组成(绿⾊虚线框就代表⼀层) 。每⼀层(Layer)的输⼊都是⼀个

向量序列,输出是同样⼤⼩的向量序列,⽽Transformer 层的作⽤是对输⼊进⾏进⼀步的抽象,得到新的表示结果。不

过这⾥的层并不是指单⼀的神经⽹络结构,它⾥⾯由若⼲不同的模块组成.

下载后可阅读完整内容，剩余9页未读，立即下载

三更寒天

粉丝: 900
资源: 326

PyTorch实现Transformer模型与数据处理

蚂蚁金服-张森-大规模分布式事务实践和开源介绍.pdf

基于遗传算法的多维装箱问题的研究_张森均1

开题任务书_chiro1

基于Qt开发的截图工具- 支持全屏截图， 支持自定义截图，支持捕获窗口截图，支持固定大小窗口截图，颜色拾取，图片编辑

毕业设计&课设_ 校园活动管理系统，优化校园活动组织流程，涵盖多方面功能模块的便捷平台.zip

毕业设计基于ASP.NET技术的班级展示网站构建(源代码+论文).zip

基于springboot的流浪动物管理系统源码数据库文档.zip

基于springboot+vue的实践性教学系统源码数据库文档.zip

基于Python+Django家居全屋定制系统源码数据库文档.zip

Umi-OCR-main.zip

最新资源

基于Qt开发的截图工具- 支持全屏截图，支持自定义截图，支持捕获窗口截图，支持固定大小窗口截图，颜色拾取，图片编辑