机器翻译实验：数据预处理与字典构建

机器翻译

需积分: 0 176 浏览量更新于2024-08-05 收藏 2.55MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

“实验三：机器翻译submit1”是关于机器翻译的一个实践操作，涉及数据集的准备、词汇表构建、单词与数字的映射、句子的分词与处理以及句子长度的对齐。在这个实验中，首先需要进行的是数据集的准备。训练集来源于WMTNewscrawl2007-14语料库，该语料库包含了德语到英语的大量翻译对，总计4208440个句子，约83971668个英文词汇。为了训练神经机器翻译模型，实验者从中抽取出50000个句子作为训练样本。预处理阶段，关键步骤是tokenize，即把文本分解成可处理的子词单元。这里使用了`subword-nmt`工具进行预处理，目的是生成词汇表。通常会选取一定数量的最常见词汇，实验中分别尝试了取前32000个和50000个高频词汇。此外，还需在词典中加入特殊标记，例如表示未知词、句子开始和结束的符号。接着，建立单词与数字之间的映射关系。德语文本（src_dict）和英语文本的单词分别被映射为唯一的数字，同时创建反向字典（src_rev_dict）将数字还原为单词。这个映射过程确保了每个单词都有一个唯一的编号，方便后续模型处理。在分词处理阶段，每个句子被拆分成单词和符号，同时通过source字段标识单词属于源字典还是目标字典。若遇到不在字典中的单词，用特定标记代替。为了训练的效率和一致性，需要保证所有句子的长度相同。这通过填充或截断实现，使得每个句子达到最大长度，超过部分会被截断。源语言和目标语言的句子处理方式类似。最后，实验中使用了一个名为src_dict的字典来存储德语单词，并通过读取文件对单词进行编码。每一行的处理包括去除数字，保留第一个单词，并将其添加到字典中。这个实验涵盖了机器翻译的基本流程，包括数据准备、预处理、词汇表构建、句子处理以及长度对齐，这些都是构建神经机器翻译模型的关键步骤。通过这样的实践，可以更好地理解和应用机器翻译技术。

资源详情

资源推荐

3.对训练的句⼦进⾏tokenize

将句⼦拆分为其组成⽂字（单词、符号），省略最后⼀个换⾏符。

⽤source字段来区分token是在源字典还是⽬标字典中

在调⽤时对应设置为true/false

如果key未在字典中出现则将当前token设置为

3.保证句⼦⻓度相同

通过填充使所有相同⻓度的句⼦达到最⼤⻓度，如果超过，则将其截断

对于源和⽬标的句⼦处理类似不做赘述

src_dict = dict()

with open(filename_de, encoding='utf-8') as f:

for line in f:

# save the first word,not the number

line=line.split(" ")

line=line[0]

# print(line)

src_dict[line[:-1]] = len(src_dict)

src_rev_dict = dict(zip(src_dict.values(),src_dict.keys()))

src_sent_tokens = tokenize(src_sent,True,src_dictionary,tgt_dictionary)

tgt_sent_tokens = tokenize(tgt_sent,False,src_dictionary,tgt_dictionary)

def tokenize(sentence,source,src_dict,tgt_dict):

sentence = sentence.replace('-',' ')

sentence = sentence.replace('\n',' ')

sentence = sentence.replace(',',' ,')

sentence = sentence.replace('.',' .')

tokens = sentence.split(' ')

for t, key in enumerate(tokens):

if source:

if key not in src_dict.keys():

tokens[t] = '<unk>'

else:

if key not in tgt_dict.keys():

tokens[t] = '<unk>'

return tokens

剩余13页未读，继续阅读

阿葱的葱白

粉丝: 29
资源: 311

机器翻译实验：数据预处理与字典构建

实验三：Spark单词计数1

WordPress插件：Baidu Links Submit

Azure云中的人工智能：机器学习与认知服务的应用

第1关：spark-submit提交

-bash: spark-submit: command not found

请转译person=1234","$5003":"&SUBMIT=Submit+Solution

第1关:spark-submit提交 解析

sudo: spark-submit: command not found

KeyError: 'submit_time'

-bash: spark-submit: 未找到命令

events : { "click #submitBtn" : "_submit", "click #resetBtn" : "_resetBtn", "click #chooseArea,#selectOrg,#staffSelectList" : "_showPage", "click #isSysUser" : "_isChecked", "click .close" : "_closePage" },这些代码的作用

ExecutorService的submit或execute方法：execute和submit都是ExecutorService接口的方法，用于线程池提交任务。所有线程池都直接或间接实现ExecutorService接口。

Uncaught ReferenceError: submit is not defined

bool QAbstractItemModel::submit();

Uncaught ReferenceError: submitForm is not defined at HTMLButtonElement.onclick (order.html:59:50)

uniapp 调用 formsubmit: function(e)

submit事件怎么用

最新资源

第1关:spark-submit提交解析