TensorFlow NLP教程：分词与序列填充

需积分: 5 67 浏览量更新于2024-08-03 1 收藏 18.93MB PDF 举报

"谷歌NLP课程内容涉及分词、词汇索引、序列编码、未知词汇处理以及序列填充等关键步骤，是构建文本情感分析模型的基础。" 在自然语言处理（NLP）领域，预处理文本是至关重要的一步，尤其是对于训练神经网络模型来说。谷歌的NLP课程中，介绍了如何使用TensorFlow和Keras库进行这一过程。首先，我们需要将单词转化为数字，这是通过分词器（Tokenizer）实现的。`Tokenizer`是Keras库中的一个类，用于处理文本数据。在这个例子中，我们创建了一个分词器实例，限制词汇表大小为100个最常出现的单词。`fit_on_texts`方法被用来适应句子集合，这会根据句子中出现的单词创建一个词汇表，并为每个单词分配一个唯一的数字索引。例如，词汇表`word_index`显示了单词如"I"对应1，"my"对应3，"dog"对应4，以此类推。`texts_to_sequences`方法则将句子转换为由这些数字组成的序列，使得每个句子成为了一个可以输入到神经网络的向量。然而，测试数据中可能出现训练集中未出现的词，这种情况被称为“未知词汇”（Out-of-Vocabulary, OOV）。为解决这个问题，我们可以设置`oov_token`参数，通常用一个特殊标记（如`'<oov>'`）表示未知词汇，确保它们也能被模型处理。此外，不同句子的长度可能不一致，这对于神经网络来说是个挑战，因为它们期望输入的序列长度相同。为解决这个问题，可以使用`pad_sequences`函数进行序列填充。它会在序列的末尾添加零，以使其达到指定的最大长度。这样，所有序列都被调整为相同的长度，适合神经网络的输入需求。在构建文本情感分析模型时，以上步骤是必不可少的。首先，我们需要导入数据，包括标签（情感类别）、文本内容以及可能的文章链接。然后，执行上述的分词、词汇索引、序列编码、未知词汇处理和序列填充步骤。最后，这些预处理后的数据可以作为输入，训练一个能够识别文本情感的深度学习模型，如LSTM或CNN。整个流程的关键在于有效地将自然语言转换为机器可理解的形式，以便模型能够学习和提取其中的模式，进而进行情感分析或其他NLP任务。

⽤分词器将单词转化为数字Koke!

import tensor ﬂow as tf!

From tensorﬂow import Karas!

From tensorﬂow Karas.preprocessing.text import tokenizer!

Sentences={!

" ‘I love my dog’,!

" ‘I love my cat’!

" ‘you love my dog’,!

" ‘do you think my dog is amazing?’!

tokenizer=Tokenizer (num_words=100)!

tokenizer.ﬁt_on_texts(sentences)!

Word_index=tokenizer.word_index!

Print (word_index)!

Out:{‘I’:1,’my’:3,’dog’:4,’cat’:5,’love’:2}!

为句⼦创造数字序列，为训练神经⽹络做准备!

Sequences=tokenizer.texts_to_sequences(sentences)!

Print(word_index)!

Print (sequences)!

例外情况!

1.当测试集中出现没有在最初训练的数据集中出现的词（词没有对应的数字序号,不在单词索引（语料

库）中）!

test_data={!

" ‘I really love my dog’,!

" ‘my dog loves my manatee’!

Test _seq =tokenizer.texts_to_sequences(test_data)!

Print ( test_seq)!

⽅法：使⽤love_token属性，代替语料库中⽆法识别的内容!

{‘<oov>’:1………}!

tokenizer=Tokenizer (num_words=100)->tokenizer=Tokenizer (oov_token=“<oov>”)!

2.如何处理句⼦⻓度不同的问题!

⽅法：使⽤padding，⽤来填充序列!

From tensorﬂow.Karas.preprocessing.sequence import pad_sequences!

Padded =pad_sequences(sequences)!

index

分词

器

sequences

token

单词

数字

对

分词

⼯作

完成

下载后可阅读完整内容，剩余7页未读，立即下载

Che_Che_

粉丝: 449
资源: 14

TensorFlow NLP教程：分词与序列填充

互联网数据挖掘课程 北大NLP课程-自然语言处理系列课程 第04章 自然语言处理基础 共64页.pdf

Google机器学习速成课程.pdf

_google机器学习速成课程.pdf：快速入门机器学习技术

计算机科学导论课程授课教案.pdf

《计算机前沿技术》课程教学大纲.pdf

1 课程介绍及知识图谱基础.pdf

Python机器学习项目开发实战_创建自定义的新闻源_编程案例解析实例详解课程教程.pdf

CS231n课程笔记翻译：卷积神经网络笔记.pdf

【洞见研报,研墨AI】智能音箱行业简报（人工智能、语音识别、 自然语言处理、多模态交互）.pdf

ResNet实战.pdf

最新资源

互联网数据挖掘课程北大NLP课程-自然语言处理系列课程第04章自然语言处理基础共64页.pdf

【洞见研报,研墨AI】智能音箱行业简报（人工智能、语音识别、自然语言处理、多模态交互）.pdf