首页使用nltk库对数据集预处理的代码

使用nltk库对数据集预处理的代码

时间: 2024-06-11 21:08:20 浏览: 11

以下是使用nltk库对数据集进行预处理的示例代码： ```python import nltk from nltk.tokenize import word_tokenize from nltk.corpus import stopwords from nltk.stem import WordNetLemmatizer nltk.download('punkt') nltk.download('stopwords') nltk.download('wordnet') # 加载数据集 with open('data.txt', 'r') as f: data = f.read() # 将文本转换为小写 data = data.lower() # 分词 tokens = word_tokenize(data) # 去除停用词 stop_words = set(stopwords.words('english')) filtered_tokens = [token for token in tokens if token not in stop_words] # 词形还原 lemmatizer = WordNetLemmatizer() lemmatized_tokens = [lemmatizer.lemmatize(token) for token in filtered_tokens] # 输出处理后的文本 print(lemmatized_tokens) ``` 在这个示例中，我们首先使用`nltk`库中的`word_tokenize`函数将文本分成单词。然后，我们使用`nltk`库中的`stopwords`模块去除文本中的停用词。最后，我们使用`WordNetLemmatizer`类对单词进行词形还原。处理后的文本输出为一个单词列表。