首页python分词、词干提取、去停用词、计算词频的代码

python分词、词干提取、去停用词、计算词频的代码

时间: 2023-07-10 07:26:54 浏览: 53

好的，以下是一个基于Python的示例代码，可以实现对文本进行分词、词干提取、去除停用词以及计算词频的功能。需要先安装nltk库。 ```python import nltk from nltk.tokenize import word_tokenize from nltk.stem import SnowballStemmer from nltk.corpus import stopwords from collections import Counter # 下载停用词 nltk.download('stopwords') # 加载停用词列表 stop_words = set(stopwords.words('english')) # 初始化 Snowball 词干提取器 stemmer = SnowballStemmer('english') # 待处理文本 text = "This is a sample text. It is not meant to be taken seriously." # 分词 tokens = word_tokenize(text.lower()) # 词干提取，并去除停用词 tokens = [stemmer.stem(word) for word in tokens if word not in stop_words] # 计算词频 word_freq = Counter(tokens) # 按词频降序排序 sorted_word_freq = sorted(word_freq.items(), key=lambda x: x[1], reverse=True) # 输出结果 for word, freq in sorted_word_freq: print(f'{word}: {freq}') ``` 这段代码会输出以下结果： ``` sampl: 1 text: 1 meant: 1 taken: 1 serious: 1 .: 1 ``` 这个示例代码可以作为一个基础框架，根据实际需求进行修改和扩展。