python生成中文词汇表
时间: 2023-09-19 11:12:20 浏览: 207
采用python程序设计语言,进行分词,再去掉停用词和标点符号等,生成文档的词典,接着根据词典和文档内容生成词项的倒排记录表
可以使用Python的jieba库来生成中文词汇表。下面是一个简单的示例代码:
```python
import jieba
# 读取文本文件
with open('text.txt', 'r', encoding='utf-8') as f:
text = f.read()
# 使用jieba库进行分词
words = jieba.lcut(text)
# 去除停用词,例如:的、了、是等等
stopwords = ['的', '了', '是', '在', '和', '有', '不', '中', '等', '一种', '一样', '这个']
words = [word for word in words if word not in stopwords]
# 统计词频
word_counts = {}
for word in words:
if word in word_counts:
word_counts[word] += 1
else:
word_counts[word] = 1
# 按照词频从高到低排序
sorted_word_counts = sorted(word_counts.items(), key=lambda x: x[1], reverse=True)
# 输出前100个高频词
for i in range(100):
print(sorted_word_counts[i][0], sorted_word_counts[i][1])
```
在该示例代码中,我们首先使用`jieba.lcut()`函数对文本进行分词,然后使用列表推导式去除停用词。接着,使用字典统计每个单词出现的次数,并使用`sorted()`函数按照词频从高到低排序。最后,输出前100个高频词及其出现次数。
注意:在使用jieba库之前,需要先安装该库。可以使用`pip install jieba`命令进行安装。
阅读全文