给我一个用python实现中文词频统计的代码,代码包括去除停用词,留用词和替换合并词等指令
时间: 2023-02-27 10:00:35 浏览: 81
Python编写的词频统计工具
5星 · 资源好评率100%
这是一段python代码,可以用来统计中文词频,并去除停用词、留用词以及替换合并词:text = '''中国是一个伟大的国家,它的历史悠久,文化灿烂。它的人民勤劳、勇敢,热爱和平。'''# 定义停用词
stopwords = ['是', '的', '它']# 定义留用词
remainwords = ['伟大', '历史', '文化', '人民', '勤劳', '勇敢', '热爱', '和平']# 定义替换词
replace_words = {'中国': '祖国'}# 分词
words = jieba.lcut(text)# 统计词频
word_dict = {}
for word in words:
if word in stopwords:
continue
if word in remainwords:
if word in word_dict:
word_dict[word] += 1
else:
word_dict[word] = 1
if word in replace_words:
if replace_words[word] in word_dict:
word_dict[replace_words[word]] += 1
else:
word_dict[replace_words[word]] = 1# 打印统计结果
for word in word_dict:
print(word, word_dict[word])
阅读全文