python中文文本词频统计
时间: 2023-08-25 20:05:36 浏览: 115
统计文本词频并输出为Excel表格形式——Python实现
5星 · 资源好评率100%
以下是Python代码示例,用于统计中文文本词频:
```
import jieba
text = "这是一段中文文本,用于测试中文词频统计。"
# 使用jieba分词进行分词
seg_list = jieba.cut(text, cut_all=False)
# 创建一个空字典用于存储词频
word_dict = {}
# 遍历分词结果,统计每个词出现的次数
for word in seg_list:
if word in word_dict:
word_dict[word] += 1
else:
word_dict[word] = 1
# 输出词频统计结果
for word, count in word_dict.items():
print(word, count)
```
输出结果如下:
```
这是 1
一段 1
中文 2
文本 1
, 1
用于 1
测试 1
词频 1
统计 1
。 1
```
说明:
1. 首先导入 `jieba` 库,用于中文分词。
2. 定义一个中文文本字符串 `text`,用于测试。
3. 使用 `jieba.cut()` 方法对文本进行分词,将结果保存到 `seg_list` 中。
4. 创建一个空字典 `word_dict` 用于存储词频统计结果。
5. 遍历分词结果 `seg_list`,对于每个词,如果在 `word_dict` 中已经出现过,则将对应的值加1;否则将该词添加到 `word_dict` 中,并将值初始化为1。
6. 最后遍历 `word_dict`,输出词频统计结果。
阅读全文