用Python实现中文文本词频统计
时间: 2024-03-28 20:07:13 浏览: 78
要使用Python实现中文文本的词频统计,可以按照以下步骤进行:
1. 导入必要的库,包括`jieba`用于中文分词。
2. 定义一个函数,命名为`word_frequency`,该函数接受一个中文文本字符串作为参数。
3. 在函数内部,使用`jieba`库对文本进行分词,得到词语列表。
4. 初始化一个空字典`freq_dict`用于存储词频统计结果。
5. 遍历词语列表,对每个词语进行统计:
- 如果词语已经在`freq_dict`中,将其计数加1;
- 如果词语不在`freq_dict`中,将其添加到`freq_dict`并设置计数为1。
6. 返回词频统计结果`freq_dict`。
以下是用Python实现中文文本词频统计的代码示例:
```python
import jieba
def word_frequency(text):
word_list = jieba.lcut(text) # 中文分词
freq_dict = {}
for word in word_list:
if word in freq_dict:
freq_dict[word] += 1
else:
freq_dict[word] = 1
return freq_dict
```
你可以调用`word_frequency`函数并传入一个中文文本字符串来进行测试,例如:
```python
text = "今天天气真好,出去玩了一天。明天继续努力学习!"
freq_result = word_frequency(text)
print(freq_result)
```
输出结果将为:
```
{'今天': 1, '天气': 1, '真好': 1, ',': 1, '出去': 1, '玩': 1, '了': 1, '一天': 1, '。': 1, '明天': 1, '继续': 1, '努力': 1, '学习': 1, '!': 1}
```
这样就完成了使用Python实现中文文本词频统计的过程。请注意,在进行中文分词时,你可能需要提前安装`jieba`库,并且需要下载`jieba`的中文分词词库。
阅读全文