python用jieba对文本词频统计
时间: 2023-07-12 19:27:57 浏览: 77
好的,下面是使用jieba进行文本词频统计的Python代码:
```python
import jieba
from collections import Counter
text = "这是一段测试文本,用于测试jieba分词和词频统计的效果。"
words = jieba.cut(text)
word_counts = Counter(words)
for word, count in word_counts.most_common():
print(word, count)
```
上述代码中,我们首先使用`jieba.cut()`函数对文本进行分词,然后使用`collections`模块中的`Counter`类对分词结果进行统计,最后输出词频统计结果。其中,`most_common()`方法用于按照词频从高到低的顺序返回一个元素为`(word, count)`的列表。
注意,使用该代码需要先安装jieba和collections模块,可以通过以下命令进行安装:
```bash
pip install jieba collections
```
希望对你有所帮助!
相关问题
python用jieba对不良人文本词频统计
好的,下面是利用jieba进行不良人文本词频统计的Python代码示例:
首先,我们需要准备一份文本,这里以《不良人》小说文本为例,将文本保存在`blrx.txt`文件中。然后,就可以使用如下代码进行词频统计:
```python
import jieba
from collections import Counter
# 读取文本文件
with open('blrx.txt', 'r', encoding='utf-8') as f:
text = f.read()
# 进行分词
words = jieba.cut(text)
# 进行词频统计
word_counts = Counter(words)
# 输出词频统计结果
for word, count in word_counts.most_common(20): # 取前20个高频词
print(word, count)
```
上述代码中,我们首先通过`open()`函数读取文本文件,然后使用`jieba.cut()`函数对文本进行分词,接着使用`collections`模块中的`Counter`类对分词结果进行统计,最后输出词频统计结果。其中,`most_common()`方法用于按照词频从高到低的顺序返回一个元素为`(word, count)`的列表。
需要注意的是,使用该代码需要先安装jieba和collections模块,可以通过以下命令进行安装:
```bash
pip install jieba collections
```
希望对你有所帮助!
用Python实现中文文本词频统计
要使用Python实现中文文本的词频统计,可以按照以下步骤进行:
1. 导入必要的库,包括`jieba`用于中文分词。
2. 定义一个函数,命名为`word_frequency`,该函数接受一个中文文本字符串作为参数。
3. 在函数内部,使用`jieba`库对文本进行分词,得到词语列表。
4. 初始化一个空字典`freq_dict`用于存储词频统计结果。
5. 遍历词语列表,对每个词语进行统计:
- 如果词语已经在`freq_dict`中,将其计数加1;
- 如果词语不在`freq_dict`中,将其添加到`freq_dict`并设置计数为1。
6. 返回词频统计结果`freq_dict`。
以下是用Python实现中文文本词频统计的代码示例:
```python
import jieba
def word_frequency(text):
word_list = jieba.lcut(text) # 中文分词
freq_dict = {}
for word in word_list:
if word in freq_dict:
freq_dict[word] += 1
else:
freq_dict[word] = 1
return freq_dict
```
你可以调用`word_frequency`函数并传入一个中文文本字符串来进行测试,例如:
```python
text = "今天天气真好,出去玩了一天。明天继续努力学习!"
freq_result = word_frequency(text)
print(freq_result)
```
输出结果将为:
```
{'今天': 1, '天气': 1, '真好': 1, ',': 1, '出去': 1, '玩': 1, '了': 1, '一天': 1, '。': 1, '明天': 1, '继续': 1, '努力': 1, '学习': 1, '!': 1}
```
这样就完成了使用Python实现中文文本词频统计的过程。请注意,在进行中文分词时,你可能需要提前安装`jieba`库,并且需要下载`jieba`的中文分词词库。