Python怎么在一段文字中统计关键词频率
时间: 2024-02-12 16:02:43 浏览: 130
在一段文字中统计关键词频率,可以使用Python中的jieba库进行中文分词,再使用Python中的Counter模块进行词频统计。具体步骤如下:
1. 导入jieba库和Python中的Counter模块:
```python
import jieba
from collections import Counter
```
2. 定义一段文字:
```python
text = "这是一段用于测试的文本,包含一些关键词,比如Python、数据分析、机器学习等。"
```
3. 使用jieba库进行中文分词:
```python
words = jieba.cut(text)
```
4. 进行词频统计:
```python
word_counts = Counter(words)
```
5. 定义需要统计的关键词列表:
```python
keywords = ['Python', '数据分析', '机器学习']
```
6. 遍历关键词列表,输出每个关键词在文字中的词频:
```python
for keyword in keywords:
count = word_counts[keyword]
print(keyword, "出现了", count, "次")
```
输出结果为:
```
Python 出现了 1 次
数据分析 出现了 1 次
机器学习 出现了 1 次
```
可以看到,Python、数据分析和机器学习这三个关键词在文字中的词频都为1。如果需要按照词频从高到低排序,可以使用most_common方法:
```python
for keyword, count in word_counts.most_common():
if keyword in keywords:
print(keyword, "出现了", count, "次")
```
most_common方法默认按照词频从高到低排序,遍历排序后的结果,输出每个关键词在文字中的词频。
阅读全文