在nlp_lab下,用jieba库编写Python代码,从给定的中文文本文件中统计出最常出现的三个单词,中文单词长度大于等于2
时间: 2024-09-07 15:02:24 浏览: 34
在NLP Lab环境中,你可以使用jieba库对中文文本进行分词并计算词频。以下是如何使用jieba完成这个任务的示例:
```python
# 引入必要的库
import jieba
from collections import Counter
# 定义要分析的中文文本
with open('your_chinese_text_file.txt', 'r', encoding='utf-8') as f: # 替换为你的中文文本文件路径
text = f.read()
# 清洗文本,只保留中文字符
cleaned_text = ''.join(c for c in text if '\u4e00' <= c <= '\u9fa5')
# 使用jieba分词,仅考虑长度大于等于2的词
seg_list = [word for word in jieba.cut(cleaned_text) if len(word) >= 2]
# 计算词频
word_counts = Counter(seg_list)
# 获取最常见的三个词及其频率
most_common_words = word_counts.most_common(3)
for word, freq in most_common_words:
print(f"{word}: {freq}")
```
这段代码首先打开并读取文本文件,然后清洗文本以保留中文字符。接着,它使用jieba进行分词,并筛选出长度大于等于2的词。最后,使用`Counter`计算词频,并打印出最常见的三个词。