读取中文文本,然后删掉除了中文词汇以外的字符,最后统计每个词汇出现次数,然后输出前三,要求保证词汇字数大于2
时间: 2024-09-11 09:12:44 浏览: 35
这个任务通常涉及到几个步骤,包括文本预处理、分词和词频统计。首先,你需要读取中文文本文件,可以使用Python的`open()`函数配合`read()`方法。然后,利用如jieba库对文本进行分词,它是一个专门用于中文文本处理的工具。
```python
import jieba.analyse
from collections import Counter
def process_text(file_path):
with open(file_path, 'r', encoding='utf-8') as f:
text = f.read()
# 使用jieba库进行中文分词
words = jieba.lcut(text)
# 过滤单个字符和停用词
filtered_words = [word for word in words if len(word) > 1 and not jieba.analyse.is_stopword(word)]
# 统计词频
word_counts = Counter(filtered_words)
# 输出前三个最常出现的词汇及其频率
top_three = word_counts.most_common(3)
return top_three
# 示例
top_three_words = process_text('your_chinese_file.txt')
for word, count in top_three_words:
print(f'{word}: {count}')
```
在这个例子中,我们假设你有一个名为`your_chinese_file.txt`的文本文件,并且已经安装了jieba库。运行上述代码后,会打印出文本中最常见的三个非单字词语以及它们各自出现的次数。
阅读全文