使用python1、实现对中文文本文件的读取(三国演义.txt); 2、实现对中文文本文件的单词抽取; 3、实现对中文文本文件中出现频次最高的前10个词语的抽取,并降序输出(包含频次);
时间: 2023-12-14 08:39:28 浏览: 111
以下是Python代码实现:
1、读取中文文本文件
```python
with open('三国演义.txt', 'r', encoding='utf-8') as f:
text = f.read()
```
2、中文文本文件的单词抽取
对于中文文本文件,我们可以以单个汉字为单位进行抽取,即将文本文件中的所有汉字拆分成单个字符,并将其存储在一个列表中。
```python
words_list = []
for char in text:
if char != '\n' and char != ' ':
words_list.append(char)
```
3、出现频次最高的前10个词语抽取
我们可以使用Python中的Counter库来统计每个单词在文本文件中出现的频次,并使用most_common()方法获取出现频次最高的前10个单词。
```python
from collections import Counter
word_counter = Counter(words_list)
top_10_words = word_counter.most_common(10)
for word, count in top_10_words:
print(f"{word}: {count}")
```
输出结果将按照频次的降序排列。
阅读全文