python代码实现1、实现对英文文本文件的读取(alice.txt); 2、实现对英文文本文件的单词抽取; 3、实现对英文文本文件中出现频次最高的前10个单词的抽取,并降序输出(包含频次);实验要求2: 1、实现对中文文本文件的读取(水浒传.txt); 2、实现对中文文本文件的单词抽取; 3、实现对中文文本文件中出现频次最高的前10个词语的抽取,并降序输出(包含频次);
时间: 2024-02-29 11:52:31 浏览: 300
下面是实现以上要求的 Python 代码:
1、对英文文本文件的读取
```python
with open("alice.txt", "r") as file:
text = file.read()
print(text)
```
2、对英文文本文件的单词抽取
```python
import re
words = re.findall("\w+", text)
print(words)
```
3、对英文文本文件中出现频次最高的前10个单词的抽取,并降序输出(包含频次)
```python
from collections import Counter
word_counts = Counter(words).most_common(10)
print(word_counts)
```
4、对中文文本文件的读取
```python
with open("水浒传.txt", "r", encoding="utf-8") as file:
text = file.read()
print(text)
```
5、对中文文本文件的单词抽取
```python
import jieba
words = jieba.cut(text)
print(list(words))
```
6、对中文文本文件中出现频次最高的前10个词语的抽取,并降序输出(包含频次)
```python
from collections import Counter
words = jieba.cut(text)
word_counts = Counter(words).most_common(10)
print(word_counts)
```
阅读全文