文本词频统计,Hamlet英文词频统计以及《三国演义》人物出场统计。python
时间: 2023-09-13 08:12:31 浏览: 59
好的,我可以帮你用Python实现文本词频统计、Hamlet英文词频统计以及《三国演义》人物出场统计。你可以先将文本文件保存到本地,并确保已经安装好Python环境。
下面是一些示例代码,你可以参考一下:
### 文本词频统计
```python
import collections
# 读取文本文件
with open('your_file_path.txt', 'r') as f:
text = f.read()
# 清洗文本
text = text.lower()
text = text.replace('\n', ' ')
text = ''.join(e for e in text if e.isalnum() or e.isspace())
# 统计词频
word_counts = collections.Counter(text.split())
# 输出前10个高频词
print(word_counts.most_common(10))
```
### Hamlet英文词频统计
```python
import collections
# 读取Hamlet文本文件
with open('hamlet.txt', 'r') as f:
text = f.read()
# 清洗文本
text = text.lower()
text = text.replace('\n', ' ')
text = ''.join(e for e in text if e.isalnum() or e.isspace())
# 统计词频
word_counts = collections.Counter(text.split())
# 输出前10个高频词
print(word_counts.most_common(10))
```
### 《三国演义》人物出场统计
```python
import re
import collections
# 读取《三国演义》文本文件
with open('three_kingdoms.txt', 'r', encoding='utf-8') as f:
text = f.read()
# 找到所有人物名字
names = re.findall('[\u4e00-\u9fa5]{2,4}(?:·[\u4e00-\u9fa5]{2,4})*', text)
# 统计人物出现次数
name_counts = collections.Counter(names)
# 输出前10个高频人物
print(name_counts.most_common(10))
```
这些示例代码可以帮助你快速进行文本词频统计、Hamlet英文词频统计以及《三国演义》人物出场统计。你可以根据自己的需求进行调整和修改。