python三国演义词频统计
时间: 2023-09-07 19:17:19 浏览: 76
好的,我可以为您提供Python代码来实现三国演义词频统计。首先,您需要获取三国演义的文本数据。可以在网上搜索并下载三国演义的txt文本文件,或者使用Python的requests库从网络上获取数据。
下面是代码示例:
```python
import requests
import re
from collections import Counter
# 获取三国演义文本数据
url = 'https://www.gutenberg.org/files/54480/54480-0.txt'
response = requests.get(url)
text = response.text
# 数据清洗
text = re.sub(r'\s+', ' ', text) # 将多个空白字符替换为一个空格
text = re.sub(r'[^\u4e00-\u9fa5]+', '', text) # 只保留中文字符
# 分词
words = list(text)
# 统计词频
word_counts = Counter(words)
# 输出前20个高频词
for word, count in word_counts.most_common(20):
print('{}: {}'.format(word, count))
```
这段代码使用了requests库获取了三国演义的文本数据,然后进行了数据清洗和分词,最后使用了Python的collections库的Counter类来统计词频,并输出了前20个高频词。请注意,由于三国演义的文本数据比较大,因此代码的运行时间可能会比较长。