Python三国演义词频统计
时间: 2024-07-06 08:01:24 浏览: 194
《三国演义》是中国四大名著之一,如果你想了解其中的词频统计,可以使用Python中的文本处理和数据分析库,如NLTK(自然语言工具包)和collections等。以下是一个简单的步骤:
1. **数据获取**:首先,你需要下载《三国演义》的电子文本,可以从网络上找到TXT格式的版本。
2. **读取和预处理**:使用Python的`open()`函数读取文件,然后对文本进行分词、去除停用词(如“的”、“了”等常见但不反映主题的词)和标点符号。
3. **计词频**:使用`collections.Counter`类对每个词进行计数。这个类会返回一个字典,键是词,值是这个词在文本中出现的次数。
4. **排序和输出**:对字典按照值(词频)进行降序排序,输出最常出现的词语。
以下是一个简化的示例代码片段:
```python
import nltk
from collections import Counter
import re
# 1. 数据获取
# 假设你已经有一个名为"三国演义.txt"的文件
with open('三国演义.txt', 'r', encoding='utf-8') as file:
text = file.read()
# 2. 预处理
nltk.download('punkt') # 如果还没安装nltk的punkt分词器
tokens = nltk.word_tokenize(text)
tokens = [token.lower() for token in tokens if token.isalnum() and token not in nltk.corpus.stopwords.words('chinese')] # 去除停用词和非字母数字字符
# 3. 计词频
word_counts = Counter(tokens)
# 4. 排序和输出
most_common_words = word_counts.most_common()
for word, count in most_common_words[:10]: # 输出最常见的10个词及其频率
print(f"{word}: {count}")
```
阅读全文