了、编写程序,完成《水浒传》前70回中前5个高频词统计。
时间: 2023-12-10 13:40:05 浏览: 51
好的,以下是Python代码实现:
```python
import re
from collections import Counter
# 读取文本文件
with open('shuihuzhuan.txt', 'r', encoding='utf-8') as f:
text = f.read()
# 去除标点符号和换行符
text = re.sub(r'[^\u4e00-\u9fa5]', '', text)
# 前70回的文本
text = text[:text.index('第七十回')]
# 分词并统计词频
words = text.split()
word_counts = Counter(words)
# 打印前5个高频词及其词频
for word, count in word_counts.most_common(5):
print(word, count)
```
需要注意的是,这里使用了正则表达式来去除文本中的标点符号和换行符。同时,我们只统计了前70回的文本,因为后面的内容对于统计前5个高频词已经没有必要了。
相关问题
编写程序,完成水浒传前70回中前5个高频词统计
以下是一种Python实现方式:
```python
# 读取文本
with open('shuihuzhuan.txt', 'r', encoding='utf-8') as f:
text = f.read()
# 去除标点符号
import string
text = text.translate(str.maketrans('', '', string.punctuation))
# 分词
import jieba
words = jieba.lcut(text)
# 统计词频
from collections import Counter
word_counts = Counter(words)
# 排序并输出前5个高频词
top_words = word_counts.most_common(5)
for word, count in top_words:
print(word, count)
```
需要注意的是,这里使用了jieba分词库和collections.Counter类,如果没有安装的话需要先进行安装。对于文本的处理,我们去除了所有标点符号,这样可以更准确地统计高频词。最后,我们使用most_common方法来获取词频最高的5个词,并输出它们的出现次数。
编写程序,完成《水浒传》前70回中前5个高频词统计。
好的,这里提供一个Python的程序:
```python
import jieba
from collections import Counter
# 读取文本文件
with open('shuihuzhuan.txt', 'r', encoding='utf-8') as f:
text = f.read()
# 分词并统计词频
words = jieba.cut(text)
word_counts = Counter(words)
# 获取前5个高频词
top5 = word_counts.most_common(5)
# 输出结果
print('前5个高频词:')
for word, count in top5:
print('{}: {}'.format(word, count))
```
其中,需要先安装jieba库,用于中文分词。
这个程序会读取名为`shuihuzhuan.txt`的文本文件,然后使用jieba进行分词,并用Counter类统计每个词出现的次数。最后获取前5个出现次数最多的词,并输出结果。
注意:这个程序只会统计单个中文词的出现次数,不会考虑词组的情况。如果需要考虑词组的情况,可以使用n-gram模型或其他自然语言处理技术。
阅读全文