在sy6-8.txt文件中输入歌曲《我和我的祖国》的歌词:“我和我的祖国一刻也不能分割无论我走到哪里都流出一首赞歌我歌唱每一座高山我歌唱每一条河袅袅炊烟小小村落路上一道辙我最亲爱的祖国我永远紧依着你的心窝你用你那母亲的脉搏和我诉说我的祖国和我像海和浪花一朵浪是那海的赤子海是那浪的依托每当大海在微笑我就是笑的旋涡我分担着海的忧愁分享海的欢乐我最亲爱的祖国你是大海永不干涸永远给我碧浪清波心中的歌”,设计程序,读取文件内容,并使用jieba库进行中文分词,最后统计出现次数最多的5个词以及出现次数
时间: 2024-02-13 07:06:20 浏览: 183
好的,根据您提供的歌曲《我和我的祖国》的歌词,下面是实现读取文件并使用 jieba 库进行中文分词,并统计出现次数最多的 5 个词及其出现次数的 Python 代码:
```python
import jieba
# 打开文件并读取歌词
with open("sy6-8.txt", "r", encoding="utf-8") as f:
lyrics = f.read()
# 使用 jieba 分词
words = jieba.lcut(lyrics)
# 统计每个词的出现次数
word_counts = {}
for word in words:
if len(word) > 1: # 剔除单个汉字
word_counts[word] = word_counts.get(word, 0) + 1
# 找出出现次数最多的 5 个词
top5_words = sorted(word_counts.items(), key=lambda x: x[1], reverse=True)[:5]
# 输出结果
print("出现次数最多的 5 个词及其出现次数:")
for word, count in top5_words:
print(f"{word}: {count}")
```
在上面的代码中,首先使用 `open()` 函数打开文件,并使用 `read()` 方法读取歌词。然后使用 jieba 库的 `lcut()` 方法对歌词进行中文分词,并遍历所有词语,统计每个词语的出现次数。接着使用 Python 的 `sorted()` 函数对词语和出现次数的键值对进行排序,找出出现次数最多的 5 个词语及其出现次数。最后输出结果。
需要注意的是,在上面的代码中,为了避免统计单个汉字的出现次数,我们对每个词语的长度进行了判断。
阅读全文