python《白鹿原》词频统计 附件是《白鹿原》原著内容,请读入内容,分词后输出长度大于2且最多的单词, 如果存在多个单词出现频率一致,请输出按照Unicode排序后最大的单词。
时间: 2024-12-07 11:19:21 浏览: 41
在Python中,我们可以使用`jieba`库来进行中文文本的分词,并结合字典数据结构`collections.Counter`来统计每个词的频率。下面是一个简单的步骤示例:
```python
import jieba
from collections import Counter
# 假设 `content` 是存储《白鹿原》原文的字符串变量
with open("白鹿原.txt", "r", encoding="utf-8") as file: # 替换成实际文件路径
content = file.read()
# 使用jieba分词
words = jieba.lcut(content)
# 移除长度小于2的词
filtered_words = [word for word in words if len(word) > 2]
# 统计词频并找到最常见的词
word_freq = Counter(filtered_words)
most_common_word = word_freq.most_common(1)
# 如果有多个词频率相同,按Unicode编码排序
if len(most_common_word) > 1:
most_common_word = sorted(most_common_word, key=lambda x: x[0])
# 输出结果
print(f"最常见的单词(如果有多个,则按Unicode排序):")
for word, freq in most_common_word:
print(f"{word}: {freq}次")
阅读全文