python文本统计功能之西游记用字统计操作实例下载
时间: 2023-10-13 09:24:54 浏览: 31
非常抱歉,作为AI语言模型,我无法提供文件的下载链接。不过,您可以在网上搜索相关的Python代码,实现西游记的用字统计功能,例如使用Python中的Counter库来进行统计。以下是代码示例:
```python
from collections import Counter
# 读取文件
with open('西游记.txt', 'r', encoding='utf-8') as f:
content = f.read()
# 进行用字统计
c = Counter(content)
# 输出结果
for key, value in c.items():
if key.isalpha():
print(key, value)
```
您只需要将上述代码保存为一个.py文件,然后将西游记的文本文件放在同一目录下,运行代码即可得到用字统计结果。
相关问题
python统计西游记人物名字出现次数_Python文本统计功能之西游记用字统计操作示例...
好的,您的问题是关于Python统计《西游记》人物名字出现次数的操作示例。以下是一个简单的实现:
```python
import re
# 读取《西游记》文本
with open('xiyouji.txt', 'r', encoding='utf-8') as f:
text = f.read()
# 使用正则表达式匹配人物名字
pattern = re.compile('[\u4e00-\u9fa5]{2,4}(?:·[\u4e00-\u9fa5]{2,4})*')
names = pattern.findall(text)
# 统计人物名字出现次数
name_count = {}
for name in names:
if name not in name_count:
name_count[name] = 1
else:
name_count[name] += 1
# 输出出现次数前20的人物名字
sorted_name_count = sorted(name_count.items(), key=lambda x: x[1], reverse=True)
for i in range(20):
print(f'{i+1}. {sorted_name_count[i][0]}: {sorted_name_count[i][1]}')
```
注意,这里使用了正则表达式来匹配人物名字,因为人物名字可能包含多个汉字以及“·”符号。如果您使用的文本格式不同,可能需要修改正则表达式的匹配规则。同时,由于《西游记》中存在很多同名人物,如“孙悟空”和“孙猴子”,因此统计结果可能存在一定的误差。
python西游记词频统计代码
Python西游记词频统计代码可以用Python的内置库collections来实现。以下是一个简单的示例:
```
import collections
# 读取文件内容
with open('journey_to_the_west.txt', 'r', encoding='utf-8') as f:
content = f.read()
# 统计词频
words = content.split()
word_counts = collections.Counter(words)
# 输出前10个高频词
for word, count in word_counts.most_common(10):
print(word, count)
```
在这个代码中,我们使用了Python内置的Counter类来统计词频。首先,我们打开journey_to_the_west.txt文件,并将其内容读取到content变量中。然后,我们将content按照空格划分为单词,并使用Counter统计单词出现的次数。最后,我们使用most_common方法找出出现次数最多的前10个单词,并将它们输出到屏幕上。
如果你想要深入学习Python的文本处理功能,我建议你学习Python的nltk和spaCy等第三方库。这些库提供了更强大的文本处理功能,可以帮助你更好地完成类似的任务。