输出并保存数据集不同汉字的python代码
时间: 2024-02-04 13:04:22 浏览: 115
输出全部汉字的python程序
您好,要输出并保存数据集中不同汉字的数量,可以使用Python的collections模块中的Counter类,结合Python的文件操作功能来实现。以下是一个示例程序,可以读取一个文件并输出和保存其中不同汉字的数量:
```python
import re
from collections import Counter
# 打开文件并读取内容
with open('data.txt', 'r', encoding='utf-8') as f:
content = f.read()
# 使用正则表达式匹配汉字
pattern = re.compile('[\u4e00-\u9fa5]')
result = pattern.findall(content)
# 使用Counter统计不同汉字的数量
counter = Counter(result)
# 输出不同汉字的数量
print('不同汉字数量:', len(counter))
# 将结果保存到文件中
with open('result.txt', 'w', encoding='utf-8') as f:
for k, v in counter.items():
f.write(f'{k}: {v}\n')
```
在这个示例程序中,我们首先打开一个文件并读取其中的内容。然后,使用正则表达式匹配所有汉字,并将结果存储在一个列表中。接下来,使用Counter类统计每个汉字的数量,并将结果存储在一个字典中。然后,输出不同汉字的数量,并将结果保存到文件中。我们使用Python的文件操作功能,以追加的方式将结果写入一个文件中。
请注意,这个示例程序只是一个简单的示例,您可能需要根据自己的需求进行修改和扩展。
阅读全文