使用python语言为json文件信息去重,并统计每个重复信息的重复次数
时间: 2024-02-26 14:58:27 浏览: 94
python 爬虫 实现增量去重和定时爬取实例_python增量爬虫_爬虫实现增量去重和定时爬取实例_python_wherev
5星 · 资源好评率100%
可以使用 Python 的字典(dict)数据类型来实现去重和统计重复次数的功能。具体的实现步骤如下:
1. 读取 JSON 文件,将其转化为 Python 中的字典类型。
2. 遍历字典,将每个值作为字典的 key,将出现的次数作为值存入字典中。
3. 遍历字典,输出重复的信息和对应的重复次数。
下面是一个示例代码:
```python
import json
# 读取 JSON 文件
with open('data.json', 'r') as f:
data = json.load(f)
# 去重并统计重复次数
count_dict = {}
for item in data:
key = json.dumps(item, sort_keys=True)
count_dict[key] = count_dict.get(key, 0) + 1
# 输出重复的信息和重复次数
for key, value in count_dict.items():
if value > 1:
print(key, value)
```
其中,`json.dumps()` 函数将 JSON 格式的数据转化为字符串,`sort_keys=True` 表示按照键名进行排序,确保相同的信息生成的字符串相同。`count_dict.get(key, 0)` 表示获取字典中 key 对应的值,如果字典中不存在该键,则返回默认值 0。
阅读全文