我需要统计无重复数据的数量和有重复数据,重复多少次的数据,不需要知道具体是哪个id重复,帮我改一下代码import pandas as pd # 读取数据到DataFrame df = pd.read_csv('/Users/dashan/postgraduate/研一下/4_LIU_positive_compute/期末/期末作业-文本分析/期末作业-操作.csv',encoding='gbk') # 查找重复的id duplicates = df[df.duplicated('user_id', keep=False)] if not duplicates.empty: print("以下是重复的id:") print(duplicates['id']) else: print("没有重复的id")
时间: 2024-03-14 09:44:56 浏览: 69
pandas取出重复数据的方法
好的,可以使用以下代码来实现您的需求:
```python
import pandas as pd
# 读取数据到DataFrame
df = pd.read_csv('/Users/dashan/postgraduate/研一下/4_LIU_positive_compute/期末/期末作业-文本分析/期末作业-操作.csv', encoding='gbk')
# 统计无重复数据的数量
num_unique = df['user_id'].nunique()
print("无重复数据的数量为:", num_unique)
# 统计有重复数据,并输出重复次数
duplicates = df[df.duplicated('user_id', keep=False)]
if not duplicates.empty:
num_duplicates = len(duplicates)
print("有重复数据的数量为:", num_duplicates)
print("其中重复了{}次".format(num_duplicates-1))
else:
print("没有重复数据")
```
这样,就可以输出无重复数据的数量和有重复数据的数量以及重复次数。如果没有重复数据,则只会输出"没有重复数据"。
阅读全文