python读取csv文件查重某列数据统计并计算
时间: 2024-10-15 22:01:50 浏览: 31
在Python中,我们可以使用pandas库来方便地读取CSV文件、处理数据,并完成数据去重统计。以下是简单的步骤:
1. 首先,安装必要的库(如果你还没安装):
```bash
pip install pandas
```
2. 使用pandas的`read_csv`函数读取CSV文件:
```python
import pandas as pd
df = pd.read_csv('your_file.csv') # 将'your_file.csv'替换为你实际的文件路径
```
3. 确定你要检查重复的列,假设它是`column_name`:
```python
column_to_check = 'column_name'
```
4. 使用`duplicated`函数找出该列的重复值,并计算频率:
```python
duplicates = df[column_to_check].duplicated()
unique_count = len(df.drop_duplicates(subset=column_to_check))
duplicate_count = len(df[duplicates])
redundant_data = df[duplicates]
```
5. 输出结果:
```python
print(f"Total unique rows in '{column_to_check}': {unique_count}")
print(f"Duplicate rows count: {duplicate_count}")
print("Duplicates:")
print(redundant_data)
```
这将分别显示唯一的数据行数以及重复行的数量,同时列出所有的重复数据。
阅读全文