python读取csv文件查重列统计并计算
时间: 2024-10-15 20:01:51 浏览: 46
python读取csv文件.txt
在Python中,我们可以使用pandas库来轻松地读取CSV文件、处理数据,包括查重列(检查是否有重复的列名)以及对数据进行统计。下面是一个简单的步骤说明:
首先,你需要安装pandas库,如果还没有安装,可以使用pip install pandas命令。
```python
import pandas as pd
# 读取CSV文件
df = pd.read_csv('your_file.csv')
# 检查列名是否唯一(无重复)
if len(df.columns) != df.nunique():
duplicate_columns = [col for col in df.columns[df.columns.duplicated()]]
print(f"有重复的列名:{duplicate_columns}")
else:
print("所有列名都是唯一的")
# 统计列的数据信息(例如非空值数量,平均值等)
for column in df.columns:
if df[column].dtype == 'object': # 如果是字符串类型
unique_values = df[column].nunique()
null_count = df[column].isnull().sum()
print(f"{column}:共有{unique_values}个独特值,缺失值数为{null_count}")
else: # 对数值型列计算平均值
avg_value = df[column].mean()
print(f"{column}:平均值为{avg_value}")
# 计算重复行的数量
duplicates = df[df.duplicated()]
print("重复行数:", duplicates.shape[0])
```
在这个例子中,我们首先读取CSV文件到DataFrame中,然后检查列名是否重复。接着,对于每列,如果是字符串类型我们会统计其独特的值和缺失值;如果是数值类型则计算平均值。最后,通过`.duplicated()`函数找出重复的行。
阅读全文