利用python进行数据分析预处理的程序
时间: 2023-10-11 14:10:59 浏览: 97
以下是一个利用Python进行数据分析预处理的程序示例:
```python
# 导入必要的库
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
# 读取数据集
df = pd.read_csv('data.csv')
# 查看数据集中的前5行
print(df.head())
# 查看数据集的基本信息
print(df.info())
# 查看数据集的描述性统计信息
print(df.describe())
# 处理缺失值
df = df.dropna() # 删除含有缺失值的行
df = df.fillna(0) # 将缺失值替换为0
# 处理重复值
df = df.drop_duplicates()
# 处理异常值
df = df[(df['age'] > 0) & (df['age'] < 100)] # 删除年龄异常的数据
# 探索性数据分析
plt.hist(df['age'], bins=20) # 绘制年龄分布直方图
plt.xlabel('Age')
plt.ylabel('Count')
plt.title('Age Distribution')
plt.show()
plt.scatter(df['income'], df['spending']) # 绘制收入和消费的散点图
plt.xlabel('Income')
plt.ylabel('Spending')
plt.title('Income vs. Spending')
plt.show()
# 特征工程
df['gender'] = df['gender'].map({'M': 0, 'F': 1}) # 将性别转换为数值型
df['age_group'] = pd.cut(df['age'], [0, 18, 30, 45, 60, 100], labels=['0-18', '19-30', '31-45', '46-60', '61+']) # 将年龄分组
# 导出处理后的数据集
df.to_csv('processed_data.csv', index=False)
```
该程序包括了数据集读取、基本信息查看、缺失值处理、重复值处理、异常值处理、探索性数据分析和特征工程等步骤,最终将处理后的数据集导出为CSV文件。
阅读全文