假如你是一名掌握python的大学生,请你写一份完整代码包括:读取表格数据(要有具体表格内容),查看是否有缺失值,数据去重,常用的缺失值处理
时间: 2024-11-04 08:15:09 浏览: 22
当然可以。这里是一个简单的Python代码示例,我们将使用pandas库来完成这个任务,假设我们正在处理一个CSV文件作为数据源:
```python
# 导入所需的库
import pandas as pd
import numpy as np
# 读取表格数据
filename = 'your_table.csv' # 请替换为实际文件路径
df = pd.read_csv(filename)
# 查看是否有缺失值
print("检查缺失值:")
print(df.isnull().sum()) # 显示每一列缺失值的数量
# 数据去重
df_duplicates = df.duplicated() # 获取重复行的布尔数组
print("\n查找并移除重复项:")
unique_df = df.drop_duplicates() # 删除重复行
print(unique_df.head())
# 常见的缺失值处理
# 1. 删除含有缺失值的行 (如果删除丢失信息不多)
cleaned_df = df.dropna() # 使用dropna()函数删除所有缺失值
print("\n仅保留非缺失值行:")
print(cleaned_df.head())
# 2. 填充缺失值 (例如,平均值填充、中位数填充等)
# 平均值填充
mean_filled = df.fillna(df.mean())
print("\n使用平均值填充缺失值:")
print(mean_filled.head())
# 3. 使用插值法填充(适用于时间序列数据)
from pandas import interpolate
interpolated_df = df.interpolate(method='linear', limit_direction='forward') # 假设向前插补
print("\n使用线性插值填充缺失值:")
print(interpolated_df.head())
# 结束部分
阅读全文