数据预处理：箱线图法异常值检测与清洗

200 浏览量更新于2024-08-30 1 收藏 108KB PDF 举报

"数据预处理和特征工程是数据分析和机器学习过程中的关键步骤，主要目的是提高模型的预测能力和泛化性能。异常值处理是其中的一个重要环节，它涉及到数据的质量和准确性。本资源提供了一个使用Python pandas库进行异常值处理的函数示例，通过箱线图方法（3-Sigma原则）来识别并处理异常值。" 在数据预处理阶段，异常值处理是一项必不可少的任务。异常值是指在数据集中远离其他观测值的数据点，它们可能是由于测量错误、记录错误或其他不寻常事件导致的。异常值的存在可能对模型的训练产生负面影响，因此需要进行适当的处理。一种常见的处理方法是使用箱线图，也称为四分位数图。箱线图可以清晰地展示数据的分布情况，包括最小值、第一四分位数（Q1）、中位数（Q2）、第三四分位数（Q3）和最大值。异常值通常定义为低于Q1-1.5*IQR（IQR：四分位距，即Q3-Q1）或高于Q3+1.5*IQR的数据点。在本代码中，`box_plot_outliers`函数利用了这一规则，计算出数据系列的上界和下界，并返回异常值的判断规则。函数`outliers_proc`则是一个更高层次的封装，它接受一个数据框`data`、列名`col_name`以及一个可选参数`scale`（默认为3），对指定列的数据进行异常值处理。内部调用`box_plot_outliers`确定异常值的界限，然后删除超出这些界限的观测值。最后，更新后的数据框会返回，且数据框的索引将被重置，以保持连续的整数索引。异常值处理后，可能会有数据点被删除，`outliers_proc`会打印出删除的异常值数量以及处理后的数据点总数，帮助用户了解数据清洗的程度。在特征工程中，除了异常值处理，还包括特征选择、特征转换、特征创建等多个方面。特征选择涉及确定哪些特征对模型最有价值，可能通过相关性分析、互信息、卡方检验等方法进行。特征转换可能涉及归一化、标准化，以消除不同特征量纲的影响，使模型训练更加稳定。特征创建则可能通过组合现有特征、衍生新特征等方式，增加模型的解释性和预测能力。数据预处理和特征工程是提升数据分析效果的关键步骤，而异常值处理是保证数据质量的重要手段。通过合理的方法和技术，我们可以更好地挖掘数据的价值，构建更准确的预测模型。

数据预处理及特征工程数据预处理及特征工程

1.异常值处理异常值处理

通过箱线图（或 3-Sigma）删除异常值或设置为缺失值；

长尾截断；

以下代码是根据箱线图处理异常值封装的函数：

def outliers_proc(data, col_name, scale=3):

"""

用于清洗异常值，默认用 box_plot（scale=3）进行清洗

:param data: 接收 pandas 数据格式

:param col_name: pandas 列名

:param scale: 尺度

:return:

"""

def box_plot_outliers(data_ser, box_scale):

"""

利用箱线图去除异常值

:param data_ser: 接收 pandas.Series 数据格式

:param box_scale: 箱线图尺度，

:return:

"""

iqr = box_scale * (data_ser.quantile(0.75) - data_ser.quantile(0.25))

val_low = data_ser.quantile(0.25) - iqr

val_up = data_ser.quantile(0.75) + iqr

rule_low = (data_ser val_up)

return (rule_low, rule_up), (val_low, val_up)

data_n = data.copy()

data_series = data_n[col_name] rule, value = box_plot_outliers(data_series, box_scale=scale)

index = np.arange(data_series.shape[0])[rule[0] | rule[1]] # 得到异常值得索引

print("Delete number is: {}".format(len(index)))

data_n = data_n.drop(index)

data_n.reset_index(drop=True, inplace=True)

print("Now column number is: {}".format(data_n.shape[0]))

ndex_low = np.arange(data_series.shape[0])[rule[0]] outliers = data_series.iloc[index_low] print("Description of data less

than the lower bound is:")

print(pd.Series(outliers).describe())

index_up = np.arange(data_series.shape[0])[rule[1]] outliers = data_series.iloc[index_up] print("Description of data larger

than the upper bound is:")

print(pd.Series(outliers).describe())

fig, ax = plt.subplots(1, 2, figsize=(10, 7))

sns.boxplot(y=data[col_name], data=data, palette="Set1", ax=ax[0])

sns.boxplot(y=data_n[col_name], data=data_n, palette="Set1", ax=ax[1])

return data_n

data = outliers_proc(data,'power',3)

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38744778

粉丝: 7
资源: 917

数据预处理：箱线图法异常值检测与清洗

sklearn数据预处理与特征工程详解

数据预处理与特征工程实战资料包

掌握数据预处理与特征工程技巧，助力机器学习模型优化

数据预处理和特征工程.rar

数据预处理与特征工程 full version1

数据预处理和特征工程-checkpoint.ipynb

"数据预处理与特征工程方法及应用

Kaggle房价预测：数据预处理与特征工程

大数据考试平台：数据预处理与特征工程

数据预处理与特征工程入门

最新资源