def outliers_proc(data, col_name, scale = 3): # data:原数据 # col_name:要处理异常值的列名称 # scale:用来控制删除尺度的 def box_plot_outliers(data_ser, box_scale): iqr = box_scale * (data_ser.quantile(0.75) - data_ser.quantile(0.25)) # quantile是取出数据对应分位数的数值 val_low = data_ser.quantile(0.25) - iqr # 下界 val_up = data_ser.quantile(0.75) + iqr # 上界 rule_low = (data_ser < val_low) # 筛选出小于下界的索引 rule_up = (data_ser > val_up) # 筛选出大于上界的索引 return (rule_low, rule_up),(val_low, val_up) data_n = data.copy() data_series = data_n[col_name] # 取出对应数据 rule, values = box_plot_outliers(data_series, box_scale = scale) index = np.arange(data_series.shape[0])[rule[0] | rule[1]] # 先产生0到n-1,然后再用索引把其中处于异常值的索引取出来 print("Delete number is {}".format(len(index))) data_n = data_n.drop(index) # 整行数据都丢弃 data_n.reset_index(drop = True, inplace = True) # 重新设置索引 print("Now column number is:{}".format(data_n.shape[0])) index_low = np.arange(data_series.shape[0])[rule[0]] outliers = data_series.iloc[index_low] # 小于下界的值 print("Description of data less than the lower bound is:") print(pd.Series(outliers).describe()) index_up = np.arange(data_series.shape[0])[rule[1]] outliers = data_series.iloc[index_up] print("Description of data larger than the lower bound is:") print(pd.Series(outliers).describe()) fig, axes = plt.subplots(1,2,figsize = (10,7)) ax1 = sns.boxplot(y = data[col_name], data = data, palette = "Set1", ax = axes[0]) ax1.set_title("处理异常值前") ax2 = sns.boxplot(y = data_n[col_name], data = data_n, palette = "Set1", ax = axes[1]) ax2.set_title("处理异常值后") return data_n代码每一行解析
时间: 2024-02-04 20:04:03 浏览: 139
这是一个用于处理异常值的函数,其输入为原始数据、要处理异常值的列名称和处理异常值的尺度。函数内部定义了一个嵌套函数 box_plot_outliers,用于通过箱型图的方法找出异常值的索引,并返回删除异常值后的数据、删除的样本数、小于下界的值的描述统计和大于上界的值的描述统计。主函数中先将原始数据复制到一个新的变量 data_n 中,然后取出要处理的列数据 data_series,调用 box_plot_outliers 函数找到要删除的异常值的索引,再根据索引从 data_n 中删除异常值,并重新设置索引。最后,将处理前后的箱型图绘制出来,返回处理后的数据。
相关问题
from collections import Counter def detect_outliers(df, n, features): outlier_indices = [] # iterate over features(columns) for col in features: # 1st quartile (25%) Q1 = np.percentile(df[col], 25) # 3rd quartile (75%) Q3 = np.percentile(df[col], 75) # Interquartile range (IQR) IQR = Q3 - Q1 # outlier step outlier_step = 1.5 * IQR # Determine a list of indices of outliers for feature col outlier_list_col = df[(df[col] < Q1 - outlier_step) | (df[col] > Q3 + outlier_step)].index # append the found outlier indices for col to the list of outlier indices outlier_indices.extend(outlier_list_col) # select observations containing more than 2 outliers outlier_indices = Counter(outlier_indices) multiple_outliers = list(k for k, v in outlier_indices.items() if v > n) return multiple_outliers Outliers_to_drop = detect_outliers(data, 0, list(data.columns)[-2:]) data = data.drop(Outliers_to_drop, axis=0).reset_index(drop=True) data
这段代码的作用是从Python的collections库中导入Counter,然后定义一个名为detect_outliers的函数,该函数需要传入三个参数:df、n和features。这个函数的作用是检测DataFrame中指定特征的离群值,并将它们的索引存储在outlier_indices列表中。
def preprocess_data(self): if not self.data.empty: # 忽略warning warnings.filterwarnings("ignore", category=UserWarning) # 复制数据集 processed_data = self.data.copy() # 处理字符串列 string_columns = processed_data.select_dtypes(include=['object']).columns for column in string_columns: processed_data[column] = processed_data[column].str.split(';').apply(lambda x: [float(val) for val in x]) # 处理数值列 numeric_columns = processed_data.select_dtypes(include=['float', 'int']).columns imputer = SimpleImputer(strategy='mean') processed_data[numeric_columns] = imputer.fit_transform(processed_data[numeric_columns]) # 处理异常值 isolation_forest = IsolationForest(contamination=0.05) outliers = isolation_forest.fit_predict(processed_data[numeric_columns]) processed_data = processed_data[outliers != -1] # 标准化处理 scaler = StandardScaler() processed_data[numeric_columns] = scaler.fit_transform(processed_data[numeric_columns]) # 创建一个新窗口来显示处理后的数据集 top = tk.Toplevel(self.master) top.title("处理后的数据集") # 创建用于显示处理后的数据集的表格 table = tk.Text(top) table.pack() # 将处理后的数据集转换为字符串并显示在表格中 table.insert(tk.END, str(processed_data)) table.config(state=tk.DISABLED) else: self.path_label.config(text="请先导入数据集")
这段代码是用于数据预处理的,主要包括以下步骤:
1. 处理字符串列:将字符串列按分号拆分为多个数值,并将每个数值转换为 float 类型。
2. 处理数值列:使用均值填充缺失值。
3. 处理异常值:使用孤立森林算法检测和过滤异常值。
4. 标准化处理:使用 StandardScaler 类对数值列进行标准化处理。
5. 在新窗口中显示处理后的数据集:创建一个新窗口,并在其中使用 Text 控件显示处理后的数据集。
需要注意的是,这段代码使用了一些第三方库,如 scikit-learn 和 tkinter。
阅读全文