1、随机生成1005的数值矩阵，每一行代表一个样本，每个样本采集5个属性A1,A2,A3,A4,A5.要求每一列数值有10%的缺失值，缺失值记为NAN，每一列的数值来自5种不同的分布函数； 2、将所有的缺失值NAN分别填充为该列的均值和最可能出现的数值（取整数）； 3、将每列数据Ai分别进行0-1规范化和Z-score规范化； 4、按照等频划分或者等宽划分，把Ai划分成三个分箱A,B,C，并标记每个数据样本在对应Ai的分箱值； 5、将1005的数据样本在5个属性上进行平行坐标绘图。的代码

时间: 2023-11-27 19:49:22 浏览: 100

以下是您所需的Python代码： ```python import numpy as np import pandas as pd import matplotlib.pyplot as plt from pandas.api.types import CategoricalDtype from sklearn.preprocessing import MinMaxScaler, StandardScaler # 生成100*5的随机数值矩阵 np.random.seed(0) data = np.random.rand(100, 5) # 随机生成10%的缺失值 mask = np.random.choice([True, False], size=data.shape, p=[0.1, 0.9]) data[mask] = np.nan # 填充缺失值为均值和最可能出现的数值 data_mean = pd.DataFrame(data).fillna(pd.DataFrame(data).mean()).values data_mode = pd.DataFrame(data).fillna(pd.DataFrame(data).mode().iloc[0]).values data_mode = np.round(data_mode) # 0-1规范化 scaler = MinMaxScaler() data_mean_norm = scaler.fit_transform(data_mean) data_mode_norm = scaler.fit_transform(data_mode) # Z-score规范化 scaler = StandardScaler() data_mean_zscore = scaler.fit_transform(data_mean) data_mode_zscore = scaler.fit_transform(data_mode) # 将数据划分为三个分箱 bin_labels = ['A', 'B', 'C'] data_bins = np.zeros_like(data_mode, dtype=str) for i in range(data_mode.shape[1]): bin_edges = pd.cut(data_mode[:, i], bins=3, labels=bin_labels, retbins=True)[1] data_bins[:, i] = pd.cut(data_mode[:, i], bins=bin_edges, labels=bin_labels) # 绘制平行坐标图 fig, axs = plt.subplots(1, 3, figsize=(15, 5)) for i, (data_norm, title) in enumerate(zip([(data_mean_norm, '均值填充'), (data_mode_norm, '众数填充'), (data_mode_zscore, 'Z-score规范化')], axs)): data_norm, norm_title = data_norm df = pd.DataFrame(data_norm, columns=['A1', 'A2', 'A3', 'A4', 'A5']) df['bins_A1'] = pd.cut(data_mode[:, 0], bins=bin_edges, labels=bin_labels) df['bins_A2'] = pd.cut(data_mode[:, 1], bins=bin_edges, labels=bin_labels) df['bins_A3'] = pd.cut(data_mode[:, 2], bins=bin_edges, labels=bin_labels) df['bins_A4'] = pd.cut(data_mode[:, 3], bins=bin_edges, labels=bin_labels) df['bins_A5'] = pd.cut(data_mode[:, 4], bins=bin_edges, labels=bin_labels) df = df.melt(id_vars=['bins_A1', 'bins_A2', 'bins_A3', 'bins_A4', 'bins_A5'], var_name='attribute', value_name='value') df['value'] = np.round(df['value'], 2) df = df.sort_values(by=['bins_A1', 'bins_A2', 'bins_A3', 'bins_A4', 'bins_A5']) palette = dict(zip(bin_labels, ['tab:blue', 'tab:orange', 'tab:green'])) axs[i].set_title(title) axs[i].set_xticks(range(len(df['attribute'].unique()))) axs[i].set_xticklabels(['A1', 'A2', 'A3', 'A4', 'A5']) axs[i].set_yticks(range(len(bin_labels))) axs[i].set_yticklabels(bin_labels) axs[i].set_ylim(-0.1, 1.1) for j, (label, group) in enumerate(df.groupby(['bins_A1', 'bins_A2', 'bins_A3', 'bins_A4', 'bins_A5'])): axs[i].plot(range(len(df['attribute'].unique())), group['value'], color=palette[label[0]], alpha=0.7) if j == 0: axs[i].fill_between(range(len(df['attribute'].unique())), 0, group['value'], color=palette[label[0]], alpha=0.2) elif j == len(df.groupby(['bins_A1', 'bins_A2', 'bins_A3', 'bins_A4', 'bins_A5'])) - 1: axs[i].fill_between(range(len(df['attribute'].unique())), df['value'].min(), group['value'], color=palette[label[0]], alpha=0.2) fig.tight_layout() plt.show() ``` 说明： 1. 首先使用`numpy.random.rand`生成100*5的随机数值矩阵，然后使用`numpy.random.choice`生成10%的缺失值掩码，并将对应位置的数据置为`np.nan`。 2. 对于每一列缺失值，使用`pandas.DataFrame.fillna`方法将其分别填充为该列的均值和最可能出现的数值（取整数）。 3. 对于填充后的数据，分别使用`sklearn.preprocessing.MinMaxScaler`和`sklearn.preprocessing.StandardScaler`进行0-1规范化和Z-score规范化。 4. 对于分箱，使用`pandas.cut`方法将每个属性划分为三个等宽的分箱，并标记每个数据样本在对应Ai的分箱值。 5. 最后，使用`matplotlib.pyplot.subplots`方法创建平行坐标图，并使用`matplotlib.pyplot.plot`和`matplotlib.pyplot.fill_between`方法绘制每个分箱内的数据线和区域。其中，使用`pandas.DataFrame.melt`方法将数据转换为长格式，以便于使用`seaborn`等绘图库。

阅读全文

相关推荐

随机生成矩阵

单片机程序设计报告比赛计时计分器样本.doc

实验任务书-2021(1)1

使用Anaconda3完成以下程序功能： 1、随机生成100*5的数值矩阵，每一行代表一个样本，每个样本采集5个属性A1,A2,A3,A4,A5.要求每一列数值有10%的缺失值，缺失值记为NAN，每一列的数值来自5种不同的分布函数

650个手绘英文字符图像样本：Matlab神经网络训练数据集

矩阵变换与线性代数：工程数学中5个必知必会的解题秘诀

MATLAB数值计算精解：掌握5个核心算法，轻松解决复杂问题

【Python矩阵运算秘籍】：5大技巧提升性能与效率

os 参数是一个 L×6 数组，其中每一行代表一个单独的二阶节，具体形式如下： | b0 | b1 | b2 | a0 | a1 | a2 | |–|---- b和a的作用

python LinearRegression 函数 xArr = np.column_stack((x1,x2) y列向量 按照y =a+a1*x1+a2*x2拟合

数组A的第4行4列到第8行8列的子数组A1和第5行5列到第9行9列的子数组A2对应的每一列的相关系数（自己查公式），要求：当A2中有元素值小于0.5时，该值不参与计算；

采用最小二乘法拟合，根据历史数据求得y=ao+a1x1+a2X2+...+an*Xn中的系数，根据这个写出c语言代码

使用最小二乘法实现计算与预测男孩女孩身高模型： 男孩身高模型： a0+a1x1+a2x2=y1 女孩身高模型： b0+b1x1+b2x2=y2

y=ao+a1x1+a2X2+...+anXn 其中系数 ao,al,a2,an需要根据历史数据，编写c语言采用最小二乘法算法求得ao,al,a2,an

大家在看

煤矿井下图像型早期火灾探测

PDK安装及cdl文件和gds文件的导入

SAP各模块字段与表的对应关系

蓝牙室内定位服务源码！

Cadence Allegro16.6高级进阶教程

最新推荐

基于Jupyter完成（自行推导公式）多元线性回归的编程

智慧园区3D可视化解决方案PPT(24页).pptx

虚拟串口软件：实现IP信号到虚拟串口的转换

【Python进阶篇】：掌握这些高级特性，让你的编程能力飞跃提升

后端调用ragflow api

IE6下实现PNG图片背景透明的技术解决方案

【欧姆龙触摸屏故障诊断全攻略】

Educoder综合练习—C&C++选择结构

VBS简明教程：批处理之家论坛下载指南

【欧姆龙触摸屏：新手必读的10个操作技巧】

python LinearRegression 函数 xArr = np.column_stack((x1,x2) y列向量按照y =a+a1x1+a2x2拟合

使用最小二乘法实现计算与预测男孩女孩身高模型：男孩身高模型： a0+a1x1+a2x2=y1 女孩身高模型： b0+b1x1+b2x2=y2