ms = MinMaxScaler() X = ms.fit_transform(X) X = pd.DataFrame(X, columns=[cols])

以下是完整代码，请你分析一下for i in labels: df2[' Label'] = df[' Label'].apply(lambda x: labeller(x, i)) train, test=train_test_split(df2,test_size=0.2, random_state=101) scaler = StandardScaler() cols = train.select_dtypes(include=['float64','int64']).columns sc_train = scaler.fit_transform(train.select_dtypes(include=['float64','int64'])) sc_test = scaler.fit_transform(test.select_dtypes(include=['float64','int64'])) sc_traindf = pd.DataFrame(sc_train, columns = cols) sc_testdf = pd.DataFrame(sc_test, columns = cols) train_X=sc_traindf train_y=trainDep[:,0] test_X=sc_testdf test_y=testDep[:,0] X_train,X_test,Y_train,Y_test = train_test_split(train_X,train_y,train_size=0.80, random_state=101) KNN_Classifier = KNeighborsClassifier(n_jobs=-1) KNN_Classifier.fit(X_train, Y_train) accuracy = metrics.accuracy_score(Y_train, v.predict(X_train)) avg_accuracy += accuracy avg_accuracy /= len(labels) print("Avg. accuracy", avg_accuracy)

5. 将标准化后的训练集和测试集转化为DataFrame类型； 6. 将训练集划分为训练数据和验证数据，比例为0.8:0.2； 7. 使用KNN算法进行分类，将训练数据拟合到KNN模型上，得到KNN_Classifier； 8. 使用验证数据对KNN模型...

将这段代码变为伪代码形式target_col = ["Outcome"] cat_cols = data.nunique()[data.nunique() < 12].keys().tolist() cat_cols = [x for x in cat_cols ] #numerical columns num_cols = [x for x in data.columns if x not in cat_cols + target_col] #Binary columns with 2 values bin_cols = data.nunique()[data.nunique() == 2].keys().tolist() #Columns more than 2 values multi_cols = [i for i in cat_cols if i not in bin_cols] #Label encoding Binary columns le = LabelEncoder() for i in bin_cols :median_target('BMI') data.loc[(data['Outcome'] == 0 ) & (data['BMI'].isnull()), 'BMI'] = 30.1 data.loc[(data['Outcome'] == 1 ) & (data['BMI'].isnull()), 'BMI'] = 34.3 data[i] = le.fit_transform(data[i]) #Duplicating columns for multi value columns data = pd.get_dummies(data = data,columns = multi_cols ) #Scaling Numerical columns std = StandardScaler() scaled = std.fit_transform(data[num_cols]) scaled = pd.DataFrame(scaled,columns=num_cols) #dropping original values merging scaled values for numerical columns df_data_og = data.copy() data = data.drop(columns = num_cols,axis = 1) data = data.merge(scaled,left_index=True,right_index=True,how = "left")

将唯一值少于12个的列作为分类变量列，并存储在cat_cols列表中从数据集中选择数值列，不包括分类变量和目标列，存储在num_cols列表中将只有两个唯一值的列存储在bin_cols列表中将多于两个唯一值的分类变量列存储...

def median_target(var): temp = data[data[var].notnull()] temp = temp[[var, 'Outcome']].groupby(['Outcome'])[[var]].median().reset_index() return temp data.loc[(data['Outcome'] == 0 ) & (data['Insulin'].isnull()), 'Insulin'] = 102.5 data.loc[(data['Outcome'] == 1 ) & (data['Insulin'].isnull()), 'Insulin'] = 169.5 data.loc[(data['Outcome'] == 0 ) & (data['Glucose'].isnull()), 'Glucose'] = 107 data.loc[(data['Outcome'] == 1 ) & (data['Glucose'].isnull()), 'Glucose'] = 1 data.loc[(data['Outcome'] == 0 ) & (data['SkinThickness'].isnull()), 'SkinThickness'] = 27 data.loc[(data['Outcome'] == 1 ) & (data['SkinThickness'].isnull()), 'SkinThickness'] = 32 data.loc[(data['Outcome'] == 0 ) & (data['BloodPressure'].isnull()), 'BloodPressure'] = 70 data.loc[(data['Outcome'] == 1 ) & (data['BloodPressure'].isnull()), 'BloodPressure'] = 74.5 data.loc[(data['Outcome'] == 0 ) & (data['BMI'].isnull()), 'BMI'] = 30.1 data.loc[(data['Outcome'] == 1 ) & (data['BMI'].isnull()), 'BMI'] = 34.3 target_col = ["Outcome"] cat_cols = data.nunique()[data.nunique() < 12].keys().tolist() cat_cols = [x for x in cat_cols ] #numerical columns num_cols = [x for x in data.columns if x not in cat_cols + target_col] #Binary columns with 2 values bin_cols = data.nunique()[data.nunique() == 2].keys().tolist() #Columns more than 2 values multi_cols = [i for i in cat_cols if i not in bin_cols] #Label encoding Binary columns le = LabelEncoder() for i in bin_cols : data[i] = le.fit_transform(data[i]) #Duplicating columns for multi value columns data = pd.get_dummies(data = data,columns = multi_cols ) #Scaling Numerical columns std = StandardScaler() scaled = std.fit_transform(data[num_cols]) scaled = pd.DataFrame(scaled,columns=num_cols) #dropping original values merging scaled values for numerical columns df_data_og = data.copy() data = data.drop(columns = num_cols,axis = 1) data = data.merge(scaled,left_index=True,right_index=True,how = "left") # Def X and Y X = data.drop('Outcome', axis=1) y = data['Outcome'] X_train, X_test, y_train, y_test = train_test_split(X, y, train_size=0.8, shuffle=True, random_state=1) y_train = to_categorical(y_train) y_test = to_categorical(y_test)

这段代码看起来是在进行数据预处理，首先定义了一个函数median_target，用于计算每个类别中某个特征的中位数。然后根据不同的Outcome值，对缺失值进行填充。接着将数据集中的分类特征进行编码，将二元特征进行...

function median_target(var) { temp = data[data[var].notnull()]; temp = temp[[var, 'Outcome']].groupby(['Outcome'])[[var]].median().reset_index(); return temp; } data.loc[(data['Outcome'] == 0) & (data['Insulin'].isnull()), 'Insulin'] = 102.5; data.loc[(data['Outcome'] == 1) & (data['Insulin'].isnull()), 'Insulin'] = 169.5; data.loc[(data['Outcome'] == 0) & (data['Glucose'].isnull()), 'Glucose'] = 107; data.loc[(data['Outcome'] == 1) & (data['Glucose'].isnull()), 'Glucose'] = 1; data.loc[(data['Outcome'] == 0) & (data['SkinThickness'].isnull()), 'SkinThickness'] = 27; data.loc[(data['Outcome'] == 1) & (data['SkinThickness'].isnull()), 'SkinThickness'] = 32; data.loc[(data['Outcome'] == 0) & (data['BloodPressure'].isnull()), 'BloodPressure'] = 70; data.loc[(data['Outcome'] == 1) & (data['BloodPressure'].isnull()), 'BloodPressure'] = 74.5; data.loc[(data['Outcome'] == 0) & (data['BMI'].isnull()), 'BMI'] = 30.1; data.loc[(data['Outcome'] == 1) & (data['BMI'].isnull()), 'BMI'] = 34.3; target_col = ["Outcome"]; cat_cols = data.nunique()[data.nunique() < 12].keys().tolist(); cat_cols = [x for x in cat_cols]; num_cols = [x for x in data.columns if x not in cat_cols + target_col]; bin_cols = data.nunique()[data.nunique() == 2].keys().tolist(); multi_cols = [i for i in cat_cols if i in bin_cols]; le = LabelEncoder(); for i in bin_cols: data[i] = le.fit_transform(data[i]); data = pd.get_dummies(data=data, columns=multi_cols); std = StandardScaler(); scaled = std.fit_transform(data[num_cols]); scaled = pd.DataFrame(scaled, columns=num_cols); df_data_og = data.copy(); data = data.drop(columns=num_cols, axis=1); data = data.merge(scaled, left_index=True, right_index=True, how='left'); X = data.drop('Outcome', axis=1); y = data['Outcome']; X_train, X_test, y_train, y_test = train_test_split(X, y, train_size=0.8, shuffle=True, random_state=1); y_train = to_categorical(y_train); y_test = to_categorical(y_test);将这段代码添加注释

scaled = pd.DataFrame(scaled, columns=num_cols) # 将数据进行合并 df_data_og = data.copy() data = data.drop(columns=num_cols, axis=1) data = data.merge(scaled, left_index=True, right_index=True, how='...

用python结合tkinter库实现def standard_X(X): X_copy = X.copy() # 拿数据 for col_name in X_copy.columns: # 取列名 col_data = X_copy[[col_name]] # 根据列名拿列数据，两个方括号是因为要二维数组 # fit_transform stand_data = StandardScaler().fit_transform(col_data.values) # 标准化 X_copy[col_name] = stand_data # 将数据替换成标准化后的数据 return X_copy standard_X(X).describe([0.01,0.25,0.5,0.75,0.99]).T stand_X = standard_X(X) for col_name in stand_X.columns: sns.distplot(stand_X[col_name]) plt.title(col_name) plt.show() X[0] = pd.cut(X[0],bins = 5,labels = [0,1,2,3,4]) sns.countplot(X[0]) for col_name in X.columns: X[col_name] = pd.cut(X[col_name],bins = 5,label knn = KNeighborsClassifier() X_train,X_test,y_train,y_test = train_test_split(X,y,test_size = 0.2,random_state = 1) knn.fit(X_train,y_train) KNeighborsClassifier() knn.score(X_train,y_train) knn.score(X_test,y_test)成一个界面

X = pd.DataFrame(np.random.randn(num_rows, num_cols)) # Standardize data X_copy = X.copy() for col_name in X_copy.columns: col_data = X_copy[[col_name]] stand_data = StandardScaler().fit_...

将下列代码变为伪代码def median_target（var）： temp = data[data[var].notnull（）] temp = temp[[var， 'Outcome']].groupby（['Outcome']）[[var]].median（）.reset_index（） return temp data.loc[（data['Outcome'] == 0 ） & （data['Insulin'].isnull（））， 'Insulin'] = 102.5 data.loc[（data['Result'] == 1 ） & （data['Insulin'].isnull（））， 'Insulin'] = 169.5 data.loc[（data['Result'] == 0 ） & （data['Glucose'].isnull（））， 'Glucose'] = 107 data.loc[（data['Result'] == 1 ） & （data['Glucose'].isnull（））， 'Glucose'] = 1 data.loc[（data['Result'] == 0 ） & （data['SkinThickness'].isnull（））， 'SkinThickness'] = 27 data.loc[（data['Result'] == 1 ） & （data['SkinThickness'].isnull（））， 'SkinThickness'] = 32 data.loc[（data['Result'] == 0 ） & （data['BloodPressure'].isnull（））， 'BloodPressure'] = 70 data.loc[（data['Result'] == 1 ） & （data['BloodPressure'].isnull（））， 'BloodPressure'] = 74.5 data.loc[（data['Result'] == 0 ） & （data['BMI'].isnull（））， 'BMI'] = 30.1 data.loc[（data['Result'] == 1 ） & （data['BMI'].isnull（））， 'BMI'] = 34.3 target_col = [“Outcome”] cat_cols = data.nunique（）[data.nunique（） < 12].keys（）.tolist（） cat_cols = [x for x in cat_cols ] #numerical列 num_cols = [x for x in data.columns if x 不在 cat_cols + target_col] #Binary列有 2 个值 bin_cols = data.nunique（）[data.nunique（） == 2].keys（）.tolist（） #Columns 2 个以上的值 multi_cols = [i 表示 i in cat_cols if i in bin_cols] #Label编码二进制列 le = LabelEncoder（） for i in bin_cols ： data[i] = le.fit_transform（data[i]） #Duplicating列用于多值列 data = pd.get_dummies（data = data，columns = multi_cols ） #Scaling 数字列 std = StandardScaler（）缩放 = std.fit_transform（数据[num_cols]）缩放 = pd。数据帧（缩放，列=num_cols） #dropping原始值合并数字列的缩放值 df_data_og = 数据.copy（）数据 = 数据.drop（列 = num_cols，轴 = 1）数据 = 数据.合并（缩放，left_index=真，right_index=真，如何 = “左”） # 定义 X 和 Y X = 数据.drop（'结果'，轴=1） y = 数据['结果'] X_train， X_test， y_train， y_test = train_test_split（X， y， train_size=0.8， shuffle=True， random_state=1） y_train = to_categorical（y_train） y_test = to_categorical（y_test）

scaled = pd.DataFrame(scaled, columns=num_cols); df_data_og = data.copy(); data = data.drop(columns=num_cols, axis=1); data = data.merge(scaled, left_index=True, right_index=True, how='left'); X = ...

import pandas as pd from pandas import Series,DataFrame import numpy as np df=pd.read_table('D:adult.txt',sep=',') df.head() # 特征数据 data = df.iloc[:,:-1].copy() data.head() # 标签数据 target = df[["salary"]].copy() target.head() # 查看总共有多少个职业 ws = data.workclass.unique() ws # 定义转化函数 def convert_ws(item): # np.argwhere函数会返回，相应职业对应的索引 return np.argwhere(ws==item)[0,0] # 将职业转化为职业列表中索引值 data.workclass = data.workclass.map(convert_ws) # 查看职业转化后的数据 data.head() # 需要进行量化的属性 cols = ['education',"marital_status","occupation","relationship","race","sex","native_country"] # 使用遍历的方式对各列属性进行量化 def convert_item(item): return np.argwhere(uni == item)[0,0] for col in cols: uni = data[col].unique() data[col] = data[col].map(convert_item) # 查看对所有列进行量化后的数据 data.head() from sklearn.neighbors import KNeighborsClassifier from sklearn.model_selection import train_test_split # 创建模型 knn = KNeighborsClassifier(n_neighbors=8) # 划分训练集与测试集 x_train,x_test,y_train,y_test = train_test_split(data,target,test_size=0.01) # 对模型进行训练 knn.fit(x_train,y_train) # 使用测试集查看模型的准确度 knn.score(x_test,y_test) # 把所有的数据归一化 # 创建归一化函数 def func(x): return (x-min(x))/(max(x)-min(x)) # 对特征数据进行归一化处理 data[data.columns] = data[data.columns].transform(func) data.head() # 划分训练集与测试集 x_train,x_test,y_train,y_test = train_test_split(data,target,test_size=0.01) # 创建模型 knn = KNeighborsClassifier(n_neighbors=8) # 训练模型 knn.fit(x_train,y_train) # 使用测试集查看模型的准确度 knn.score(x_test,y_test)

这段代码的功能是使用 KNN 算法对成人数据集进行分类。代码中使用 pandas 库读取数据集文件，并将数据分为特征数据和标签数据。然后，对一些属性进行量化处理，使它们能够被算法处理。接着，使用 sklearn 库中的 ...

合并数据的代码。数据为temp = df["性别"].values.reshape(-1,1) #将其转化为一个列向量 from sklearn.preprocessing import OneHotEncoder#接下来对象 enc = OneHotEncoder(drop='if_binary')#接下来，代码导象 enc.fit(temp)#代码使用 fit 方法对选定的列进行训练，及如何将它们进行编码 new_sex = enc.transform(temp).toarray()#并使用w_sex 变量中 new_sexfrom sklearn.preprocessing import StandardScaler#从er 类 scaler = StandardScaler()#创建了一个 scaler 对象 scaler.fit(df.iloc[:, 2:].values)#使用 fit 方法对选定的特征差 features = scaler.transform(df.iloc[:, 2:].values)#使用 transform 方法对中。 scaled_features = pd.DataFrame(features, columns=df.columns[2:])#代中 scaled_features

scaled_features = pd.DataFrame(scaled_features, columns=cols) 这段代码中，我们使用numpy的hstack函数将编码后的新特征列和标准化后的特征列水平合并。然后，我们将新的特征列名和原始数据框中的特征列名...

【数据分析基础】：使用Pandas DataFrame进行数据求和

[Python 中 pandas.DataFrame 对行与列求和及添加新行与列示例](https://www.sharpsightlabs.com/wp-content/uploads/2021/08/pandas-sum_simple-example-980x456.png) 参考资源链接：[python中pandas.DataFrame对...

【Pandas DataFrame最佳实践】：高效求和与动态添加新数据

![【Pandas DataFrame最佳实践】：高效求和与动态添加新数据]... Pandas DataFrame简介及环境搭建 ## 简介 Pandas 是一个强大的 Python 数据分析工具库，它提供了高效、灵

KMV模型违约距离与违约概率计算Python代码分享-最新出炉.zip

1、资源特点全新整理：今年全新力作，手工精心打磨。权威数据：数据来自权威渠道，精准可靠。放心引用：杜绝数据造假，品质保证。 2、适用人群在校专科生、本科生、研究生、大学教师、学术科研工作者 3、适用专业经济学、地理学、城市规划、公共政策、社会学、商业管理、工商管理等

LP方法计算上市公司全要素生产率TFP的Stata代码及2000-2022年数据结果-最新出炉.zip

1、资源特点全新整理：今年全新力作，手工精心打磨。权威数据：数据来自权威渠道，精准可靠。放心引用：杜绝数据造假，品质保证。 2、适用人群在校专科生、本科生、研究生、大学教师、学术科研工作者 3、适用专业经济学、地理学、城市规划、公共政策、社会学、商业管理、工商管理等

（2000-2022年）235个国家-数字经济发展相关23个指标【重磅，更新！！！】

## 数据指标说明本文涉及235个国家的数字经济发展的23个相关指标数据，为我们提供了一个全面的视角，用以分析和比较全球范围内数字经济的发展状况。这些国家，年份，移动网络覆盖率，固定电话普及率，固定宽带普及率等指标。这些数据对于理解全球数字经济格局、指导国家数字政策制定、促进国际合作，以及研究全球的数字经济市场具有一定的参考价值 ## 一、数据介绍数据名称：235个国家-数字经济发展相关23个指标数据年份：2000-2022年样本数量：5261条数据格式：面板数据 ## 二、指标说明主要包括：国家，年份，移动网络覆盖率，固定电话普及率，固定宽带普及率等26个指标 ## 三、数据文件原始数据及来源.zip；235个国家-数字经济发展相关23个指标（2000-2022年）.xls

人工智能实验（五）-数据集

基于TRON区块链的能量租赁与自动回收平台（源码+设计文档+说明）.zip

基于TRON区块链的能量租赁与自动回收平台（源码+设计文档+说明）.zip 【资源说明】 1、该项目是团队成员近期最新开发，代码完整，资料齐全，含设计文档等 2、上传的项目源码经过严格测试，功能完善且能正常运行，请放心下载使用！ 3、本项目适合计算机相关专业(人工智能、通信工程、自动化、电子信息、物联网等)的高校学生、教师、科研工作者、行业从业者下载使用，可借鉴学习，也可直接作为毕业设计、课程设计、作业、项目初期立项演示等，也适合小白学习进阶，遇到问题不懂就问，欢迎交流。 4、如果基础还行，可以在此代码基础上进行修改，以实现其他功能，也可直接用于毕设、课设、作业等。 5、不懂配置和运行，可远程教学欢迎下载，学习使用！

ms = MinMaxScaler() X = ms.fit_transform(X) X = pd.DataFrame(X, columns=[cols])

相关推荐

从零基础开始Pton处理x.cl数据，pftoof码类资源

pyspark.sql.DataFrame与pandas.DataFrame之间的相互转换实例

python中时间转换datetime和pd.to_datetime详析

【数据分析基础】：使用Pandas DataFrame进行数据求和

【Pandas DataFrame最佳实践】：高效求和与动态添加新数据

KMV模型违约距离与违约概率计算Python代码分享-最新出炉.zip

LP方法计算上市公司全要素生产率TFP的Stata代码及2000-2022年数据结果-最新出炉.zip

（2000-2022年）235个国家-数字经济发展相关23个指标【重磅，更新！！！】

人工智能实验（五）-数据集

基于TRON区块链的能量租赁与自动回收平台（源码+设计文档+说明）.zip

大家在看

plink的GWAS数据处理作业流程.docx

论文研究-一种面向HDFS中海量小文件的存取优化方法.pdf

SuperSocket(客户端+服务端实现).zip

Mellanox Adapters Programmer’s Reference Manual (PRM)

RK eMMC Support List

最新推荐

机器学习数据中类别变量（categorical variable）的处理方法

KMV模型违约距离与违约概率计算Python代码分享-最新出炉.zip

3dsmax高效建模插件Rappatools3.3发布，附教程

【R-Studio技术路径】：从RAID 5数据恢复基础到高级操作

``` 定义1个圆类，成员有：1个半径成员变量，1个构造方法给成员变量赋初值，1个求面积方法。```定义1个圆类，成员有：1个半径成员变量，1个构造方法给成员变量赋初值，1个求面积方法。

Ruby实现PointInPolygon算法：判断点是否在多边形内

【R-Studio恢复工具解析】：RAID 5恢复的功能优势与实际应用

汇编程序编写一个程序，实现在屏幕上输出helloworld。

Salesforce Field Finder扩展：快速获取API字段名称

【故障诊断与恢复】：R-Studio技术解决RAID 5数据挑战