lables = ["Name","Sex","Ticket","Embarked"] #可以知道字符型的有5列 i = 0 while(i<4): y_flag = train[lables[i]].unique() train[lables[i]] = train[lables[i]].apply(lambda x : y_flag.tolist().index(x)) i = i+1 print(train.head()) #原因属性 x = train.iloc[:,2:] # print(x) #目标属性 y = train["Survived"] X_lables = x.columns print(X_lables) #将数据集进行标准化处理 from sklearn.preprocessing import StandardScaler standard = StandardScaler() #对所有数据进行特征化处理 X = standard.fit_transform(x) X = DataFrame(X,columns=X_lables) print(X.head())
时间: 2024-04-01 16:32:19 浏览: 222
vue Treeselect 树形下拉框:获取选中节点的ids和lables操作
这段代码的作用是对数据集进行标准化处理,使得不同特征的取值范围相同,从而更好地适应机器学习算法的要求。
首先,定义了一个列表 `lables`,其中包含了需要进行编码的属性名称。接着,使用循环遍历这些属性,对每个属性中的不同取值进行编码。具体来说,使用 `unique` 方法找出每个属性中不同的取值,然后使用 `apply` 方法将每个取值转换为对应的整数编码。例如,如果 `Name` 属性中有三个不同的取值分别是 `A`, `B`, `C`,那么这段代码会将这三个取值分别编码为 `0`, `1`, `2`。
接着,使用 `iloc` 方法选取数据框中的所有行和除前两列外的所有列,即将数据集中的目标属性和原因属性分离开来。`y` 变量表示目标属性,即 `Survived` 列,而 `x` 变量表示原因属性,即除 `Survived` 列外的所有列。同时,使用 `columns` 方法获取 `x` 数据框中的所有列名,赋值给 `X_lables` 变量。
接下来,使用 `StandardScaler` 类对所有原因属性进行标准化处理。具体来说,使用 `fit_transform` 方法对原因属性进行特征化处理,得到新的特征矩阵 `X`。同时,将特征矩阵 `X` 转换为数据框形式,并将列名设置为原因属性的列名。最后,使用 `head` 方法打印出处理后的数据框的前几行,以便检查处理结果是否正确。
阅读全文