df_dummies = pd.get_dummies(df,prefix='sales')什么意思

这行代码使用了pandas库中的get_dummies()函数，将df数据框中的所有分类变量（即离散型变量）转换为虚拟变量（dummy variable），生成一个新的数据框df_dummies。其中，prefix参数用于设置虚拟变量的前缀名，以便区分原始变量和虚拟变量。这通常是进行机器学习等任务时必要的一步，可以帮助模型更好地理解和处理离散型变量的信息。

df_dummies = pd.get_dummies(df,prefix='sales')进行了什么操作

df_dummies = pd.get_dummies(df,prefix='sales') 对 pandas 数据框 df 进行独热编码操作，将其中的分类变量转换成数值变量，并且生成了一个新的数据框 df_dummies，新数据框中的列名由原来的分类变量值和指定的前缀 prefix（这里是 'sales'）组成。

import pandas as pd from sklearn.ensemble import RandomForestRegressor titanic = pd.read_csv("D:/新建文件夹/实训/train.csv") ### 使用 RandomForestClassifier 填补缺失的年龄属性 def set_missing_ages(df): # 把已有的数值型特征取出来丢进Random Forest Regressor中 age_df = df[['Age', 'Fare', 'Parch', 'SibSp', 'Pclass']] # 乘客分成已知年龄和未知年龄两部分 known_age = age_df[age_df.Age.notnull()].values() unknown_age = age_df[age_df.Age.isnull()].values() # y即目标年龄 y = known_age[:, 0] # X即特征属性值 X = known_age[:, 1:] # fit到RandomForestRegressor之中 rfr = RandomForestRegressor(random_state=0, n_estimators=2000, n_jobs=-1) rfr.fit(X, y) # 用得到的模型进行未知年龄结果预测 predictedAges = rfr.predict(unknown_age[:, 1::]) # 用得到的预测结果填补原缺失数据 df.loc[(df.Age.isnull()), 'Age'] = predictedAges return df titanic = set_missing_ages(titanic) #将Embarked,Sex,Pclass转换成为onehot编码 dummies_Embarked = pd.get_dummies(titanic['Embarked'], prefix= 'Embarked') dummies_Sex = pd.get_dummies(titanic['Sex'], prefix= 'Sex') dummies_Pclass = pd.get_dummies(titanic['Pclass'], prefix= 'Pclass') df = pd.concat([titanic, dummies_Embarked, dummies_Sex, dummies_Pclass], axis=1) df.drop(['Pclass', 'Name', 'Sex', 'Ticket', 'Cabin', 'Embarked'], axis=1, inplace=True) print(df)

这段代码的问题可能是在以下这行代码： ```python known_age = age_df[age_df.Age.notnull()].values() ``` 这里的 values() 应该改成 values。 values() 是一个 pandas DataFrame 的方法，用来返回数据帧的值的 Numpy 数组形式。但是在这里，我们已经使用了 .values 属性来获取 age_df 的 Numpy 数组形式，所以不能再次使用 values() 方法。修改代码为： ```python known_age = age_df[age_df.Age.notnull()].values ``` 这样就可以避免这个错误了。

阅读全文

df_dummies = pd.get_dummies(df,prefix='sales')什么意思

df_dummies = pd.get_dummies(df,prefix='sales')进行了什么操作

相关推荐

fpgas_for_dummies_ebook.pdf

CISSP_For_Dummies-4E.pdf

status1_dummies = pd.get_dummies(data['status1'], prefix='status1')，prefix的作用是什么

train_data = pd.get_dummies(train_data)

all_features = pd.get_dummies(all_features,dummy_na=True)

all_features = pd.get_dummies(all_features, dummy_na=True) all_features.shape

dummies1 = pd.get_dummies(X1.Student, prefix='Student'

titanic_model = pd.get_dummies(titanic_model, columns=['pclass'])

all_features = pd.get_dummies(all_features, dummy_na = True)这里面all_features是离散数据吗

titanic_model = pd.get_dummies(titanic_model, columns=['sex', 'who'])

若X = data.loc[:, data.columns != 'day_28_flg'] X_imputed = imputer.fit_transform(X)，我该怎么改X_imputed = imputer.fit_transform(X) X_imputed = pd.get_dummies(X_imputed)

selector.fit(X_imputed, y) selected_features = pd.get_dummies()会有问题吗

type_dw_dummy = pd.get_dummies(table_2[['report_id', 'query_reason']])

X_imputed = pd.get_dummies(X_imputed有Data must be 1-dimensional问题该怎么改？

最新推荐

高清艺术文字图标资源，PNG和ICO格式免费下载

管理建模和仿真的文件

DMA技术：绕过CPU实现高效数据传输

SGM8701电压比较器如何在低功耗电池供电系统中实现高效率运作？

mui框架HTML5应用界面组件使用示例教程

"互动学习：行动中的多样性与论文攻读经历"

【数据传输高速公路】：总线系统的深度解析

如何结合PID算法调整PWM信号来优化电机速度控制？请提供实现这一过程的步骤和代码示例。

Vue.js开发利器：chrome-vue-devtools插件解析

关系数据表示学习