df = pd.read_excel(file_name) data___=pd.read_excel(file_name)#取了一个应该不会重复的名字 data = data_.loc[:, ['经验要求', '文凭要求', '薪资待遇_平均月薪']]#把这里改成df # 对于分类变量，使用LabelEncoder转换 le = LabelEncoder() # 用了这四个指标预测 data__['经验要求'] = le.fit_transform(data['经验要求']) data['文凭要求'] = le.fit_transform(data__['文凭要求']) # data['公司性质'] = le.fit_transform(data['公司性质']) # data['规模'] = le.fit_transform(data['规模']) # 将数据分为特征X和目标y X = data__.drop('薪资待遇_平均月薪', axis=1) y = data__['薪资待遇_平均月薪'] # 将数据分为训练集和测试集 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

时间: 2024-01-19 07:02:17 浏览: 30

下面是对这段代码的优化建议： 1. 变量命名：建议使用有意义的变量名，避免使用无意义的变量名（如 `data___`）。 2. 代码注释：建议添加注释，解释代码的作用和实现方法。 3. 数据预处理：建议对分类变量进行 One-Hot 编码，避免使用 LabelEncoder。 4. 划分数据集：建议使用 StratifiedKFold 进行交叉验证，避免过拟合。综上所述，优化后的代码如下所示： ```python import pandas as pd from sklearn.model_selection import train_test_split, StratifiedKFold from sklearn.preprocessing import OneHotEncoder from sklearn.compose import make_column_transformer # 读取数据 df = pd.read_excel(file_name) # 选取需要的列 df = df.loc[:, ['经验要求', '文凭要求', '薪资待遇_平均月薪']] # 对分类变量进行 One-Hot 编码 column_transformer = make_column_transformer( (OneHotEncoder(), ['经验要求', '文凭要求']), remainder='passthrough' ) X = column_transformer.fit_transform(df.drop('薪资待遇_平均月薪', axis=1)) y = df['薪资待遇_平均月薪'] # 划分数据集 skf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42) for train_index, test_index in skf.split(X, y): X_train, y_train = X[train_index], y[train_index] X_test, y_test = X[test_index], y[test_index] # 在这里进行模型训练和评估 ``` 在优化后的代码中，首先使用 Pandas 库读取数据，并选取需要的列。接着，使用 One-Hot 编码对分类变量进行处理。这里使用了 `make_column_transformer` 函数和 `OneHotEncoder` 类来实现 One-Hot 编码，可以避免使用 LabelEncoder。最后，使用 StratifiedKFold 进行交叉验证，避免过拟合。

相关推荐

pandas.read_csv参数详解(小结)

df.rank & pd.pivot_table & pd.read_excel & df添加行 &调整df行列顺序(reindex再理解）

脚本见附件, 只修改了一行代码, df = pd.json_normalize(dc['data'])

impt_data = pd.read_csv如何将文件夹数据读取

df = pd.read_csv('data/new_data/' + file_name, encoding='gbk')

pd.read_excel()函数的用法

pd.read_excel如何获取第一列数据

def filter_data(in_file): try: ori_df = pd.read_excel(in_file) refer_df = pd.read_excel(in_file, sheet_name=1) filtered_df = refer_df.join(ori_df.set_index(ori_df.columns[0]), on=refer_df.columns[0], how='inner') return filtered_df except: print('Please check the input file!') return None

最新推荐

分布式锁与信号量：同步机制的探讨与实践.pdf

ASP.NET基于WEB的工作计划流程管理系统的设计与实现(源代码+论文)【ASP】.zip

cryptography-3.4-cp36-abi3-macosx_10_10_x86_64.whl

基于Java的吉首大学假期留校工作系统(源码+论文+需求分析+数据库文件+演示视频).zip

zigbee-cluster-library-specification

管理建模和仿真的文件

MATLAB结构体与对象编程：构建面向对象的应用程序，提升代码可维护性和可扩展性

详细描述一下STM32F103C8T6怎么与DHT11连接

JSBSim Reference Manual

"互动学习：行动中的多样性与论文攻读经历"