请问这行代码中的训练集和测试集怎么查看,# 阶段三 数据分析 df = pd.read_excel(file_name) data___=pd.read_excel(file_name)#取了一个应该不会重复的名字 data__ = data___.loc[:, ['经验要求', '文凭要求', '薪资待遇_平均月薪']]#把这里改成df # 对于分类变量,使用LabelEncoder转换 le = LabelEncoder() # 用了这四个指标预测 data__['经验要求'] = le.fit_transform(data__['经验要求']) data__['文凭要求'] = le.fit_transform(data__['文凭要求']) # data['公司性质'] = le.fit_transform(data['公司性质']) # data['规模'] = le.fit_transform(data['规模']) # 将数据分为特征X和目标y X = data__.drop('薪资待遇_平均月薪', axis=1) y = data__['薪资待遇_平均月薪'] # 将数据分为训练集和测试集 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) # 训练线性回归模型 reg = LinearRegression().fit(X_train, y_train) # 使用模型进行预测 y_pred = reg.predict(X_test) data___['预测薪资待遇_平均月薪'] = reg.predict(X) # 计算均方误差 mse = mean_squared_error(y_test, y_pred) # 这个改成文件夹路径 data___.to_excel('深圳2023年求职信息预测.xlsx') del df['Unnamed: 0'] del df['公司性质_规模'] print(df.info mape=np.mean(np.abs((y_test - y_pred)/y_test))*100 print("MAPE:",mape) # 展示预测结果 predictions = pd.DataFrame({'经验要求': X['经验要求'], '文凭要求': X['文凭要求'], '薪资待遇_平均月薪': y, '预测薪资待遇_平均月薪': data___['预测薪资待遇_平均月薪']}) print(predictions)
时间: 2023-08-09 15:04:18 浏览: 106
在这段代码中,训练集和测试集被分别存储在了以下四个变量中:
```
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
```
其中,X_train和y_train分别是训练集的特征和目标变量,X_test和y_test分别是测试集的特征和目标变量。这里的train_test_split函数将原始数据集X和y按照指定的比例(test_size=0.2)随机划分为训练集和测试集,并将结果存储在这四个变量中。
如果想要查看训练集和测试集的具体内容,可以直接打印这四个变量:
```
print("训练集特征:", X_train)
print("训练集目标变量:", y_train)
print("测试集特征:", X_test)
print("测试集目标变量:", y_test)
```
这样就可以分别查看训练集和测试集的特征和目标变量了。需要注意的是,这里的特征和目标变量都是pandas的DataFrame类型,可以通过DataFrame的方法进行查看和操作。
相关问题
df1 = pd.read_excel(excel_file, sheet_name='订单数据') df2 = pd.read_excel(excel_file, sheet_name='耗材数据')改错
这两行代码本身没有错误,但是缺少了导入 pandas 库的语句。正确的代码应该是:
```
import pandas as pd
df1 = pd.read_excel(excel_file, sheet_name='订单数据')
df2 = pd.read_excel(excel_file, sheet_name='耗材数据')
```
这样才能正确使用 pandas 库中的 `read_excel` 函数来读取 Excel 文件中的数据。
ori_df = pd.read_excel(in_file) refer_df = pd.read_excel(in_file, sheet_name=1) filtered_df = refer_df.join(ori_df.set_index(ori_df.columns[0]), on=refer_df.columns[0], how='inner')
这是一段 Python 代码,它的作用是什么?
这段代码首先通过 Pandas 库读取一个 Excel 文件,并将其存储到一个名为 ori_df 的变量中。然后,它使用同样的方法读取同一文件的第二个工作表,并将其存储到一个名为 refer_df 的变量中。
接下来,代码通过 join() 函数将 refer_df 和 ori_df 进行连接,连接的方式是将 refer_df 的第一列与 ori_df 的第一列进行匹配,并返回匹配后的结果。具体来说,ori_df.set_index(ori_df.columns[0]) 的作用是将 ori_df 的第一列设置为索引列,然后 on=refer_df.columns[0] 指定了用 refer_df 的第一列进行匹配。最后,how='inner' 表示只保留匹配后的结果,即两个表格中都存在的行。结果被存储在 filtered_df 变量中。
阅读全文