请问这行代码中的训练集和测试集怎么查看,# 阶段三 数据分析 df = pd.read_excel(file_name) data___=pd.read_excel(file_name)#取了一个应该不会重复的名字 data__ = data___.loc[:, ['经验要求', '文凭要求', '薪资待遇_平均月薪']]#把这里改成df # 对于分类变量,使用LabelEncoder转换 le = LabelEncoder() # 用了这四个指标预测 data__['经验要求'] = le.fit_transform(data__['经验要求']) data__['文凭要求'] = le.fit_transform(data__['文凭要求']) # data['公司性质'] = le.fit_transform(data['公司性质']) # data['规模'] = le.fit_transform(data['规模']) # 将数据分为特征X和目标y X = data__.drop('薪资待遇_平均月薪', axis=1) y = data__['薪资待遇_平均月薪'] # 将数据分为训练集和测试集 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) # 训练线性回归模型 reg = LinearRegression().fit(X_train, y_train) # 使用模型进行预测 y_pred = reg.predict(X_test) data___['预测薪资待遇_平均月薪'] = reg.predict(X) # 计算均方误差 mse = mean_squared_error(y_test, y_pred) # 这个改成文件夹路径 data___.to_excel('深圳2023年求职信息预测.xlsx') del df['Unnamed: 0'] del df['公司性质_规模'] print(df.info mape=np.mean(np.abs((y_test - y_pred)/y_test))*100 print("MAPE:",mape) # 展示预测结果 predictions = pd.DataFrame({'经验要求': X['经验要求'], '文凭要求': X['文凭要求'], '薪资待遇_平均月薪': y, '预测薪资待遇_平均月薪': data___['预测薪资待遇_平均月薪']}) print(predictions)
时间: 2023-08-09 13:04:18 浏览: 105
训练数据集,测试数据集
在这段代码中,训练集和测试集被分别存储在了以下四个变量中:
```
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
```
其中,X_train和y_train分别是训练集的特征和目标变量,X_test和y_test分别是测试集的特征和目标变量。这里的train_test_split函数将原始数据集X和y按照指定的比例(test_size=0.2)随机划分为训练集和测试集,并将结果存储在这四个变量中。
如果想要查看训练集和测试集的具体内容,可以直接打印这四个变量:
```
print("训练集特征:", X_train)
print("训练集目标变量:", y_train)
print("测试集特征:", X_test)
print("测试集目标变量:", y_test)
```
这样就可以分别查看训练集和测试集的特征和目标变量了。需要注意的是,这里的特征和目标变量都是pandas的DataFrame类型,可以通过DataFrame的方法进行查看和操作。
阅读全文