请问这行代码中的训练集和测试集怎么查看,# 阶段三 数据分析 df = pd.read_excel(file_name) data___=pd.read_excel(file_name)#取了一个应该不会重复的名字 data__ = data___.loc[:, ['经验要求', '文凭要求', '薪资待遇_平均月薪']]#把这里改成df # 对于分类变量,使用LabelEncoder转换 le = LabelEncoder() # 用了这四个指标预测 data__['经验要求'] = le.fit_transform(data__['经验要求']) data__['文凭要求'] = le.fit_transform(data__['文凭要求']) # data['公司性质'] = le.fit_transform(data['公司性质']) # data['规模'] = le.fit_transform(data['规模']) # 将数据分为特征X和目标y X = data__.drop('薪资待遇_平均月薪', axis=1) y = data__['薪资待遇_平均月薪'] # 将数据分为训练集和测试集 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) # 训练线性回归模型 reg = LinearRegression().fit(X_train, y_train) # 使用模型进行预测 y_pred = reg.predict(X_test) data___['预测薪资待遇_平均月薪'] = reg.predict(X) # 计算均方误差 mse = mean_squared_error(y_test, y_pred) # 这个改成文件夹路径 data___.to_excel('深圳2023年求职信息预测.xlsx') del df['Unnamed: 0'] del df['公司性质_规模'] print(df.info mape=np.mean(np.abs((y_test - y_pred)/y_test))*100 print("MAPE:",mape) # 展示预测结果 predictions = pd.DataFrame({'经验要求': X['经验要求'], '文凭要求': X['文凭要求'], '薪资待遇_平均月薪': y, '预测薪资待遇_平均月薪': data___['预测薪资待遇_平均月薪']}) print(predictions)
时间: 2023-08-09 15:04:18 浏览: 51
在这段代码中,训练集和测试集被分别存储在了以下四个变量中:
```
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
```
其中,X_train和y_train分别是训练集的特征和目标变量,X_test和y_test分别是测试集的特征和目标变量。这里的train_test_split函数将原始数据集X和y按照指定的比例(test_size=0.2)随机划分为训练集和测试集,并将结果存储在这四个变量中。
如果想要查看训练集和测试集的具体内容,可以直接打印这四个变量:
```
print("训练集特征:", X_train)
print("训练集目标变量:", y_train)
print("测试集特征:", X_test)
print("测试集目标变量:", y_test)
```
这样就可以分别查看训练集和测试集的特征和目标变量了。需要注意的是,这里的特征和目标变量都是pandas的DataFrame类型,可以通过DataFrame的方法进行查看和操作。
相关问题
df1 = pd.read_excel(excel_file, sheet_name='订单数据') df2 = pd.read_excel(excel_file, sheet_name='耗材数据')改错
这两行代码本身没有错误,但是缺少了导入 pandas 库的语句。正确的代码应该是:
```
import pandas as pd
df1 = pd.read_excel(excel_file, sheet_name='订单数据')
df2 = pd.read_excel(excel_file, sheet_name='耗材数据')
```
这样才能正确使用 pandas 库中的 `read_excel` 函数来读取 Excel 文件中的数据。
对df1 = pd.read_excel(excel_file, sheet_name='订单数据')里的长宽高排序
如果你需要对`df1`中的长、宽、高进行排序,可以使用`df1.sort_values()`方法来实现。假设长、宽、高的列名分别为`length`、`width`和`height`,则可以按照以下方式对其进行排序:
```python
df1 = pd.read_excel(excel_file, sheet_name='订单数据')
df1 = df1.sort_values(by=['length', 'width', 'height'], ascending=[True, True, True])
```
这将按照长、宽、高的升序对`df1`进行排序。如果要按照降序排序,将`ascending`参数改为`False`即可。