在再python中将这段代码运行一下，# 阶段三数据分析 df = pd.read_excel(file_name) data___=pd.read_excel(file_name)#取了一个应该不会重复的名字 data = data_.loc[:, ['经验要求', '文凭要求', '薪资待遇_平均月薪']]#把这里改成df # 对于分类变量，使用LabelEncoder转换 le = LabelEncoder() # 用了这四个指标预测 data__['经验要求'] = le.fit_transform(data['经验要求']) data['文凭要求'] = le.fit_transform(data__['文凭要求']) # data['公司性质'] = le.fit_transform(data['公司性质']) # data['规模'] = le.fit_transform(data['规模']) # 将数据分为特征X和目标y X = data__.drop('薪资待遇_平均月薪', axis=1) y = data__['薪资待遇_平均月薪'] # 将数据分为训练集和测试集 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) # 训练线性回归模型 reg = LinearRegression().fit(X_train, y_train) # 使用模型进行预测 y_pred = reg.predict(X_test) data___['预测薪资待遇_平均月薪'] = reg.predict(X) # 计算均方误差 mse = mean_squared_error(y_test, y_pred) # 这个改成文件夹路径 data___.to_excel('深圳2023年求职信息预测.xlsx') del df['Unnamed: 0'] del df['公司性质_规模'] print(df.info mape=np.mean(np.abs((y_test - y_pred)/y_test))*100 print("MAPE:",mape) # 展示预测结果 predictions = pd.DataFrame({'经验要求': X['经验要求'], '文凭要求': X['文凭要求'], '薪资待遇_平均月薪': y, '预测薪资待遇_平均月薪': data___['预测薪资待遇_平均月薪']}) print(predictions)

时间: 2023-08-09 11:04:18 浏览: 100

这段代码是对 Excel 文件进行数据分析和预测，并将结果输出到 Excel 文件和控制台上。为了运行这段代码，需要安装 Pandas、NumPy 和 Scikit-learn 库。以下是可以运行的代码： ```python import pandas as pd import numpy as np from sklearn.preprocessing import LabelEncoder from sklearn.model_selection import train_test_split from sklearn.linear_model import LinearRegression from sklearn.metrics import mean_squared_error # 读取 Excel 文件数据 df = pd.read_excel('data.xlsx') # 筛选需要用到的特征列 data__ = df.loc[:, ['经验要求', '文凭要求', '薪资待遇_平均月薪']] # 对文本型的经验要求和文凭要求进行编码 le = LabelEncoder() data__['经验要求'] = le.fit_transform(data__['经验要求']) data__['文凭要求'] = le.fit_transform(data__['文凭要求']) # 将数据分为特征 X 和目标 y X = data__.drop('薪资待遇_平均月薪', axis=1) y = data__['薪资待遇_平均月薪'] # 将数据分为训练集和测试集 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) # 训练线性回归模型 reg = LinearRegression().fit(X_train, y_train) # 使用模型进行预测 y_pred = reg.predict(X_test) data__['预测薪资待遇_平均月薪'] = reg.predict(X) # 计算均方误差 mse = mean_squared_error(y_test, y_pred) # 输出预测结果到 Excel 文件 data__.to_excel('深圳2023年求职信息预测.xlsx') # 删除无用列 del df['Unnamed: 0'] del df['公司性质_规模'] # 输出 DataFrame 的信息 print(df.info) # 计算 MAPE 并输出结果 mape = np.mean(np.abs((y_test - y_pred) / y_test)) * 100 print("MAPE:", mape) # 输出预测结果到控制台 predictions = pd.DataFrame({'经验要求': X['经验要求'], '文凭要求': X['文凭要求'], '薪资待遇_平均月薪': y, '预测薪资待遇_平均月薪': data__['预测薪资待遇_平均月薪']}) print(predictions) ``` 注意，这段代码仅供参考，具体的文件路径和列名需要根据实际情况进行修改。

阅读全文

相关推荐

python 实现读取csv数据,分类求和 再写进 csv

Python在医疗决策支持系统中的数据分析方法

Python数据分析专家指南：双色球预测模型构建与优化

【Python数据分析进阶】：掌握这些高级算法，模型构建不再难

【Python文件操作】：Fnmatch模块的高级应用与数据处理案例分析

【表单数据处理专家】：将tagging.forms表单数据高效导出到Excel

【Python电子表格数据备份术】：自动化备份与数据恢复的终极方案

数据采集与清洗在大数据分析中的技术

Python技术入门指南

Python大数据处理宝典：探索Hadoop、Spark和Flink的奥秘

Excel数据导入导出基础操作教程

【Python文本清洗术】：unicodedata库提升文本数据质量的绝招

使用LLM进行大规模数据分析

Python在交通领域的可持续发展：优化智能交通系统

Excel中的数据导入与导出函数技巧

用python编写一段代码：通过excel表格给定经纬度，利用这些经纬度从h5文件中将这些点的像元值提取出来

python读取excel某一列数据

excel导入mysql的代码

免费的防止锁屏小软件，可用于域统一管控下的锁屏机制

大家在看

递推最小二乘辨识

论文研究-8位CISC微处理器的设计与实现.pdf

设置段落格式-word教学内容的PPT课件

QRCT调试指导.docx

python中matplotlib实现最小二乘法拟合的过程详解

最新推荐

python中时间转换datetime和pd.to_datetime详析

python基础教程：Python 中pandas.read_excel详细介绍

浅析python3中的os.path.dirname(__file__)的使用

Python模块包中__init__.py文件功能分析

RStudio中集成Connections包以优化数据库连接管理

管理建模和仿真的文件

Keil uVision5全面精通指南

flink提交给yarn19个全量同步MYsqlCDC的作业，flink的配置参数怎样设置

PHP博客旅游的探索之旅

"互动学习：行动中的多样性与论文攻读经历"

python 实现读取csv数据,分类求和再写进 csv

浅析python3中的os.path.dirname(file)的使用

Python模块包中init.py文件功能分析