（1）读取“income_tax.csv”数据，设置数据的索引为year（年份），存储至名为“data”的数据框中。（2分）（2）提取字段“x1”到字段“x10”的所有数据作为特征数据，存为“new_data”，基于皮尔逊相关系数计算每个特征之间的相关系数，将数值保留2位小数，并打印输出查看相关系数矩阵。（4分）（3）导入Lasso回归函数进行特征筛选，λ参数值为10000000000，存为“lasso”，输出查看x1-x10特征数据与y的相关系数值，并找出相关系数为非0的特征，合并字段“y”（企业所得税），结果存为“new_reg_data”。（6分）（4）计算new_reg_data变量的平均数存为“data_mean”，计算new_reg_data变量的标准差存为“data_std”，基于标准差标准化计算公式对new_reg_data数据进行处理，结果存为“new_data_std”。（4分）（5）提取new_data_std数据中的特征数据和标签数据，分别存为“x”和“y”，导入LinearSVR函数构建SVR模型（random_state参数值为123），存为“svr”，输入x和y进行模型训练，并预测2004年-2015年的企业所得税（需转换为原数据）。（6分）（6）进行模型评估，计算并打印模型的R方值。（3分）

时间: 2024-03-25 21:35:29 浏览: 75

好的，让我们一步步来实现你的需求。（1）读取“income_tax.csv”数据，设置数据的索引为year（年份），存储至名为“data”的数据框中。（2分）代码示例： ```python import pandas as pd # 读取数据文件 data = pd.read_csv('income_tax.csv') # 设置数据索引为“year” data = data.set_index('year') ``` （2）提取字段“x1”到字段“x10”的所有数据作为特征数据，存为“new_data”，基于皮尔逊相关系数计算每个特征之间的相关系数，将数值保留2位小数，并打印输出查看相关系数矩阵。（4分）代码示例： ```python import numpy as np # 提取特征数据 new_data = data.loc[:, 'x1':'x10'] # 计算相关系数矩阵 corr_matrix = np.round(new_data.corr(method='pearson'), 2) # 打印相关系数矩阵 print(corr_matrix) ``` （3）导入Lasso回归函数进行特征筛选，λ参数值为10000000000，存为“lasso”，输出查看x1-x10特征数据与y的相关系数值，并找出相关系数为非0的特征，合并字段“y”（企业所得税），结果存为“new_reg_data”。（6分）代码示例： ```python from sklearn.linear_model import Lasso # 提取特征数据和标签数据 X = new_data.values y = data['y'].values # 构建Lasso回归模型 lasso = Lasso(alpha=10000000000) # 拟合模型并输出相关系数 lasso.fit(X, y) coef = np.round(lasso.coef_, 2) print('特征系数为：\n', coef) # 找出相关系数为非0的特征 features = ['x' + str(i) for i in range(1, 11) if coef[i-1] != 0] # 合并特征数据和标签数据 features.append('y') new_reg_data = data.loc[:, features] ``` （4）计算new_reg_data变量的平均数存为“data_mean”，计算new_reg_data变量的标准差存为“data_std”，基于标准差标准化计算公式对new_reg_data数据进行处理，结果存为“new_data_std”。（4分）代码示例： ```python from sklearn.preprocessing import StandardScaler # 计算平均数和标准差 data_mean = new_reg_data.mean() data_std = new_reg_data.std() # 标准化处理数据 scaler = StandardScaler() new_data_std = scaler.fit_transform(new_reg_data) # 将标准化后的数据转换为DataFrame格式 new_data_std = pd.DataFrame(new_data_std, columns=new_reg_data.columns) ``` （5）提取new_data_std数据中的特征数据和标签数据，分别存为“x”和“y”，导入LinearSVR函数构建SVR模型（random_state参数值为123），存为“svr”，输入x和y进行模型训练，并预测2004年-2015年的企业所得税（需转换为原数据）。（6分）代码示例： ```python from sklearn.svm import LinearSVR # 提取特征数据和标签数据 x = new_data_std.loc[:, 'x1':'x10'] y = new_data_std['y'] # 构建SVR模型 svr = LinearSVR(random_state=123) # 拟合模型 svr.fit(x, y) # 预测2004-2015年的企业所得税 x_pred = new_data_std.loc['2004':'2015', 'x1':'x10'] y_pred = svr.predict(x_pred) # 将标准化后的数据转换为原数据 y_pred = y_pred * data_std['y'] + data_mean['y'] ``` （6）进行模型评估，计算并打印模型的R方值。（3分）代码示例： ```python from sklearn.metrics import r2_score # 计算模型的R方值 y_true = data.loc['2004':'2015', 'y'].values r2 = r2_score(y_true, y_pred) print('模型的R方值为：', r2) ```

阅读全文

相关推荐

air_data.csv

CDataFile_demo.zip_C csv 数据_C++读取csv数据_C++读取csv文件_csv read_csv

CSV_read.rar_CSV_read_csv读取_保存csv_文件夹 CSV 数据 读取_读取csv文件

python数据分析-献金数据contb-1.csv,contb-2.csv,contb-3.csv

game_logs.csv数据集

user_data.csv

tap_fun_train.csv-数据集

CSV_text_data_reader.rar_csv matlab_matlab csv文件_matlab 批量读取_读取

csv_file.rar_csv_csv文件_python_python 读写 excel_python处理csv数据

PADKK1805_preprocessed.csv-数据集

vc-csv.rar_CSV 读写_VC读写CSV_config.cpp_vc 读写csv_vc 读取csv文件

meal_order_detail.csv

sitka_weather_2014.csv

death_valley_2014.csv

appl_1980_2014.csv

cnn2自编码器_python读取csv文件_读取csv文件_自编码_自编码器_源码.rar.rar

mtcars_p2.csv

train_knn.csv

csv_data.zip_数据生成_数据补全

cnn2自编码器_python读取csv文件_读取csv文件_自编码_自编码器_源码.zip

大家在看

有限元软件Patran的二次开发语言PCL入门笔记

sdram 资料 原理。

移动机器人结构设计.doc

05-北京迅为itop-3568开发板源码编译手册【底板v1.7版】v1.4

freetts-1.2.2-bin

最新推荐

数据清洗之 csv文件读写

利用pyecharts读取csv并进行数据统计可视化的实现

详解Tensorflow数据读取有三种方式（next_batch）

hy-1c数据读取.docx

zip4j.jar包下载,版本为 2.11.5

WildFly 8.x中Apache Camel结合REST和Swagger的演示

管理建模和仿真的文件

【声子晶体模拟全能指南】：20年经验技术大佬带你从入门到精通

2024-07-27怎么用python转换成农历日期

FDFS客户端Python库1.2.6版本发布

CSV_read.rar_CSV_read_csv读取_保存csv_文件夹 CSV 数据读取_读取csv文件

sdram 资料原理。