如何用我的.csv文件替换下列代码中的数据集,其中我的.csv文件是一个列数加上四个变量的五列数据,代码如下 #code-4-4.py #Multiple Linear Regression from sklearn.datasets import load_boston from sklearn.linear_model import LinearRegression import matplotlib.pyplot as plt from sklearn. model_selection import train_test_split dataset = load_boston() x_data = dataset.data # 导入所有特征变量 y_data = dataset.target # 导入目标值(房价) name_data = dataset.feature_names #导入特征 x_train,x_test,y_train,y_test = train_test_split(x_data, y_data,test_size= 0.25,random_state= 1001) mlr_model = LinearRegression() #创建线性回归估计器实例 mlr_model.fit(x_train,y_train)#用训练数据拟合模型 y_test_p = mlr_model.predict(x_test)#用训练的模型对测试集进行预测 plt.subplot(1, 1, 1) plt.scatter(x_test[:,5],y_test,s = 20, color="r") plt.scatter(x_test[:,5],y_test_p,s = 20, color="b") plt.xlabel('Room Number') plt.ylabel('Price') plt.title(name_data[5]) plt.show() r_squared = mlr_model.score(x_test, y_test) print('R2 = %s' %r_squared )
时间: 2023-12-24 21:15:09 浏览: 112
你可以使用 pandas 库中的 read_csv() 函数读取你的.csv文件,并将其转换为 numpy 数组,然后用这个数组替换原来的数据集。下面是修改后的代码:
```python
#code-4-4.py
import pandas as pd
from sklearn.linear_model import LinearRegression
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
data = pd.read_csv('your_file.csv') # 读取csv文件
x_data = data.iloc[:, 0:4].values # 取前四列作为特征变量
y_data = data.iloc[:, 4].values # 取第五列作为目标值
x_train, x_test, y_train, y_test = train_test_split(x_data, y_data, test_size=0.25, random_state=1001)
mlr_model = LinearRegression()
mlr_model.fit(x_train, y_train)
y_test_p = mlr_model.predict(x_test)
plt.subplot(1, 1, 1)
plt.scatter(x_test[:, 0], y_test, s=20, color="r") # 画散点图
plt.scatter(x_test[:, 0], y_test_p, s=20, color="b")
plt.xlabel('Feature 1')
plt.ylabel('Price')
plt.title('Your Title')
plt.show()
r_squared = mlr_model.score(x_test, y_test)
print('R2 = %s' %r_squared)
```
其中,`iloc` 函数用于指定读取数据的行列范围,`[:, 0:4]` 表示读取所有行的前四列,`[:, 4]` 表示读取所有行的第五列。注意,这里的列数需要与你的.csv文件相对应。