多变量回归分析实验python
时间: 2023-10-11 11:08:04 浏览: 166
多变量回归分析是一种用于建立多个自变量(即影响因素)与一个因变量(即被预测的结果)之间关系的方法。在Python中,可以使用多种库(例如numpy、pandas、scikit-learn等)来进行多变量回归分析。以下是一个简单的多变量回归分析实验示例:
1. 导入所需库和数据集
首先,我们需要导入所需的库和数据集。在这个例子中,我们将使用sklearn库中的Boston Housing数据集,该数据集包含了波士顿地区的房屋价格和各种因素(如犯罪率、房屋大小、公共交通等)之间的关系。
```python
import numpy as np
import pandas as pd
from sklearn.datasets import load_boston
boston = load_boston()
df = pd.DataFrame(boston.data, columns=boston.feature_names)
df['PRICE'] = boston.target
```
2. 数据预处理
在进行多变量回归分析之前,我们需要对数据进行预处理。这包括检查数据类型、缺失值、异常值等。在这个例子中,我们不需要进行太多的预处理,因为Boston Housing数据集非常干净。
```python
# 检查数据类型
print(df.dtypes)
# 检查缺失值
print(df.isnull().sum())
# 检查异常值
print(df.describe())
```
3. 分离自变量和因变量
在进行多变量回归分析之前,我们需要将数据集分离成自变量和因变量。在这个例子中,我们将使用房屋大小、犯罪率和公共交通三个因素作为自变量,房屋价格作为因变量。
```python
X = df[['RM', 'CRIM', 'DIS']]
y = df['PRICE']
```
4. 拟合回归模型
接下来,我们使用线性回归模型来拟合我们的数据。使用scikit-learn库中的LinearRegression类可以很容易地实现这一点。
```python
from sklearn.linear_model import LinearRegression
model = LinearRegression()
model.fit(X, y)
```
5. 模型评估
在拟合回归模型之后,我们需要评估模型的性能。常用的评估指标包括R平方值(R-squared)和均方误差(MSE)等。在这个例子中,我们将使用R平方值作为评估指标。
```python
from sklearn.metrics import r2_score
y_pred = model.predict(X)
r2 = r2_score(y, y_pred)
print('R-squared:', r2)
```
6. 预测结果
最后,我们可以使用我们的模型来预测新的房屋价格。在这个例子中,我们使用了一些随机值作为新的自变量值。
```python
new_data = np.array([[6, 0.2, 5], [7, 0.5, 3], [5, 0.1, 8]])
new_pred = model.predict(new_data)
print('New predictions:', new_pred)
```
这就是一个简单的多变量回归分析实验示例。使用Python进行多变量回归分析可以让我们更快速、更准确地预测结果,为我们提供更多的决策支持。
阅读全文