python数据分析之回归分析
时间: 2023-11-22 12:04:52 浏览: 80
回归分析是一种用于研究因变量与一个或多个自变量之间关系的统计分析方法。在Python中,我们可以使用statsmodels库进行回归分析。下面是一个简单的例子:
假设我们有一个数据集,其中包含了一个因变量y和两个自变量x1和x2。我们想要研究y与x1、x2之间的关系。首先,我们需要导入statsmodels库并读取数据集:
```python
import statsmodels.api as sm
import pandas as pd
data = pd.read_csv('data.csv')
```
接下来,我们可以使用OLS(Ordinary Least Squares)方法进行回归分析。这个方法可以拟合线性回归模型,并计算出每个自变量的系数和截距。代码如下:
```python
X = data[['x1', 'x2']]
y = data['y']
X = sm.add_constant(X) # 添加截距项
model = sm.OLS(y, X).fit() # 拟合线性回归模型
print(model.summary()) # 输出回归分析结果
```
上述代码中,我们首先将自变量和因变量分别赋值给X和y。然后,我们使用add_constant方法为X添加截距项。最后,我们使用OLS方法拟合线性回归模型,并使用summary方法输出回归分析结果。
除了线性回归,还有其他类型的回归分析方法,例如Logistic回归分析。如果因变量只有两种取值,我们可以使用Logistic回归分析来拟合模型。在Python中,我们可以使用statsmodels库的Logit方法进行Logistic回归分析。代码如下:
```python
X = data[['x1', 'x2']]
y = data['y']
X = sm.add_constant(X) # 添加截距项
model = sm.Logit(y, X).fit() # 拟合Logistic回归模型
print(model.summary()) # 输出回归分析结果
```
上述代码中,我们使用Logit方法拟合Logistic回归模型,并使用summary方法输出回归分析结果。
阅读全文