galon数据父母身高和子女身高是否存在联系的假设检验python代码
时间: 2024-11-09 12:30:14 浏览: 14
在Python中,我们可以使用统计库如`statsmodels`来进行假设检验,例如查看父母身高是否与子女身高存在显著的相关性。首先,我们需要导入必要的模块并准备数据。假设我们有一个包含父母身高和子女身高的DataFrame,名为`data`,其中有一列是`parent_height`,另一列是`child_height`。
```python
import pandas as pd
import statsmodels.api as sm
# 假设数据已经读入 DataFrame data
if 'parent_height' in data.columns and 'child_height' in data.columns:
# 数据预处理(检查缺失值等)
data = data.dropna(subset=['parent_height', 'child_height'])
# 创建模型变量,X是父母身高,y是子女身高
X = data['parent_height']
y = data['child_height']
# 添加截距项
X = sm.add_constant(X)
# 进行简单线性回归分析
model = sm.OLS(y, X)
results = model.fit()
# 输出统计量和相关系数(皮尔逊相关系数)
print("回归结果:")
print(results.summary())
# 查看父母身高与子女身高之间的皮尔逊相关系数
correlation_coefficient = results.params[0]
print(f"父母身高与子女身高的皮尔逊相关系数: {correlation_coefficient:.2f}")
# 假设检验(零假设为无关联)
_, p_value = stats.pearsonr(X, y)
if p_value < 0.05:
print("拒绝原假设,父母身高和子女身高之间存在显著正相关(p-value小于0.05).")
else:
print("接受原假设,无法拒绝父母身高和子女身高之间无显著关联(p-value大于等于0.05).")
阅读全文