线性回归分析:相关系数r与判定系数R²解析

版权申诉
0 下载量 78 浏览量 更新于2024-07-15 收藏 2.01MB PDF 举报
线性回归分析是一种统计方法,用于研究两个或多个变量之间的关系,特别是预测一个连续变量(因变量)如何随着另一个或多个连续变量(自变量)的变化而变化。相关系数r是衡量这种线性关系强度的重要指标。 相关系数r的计算公式是: \[ r = \frac{\sum{(Xi - X\text{平均数})(Yi - Y\text{平均数})}}{\sqrt{\sum{(Xi - X\text{平均数})^2} \cdot \sum{(Yi - Y\text{平均数})^2}}} \] 这里的r值范围在-1到1之间,-1表示完全负相关,1表示完全正相关,0表示没有线性相关。值越接近±1,表示变量间的线性相关性越强。如果r接近0,意味着变量间的关系较弱或不存在线性关系。 判定系数R^2,也称为拟合优度或可决系数,是相关系数平方的另一种形式,表示模型解释了因变量变异的百分比: \[ R^2 = \frac{ESS}{TSS} = 1 - \frac{RSS}{TSS} \] 其中,ESS(解释平方和)是模型预测的误差平方和,TSS(总平方和)是所有数据点与整体均值之差的平方和,RSS(残差平方和)是模型不能解释的误差平方和。R^2越接近1,模型拟合得越好。 然而,在实际应用中,单纯增加解释变量可能导致R^2增大,但并不意味着模型的解释能力增强。为了解决这个问题,引入了调整的判定系数R^2_1: \[ R^2_{adj} = 1 - \frac{RSS/(n-k-1)}{TSS/(n-1)} \] 这里,n是样本数量,k是自变量的数量。调整后的R^2_1考虑了自变量数量对拟合优度的影响,避免了因增加无用变量而导致的R^2虚增。 线性回归分为一元线性回归和多元线性回归。一元线性回归仅有一个自变量,而多元线性回归涉及两个或更多自变量。回归系数表示自变量对因变量影响的大小和方向,每个自变量都有一个对应的回归系数。 线性回归方程通过相关系数r和判定系数R^2(及其调整形式R^2_1)来评估变量间的线性关系和模型的拟合质量,帮助我们理解数据并进行预测。在分析时,应综合考虑这些统计量,以确保建立的模型既具有解释力,又不会过度拟合数据。