线性回归分析:相关系数r与判定系数R²解析
版权申诉
78 浏览量
更新于2024-07-15
收藏 2.01MB PDF 举报
线性回归分析是一种统计方法,用于研究两个或多个变量之间的关系,特别是预测一个连续变量(因变量)如何随着另一个或多个连续变量(自变量)的变化而变化。相关系数r是衡量这种线性关系强度的重要指标。
相关系数r的计算公式是:
\[ r = \frac{\sum{(Xi - X\text{平均数})(Yi - Y\text{平均数})}}{\sqrt{\sum{(Xi - X\text{平均数})^2} \cdot \sum{(Yi - Y\text{平均数})^2}}} \]
这里的r值范围在-1到1之间,-1表示完全负相关,1表示完全正相关,0表示没有线性相关。值越接近±1,表示变量间的线性相关性越强。如果r接近0,意味着变量间的关系较弱或不存在线性关系。
判定系数R^2,也称为拟合优度或可决系数,是相关系数平方的另一种形式,表示模型解释了因变量变异的百分比:
\[ R^2 = \frac{ESS}{TSS} = 1 - \frac{RSS}{TSS} \]
其中,ESS(解释平方和)是模型预测的误差平方和,TSS(总平方和)是所有数据点与整体均值之差的平方和,RSS(残差平方和)是模型不能解释的误差平方和。R^2越接近1,模型拟合得越好。
然而,在实际应用中,单纯增加解释变量可能导致R^2增大,但并不意味着模型的解释能力增强。为了解决这个问题,引入了调整的判定系数R^2_1:
\[ R^2_{adj} = 1 - \frac{RSS/(n-k-1)}{TSS/(n-1)} \]
这里,n是样本数量,k是自变量的数量。调整后的R^2_1考虑了自变量数量对拟合优度的影响,避免了因增加无用变量而导致的R^2虚增。
线性回归分为一元线性回归和多元线性回归。一元线性回归仅有一个自变量,而多元线性回归涉及两个或更多自变量。回归系数表示自变量对因变量影响的大小和方向,每个自变量都有一个对应的回归系数。
线性回归方程通过相关系数r和判定系数R^2(及其调整形式R^2_1)来评估变量间的线性关系和模型的拟合质量,帮助我们理解数据并进行预测。在分析时,应综合考虑这些统计量,以确保建立的模型既具有解释力,又不会过度拟合数据。
2022-06-24 上传
2022-06-22 上传
2022-06-24 上传
2022-06-24 上传
2022-06-22 上传
2022-06-22 上传
2022-06-22 上传
2022-06-22 上传
2018-10-28 上传
qq_35291562
- 粉丝: 3
- 资源: 9万+
最新资源
- R语言中workflows包的建模工作流程解析
- Vue统计工具项目配置与开发指南
- 基于Spearman相关性的协同过滤推荐引擎分析
- Git基础教程:掌握版本控制精髓
- RISCBoy: 探索开源便携游戏机的设计与实现
- iOS截图功能案例:TKImageView源码分析
- knowhow-shell: 基于脚本自动化作业的完整tty解释器
- 2011版Flash幻灯片管理系统:多格式图片支持
- Khuli-Hawa计划:城市空气质量与噪音水平记录
- D3-charts:轻松定制笛卡尔图表与动态更新功能
- 红酒品质数据集深度分析与应用
- BlueUtils: 经典蓝牙操作全流程封装库的介绍
- Typeout:简化文本到HTML的转换工具介绍与使用
- LeetCode动态规划面试题494解法精讲
- Android开发中RxJava与Retrofit的网络请求封装实践
- React-Webpack沙箱环境搭建与配置指南