python 线性回归分析模型检验标准线性回归分析模型检验标准--拟合优度详解拟合优度详解
今天小编就为大家分享一篇python 线性回归分析模型检验标准--拟合优度详解,具有很好的参考价值,希望对
大家有所帮助。一起跟随小编过来看看吧
建立完回归模型后,还需要验证咱们建立的模型是否合适,换句话说,就是咱们建立的模型是否真的能代表现有的因变量与自
变量关系,这个验证标准一般就选用拟合优度。
拟合优度是指回归方程对观测值的拟合程度。度量拟合优度的统计量是判定系数R^2。R^2的取值范围是[0,1]。R^2的值越接
近1,说明回归方程对观测值的拟合程度越好;反之,R^2的值越接近0,说明回归方程对观测值的拟合程度越差。
拟合优度问题目前还没有找到统一的标准说大于多少就代表模型准确,一般默认大于0.8即可
拟合优度的公式:R^2 = 1 - RSS/TSS
注: RSS 离差平方和 ; TSS 总体平方和
理解拟合优度的公式前,需要先了解清楚几个概念:总体平方和、离差平方和、回归平方和。
一、总体平方和、离差平方和、回归平方和一、总体平方和、离差平方和、回归平方和
回归平方和 ESS,残差平方和 RSS,总体平方和 TSS
TSS(Total Sum of Squares)表示实际值与期望值的离差平方和,代表变量的总变动程度
ESS(Explained Sum of Squares)表示预测值与期望值的离差平方和,代表预测模型拥有的变量变动程度
RSS(Residual Sum of Squares)表示实际值与预测值的离差平方和,代表变量的未知变动程度
各个平方和的计算公式如下:
二、拟合优度二、拟合优度
接上一节内容可知,我们拿实际值与期望值的离差平方和作为整体变量的总变动程度,这个变动程度就是我们建模型的目的,
我们建立模型就是为了模拟这个变动程度。
建立模型后,整体变量的总变动程度(TSS)可以划分为两部分:模型模拟的变动程度(ESS)和未知的变动程度(RSS)
通常来说,预测模型拥有的变量变动程度在总变动程度中的占比越高,代表模型越准确,当RSS=0时,表示模型能完全模拟
变量的总变动。
回到文章开头的拟合优度公式:R^2 = 1 - RSS/TSS 。是不是很好理解了!
假设R^2 = 0.8,意味着咱们建立的模型拥有的变动程度能模拟80%的总变动程度,剩下20%为未知变动。
三、例子三、例子
对于学生而言,现在要探索一下学生的学习成绩与单一的学习时间是否有关系,给出两组数据如下:
'学习时间':[0.50,0.75,1.00,1.25,1.50,1.75,1.75, 2.00,2.25,2.50,2.75,3.00,3.25,3.50,4.00,4.25,4.50,4.75,5.00,5.50],
'分数':[10,22,13,43,20,22,33,50,62,48,55,75,62,73,81,76,64,82,90,93]
常识理解,学习时间越长,分数一般都会越高,两者是正比关系,因为就一个自变量,直接用sklearn,算出截距和斜率即可
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt