偏差、方差与协方差：统计与机器学习基础

需积分: 0 104 浏览量更新于2024-08-04 收藏 154KB DOCX 举报

"偏差、方差、协方差和拉格朗日乘数法的基本概念及其在统计学和机器学习中的应用" 偏差、方差和协方差是统计学和数据分析中常用的三个概念，它们用于量化数据的集中趋势、分散程度以及变量间的相互关联。偏差（Bias）是测量值与真实值之间的差异，它反映了测量过程的系统误差。在统计学中，偏差可以分为绝对偏差和相对偏差。绝对偏差是单次测量值与平均值的差值，而相对偏差则是绝对偏差与平均值的百分比。偏差可以指示测量的精确性，但并不总是负面的。例如，在有偏估计中，虽然估计可能偏向于高估或低估，但在某些情况下，这种偏差可能会带来更小的方差。方差（Variance）是度量数据离散程度的重要指标，它计算了每个数据点与平均值之间差的平方的平均值。在概率论中，方差衡量随机变量相对于其期望值的偏离程度。方差越小，数据点越集中；反之，方差越大，数据点分布越广泛。方差的计算公式通常为所有数据点与平均值差的平方和除以数据点的数量。协方差（Covariance）用于衡量两个随机变量共同变化的程度。如果两个变量同步增加或减少，它们的协方差为正；若一个变量增加时另一个减少，协方差为负。对于两个不相关的随机变量，它们的协方差为零。协方差的计算公式为：\( \text{Cov}(X,Y) = E[(X - E[X])(Y - E[Y])] \)，其中E表示期望值。拉格朗日乘数法（Lagrange Multiplier Method）是一种在多变量优化问题中寻找约束条件下极值点的方法。在约束优化问题中，通过引入拉格朗日乘数来平衡目标函数和约束条件，形成拉格朗日函数，然后通过对拉格朗日函数求偏导数并设置为零，找到满足条件的解。在机器学习领域，偏差和方差是模型性能的两个关键指标。偏差（Bias）表示模型的预测能力，如果模型过于简单，可能会导致高偏差，即模型过于贴近训练数据，对未知数据的预测不够准确。相反，方差（Variance）表示模型对训练数据噪声的敏感性，如果模型过于复杂，可能会过拟合，导致高方差，即模型在训练数据上表现良好，但在新数据上表现较差。理想的模型应该在偏差和方差之间找到平衡，实现良好的泛化能力。通过理解这些基本概念，我们可以更好地分析数据、建立模型，并进行有效的预测。在实际应用中，比如在回归分析、假设检验、参数估计和机器学习算法选择等过程中，偏差、方差和协方差都是至关重要的工具。

偏差

偏差又称为表观误差，是指个别测定值与测定的平均值之差，它可以用来衡量测

定结果的精密度高低[1]。在统计学中，偏差可以用于两个不同的概念，即有偏

采样与有偏估计。一个有偏采样是对总样本集非平等采样，而一个有偏估计则是

指高估或低估要估计的量。

偏差不一定有害。尽管一个有偏采样会难以分析或引起不准确甚至错误的推断，

但是有偏估计在某些情况下也有一些好的特性，例如较小的方差。

偏差分为绝对偏差和相对偏差、标准偏差和相对标准偏差来表示。

 绝对偏差：是指某一次测量值与平均值的差异。

 相对偏差：是指某一次测量的绝对偏差占平均值的百分比。

 标准偏差：是指统计结果在某一个时段内误差上下波动的幅度。

 平均偏差：是指单项测定值与平均值的偏差（取绝对值）之和，除以测定次

数。

 相对标准偏差：是指标准偏差占平均值的百分率。平均偏差和相对平均偏差

都是正值。

Eg：分析铁矿石中铁的质量分数，得到如下数据：37.45，37.20，37.50，37.30，

37.25（%），计算测结果的平均值、平均偏差、相对平均偏差、标准偏差。

解：平均值：(37.45+37.20+37.50+37.30+37.25)/5 = 37.34

各次测量的偏差分别是：0.11，-0.14，0.16，-0.04，-0.09

方差

方差（variance)是在概率论和统计方差衡量随机变量或一组数据时离散程度的度

量。概率论中方差用来度量随机变量和其数学期望（即均值）之间的偏离程度。

统计中的方差（样本方差）是各个数据分别与其平均数之差的平方的和的平均数。

在许多实际问题中，研究方差即偏离程度有着重要意义。

方差是衡量源数据和期望值相差的度量值。

（1）

(

)

(

―

E(X)

)

(

𝑋

)

―

(𝐸(𝑋))

（2）设

是常数，则

(

)

（3）设

是随机变量，

是常数，则有

(

)

𝐷

(

𝑋

)

𝐷

(

𝑋

𝐶

)

𝐷(𝑋)

（4）设

与

是两个随机变量，则

(

)

(

)

D(Y)

2Cov(X,Y)

其中协方差

Cov

(

X, Y

)

{

[

𝑋

―

𝐸(𝑋)

]

[

𝑌

―

𝐸(𝑌)

]

}

特别的，当

是两个不相关的随机变量则

(

)

(

)

D(Y)

此性质可以推广到有限多个两两不相关的随机变量之和的情况。

（5）

(

)

的充分必要条件是

以概率 1 取常数

，即

{

𝑋

𝐸(𝑋)

}

当且仅当

取常数值

𝐸(𝑋)

时的概率为 1 时，

(

)

。

注：不能得出

恒等于常数，当

是连续的时候，

可以在任意有限个点取不等于

常数 c 的值。

（6）

(

)

𝑎

𝐷

(

𝑋

)

𝑏

𝐷

(

𝑌

)

2𝑎𝑏𝐶𝑜𝑣(𝑋, 𝑌)

bias & variance

偏差（bias）：描述的是预测值（估计值）的期望与真实值之间的差距。偏差越

大，越偏离真实数据，如下图第二行所示。

下载后可阅读完整内容，剩余4页未读，立即下载

粉丝: 436
资源: 314

偏差、方差与协方差：统计与机器学习基础

信号与噪声权选择对GPS高程拟合精度的影响.pdf

方差-协方差法计算在险价值

SVAR 模型的方差-协方差矩阵约束

R语言拉格朗日乘数检验结果参数意义

什么是方差-协方差矩阵？

stata拉格朗日乘数检验命令

ARMA模型方差与协方差

高斯分布的方差和协方差的区别

stata残差方差协方差矩阵

方差和协方差矩阵有什么联系

最新资源