证明total deviation = intra-cluster deviatio+inter-cluster deviation
时间: 2023-06-19 07:09:49 浏览: 57
这等式是聚类分析中常见的方程,被称为“方差和公式”。下面是证明过程:
假设有n个数据点,它们被分成k个聚类,每个聚类有n1, n2, ..., nk个数据点。
总偏差可以表示为所有数据点到其所属聚类中心的距离平方和:
Total Deviation = ∑(xi - x̄)^2
其中,xi是数据点的值,x̄是所有数据点的平均值。
将上式展开,可以得到:
Total Deviation = ∑xi^2 - 2∑xi x̄ + n(x̄)^2
第一项 ∑xi^2 表示所有数据点的平方和,第二项 -2∑xi x̄ 表示所有数据点与平均值的乘积之和的两倍,第三项 n(x̄)^2 表示平均值的平方乘以数据点的个数。
现在考虑将总偏差分解为簇内偏差和簇间偏差之和。
簇内偏差可以表示为每个聚类内数据点到聚类中心的距离平方和之和:
Intra-cluster Deviation = ∑∑(xi - ci)^2
其中,ci是聚类i的中心点。
将上式展开,可以得到:
Intra-cluster Deviation = ∑xi^2 - 2∑xi ci + ∑ci^2
第一项 ∑xi^2 表示所有数据点的平方和,第二项 -2∑xi ci 表示所有数据点与聚类中心的乘积之和的两倍,第三项 ∑ci^2 表示所有聚类中心的平方和。
簇间偏差可以表示为每个聚类中心与全局平均值之间的距离平方和:
Inter-cluster Deviation = ∑nk(ci - x̄)^2
将上式展开,可以得到:
Inter-cluster Deviation = n1(ci1 - x̄)^2 + n2(ci2 - x̄)^2 + ... + nk(cik - x̄)^2
该式表示每个聚类中心与全局平均值之间的距离平方乘以该聚类中数据点的个数之和。
现在将簇内偏差和簇间偏差相加:
Intra-cluster Deviation + Inter-cluster Deviation = ∑xi^2 - 2∑xi ci + ∑ci^2 + n1(ci1 - x̄)^2 + n2(ci2 - x̄)^2 + ... + nk(cik - x̄)^2
将所有项相加,得到:
Intra-cluster Deviation + Inter-cluster Deviation = ∑xi^2 - n(x̄)^2
注意到 ∑xi^2 - n(x̄)^2 就是总偏差,所以有:
Intra-cluster Deviation + Inter-cluster Deviation = Total Deviation
因此,上述方差和公式成立。