14.各类算法(分类、聚类、关联规则)的常用度量指标及其含义、公式?
时间: 2023-09-06 07:09:48 浏览: 50
各类算法的常用度量指标如下:
1. 分类算法
- 准确率(Accuracy):分类正确的样本数占总样本数的比例。
公式:$Accuracy = \frac{TP+TN}{TP+TN+FP+FN}$
其中,TP表示真正例(True Positive)、TN表示真反例(True Negative)、FP表示假正例(False Positive)、FN表示假反例(False Negative)。
- 精确率(Precision):被分类正确的正例样本数占分类器判定为正例的样本数的比例。
公式:$Precision = \frac{TP}{TP+FP}$
- 召回率(Recall):被分类正确的正例样本数占实际为正例的样本数的比例。
公式:$Recall = \frac{TP}{TP+FN}$
- F1值(F1-score):精确率和召回率的调和平均数。
公式:$F1-score = 2\cdot\frac{Precision\cdot Recall}{Precision+Recall}$
2. 聚类算法
- 簇内平方和(SSE):每个样本与其所属簇的质心(平均值)之间的距离的平方和。
公式:$SSE = \sum_{i=1}^{k}\sum_{x\in C_i}||x-\mu_i||^2$
其中,k表示簇的个数,$C_i$表示第i个簇,$\mu_i$表示第i个簇的质心。
- 簇间平方和(SSB):所有簇质心与数据集总体质心之间的距离的平方和。
公式:$SSB = \sum_{i=1}^{k}n_i \cdot ||\mu_i-\mu||^2$
其中,$n_i$表示第i个簇的样本数,$\mu_i$表示第i个簇的质心,$\mu$表示数据集的总体质心。
- 轮廓系数(Silhouette Coefficient):衡量一个样本与其所在簇的相似度,范围在-1到1之间,数值越大表示聚类结果越好。
公式:$s(i) = \frac{b(i)-a(i)}{\max\{a(i),b(i)\}}$
其中,$a(i)$表示样本i与同簇其他样本的平均距离,$b(i)$表示样本i与其他簇中样本的平均距离。
3. 关联规则算法
- 支持度(Support):包含该项集的事务数占总事务数的比例。
公式:$Support(X) = \frac{Count(X)}{N}$
其中,$Count(X)$表示包含项集X的事务数,N表示总事务数。
- 置信度(Confidence):在包含X的事务中,同时包含Y的事务数占包含X的事务数的比例。
公式:$Confidence(X\rightarrow Y) = \frac{Count(X\cup Y)}{Count(X)}$
其中,$Count(X\cup Y)$表示同时包含X和Y的事务数。
- 提升度(Lift):关联规则X→Y中,Y出现的概率相对于X和Y独立出现的概率的提升倍数。
公式:$Lift(X\rightarrow Y) = \frac{Confidence(X\rightarrow Y)}{Support(Y)}$
其中,$Support(Y)$表示项集Y的支持度。