考虑一个训练集,包含100个正例和400个负例,对于下面的候选规则: R1:A→+(覆盖4个正例和1个负例) R2:B→+(覆盖30个正例和10个负例) R3:C→+(覆盖100个正例和90个负例)m度量(k=2且p+=0.2)
时间: 2023-05-30 08:06:23 浏览: 136
根据m度量(k=2且p=0.2)计算每个规则的得分:
- 对于规则R1,其支持度为5(4个正例和1个负例),置信度为80%(4个正例中有3个是真正例)。因此,R1的得分为0.2 * (0.8^2 + (1-0.8)^2) = 0.128。
- 对于规则R2,其支持度为40(30个正例和10个负例),置信度为75%(30个正例中有22个是真正例)。因此,R2的得分为0.2 * (0.75^2 + (1-0.75)^2) = 0.09。
- 对于规则R3,其支持度为190(100个正例和90个负例),置信度为91.67%(100个正例中有92个是真正例)。因此,R3的得分为0.2 * (0.9167^2 + (1-0.9167)^2) = 0.037。
因此,根据m度量(k=2且p=0.2)的得分,规则R1是最优秀的规则。
相关问题
考虑一个训练集,包含100个正例和400个负例,对于下面的候选规则: R1:A→+(覆盖4个正例和1个负例) R2:B→+(覆盖30个正例和10个负例) R3:C→+(覆盖100个正例和90个负例) 拉普拉斯度量;
拉普拉斯度量是一种评估规则优劣的方法,计算公式为:
Laplace = (TP+1)/(TP+FP+2) - (FN+1)/(FN+TN+2)
其中TP表示真正例(规则覆盖的正例),FP表示假正例(规则覆盖的负例),FN表示假反例(规则未覆盖的正例),TN表示真反例(规则未覆盖的负例)。
对于候选规则R1,TP=4,FP=1,FN=96,TN=399,计算得到Laplace=0.034。
对于候选规则R2,TP=30,FP=10,FN=70,TN=390,计算得到Laplace=0.244。
对于候选规则R3,TP=100,FP=90,FN=0,TN=310,计算得到Laplace=0.502。
因此,候选规则R3的Laplace值最大,是最优规则。
考虑一个训练集,包含100个正例和400个负例,对于下面的候选规则: R1:A→+(覆盖4个正例和1个负例) R2:B→+(覆盖30个正例和10个负例) R3:C→+(覆盖100个正例和90个负例) 似然比统计量;
似然比统计量是用来衡量一个规则的预测结果与实际结果之间的关联程度。其计算公式为:
L(R) = ln(P(R|D)/P(!R|D))
其中,P(R|D)表示规则R在训练数据集D中出现的概率,P(!R|D)表示规则R的补集在训练数据集D中出现的概率。
对于上述三个规则,假设它们都是独立的,即它们之间没有交集,因此它们的补集也是独立的。那么,它们的似然比统计量分别为:
L(R1) = ln((4/100)/(1/400)) ≈ 5.51
L(R2) = ln((30/100)/(10/400)) ≈ 4.61
L(R3) = ln((100/100)/(90/400)) ≈ 1.76
因此,R1具有最大的似然比统计量,表明它与训练数据集中的正负例的关联程度最高,是最优的规则。