play basketball ⇒ eat cereal [40%, 66.7%] is misleading • The overall % of students eating cereal is 75% > 66.7%. • play basketball ⇒ not eat cereal [20%, 33.3%] is more accurate, although with lower support and confidence • Measure of dependent/correlated events: lift 0.89 3750 / 5000 * 3000 / 5000 / 5000 2000 ( , ) = lift B C = Basketball Not basketball Sum (row) Cereal 2000 1750 3750 Not cereal 1000 250 1250 Sum(col.) 3000 2000 5000 1.33 1250 / 5000 * 3000 / 5000 5000 1000 / ( , ) = lift B ¬C = (,) ()() P AB lift = PAPB
时间: 2024-04-01 08:36:14 浏览: 131
Cereal序列化反序列化
规则 play basketball ⇒ eat cereal [40%, 66.7%] 具有误导性。
学生吃麦片的整体比例为 75%,大于 66.7%。
规则 play basketball ⇒ not eat cereal [20%,33.3%] 更准确,尽管支持度和置信度较低。
相关事件的度量方法:提升度
提升度的计算如下:
Lift(B, C) = (support(B ∪ C) / N) / (support(B) / N) × (support(C) / N) / N
其中,support(B ∪ C) 表示同时包含 B 和 C 的交易数,support(B) 和 support(C) 分别表示包含 B 和 C 的交易数,N 表示总交易数。
将 play basketball 视为 B,eat cereal 和 not eat cereal 视为 C,则:
Lift(B, Cereal) = 0.89
Lift(B, not Cereal) = 1.33
说明 play basketball 和 not eat cereal 之间存在正相关关系,而 play basketball 和 eat cereal 之间存在负相关关系。
另外,我们还可以使用条件概率来计算提升度:
Lift(B, ¬Cereal) = P(B, ¬Cereal) / (P(B) × P(¬Cereal))
其中,P(B, ¬Cereal) 表示同时发生 B 和 ¬Cereal 的概率,P(B) 和 P(¬Cereal) 分别表示发生 B 和 ¬Cereal 的概率。
这个式子可以简化为:
Lift(B, ¬Cereal) = Lift(B, not Cereal) = 1.33
阅读全文