下表是某超市的商品交易表单,请使用Apriori关联分析算法分析顾客的购买行为,发现隐含的购物特点和习惯。 交易号 商品 0 豆奶,莴苣 1 莴苣,尿布,葡萄酒,甜菜 2 豆奶,尿布,葡萄酒,橙汁 3 莴苣,豆奶,尿布,葡萄酒 4 莴苣,豆奶,尿布,橙汁
首先需要将商品交易表单转换为适合Apriori算法的格式,即每个交易对应一个物品集合。
交易号 商品集合
0 {豆奶, 莴苣} 1 {莴苣, 尿布, 葡萄酒, 甜菜} 2 {豆奶, 尿布, 葡萄酒, 橙汁} 3 {莴苣, 豆奶, 尿布, 葡萄酒} 4 {莴苣, 豆奶, 尿布, 橙汁}
使用Apriori算法,可以得到如下的频繁项集:
频繁项集 支持度
{豆奶} 0.6 {莴苣} 0.8 {尿布} 0.8 {葡萄酒} 0.6 {豆奶, 莴苣} 0.4 {豆奶, 尿布} 0.6 {豆奶, 葡萄酒} 0.4 {莴苣, 尿布} 0.6 {莴苣, 葡萄酒} 0.4 {尿布, 葡萄酒} 0.6 {豆奶, 莴苣, 尿布} 0.4 {豆奶, 莴苣, 葡萄酒} 0.2 {豆奶, 尿布, 葡萄酒} 0.4 {莴苣, 尿布, 葡萄酒} 0.4 {豆奶, 莴苣, 尿布, 葡萄酒} 0.2
其中,支持度表示包含该项集的交易数占总交易数的比例。
根据频繁项集,可以得到如下的关联规则:
关联规则 支持度 置信度
{豆奶} -> {莴苣} 0.4 0.67 {莴苣} -> {豆奶} 0.4 0.5 {豆奶} -> {尿布} 0.6 1.0 {尿布} -> {豆奶} 0.6 0.75 {豆奶} -> {葡萄酒} 0.4 0.67 {葡萄酒} -> {豆奶} 0.4 0.67 {莴苣} -> {尿布} 0.6 0.75 {尿布} -> {莴苣} 0.6 0.75 {莴苣} -> {葡萄酒} 0.4 0.5 {葡萄酒} -> {莴苣} 0.4 0.67 {尿布} -> {葡萄酒} 0.6 0.75 {葡萄酒} -> {尿布} 0.6 1.0 {豆奶, 莴苣} -> {尿布} 0.4 1.0 {豆奶, 尿布} -> {莴苣} 0.4 0.67 {莴苣, 尿布} -> {豆奶} 0.4 0.67 {豆奶} -> {莴苣, 尿布} 0.4 0.67 {莴苣} -> {豆奶, 尿布} 0.4 0.5 {尿布} -> {豆奶, 莴苣} 0.4 0.5 {豆奶, 莴苣} -> {葡萄酒} 0.2 0.5 {豆奶, 葡萄酒} -> {莴苣} 0.2 0.5 {莴苣, 葡萄酒} -> {豆奶} 0.2 0.5 {豆奶} -> {莴苣, 葡萄酒} 0.2 0.33 {莴苣} -> {豆奶, 葡萄酒} 0.2 0.25 {葡萄酒} -> {豆奶, 莴苣} 0.2 0.5 {莴苣, 尿布} -> {葡萄酒} 0.4 0.67 {尿布, 葡萄酒} -> {莴苣} 0.4 0.67 {莴苣, 葡萄酒} -> {尿布} 0.4 1.0 {尿布} -> {莴苣, 葡萄酒} 0.4 0.5 {莴苣} -> {尿布, 葡萄酒} 0.4 0.5 {葡萄酒} -> {莴苣, 尿布} 0.4 1.0 {豆奶, 莴苣, 尿布} -> {葡萄酒} 0.2 0.5 {豆奶, 尿布, 葡萄酒} -> {莴苣} 0.2 0.5 {莴苣, 尿布, 葡萄酒} -> {豆奶} 0.2 0.5 {豆奶, 莴苣} -> {尿布, 葡萄酒} 0.2 0.5 {豆奶, 尿布} -> {莴苣, 葡萄酒} 0.2 0.33 {莴苣, 尿布} -> {豆奶, 葡萄酒} 0.2 0.33 {葡萄酒} -> {豆奶, 莴苣, 尿布} 0.2 0.5 {豆奶, 莴苣, 葡萄酒} -> {尿布} 0.2 1.0 {豆奶, 尿布, 葡萄酒} -> {莴苣} 0.2 0.5 {莴苣, 尿布, 葡萄酒} -> {豆奶} 0.2 0.5 {豆奶} -> {莴苣, 尿布, 葡萄酒} 0.2 0.33 {莴苣} -> {豆奶, 尿布, 葡萄酒} 0.2 0.25 {尿布, 葡萄酒} -> {豆奶, 莴苣} 0.2 0.33
其中,支持度表示包含该关联规则的交易数占总交易数的比例,置信度表示包含前项和后项的交易数占包含前项的交易数的比例。
通过分析上述频繁项集和关联规则,可以得出以下结论:
- 莴苣和尿布的销售量比其他商品高;
- 豆奶、莴苣和尿布的组合是比较常见的购买组合;
- 葡萄酒和甜菜的销售量比其他商品低;
- 豆奶、莴苣和尿布的组合经常会和葡萄酒一起购买;
- 莴苣、尿布和葡萄酒的销售量比其他三种商品的组合更高;
- 豆奶和葡萄酒的销售量比其他两种商品的组合低;
- 莴苣、尿布和葡萄酒的组合经常会和豆奶一起购买。
相关推荐

















