k_max = 2 min_support = 0.2 min_conf = 0.3 if __name__ == "__main__": """ Test """ data_set = load_data_set(df) L, support_data = generate_L(data_set, k=k_max, min_support=min_support) big_rules_list = generate_big_rules(L, support_data, min_conf=min_conf) for Lk in L: print("=" * 50) if len(Lk) > 0: print("frequent " + str(len(list(Lk)[0])) + "-itemsets\t\tsupport") print("=" * 50) for freq_set in Lk: print(freq_set, support_data[freq_set]) else: print("end") break print() print("Big Rules") print("=" * 50) if big_rules_list: for item in big_rules_list: print(item[0], "=>", item[1], "conf: ", item[2]) else: print("No Big Rules")
时间: 2024-04-03 20:34:08 浏览: 137
这段代码是关于关联规则挖掘的,其中 k_max、min_support 和 min_conf 分别表示最大项集大小、最小支持度和最小置信度,load_data_set() 函数和 generate_L() 函数是用来加载数据集和生成频繁项集的。generate_big_rules() 函数是用来生成关联规则的,最后的输出结果是生成的频繁项集和关联规则。
相关问题
k_max = 5 min_support = 0.2 min_conf = 0.3 if __name__ == "__main__": """ Test """ data_set = load_data_set(df) L, support_data = generate_L(data_set, k=k_max, min_support=min_support) big_rules_list = generate_big_rules(L, support_data, min_conf=min_conf) for Lk in L: print("=" * 50) if len(Lk) > 0: print("frequent " + str(len(list(Lk)[0])) + "-itemsets\t\tsupport") print("=" * 50) for freq_set in Lk: print(freq_set, support_data[freq_set]) else: print("end") break print() print("Big Rules") print("=" * 50) if big_rules_list: for item in big_rules_list: print(item[0], "=>", item[1], "conf: ", item[2]) else: print("No Big Rules")
这段代码看起来像是在进行数据挖掘中的关联规则挖掘。其中,k_max 是指频繁项集中包含的最大项数,min_support 是指支持度的最小阈值,min_conf 是指置信度的最小阈值。接下来,程序通过调用 generate_L 函数生成频繁项集,再调用 generate_big_rules 函数生成关联规则。最后,程序输出频繁项集和关联规则,其中关联规则按照置信度从高到低排序。
阅读全文