A k-itemset whose corresponding hashing bucket count is below the threshold cannot be frequent • Candidates: a, b, c, d, e • Hash entries • {ab, ad, ae} • {bd, be, de} • … • Frequent 1-itemset: a, b, d, e • ab is not a candidate 2-itemset if the sum of count of {ab, ad, ae} is below support threshold • J. Park, M. Chen, and P. Yu. An effective hash-based algorithm for mining association rules. SIGMOD’95 count itemsets 35 {ab, ad, ae} {yz, qs, wt}翻译成中文,解释
时间: 2024-04-01 09:35:38 浏览: 105
Freqent Itemset 笔记
一个哈希桶计数低于阈值的k项集不可能是频繁项集 • 候选项: a, b, c, d, e • 哈希条目 • {ab, ad, ae} • {bd, be, de} • … • 频繁的1项集: a, b, d, e • 如果{ab, ad, ae}的计数总和低于支持阈值,则ab不是候选的2项集 • J. Park, M. Chen, and P. Yu. An effective hash-based algorithm for mining association rules. SIGMOD'95 计数项集35 {ab, ad, ae} {yz, qs, wt}
此段文字描述了使用哈希算法对项集进行关联规则挖掘的过程。其中,k项集指包含k个项的项集,哈希桶是将项集映射到桶中的数据结构。如果一个k项集的哈希桶计数低于设定的阈值,则该项集不可能是频繁项集。候选项是指在挖掘频繁项集时,可能成为频繁项集的项。该算法通过计算项集的计数来判断其是否是频繁项集,如果某个2项集的计数总和低于支持阈值,则该2项集不是候选项。
阅读全文