ECLAT: Mining by Exploring Vertical Data Format • Vertical format: t(AB) = {T11, T25, …} • tid-list: list of trans.-ids containing an itemset • Deriving frequent patterns based on vertical intersections • t(X) = t(Y): X and Y always happen together • t(X) t(Y): transaction having X always has Y • Using diffset to accelerate mining • Only keep track of differences of tids • t(X) = {T1 , T2 , T3 }, t(XY) = {T1 , T3 } • Diffset (XY, X) = {T2 } • ECLAT (Zaki et al. @KDD’97) • Mining Closed patterns using vertical format: CHARM (Zaki & Hsiao@SDM’02)翻译解释
时间: 2024-04-01 17:31:49 浏览: 12
ECLAT是一种基于垂直数据格式的挖掘算法,其可以通过探索垂直数据格式中的交叉点,来推导出频繁模式。垂直数据格式可以表示为t(AB)={T11, T25, …},其中tid-list是包含一个项集的事务编号列表。当X和Y总是一起出现时,t(X)=t(Y);当包含X的事务总是包含Y时,t(X)⊂t(Y)。为了加速挖掘过程,ECLAT使用差分集来跟踪事务编号的差异,只保留tids的差异。例如,如果t(X)={T1,T2,T3},t(XY)={T1,T3},则Diffset(XY,X)={T2}。ECLAT算法可以使用垂直格式挖掘出闭合模式,而CHARM算法则进一步优化了ECLAT算法。
相关问题
ECLAT: Frequent Pattern Mining with Vertical Data Format、
ECLAT: Frequent Pattern Mining with Vertical Data Format是一篇关于频繁模式挖掘算法的论文。该论文提出了一种名为ECLAT的频繁模式挖掘算法,采用了垂直数据格式来存储和处理数据。
ECLAT算法的核心思想是将数据集按照项集划分为若干垂直数据集,然后通过递归求解每个垂直数据集的交集来挖掘频繁模式。相比于传统的水平数据格式,垂直数据格式可以更加高效地处理大规模数据,同时也能够降低内存消耗和I/O开销。
该论文的研究成果对于频繁模式挖掘算法的发展具有重要意义,为实际应用提供了一种高效、可扩展的频繁模式挖掘算法。
关联规则算法---Eclat算法
Eclat算法是一种常用的关联规则算法,它的全称是Equivalence Class Clustering and bottom-up Lattice Traversal algorithm,中文名为等价类聚类和自底向上的格子遍历算法。该算法基于对数据集的垂直数据压缩,将数据集转换为垂直的事务集合,然后通过对事务集合的遍历,发现频繁项集,最终生成关联规则。
Eclat算法的主要思想是利用事务之间的交集,将所有项集组织成一棵由项集组成的树形结构,在树的每一个节点上记录其对应的项集的支持度计数。通过自底向上的遍历方式,找到所有的频繁项集。该算法的时间复杂度较低,尤其适用于处理大规模数据集。
需要注意的是,Eclat算法虽然可以处理高维数据,但是对于维度过高的数据集,其性能可能会受到影响。此外,该算法在处理含有重复项的数据集时,可能会产生不准确的结果。