ECLAT: Mining by Exploring Vertical Data Format • Vertical format: t(AB) = {T11, T25, …} • tid-list: list of trans.-ids containing an itemset • Deriving frequent patterns based on vertical intersections • t(X) = t(Y): X and Y always happen together • t(X) t(Y): transaction having X always has Y • Using diffset to accelerate mining • Only keep track of differences of tids • t(X) = {T1 , T2 , T3 }, t(XY) = {T1 , T3 } • Diffset (XY, X) = {T2 } • ECLAT (Zaki et al. @KDD’97) • Mining Closed patterns using vertical format: CHARM (Zaki & Hsiao@SDM’02)翻译解释
时间: 2024-04-01 09:31:49 浏览: 174
ECLAT是一种基于垂直数据格式的挖掘算法,其可以通过探索垂直数据格式中的交叉点,来推导出频繁模式。垂直数据格式可以表示为t(AB)={T11, T25, …},其中tid-list是包含一个项集的事务编号列表。当X和Y总是一起出现时,t(X)=t(Y);当包含X的事务总是包含Y时,t(X)⊂t(Y)。为了加速挖掘过程,ECLAT使用差分集来跟踪事务编号的差异,只保留tids的差异。例如,如果t(X)={T1,T2,T3},t(XY)={T1,T3},则Diffset(XY,X)={T2}。ECLAT算法可以使用垂直格式挖掘出闭合模式,而CHARM算法则进一步优化了ECLAT算法。
相关问题
ECLAT: Frequent Pattern Mining with Vertical Data Format、
ECLAT: Frequent Pattern Mining with Vertical Data Format是一篇关于频繁模式挖掘算法的论文。该论文提出了一种名为ECLAT的频繁模式挖掘算法,采用了垂直数据格式来存储和处理数据。
ECLAT算法的核心思想是将数据集按照项集划分为若干垂直数据集,然后通过递归求解每个垂直数据集的交集来挖掘频繁模式。相比于传统的水平数据格式,垂直数据格式可以更加高效地处理大规模数据,同时也能够降低内存消耗和I/O开销。
该论文的研究成果对于频繁模式挖掘算法的发展具有重要意义,为实际应用提供了一种高效、可扩展的频繁模式挖掘算法。
关联规则算法---Eclat算法
好的,你想了解关联规则算法中的Eclat算法。Eclat算法是一种经典的频繁模式挖掘算法,用于发现数据集中的频繁项集。该算法使用了垂直数据格式,即将每个事务表示为一列项,而不是行。Eclat算法的核心思想是基于交集来挖掘频繁项集,而不是基于并集。具体来说,算法首先将所有单个项看作一个集合,然后通过计算它们之间的交集来获得长度为2的频繁项集。接着,算法将这些频繁项集作为新的集合,计算它们之间的交集,从而获得长度为3的频繁项集。依此类推,直到不能再生成新的频繁项集为止。Eclat算法具有高效的计算效率和良好的可扩展性,因此被广泛应用于市场篮子分析、网络入侵检测和基因表达数据分析等领域。
阅读全文