Mining Colossal Frequent Patterns • F. Zhu, X. Yan, J. Han, P. S. Yu, and H. Cheng, “Mining Colossal Frequent Patterns by Core Pattern Fusion”, ICDE'07. • We have many algorithms, but can we mine large (i.e., colossal) patterns? ― such as just size around 50 to 100? Unfortunately, not! • Why not? ― the curse of “downward closure” (向下封闭) of frequent patterns • The “downward closure” property • Any sub-pattern of a frequent pattern is frequent. • Example. If (a1, a2, …, a100) is frequent, then a1, a2, …, a100, (a1, a2), (a1, a3), …, (a1, a100), (a1, a2, a3), … are all frequent! There are about 2100 such frequent itemsets! • No matter using breadth-first search (e.g., Apriori) or depth-first search (FPgrowth), we have to examine so many patterns • Thus the downward closure property leads to explosion!翻译成中文,解释
时间: 2024-04-01 09:30:43 浏览: 12
《挖掘巨大频繁模式:核心模式融合》一文中提到,我们有很多算法可以挖掘频繁模式,但是我们能否挖掘大型的(即巨大的)模式,例如大小在50到100之间的模式呢?不幸的是,我们不能!为什么不行呢?因为频繁模式的“向下封闭性”导致了这个问题。向下封闭性是指,任何频繁模式的子模式都是频繁的。例如,如果(a1,a2,…,a100)是频繁的,那么a1,a2,…,a100,(a1,a2),(a1,a3),…,(a1,a100),(a1,a2,a3),…等都是频繁的!这样的频繁项集大约有2100个!不管是使用广度优先搜索(例如Apriori)还是深度优先搜索(FPgrowth),我们都必须检查这么多的模式。因此,向下封闭性导致了模式爆炸的问题。
相关问题
Advanced Frequent Pattern Mining • Pattern Mining: A Road Map • Pattern Mining in Multi-Level, Multi-Dimensional Space • Mining Multi-Level Association • Mining Multi-Dimensional Association • Mining Quantitative Association Rules • Mining Rare Patterns and Negative Patterns • Constraint-Based Frequent Pattern Mining • Mining Colossal Patterns • Mining Compressed Patterns • Pattern Exploration and Application • Sequential Pattern Mining
你的问题是关于频繁模式挖掘的吗?这些主题确实是频繁模式挖掘领域的一些重要研究方向。频繁模式挖掘是数据挖掘领域的一个重要分支,它的目标是从数据集中挖掘出频繁出现的模式。这些模式可以帮助我们了解数据集的特征、规律和关系,从而对数据进行更深入的分析和理解。这些研究方向主要涉及到多维、多层次、序列和约束等方面的模式挖掘,以及对挖掘结果的压缩、探索和应用等方面的研究。
Colossal Patterns Correspond to Dense Balls • Due to their robustness, colossal patterns correspond to dense balls • Ω( 2^d) in population • A random draw in the pattern space will hit somewhere in the ball with high probability翻译后再解释
由于巨型模式的强健性,它们对应于密集的球体,而这些球体在数据集中具有非常大的数量,可以达到Ω(2^d)的数量级。在模式空间中随机选择时,很有可能会命中这些球体中的某个位置,这也意味着巨型模式的普适性和稳定性。这个结果表明,由于它们的强健性和普适性,巨型模式在数据挖掘和机器学习领域中具有非常重要的应用价值。