关联分析与频繁子图挖掘:算法解析

需积分: 22 13 下载量 156 浏览量 更新于2024-08-13 收藏 5.27MB PPT 举报
"频繁子图挖掘算法的一般结构与关联分析在数据分析中的应用" 关联分析是一种数据挖掘技术,主要用于发现数据集中不同项之间的有趣关系,如购买尿布的人也经常购买啤酒。它不仅适用于传统的事务数据,还可以处理分类属性和连续属性。 在【标题】中提到的"频繁子图挖掘算法的一般结构",是指在图数据中寻找频繁出现的子图模式。这类算法通常基于类Apriori策略,包括以下步骤: 1. **候选产生**:从频繁(k-1)-子图出发,通过合并生成候选的k-子图。这一步是通过找出所有可能的子图组合,增加一个顶点或边来扩展现有的频繁子图。 2. **候选剪枝**:删除包含非频繁(k-1)-子图的候选k-子图。这里的非频繁指的是这些子图在数据集中出现的次数低于预设的最小支持度(minsup)。 3. **支持度计数**:计算每个候选k-子图在所有图中的出现频率,即它们的支持度。支持度是衡量子图在整个图数据库中出现的频繁程度。 4. **候选删除**:最后,去除那些支持度小于minsup的候选子图,保留下来的子图就是频繁k-子图。 关联分析的**高级概念**涉及如何处理不同类型的数据。对于分类属性: - 分类属性如性别和文化程度需要转换为项。例如,文化程度可以转换为三个二元项:“文化程度=大学”、“文化程度=研究生”、“文化程度=高中”。对称二元属性如性别转换为“性别=男”和“性别=女”。 处理分类属性时面临的问题包括: - **稀疏属性值**:某些属性值可能不频繁,解决方法是将相关属性值归类,形成少数类别。 - **高频属性值**:如果某些属性值非常普遍,可能导致大量冗余模式。可以采用特定技术处理宽支持度的数据集。 - **计算复杂性**:生成的新项可能使候选集数量急剧增加,可以通过避免创建包含相同属性的多个项的候选集来减轻这个问题。 对于**连续属性**,如年收入和上网时间,关联分析需进行特殊处理。可能的方法包括离散化,即将连续值划分为区间,然后进行离散化后的关联规则挖掘。这样可以发现如“年收入超过120k的用户多属于45-60年龄组”这样的模式。 总结来说,频繁子图挖掘是图数据关联分析的关键部分,而关联分析则广泛应用于处理各种类型的数据,包括事务数据、分类属性和连续属性,以揭示数据集中的潜在关联和模式。