基于频繁模式树的高效关联分类算法:优于CMAR和C4.5

需积分: 16 2 下载量 173 浏览量 更新于2024-08-12 收藏 294KB PDF 举报
本文主要探讨了"基于频繁模式树的关联分类规则挖掘算法",发表在2006年5月的《江苏大学学报(自然科学版)》第27卷第3期。数据挖掘和机器学习领域中,构建高效精确的分类器是一项关键任务。针对现有关联分类规则挖掘算法存在的内存需求高、处理类别属性复杂和频繁的I/O访问问题,作者朱玉全、宋余庆、杨鹤标和陈健美提出了创新的解决方案。 他们的算法利用频繁模式树这一数据结构,这是一种能够同时考虑所有属性的方法,旨在改进现有如CMAR(基于关联规则的分类算法)和C4.5(基于规则的决策树分类算法)在执行效率和分类效果方面的不足。通过将数据组织在频繁模式树上,该算法能够更有效地管理内存,简化类别属性处理,减少不必要的I/O操作,从而提高整体性能。 实验结果显示,新提出的基于频繁模式树的关联分类规则挖掘算法不仅在执行速度上优于CMAR,而且在分类准确性上超过了C4.5。这表明,该算法对于处理大规模数据库中的分类问题具有显著的优势,对于提升数据挖掘和机器学习的效率有着实际应用价值。 论文的关键字包括数据挖掘、关联分类规则、频繁模式树、分类系统以及频繁项目集,这些词汇揭示了研究的核心技术路线和焦点。整个研究被归类在计算机科学和技术的TP311中,文献标识码为A,文章编号为1671-7775(2006)03—0262一04,表明其在学术界的地位和影响力。 总结来说,这篇文章提供了一个重要的贡献,即一种高效且准确的关联分类规则挖掘方法,对于推动数据挖掘领域的理论发展和实践应用具有重要意义。