分布式相似度关联规则挖掘模型提升数据挖掘准确性

需积分: 6 0 下载量 68 浏览量 更新于2024-09-10 收藏 450KB PDF 举报
本文主要探讨了分布式环境中的关联规则挖掘,这是一种在多台计算机上协同进行的数据挖掘技术,特别关注于提高数据挖掘的准确性和效率。首先,论文回顾了关联规则挖掘的基本原理,这是一种用于发现大量数据集中频繁出现的项集之间关联性的统计方法,如Apriori算法或FP-Growth算法等。 分布式关联规则挖掘算法是针对大规模数据集的特点而设计的,它通过将数据分割成多个部分在不同的计算节点上并行处理,从而降低单机运算的压力。在现有算法的基础上,作者提出了一个新的模型,该模型充分考虑了数据源的异构性,即不同数据源可能具有不同的数据结构、格式和质量。为了克服这种异构性带来的挑战,模型引入了相似度作为关键指标,通过比较和融合不同数据源之间的数据特征,来增强规则挖掘的准确性。 在模型构建过程中,相似度被用来衡量数据间的相关性,这可以是基于内容的相似性(如文本、图像特征),也可以是基于结构的相似性(如数据库模式)。作者详细地描述了这一模型的设计和实现步骤,包括数据预处理、相似度计算、关联规则挖掘以及结果整合等环节。通过实验验证,作者证明了这种基于相似度的分布式数据挖掘方法能够显著提升关联规则挖掘的准确率,尤其是在处理异构数据时效果更为明显。 此外,论文还提到了研究团队的构成,由谈冉副教授、陆正球硕士研究生和严新平教授等组成,他们的研究领域涵盖了计算机网络技术、远程数据处理、软件体系结构、计算机网络和数据挖掘等多个方面,这表明他们在分布式数据挖掘领域的深厚背景和丰富的实践经验。 本文的贡献在于提出了一种创新的分布式关联规则挖掘方法,它不仅适应大规模数据处理,还能有效应对数据源的异构性问题,为分布式环境下高效、准确的数据挖掘提供了新的解决方案。这对于大数据时代的数据分析和决策支持具有重要意义。