大数据量重复记录检测新策略:提高效率与准确性

需积分: 9 0 下载量 190 浏览量 更新于2024-08-26 收藏 261KB PDF 举报
"大数据量的高效重复记录检测方法 (2010年) - 庞雄文、姚占林、李拥军" 本文是2010年由庞雄文、姚占林和李拥军发表的一篇自然科学论文,发表在《华中科技大学学报(自然科学版)》第38卷第2期,主要探讨了如何在大数据环境下有效地检测重复记录。当前,随着数据量的急剧增长,传统的重复记录检测方法面临着效率低下的问题,该论文提出了一种新的解决策略。 首先,文章指出当前的重复记录检测方法在处理大数据时存在不足,主要体现在无法有效地处理大规模的数据集。为了解决这一问题,作者们引入了“概念依赖图”(Concept Dependency Graph)的概念,这是一种用于分析和理解数据属性间关系的工具。通过计算概念依赖图,可以识别出数据表中的关键属性,这些属性对于确定记录的唯一性至关重要。 接着,论文提出了一种基于关键属性的记录分区策略。通过将数据按照关键属性值进行划分,可以将大范围的记录集合缩小到更小的子集,显著减少了需要进行比较的记录数量,从而提升了检测算法的运行效率。这种方法降低了计算复杂度,使得在大数据场景下处理重复记录成为可能。 在每个划分后的记录集中,论文还介绍了一种改进的重复记录检测算法。这个算法不仅在初步匹配后合并已匹配的记录,还会将这些合并后的记录与剩余的记录再次进行比较。这种迭代比较的方法提高了检测的准确性和效率,避免了漏检和误检的可能性。 实验结果显示,采用这种新方法在处理大数据量时,计算效率相比传统方法提高了47%,这在大数据处理领域具有显著的实际应用价值。这种方法对于数据清洗,即去除数据中的冗余和不一致性,以及保证数据质量方面,都具有重要的贡献。 关键词:数据处理、重复记录检测、检测方法、概念依赖图、数据清洗 这篇论文提出的高效重复记录检测方法,结合了概念依赖图和记录分区策略,为大数据环境下的数据清洗和重复记录检测提供了新的解决方案,提高了处理效率和准确性。这一方法对于大数据分析和管理领域的研究和发展具有重要意义。