大数据量重复记录检测新策略:提高效率与准确性
需积分: 9 145 浏览量
更新于2024-08-26
收藏 261KB PDF 举报
"大数据量的高效重复记录检测方法 (2010年) - 庞雄文、姚占林、李拥军"
本文是2010年由庞雄文、姚占林和李拥军发表的一篇自然科学论文,发表在《华中科技大学学报(自然科学版)》第38卷第2期,主要探讨了如何在大数据环境下有效地检测重复记录。当前,随着数据量的急剧增长,传统的重复记录检测方法面临着效率低下的问题,该论文提出了一种新的解决策略。
首先,文章指出当前的重复记录检测方法在处理大数据时存在不足,主要体现在无法有效地处理大规模的数据集。为了解决这一问题,作者们引入了“概念依赖图”(Concept Dependency Graph)的概念,这是一种用于分析和理解数据属性间关系的工具。通过计算概念依赖图,可以识别出数据表中的关键属性,这些属性对于确定记录的唯一性至关重要。
接着,论文提出了一种基于关键属性的记录分区策略。通过将数据按照关键属性值进行划分,可以将大范围的记录集合缩小到更小的子集,显著减少了需要进行比较的记录数量,从而提升了检测算法的运行效率。这种方法降低了计算复杂度,使得在大数据场景下处理重复记录成为可能。
在每个划分后的记录集中,论文还介绍了一种改进的重复记录检测算法。这个算法不仅在初步匹配后合并已匹配的记录,还会将这些合并后的记录与剩余的记录再次进行比较。这种迭代比较的方法提高了检测的准确性和效率,避免了漏检和误检的可能性。
实验结果显示,采用这种新方法在处理大数据量时,计算效率相比传统方法提高了47%,这在大数据处理领域具有显著的实际应用价值。这种方法对于数据清洗,即去除数据中的冗余和不一致性,以及保证数据质量方面,都具有重要的贡献。
关键词:数据处理、重复记录检测、检测方法、概念依赖图、数据清洗
这篇论文提出的高效重复记录检测方法,结合了概念依赖图和记录分区策略,为大数据环境下的数据清洗和重复记录检测提供了新的解决方案,提高了处理效率和准确性。这一方法对于大数据分析和管理领域的研究和发展具有重要意义。
1835 浏览量
3409 浏览量
2812 浏览量
2010-03-10 上传
点击了解资源详情
点击了解资源详情
点击了解资源详情
168 浏览量
点击了解资源详情

weixin_38526208
- 粉丝: 3
最新资源
- 自动生成CAD模型文件的测试流程
- 掌握JavaScript中的while循环语句
- 宜科高分辨率编码器产品手册解析
- 探索3CDaemon:FTP与TFTP的高效传输解决方案
- 高效文件对比系统:快速定位文件差异
- JavaScript密码生成器的设计与实现
- 比特彗星1.45稳定版发布:低资源占用的BT下载工具
- OpenGL光源与材质实现教程
- Tablesorter 2.0:增强表格用户体验的分页与内容筛选插件
- 设计开发者的色值图谱指南
- UYA-Grupo_8研讨会:在DCU上的培训
- 新唐NUC100芯片下载程序源代码发布
- 厂家惠新版QQ空间访客提取器v1.5发布:轻松获取访客数据
- 《Windows核心编程(第五版)》配套源码解析
- RAIDReconstructor:阵列重组与数据恢复专家
- Amargos项目网站构建与开发指南