大数据量重复记录检测新策略:提高效率与准确性
需积分: 9 190 浏览量
更新于2024-08-26
收藏 261KB PDF 举报
"大数据量的高效重复记录检测方法 (2010年) - 庞雄文、姚占林、李拥军"
本文是2010年由庞雄文、姚占林和李拥军发表的一篇自然科学论文,发表在《华中科技大学学报(自然科学版)》第38卷第2期,主要探讨了如何在大数据环境下有效地检测重复记录。当前,随着数据量的急剧增长,传统的重复记录检测方法面临着效率低下的问题,该论文提出了一种新的解决策略。
首先,文章指出当前的重复记录检测方法在处理大数据时存在不足,主要体现在无法有效地处理大规模的数据集。为了解决这一问题,作者们引入了“概念依赖图”(Concept Dependency Graph)的概念,这是一种用于分析和理解数据属性间关系的工具。通过计算概念依赖图,可以识别出数据表中的关键属性,这些属性对于确定记录的唯一性至关重要。
接着,论文提出了一种基于关键属性的记录分区策略。通过将数据按照关键属性值进行划分,可以将大范围的记录集合缩小到更小的子集,显著减少了需要进行比较的记录数量,从而提升了检测算法的运行效率。这种方法降低了计算复杂度,使得在大数据场景下处理重复记录成为可能。
在每个划分后的记录集中,论文还介绍了一种改进的重复记录检测算法。这个算法不仅在初步匹配后合并已匹配的记录,还会将这些合并后的记录与剩余的记录再次进行比较。这种迭代比较的方法提高了检测的准确性和效率,避免了漏检和误检的可能性。
实验结果显示,采用这种新方法在处理大数据量时,计算效率相比传统方法提高了47%,这在大数据处理领域具有显著的实际应用价值。这种方法对于数据清洗,即去除数据中的冗余和不一致性,以及保证数据质量方面,都具有重要的贡献。
关键词:数据处理、重复记录检测、检测方法、概念依赖图、数据清洗
这篇论文提出的高效重复记录检测方法,结合了概念依赖图和记录分区策略,为大数据环境下的数据清洗和重复记录检测提供了新的解决方案,提高了处理效率和准确性。这一方法对于大数据分析和管理领域的研究和发展具有重要意义。
2021-09-19 上传
1577 浏览量
202 浏览量
2023-06-07 上传
2024-07-27 上传
2023-09-25 上传
2023-06-02 上传
2023-07-29 上传
2023-09-04 上传
weixin_38526208
- 粉丝: 3
- 资源: 939
最新资源
- Haskell编写的C-Minus编译器针对TM架构实现
- 水电模拟工具HydroElectric开发使用Matlab
- Vue与antd结合的后台管理系统分模块打包技术解析
- 微信小游戏开发新框架:SFramework_LayaAir
- AFO算法与GA/PSO在多式联运路径优化中的应用研究
- MapleLeaflet:Ruby中构建Leaflet.js地图的简易工具
- FontForge安装包下载指南
- 个人博客系统开发:设计、安全与管理功能解析
- SmartWiki-AmazeUI风格:自定义Markdown Wiki系统
- USB虚拟串口驱动助力刻字机高效运行
- 加拿大早期种子投资通用条款清单详解
- SSM与Layui结合的汽车租赁系统
- 探索混沌与精英引导结合的鲸鱼优化算法
- Scala教程详解:代码实例与实践操作指南
- Rails 4.0+ 资产管道集成 Handlebars.js 实例解析
- Python实现Spark计算矩阵向量的余弦相似度