DARE:低耗高效的数据去重与相似性检测方案

0 下载量 28 浏览量 更新于2024-08-30 收藏 924KB PDF 举报
本文档探讨了"数据减少与低开销的重复检测与消除方案(DARE)",这是一项针对大数据时代存储系统中日益重要的数据缩减问题的研究。随着数字数据的爆炸性增长,大规模数据缩减面临着如何在极低的开销下最大限度地识别和消除冗余的挑战。DARE的设计目标是提供一种高效且低耗能的解决方案。 该研究论文由 Wen Xia、Hong Jiang、Dan Feng 和 Lei Tian 等作者提出,他们均为 IEEE 会员或院士。论文指出,传统的数据缩减技术可能在处理大量相似数据时效率低下,因此DARE旨在通过增强对重复数据的意识和识别能力来改进这一状况。它采用了新颖的重复检测方法,能够在不影响性能的前提下,准确地区分并移除重复的数据块,从而实现数据的高效压缩和存储空间的节省。 DARE的核心思想是结合数据去重(deduplication)技术和相似性检测算法,以最小化对系统性能的影响。它可能涉及高级的哈希函数或者机器学习技术来评估数据块之间的相似度,确保只有真正意义上的重复数据被消除。此外,为了降低操作开销,文章强调了算法的实时性和轻量级设计,以适应现代存储系统的高吞吐量需求。 值得注意的是,这篇论文尚未正式发表,但已经接受在《计算机交易》(IEEE Transactions on Computers)期刊的未来一期上发布。引用该文章时,应参考DOI 10.1109/TC.2015.2456015。作者们提醒读者,由于是预印本,内容可能会在最终出版前有所修改,因此对于具体细节和技术实现,读者应以最终版本为准。 总结来说,DARE是一个创新的框架,旨在解决存储系统中的数据冗余问题,通过低开销的重复检测和消除策略,帮助存储系统在大数据环境下提高存储效率和性能。它的成功实施将对存储技术的发展产生积极影响,并为其他类似领域的研究提供了有价值的参考。