相似索引:提升小文件重复数据删除效率的新方法

需积分: 9 1 下载量 125 浏览量 更新于2024-09-07 收藏 942KB PDF 举报
"本文主要探讨了在重复数据删除场景下,如何通过相似索引技术来优化EB(Extreme Binning)方法的不足。EB方法依赖于文件的最小块签名作为特征,对于以小文件为主的数据负载,其重复数据删除效果不佳。为了解决这一问题,研究者提出了相似索引,该索引利用相似哈希作为文件特征,特别适合处理小文件的数据集。 相似索引是一种二级索引结构,它的核心在于使用相似哈希算法来生成文件的表示,这样可以更有效地识别和匹配重复的数据块。相比于EB,相似索引在处理小文件时表现出更高的删除效率。实验结果显示,相似索引的重复数据删除率比EB提高了24.8%,这表明在保持数据完整性的同时,能够更有效地节省存储空间。 此外,相似索引在内存使用上也具有显著优势,其内存占用仅为EB的0.265%,这意味着在处理大量数据时,相似索引可以降低系统的资源消耗,提高系统整体性能。这使得相似索引在面对大规模、高密度的数据环境时,成为一种更具吸引力的解决方案。 论文还指出,EB方法在处理块查找时可能会遇到磁盘瓶颈问题,而相似索引通过优化数据结构和查询策略,减少了对磁盘I/O操作的依赖,从而缓解了这个问题。相似索引的二级索引结构允许更快的查找速度,降低了查找过程中的延迟,这对于实时性要求较高的应用尤为重要。 作者团队包括张志珂、蒋泽军、蔡小斌和彭成章,他们分别来自西北工业大学计算机学院,研究领域涵盖了存储系统、网络安全、重复数据删除等多个方面。该研究受到了陕西省自然科学基金和航空科学基金的支持。 相似索引通过引入相似哈希和二级索引的概念,为重复数据删除提供了一种更高效、节省资源的方法,尤其适用于处理小文件数据集,解决了EB方法在处理此类数据时的局限性,为存储系统的设计和优化提供了新的思路。"