极值点分块法提升重复数据检测效率：实验结果对比

需积分: 13 26 浏览量更新于2024-08-26 收藏 1.21MB PDF 举报

本文主要探讨了一种创新的重复数据检测算法——基于极值点分块(Extremum Defined Chunking, EDC)。在现代数据中心环境中，重复数据的存在不仅占用了大量的存储空间，还浪费了网络带宽，并增加了建设和运维的成本。传统的基于内容分块(Content Defined Chunking, CDC)方法在处理大数据时存在一个主要问题，即容易形成超长的数据块，这在实际应用中可能导致效率低下。 EDC算法针对这一问题提出了一种改进策略。首先，它通过在数据块的上下限范围内定义滑动窗口，对窗口内的数据进行指纹计算。这个过程确保了每个数据块的指纹代表其核心内容，而不是整个块。然后，算法寻找这些指纹序列中的最后一个极值点，该极值点所对应的滑动窗口结束位置被设定为数据块的分界点。这样做有助于划分更短且更具代表性的数据块，从而避免了超长块的问题。接下来，EDC算法计算每个划分后的数据块的哈希值，这是一种快速且高效的方式来判断数据的相似性。如果两个数据块的哈希值相等，那么可以确定它们是重复的。通过这种方法，EDC算法显著提高了重复数据检测的准确性，相比于CDC算法，其检测率提升了1.48倍。同时，由于数据块被有效地分割和压缩，磁盘利用率也得到了提升。实验结果显示，EDC算法的磁盘利用率比CDC算法提高了1.12倍，这意味着在存储资源的利用上，EDC算法显示出了更好的性能。总结来说，这篇文章提出的基于极值点分块的重复数据检测算法，通过优化数据块划分和指纹计算，有效解决了基于内容分块方法的局限性，提高了数据处理效率和存储空间的利用率。这对于现代数据中心管理和成本控制具有重要的实际价值。

技术研究

2013

年第

期

谢垂益

, 卿斯汉

（1. 韶关学院数学与信息科学学院，广东韶关 512005; 2. 中国科学院软件研究所，北京 100190）

摘　要：重复数据检测技术能够大幅降低数据中心的存储量，节省网络带宽，减少建设和运维成本。

为了克服基于内容分块（CDC）方法容易出现超长块的缺点，文章提出了基于极值点分块（EDC）的重

复数据检测算法。EDC 算法先计算出所有右边界在数据块上下限范围内的滑动窗口中数据的指纹，找

出最后一个指纹极值，所对应的滑动窗口结束位置作为数据块的分界点，再计算该数据块的哈希值并判

断是否重复块。实验结果表明， EDC 算法的重复数据检测率、磁盘利用率分别是 CDC 算法的 1.48 倍和

1.12 倍，改进效果显著。

关键词：重复数据检测；基于内容分块；基于极值点分块；指纹

中图分类号：TP309 文献标识码： A 文章编号：1671-1122（2013）08-0010-03

A Duplicate Data Detection Algorithm based on Extremum

Dened Chunking

XIE Chui-yi

, QING Si-han

(1.School of Mathematics and Information Science, Shaoguan University, Shaoguan Guangdong512005,China;

2. Institute of Software, Chinese Academy of Sciences, Beijing 100190, China)

Abstract: The duplicate data detection technology can significantly reduce the duplication of data in data

centers, save network bandwidth, decrease the cost of construction and maintenance. A duplicate data detection

algorithm based on Extremum Defined Chunking(EDC) is proposed to overcome the long segment problem of

Content Dened Chunking(CDC) method. The EDC algorithm rst calculates all ngerprints of the sliding windows

that their boundary are within the upper and lower limits of data blocks. The last extremum of all ngerprints is found

out, the corresponding end position of the sliding window become the cut-off point of data block. Then the hash value

of the data block is calculated to determine whether it is duplicate block. The experimental results show that ECD

algorithm, duplicated data detection rate, disk utilization rate is respectively 1.48 times, 1.12 times of CDC algorithm,

the effect is signicantly notable.

Key words: duplicated data detection; content dened chunking; extremum dened chunking; ngerprint

基于极值点分块的重复数据检测算法

近年来，随着数据信息的爆炸性增长，人们对存储空间的需求越来越庞大，从之前的 TB 级上升到 PB 级，甚至到 EB 级。

面对数据的急剧膨胀，人们除了不断地采购磁盘增加存储物理空间外 , 还研究数据缩减的技术。重复数据检测是实现数据缩减

的一种关键技术，能够大幅缩减数据中心的存储量，降低建设和运维成本，节省网络带宽，提高数据备份和恢复的性能。与传

统的数据压缩技术不同，重复数据检测技术不仅可以消除文件内的数据冗余，还能消除共享数据集内文件之间的数据冗余。

1 相关工作

基于内容分块（Content Defined Chunking, CDC）算法常用于存储系统中的重复数据检测，通过计算给定滑动窗口内数据内容

的指纹（简称滑动窗口的指纹）FP1，跟给定的余数 r 比较，若相等则窗口的右端为数据划分边界，否则将窗口向右滑动一个字节，

依次循环地进行计算和比较，直到到达文件末尾。CDC 算法可以将数据更新对边界划分的影响控制在更新位置附近的少数几个

块内，并保持其他块不变，适合应用于更新频繁的数据集，在减少存储空间的使用上较单例存储（Single Instance Storage, SIS）

[1]

、

固定分块（Fixed-Sized Block, FSB）

[2]

更具有优势，因此在 L B F S

[3]

、P a s t i c h e

[4]

和 Deep Store

[5]

等存储 / 备份系统中得到了广泛应用。

收稿日期：

2013-05-23

基金项目：

国家自然科学基金 [60970135、61170282]、韶关市创新资金项目 [201210]、韶关学院科研项目 [201202]

作者简介：

谢垂益 (19 74 -），男，广东，讲师，硕士，主要研究方向：网络信息安全理论与技术、云计算；卿斯汉 (19 39 -)，男，湖南，研究员，

博士生导师，主要研究方向：信息安全算法与协议。

doi

：

10.3969/j.issn.1671-1122.2013.08.003

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38743372

粉丝: 5
资源: 920

极值点分块法提升重复数据检测效率：实验结果对比

双目视觉中的角点检测算法研究

特征点检测算法.pdf

sift分块匹配

基于区域加权信息熵和改进遗传算法的图像检索

论文研究-基于纹理方向能量特征的虹膜识别算法.pdf

FKPCA-SIFT算法和APPCA-SIFT算法在图像匹配中的应用比较0628.pdf

论文研究-亚像素级模糊图像配准算法.pdf

基于图像融合的图像拼接

神经网络拟凸性质与分块变尺度算法探究

AE算法：提升带宽效率的数据去重新方案

最新资源