大数据下高阶熵压缩全文自索引的创新技术

137 浏览量更新于2024-07-15 1 收藏 1.02MB PDF 举报

本文主要探讨了"高阶熵压缩的全文自索引"这一研究主题，针对大数据时代下快速增长的数据量，提出了一个高效且关键的问题解决方案。论文首先由西安电子科技大学计算机学院的霍红卫、陈晓阳、陈龙刚和于强四位作者合作完成，他们分别在算法设计与分析、大数据压缩索引与检索、压缩数据结构等领域有所专长。论文的核心内容是提出了一种针对长度为n的文本T的压缩索引算法，特别关注的是k阶经验熵（Hk(T)），这是一个衡量文本信息复杂度的重要统计量，它基于文本中字符出现的频率分布。在设定k≤clogσn-1且c<1的前提下，这种压缩索引能够占用空间仅为2nHk(T) + n + o(n)位，这里的σ代表字符表的大小。这个设计使得空间效率得到了显著提升，尤其是当文本信息具有较高的熵值时。值得一提的是，本文提出的压缩索引构建过程具备线性时间复杂度，这意味着在实际应用中，即使处理大规模数据，也能保持高效的实时构建能力。为了进一步优化性能，文中还引入了混合编码方法，根据1在gap序列中的分布动态调整编码策略，这在节省空间方面实现了额外的o(n)位开销。实验部分展示了这种高阶熵压缩索引在pizza&Chilicorpus上的优秀表现，对比主流压缩索引，它在压缩率和查询时间上都显示出显著优势。这对于大数据存储和检索场景具有重要的实际意义，尤其是在减少存储需求和提高查询响应速度方面。最后，文章的关键词包括大数据、压缩索引、自索引、高阶熵和混合编码，这些关键词揭示了论文的核心技术和关注点。论文的成果不仅理论价值高，而且具有很强的实用性，可供其他研究者参考和借鉴。有兴趣的读者可以通过Github获取作者们开发的压缩索引软件，进行更深入的学习和应用探索。

4 计算机学报 2015 年

地，我们可以定义逆后缀数组：SA

1

[i] = j，表示后

缀 T[i .. n]的排名为 j，即 T 中由 i 起始的后缀的排

名为 j。如果模式 P 出现在文本 T 中，那么存在整

数 L 和 R（L ≤ R），满足 SA[L], SA[L + 1], … , SA[R]

存储了 P 在 T 中出现的所有位置。文本索引的基本

问题是构建一个 T 的一个索引，使得对于任何长为

p 的查询模式 P，我们可以高效地定位 P 在 T 中的

所有出现。



图 1. 后缀数组

和近邻函数

2.3 压缩后缀数组

Grossi &Vitter（GV-CSA）压缩后缀数组

[8-10]

解决了后缀数组作为索引时空间占用过大的问题，

其核心是如何高效地表示并存储近邻函数

[8-10]

，定

义如下：

(i) = j, if SA[j] = (SA[i] + 1) mod n

(1)

函数将 SA 中的某个位置 i (满足 SA[i] = p) 映

射到另一个位置 j (满足 SA[j] = p + 1)，其核心在于

把当前位置和下一个位置联系起来，不仅利用了上

下文信息，有利于压缩，又提供了通过函数访问

整个文本串的能力，从而提供了检索和数据恢复的

能力。Grossi 等人

[10]

（GGV-CSA）所提出的达到渐

近空间最优性的压缩自索引引入了-list 的概念（此

后我们称 x-list），这些 x-list (x  )可对文本中的

所有后缀及其关联的值按照其前缀进行划分。通

过对后缀指针按其长度为 2

(k = 0, 1, 2, … )的前缀

进行划分，可得这些 x-list。这些 x-list 的简单连接

恰好为近邻函数值。每个 x-list 形成关于文本位置

的一个递增序列，如图 1 所示。其中标示出了 a-list

和 c-list。因此，如果对递增序列的间隔长度进行编

码，就能实现对文本的压缩。

2.4 k阶经验熵

令 T 为长度为 n 的文本串，其中字符取自大小

为



的字符表 。由信息论可得，使用经验熵

（empirical entropy）可以界定存储文本 T 所需空间

的下界。经验熵类似于概率意义上所定义的熵，不

同之处在于经验熵是根据所观察到的 T 中字符频率

来定义的，而不是由字符概率来定义的。可用经验

熵来度量一个压缩算法的性能，它是文本串结构的

一个函数，不对输入做任何假设。文本串 T 的 0 阶

经验熵定义为

[29]

：

(T) = 























(2)

其中 n

是字符 i 在 T 中出现的次数，

= n。值

(T)表示理想压缩器的输出大小，该压缩器使用









位对字符表中的符号进行编码。这是使用

唯一可解码编码所能达到的最大压缩率，其中字符

表中的每个字符被赋以一个固定的码字。如果用于

每个字符的码字依赖于其在 T 中的前 k 个字符，那

么还可以达到更好的压缩率。

对于长为 k 的串 w  

，令 w

是连接 w 在 T

中每次出现之后的字符所形成的串。|w

|是该串的长

度。T 的 k 阶经验熵定义为

[29]

：

(T) =





 











󰇛



󰇜





(3)

值 nH

(T)表示如果使用的编码依赖于前 k 个最

近所见的符号，所能达到压缩率的下界。注意到，

对于任意串和 k  0，有 H

k+1

(T)  H

(T)  log



。

例如，对于 T = abcdabcdabcd，其 0 阶经验熵

和 1 阶经验熵如下计算：

(T) =  (1/4)log(1/4)  (1/4)log(1/4) 

(1/4)log(1/4)  (1/4)log(1/4) = 2

(T) = (1/12)(3H

) + 3H

) +

) + 2H

))

= (1/4)H

(bbb) + (1/4)H

(ccc) +

(1/4)H

(ddd) + (1/6)H

(aa) = 0

上例 T 的所有高阶熵均为 0。这表明如果我们

随机均匀从 T 中选择一个字符来猜测，其不确定性

为 2。如果猜测之前我们知道其前一个字符，那么

可以肯定结果答案。在一般情况下，对于给定的文

本串 T，存在 N，满足对于 k  N，有 H

(T) = 0。

a-list

c-list

剩余17页未读，继续阅读

weixin_38666823

粉丝: 5
资源: 971

大数据下高阶熵压缩全文自索引的创新技术

电信设备-基于信源高阶熵的数据压缩方法.zip

pec1_0.zip_matlab 排列熵_分数阶熵_排列熵 matlab_排列熵计算_轴承 matlab

数据感知FM索引

数据感知FM索引：理论与实践优化

压缩后缀数组在大字母表生物信息学中的构建

基于熵编码的数据压缩技术解析

【路径规划】乌燕鸥算法栅格地图机器人最短路径规划【含Matlab仿真 2886期】.zip

【路径规划】生物地理算法栅格地图机器人最短路径规划【含Matlab仿真 2914期】.zip

【路径规划】冠状病毒群体免疫算法栅格地图机器人路径规划【含Matlab仿真 2818期】.zip

在 GPU 上计算的各种样条算法.zip

最新资源