压缩LCE数据结构:重组技术提升效率

0 下载量 107 浏览量 更新于2024-08-25 收藏 519KB PDF 举报
"Longest Common Extension with Recompression" 是一篇发表于 2016 年 11 月 16 日的计算机科学论文,由 Tomohiro I 作者来自日本九州大学科技学院。该研究专注于解决字符串处理中的一个重要问题:在给定字符串 T 的两个位置 i 和 j 时,如何快速查找以这两个位置结尾的后缀之间的最长公共前缀(Longest Common Extension, LCE)长度。在文本处理中,LCE 查询是一个常见的需求,特别是在数据压缩和生物信息学等场景下,高效的数据结构对于性能至关重要。 传统上,LCE 数据结构用于存储字符串 T 的压缩形式,以支持快速查询。然而,该论文提出了一个创新的方法,即“重新压缩”技术,它被证明对压缩 LCE 数据结构非常有用。这种技术允许构建一个新型的压缩 LCE 数据结构,其空间复杂度优化到了 O(zlg(N/z)),其中 z 是字符串 T 的Lempel-Ziv 77 分解(一种自包含因子分解算法)的大小,不包括自我引用部分。这意味着数据结构能够有效地利用压缩的信息,降低存储需求。 论文的核心贡献在于设计了一个能够在 O(lgN) 时间内执行 LCE 查询的数据结构。这与传统的线性时间复杂度相比,有了显著提升,尤其是在处理大规模数据时。此外,作者还提供了两种构建方法: 1. 当字符串 T 以未压缩的形式存在时,他们展示了如何在 O(N) 的时间复杂度和空间复杂度内构建这个数据结构。 2. 当 T 是通过语法压缩,即使用一个生成 T 的大小为 n 的直译程序表示时,构建过程可以在 O(nlg(N/n)) 的时间复杂度和 O(n+zlg(N/z)) 的空间复杂度内完成。 值得注意的是,这些算法是确定性的,确保始终返回正确的 LCE 长度结果。这篇论文提供了一种高效且适用于各种压缩格式的 LCE 数据结构解决方案,对于那些需要频繁处理大量文本数据的应用来说,具有重要的实际价值。通过结合压缩技术和高效的查询算法,作者推动了这一领域的发展,提升了计算效率和存储效率。