优化LZ77与LZSS压缩算法：缓解位元膨胀问题

需积分: 10 145 浏览量更新于2024-09-11 收藏 155KB PDF 举报

"本文主要探讨了LZ77和LZSS两种压缩算法在处理非文本数据时遇到的位元膨胀问题，并提出了一种改进的编码格式以提高压缩效率。研究指出，当符号的再现周期超过搜索缓冲区大小时，位元膨胀问题会导致这两种算法在处理此类数据时压缩效果不佳。论文提出的新方案同时考虑了搜索缓冲区的大小调整和编码格式的优化，实验结果显示，改良后的算法对ASCII和非ASCII数据都有更好的压缩表现。关键词包括LZ77，LZSS以及位元膨胀。" LZ77（Lempel-Ziv-1977）和LZSS（Lempel-Ziv-Storer-Szymanski）是两种基于滑动窗口的无损数据压缩算法。它们通过查找输入数据中的重复模式并用短编码替换这些模式来实现压缩。然而，当待压缩数据中的符号再现周期过长，即相邻的相同符号间隔过大，超过了预设的搜索缓冲区大小时，这两种算法会遇到位元膨胀问题。这是因为算法无法找到足够的重复模式进行压缩，导致输出的编码数据长度增加，反而使得数据体积膨胀。为了克服这个问题，该论文提出了一个解决方案，即不仅调整搜索缓冲区的大小，还修改了编码格式。通过更智能地定义搜索缓冲区，确保能捕捉到更长距离的重复模式，同时优化编码格式，减少因无法找到匹配而产生的额外编码，从而有效地解决了位元膨胀问题。实验部分显示，修改后的算法在处理ASCII（美国标准信息交换代码）和非ASCII数据时，压缩率都有显著提升。这表明改进的算法更能适应各种类型的数据，无论其符号结构如何，都能提供更高效的压缩性能。无失真压缩是指经过压缩和解压缩后，数据能够完全恢复到原始状态，没有信息损失。这种类型的压缩广泛应用于图像、音频和文本数据的存储和传输，尤其是在资源有限或带宽受限的环境中，如网络传输、存储设备和移动通信。本文的研究对于优化LZ77和LZSS压缩算法，特别是处理非文本或非ASCII数据时的性能提升，具有重要的理论和实际意义。改进后的算法有望在各种数据压缩应用中提供更好的效率，减少位元膨胀，从而更有效地节省存储空间和传输成本。

2010

年資訊科技國際研討會論文集

2010 International Conference on Advanced Information Technologies (AIT)

Modified LZ77 與 LZSS 之編碼格式以減少位元膨脹問題

摘要

LZ77 及 LZSS 兩種演算法對於非文字型態

的待編碼資料，如果符號的再出現週期過長，

超過了預設的搜尋緩衝區大小，位元膨脹問題

(bit-expanding problem)就會經常發生，造成該

兩種演算法對於此類型資料的壓縮效果不

佳。本篇論文特針對此缺點，提出了同時考慮

搜尋緩衝區大小及編碼格式的解決方案。實驗

結果顯示，修改後的演算法對於 ASCII 與非

ASCII 的資料都可以得到更好的壓縮效果。

關鍵詞：LZ77, LZSS, bit-expanding

Abstract

This paper aims at the drawback of LZ77 and

LZSS algorithms to improve the compression

rate for the non-ASCII data. For the encoding

symbol with the reappearance period longer than

the size of the search buffer, the bit-expanding

problem is easily occurred and therefore degrades

the compression efficiency in both algorithms. In

the proposed algorithm, the size of search buffer

is well defined and the code word format is

modified to solve the bit-expanding problem.

Experimental results show that these

modifications improve the compression rate for

both non-ASCII and ASCII data.

Keywords: LZ77, LZSS, bit-expanding

1. 前言

在高速、低成本之資料傳輸與儲存應用領

域中，資料壓縮是計算機科學領域中非常重要

的課題之一，它是由資訊理論所提出來的原理

所發展出來的，如今它可以應用到非常廣泛的

應用上。資料壓縮分無失真壓縮與失真壓縮，

而無失真資料壓縮已成為一種關鍵且重要的

技術。

無失真資料壓縮之特色乃藉由降低傳輸或

儲存所需之位元，同時又可正確保留資料源之

原貌。而近年來由於受限於頻寬資源日益缺乏

與儲存設備容量需求日增，因此，無失真資料

壓縮技術已被廣泛應用在許多儲存裝置，如磁

帶、硬碟、檔案伺服器與可移除式之快閃記憶

體及 USB 裝置等，用來提高儲存裝置的容量。

另外，於通訊網路應用方面，如區域網路、廣

域網路、無線網路等，亦利用無失真之資料壓

縮來達到資料傳輸效率提升之目的。

無失真壓縮技術最常被使用的有

LZ77[1] 、Huffman Coding[2]、Run Length

Encoding[3]、Arithmetic Coding[4]、LZW[5]和

X-Match Pro[6]等，其中 LZ77 在 1977 年被

Abraham Lempel 和 Jacob Ziv 所提出來而且是

最被廣泛使用的無失真壓縮技術之一。該演算

法的概念十分簡單而且最主要的優點在於資

料內容是未知或沒有經過統計的資料也可以

得到不錯的壓縮效果。

原本的 LZ77 的資料結構有一個搜尋緩衝

區(search buffer)和一個前看緩衝區(look-ahead

buffer)，一開始搜尋緩衝區的內容預設為空

的，而待編碼資料會被讀入前看緩衝區中，然

後再以前看緩衝區的資料當作 Pattern，在搜尋

緩衝區中去找到最長匹配的 Pattern，接著就產

生編碼格式。LZ77 的演算法是以貪婪演算法

的方式來得到最長的匹配字串，所以當搜尋緩

衝區的容量越大，搜尋所花費的時間也相對增

加，相對的，有匹配到的機率也會提高，可以

增加壓縮率。因此選擇一個適當的搜尋緩衝區

長度也是很重要的議題。但是主要影響壓縮率

的原因來自於編碼格式的適當與否。以原來

LZ77 的編碼格式非常容易造成位元膨脹的問

題。所以在本篇論文後面會深入去探討並提出

修改之方法，最後再以軟體模擬得到壓縮數

據。

2. LZ77 與 LZSS 演算法

2.1 LZ77 編碼演算法

步驟一：移動一個指向搜尋緩衝區內資料

的指標(pointer)，一直到該指標所指的符號等

於前看緩衝區內的第一個符號才停止移動。檢

查指標所指符號後面的那個符號，看它的內容

是否等於前看緩衝區內的第二個符號。如果相

等，再往後看一個符號，重複比對，一直到不

陳順智田子坤蔡明賢

南台科技大學

電子工程系副教授

南台科技大學

電子工程系副教授

南台科技大學

電子工程系碩士班研究生

scchen@mail.stut.edu.tw tktien@mail.stut.edu.tw M9730301@webmail.stut.edu.tw

下载后可阅读完整内容，剩余4页未读，立即下载

jiabrey

粉丝: 0

优化LZ77与LZSS压缩算法：缓解位元膨胀问题

lzbench, 在开源 LZ77/LZSS/LZMA 压缩器的内存基准测试中，lzbench是.zip

LZ77字典压缩算法C语言实现

lzbase62:base62中基于LZ77（LZSS）JavaScript压缩算法

LZSS haier

【信息论与编码课设】LZ77编码实现文件压缩解压缩.zip

LZ78:LZ77和LZ78是Abraham Lempel和Jacob Ziv在1977年[1]和1978年[2]论文中发表的两种无损数据压缩算法。 它们也分别称为 LZ1 和 LZ2。 [3] 这两种算法构成了许多变体的基础，包括 LZW、LZSS、LZMA 等

LZ77.rar_LZ77_LZ777_lz77.c_visual c

LZ77_1.zip_LZ77_lz77_1

LZSS-haier.rar_LZSS

Delphi实现的LZSS与LZ77压缩算法解析

最新资源

LZ78:LZ77和LZ78是Abraham Lempel和Jacob Ziv在1977年[1]和1978年[2]论文中发表的两种无损数据压缩算法。它们也分别称为 LZ1 和 LZ2。 [3] 这两种算法构成了许多变体的基础，包括 LZW、LZSS、LZMA 等