哈夫曼树压缩与解压缩的代码

时间: 2023-07-09 19:42:57 浏览: 89

用哈夫曼树算法写对文件压缩与解压缩代码.doc

哈夫曼编码是一种高效的数据编码方法，常用于数据压缩。其基本原理是通过构建一棵特殊的二叉树（哈夫曼树）来为每个字符分配一个唯一的二进制码，使得频繁出现的字符拥有较短的编码，从而在整体上提高编码效率。在文件压缩和解压缩中，哈夫曼编码扮演了核心角色。以下是对哈夫曼树算法用于文件压缩与解压缩的详细说明： 1. **哈夫曼树的构建**： - 统计文件中各个字符出现的频率，将其存储在结构体`header`中，`count`字段表示频率。 - 接着，将所有非零频率的字符按照频率从大到小排序，创建一个优先队列（这里使用数组实现）。 - 使用贪心算法，每次从优先队列中取出两个频率最小的节点合并成一个新的节点，新节点的频率等于两个子节点的频率之和，并将新节点放回队列。重复此过程，直到队列中只剩下一个节点，这个节点就是哈夫曼树的根节点。 2. **哈夫曼编码的生成**： - 遍历哈夫曼树，从根节点到叶节点的路径可以视为字符的哈夫曼编码。通常左分支代表0，右分支代表1。 - 将每个字符的哈夫曼编码存储在`header`结构体的`bits`字段中。 3. **文件压缩**： - 输入源文件名和目标文件名，打开文件流进行读写操作。 - 读取源文件的每个字符，根据字符的哈夫曼编码，将对应的二进制位写入目标文件。 - 除了字符的编码，还需要记录一些额外信息，例如哈夫曼树的结构或编码表，以便解压缩时使用。 4. **文件解压缩**： - 读取目标文件，解析出哈夫曼编码表或重建哈夫曼树。 - 逐位读取目标文件中的二进制流，根据哈夫曼编码表，还原出原始的字符序列，然后写入到解压缩后的文件中。 5. **用户交互界面**： - 提供用户友好的界面，允许用户通过命令行参数或程序界面输入文件名和选择压缩/解压缩操作。 6. **性能指标**： - 压缩率是衡量压缩效果的重要指标，计算公式为：压缩率 = 压缩后的文件大小 / 压缩前的文件大小。以上代码片段展示了使用C语言实现哈夫曼编码压缩文件的基本框架，但并不完整，缺少解压缩部分以及用户交互界面。在实际应用中，还需要考虑错误处理、内存管理、效率优化等因素。此外，为了提高可维护性和可读性，通常会采用面向对象的编程方式，将各个功能模块封装为独立的函数或类。

下面是Python实现哈夫曼树压缩和解压缩的代码： ```python import heapq import os class HuffmanCoding: def __init__(self, path): self.path = path self.heap = [] self.codes = {} self.reverse_mapping = {} class HeapNode: def __init__(self, char, freq): self.char = char self.freq = freq self.left = None self.right = None def __lt__(self, other): return self.freq < other.freq def __eq__(self, other): if(other == None): return False if(not isinstance(other, HeapNode)): return False return self.freq == other.freq # 统计字符出现的频率 def make_frequency_dict(self, text): frequency = {} for character in text: if not character in frequency: frequency[character] = 0 frequency[character] += 1 return frequency # 构建哈夫曼树 def build_heap(self, frequency): for key in frequency: node = self.HeapNode(key, frequency[key]) heapq.heappush(self.heap, node) # 合并节点，构建哈夫曼树 def merge_nodes(self): while(len(self.heap)>1): node1 = heapq.heappop(self.heap) node2 = heapq.heappop(self.heap) merged = self.HeapNode(None, node1.freq + node2.freq) merged.left = node1 merged.right = node2 heapq.heappush(self.heap, merged) # 对哈夫曼树进行遍历，生成编码 def make_codes_helper(self, root, current_code): if(root == None): return if(root.char != None): self.codes[root.char] = current_code self.reverse_mapping[current_code] = root.char return self.make_codes_helper(root.left, current_code + "0") self.make_codes_helper(root.right, current_code + "1") def make_codes(self): root = heapq.heappop(self.heap) current_code = "" self.make_codes_helper(root, current_code) # 将编码后的数据写入输出文件 def get_encoded_text(self, text): encoded_text = "" for character in text: encoded_text += self.codes[character] return encoded_text def pad_encoded_text(self, encoded_text): padding_required = 8 - len(encoded_text) % 8 for i in range(padding_required): encoded_text += "0" padding_info = "{0:08b}".format(padding_required) padded_encoded_text = padding_info + encoded_text return padded_encoded_text def get_byte_array(self, padded_encoded_text): if(len(padded_encoded_text) % 8 != 0): print("Encoded text not padded properly") exit(0) b = bytearray() for i in range(0, len(padded_encoded_text), 8): byte = padded_encoded_text[i:i+8] b.append(int(byte, 2)) return b # 压缩 def compress(self): filename, file_extension = os.path.splitext(self.path) output_path = filename + ".bin" with open(self.path, 'r+') as file, open(output_path, 'wb') as output: text = file.read() text = text.rstrip() frequency = self.make_frequency_dict(text) self.build_heap(frequency) self.merge_nodes() self.make_codes() encoded_text = self.get_encoded_text(text) padded_encoded_text = self.pad_encoded_text(encoded_text) byte_array = self.get_byte_array(padded_encoded_text) output.write(bytes(byte_array)) print("Compressed") return output_path # 解压缩 def remove_padding(self, padded_encoded_text): padding_info = padded_encoded_text[:8] padding_required = int(padding_info, 2) padded_encoded_text = padded_encoded_text[8:] encoded_text = padded_encoded_text[:-1*padding_required] return encoded_text def decode_text(self, encoded_text): current_code = "" decoded_text = "" for bit in encoded_text: current_code += bit if(current_code in self.reverse_mapping): character = self.reverse_mapping[current_code] decoded_text += character current_code = "" return decoded_text def decompress(self, input_path): filename, file_extension = os.path.splitext(self.path) output_path = filename + "_decompressed" + ".txt" with open(input_path, 'rb') as file, open(output_path, 'w') as output: bit_string = "" byte = file.read(1) while(len(byte) > 0): byte = ord(byte) bits = bin(byte)[2:].rjust(8, '0') bit_string += bits byte = file.read(1) encoded_text = self.remove_padding(bit_string) decoded_text = self.decode_text(encoded_text) output.write(decoded_text) print("Decompressed") return output_path ``` 使用示例： ```python h = HuffmanCoding("test.txt") compressed_path = h.compress() decompressed_path = h.decompress(compressed_path) ``` 其中，`test.txt`是待压缩的文件名，`compressed_path`是压缩后的文件路径，`decompressed_path`是解压缩后的文件路径。

阅读全文

哈夫曼树压缩与解压缩的代码

相关推荐

哈夫曼树压缩解压C++代码

哈夫曼编码法的压缩和解压缩

C++实现文件压缩：哈夫曼树压缩与解压缩详解

哈夫曼树实现文件解压缩

哈夫曼树压缩算法实现

哈夫曼实现压缩解压缩——源代码

哈夫曼压缩解压缩的代码

哈夫曼树解压与压缩.doc

C语言实现哈夫曼数据压缩与解压缩技术

哈夫曼树实现数据压缩与解压缩算法

C++实现基于哈夫曼树的文件压缩与解压缩解码器

哈夫曼树压缩算法解析与实例教程

C语言实现哈夫曼树压缩算法详解

VC++6.0实现哈夫曼树压缩解压：源码与功能详解

哈夫曼编码压缩解压缩c语言代码

利用哈夫曼压缩与解压缩文件的C++代码

哈夫曼压缩与解压缩c++

用qt写利用哈夫曼压缩与解压缩文件的C++代码

哈夫曼树的数据压缩c++代码

最新推荐

哈夫曼编码压缩解压缩程序（CPP写的）

哈弗曼压缩解压程序源代码及注释

2023全球人工智能研究院观点报告：生成式人工智能对企业的影响和商业前景

构建基于Django和Stripe的SaaS应用教程

管理建模和仿真的文件

R语言数据处理与GoogleVIS集成：一步步教你绘图

如何使用Matlab实现PSO优化SVM进行多输出回归预测？请提供基本流程和关键步骤。

Symfony2框架打造的RESTful问答系统icare-server

"互动学习：行动中的多样性与论文攻读经历"

R语言与GoogleVIS包：打造数据可视化高级图表