哈夫曼编码和译码算法原理
时间: 2023-11-17 15:02:55 浏览: 116
哈夫曼编码和译码算法原理如下:
1. 哈夫曼编码算法原理:
哈夫曼编码是一种变长编码,它利用字符出现的概率来构造平均长度最短的编码。在编码中,若各码字长度严格按照码字所对应符号出现概率的大小的逆序排列,则编码的平均长度是最小的。哈夫曼编码的过程可以分为以下几个步骤:
(1)统计每个字符出现的频率,并将其存储在一个权值数组中。
(2)将权值数组中的元素构造成一个森林,每个节点都是一棵只有一个节点的树。
(3)从森林中选出两个根节点的权值最小的树合并成一棵新树,新树的根节点的权值为两个子树的权值之和。
(4)将新树插入到森林中,并删除原来的两个子树。
(5)重复步骤(3)和(4),直到森林中只剩下一棵树,即为哈夫曼树。
(6)根据哈夫曼树生成每个字符的编码,左子树为0,右子树为1,从根节点到叶子节点的路径即为该字符的编码。
2. 哈夫曼译码算法原理:
哈夫曼译码是将哈夫曼编码还原成原来的字符序列的过程。哈夫曼译码的过程可以分为以下几个步骤:
(1)从根节点开始遍历哈夫曼树,如果遇到0则向左子树移动,如果遇到1则向右子树移动,直到遇到叶子节点。
(2)将遍历到的叶子节点对应的字符输出,并返回到根节点继续遍历。
(3)重复步骤(1)和(2),直到所有的编码都被译码为字符。
相关问题
哈夫曼编码和译码python
哈夫曼编码是一种利用贪心算法的数据压缩算法,它通过根据数据出现的频率(概率)重新编码数据,以减少数据的存储空间。编码结果将频率较高的数据赋予较短的编码,而频率较低的数据赋予较长的编码。这种编码方法能够有效地减少整个数据集的大小。
在Python中,你可以使用Huffman模块或者自己编写代码来实现哈夫曼编码和译码。例如,可以定义一个函数getHuffmanCode(string),该函数可以对给定的字符串进行01编码,并返回编码后的结果。另外,可以编写一个函数decode_huffman(string, chars, freqs),该函数可以根据字符和其对应的01序列,对编码后的字符串进行解码。
此外,还有一种面向对象的哈夫曼编码和译码器,它是用Python编写的,并使用了Tkinter库实现了一个简单的图形界面。这个编码器可以从文件中导入数据,并将每个字符的频度存储在nodes.txt文件中。它还可以通过类似于Tree命令的方式输出哈夫曼树。解压后可以运行dialog.pyw文件来使用这个编码器。<span class="em">1</span><span class="em">2</span><span class="em">3</span>
#### 引用[.reference_title]
- *1* [哈夫曼编码(Huffman Coding)原理、运行步骤、python实现](https://blog.csdn.net/Andy123321aa/article/details/104853061)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 33.333333333333336%"]
- *2* [python Huffman编码及解码](https://blog.csdn.net/huangpo001/article/details/103278186)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 33.333333333333336%"]
- *3* [python 哈夫曼编码译码器](https://download.csdn.net/download/a942980741/4928036)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 33.333333333333336%"]
[ .reference_list ]
哈夫曼编码和译码的实验收获
哈夫曼编码是一种可变长度编码,它通过将出现频率较高的字符用较短的编码表示,出现频率较的字符用较长的编码表示,从而达到压缩数据的目的。哈夫曼编码的实验收获如下:
1. 了解哈夫曼编码的原理和实现过程,包括构建哈夫曼树、生成编码表、编码和译码等步骤。
2. 掌握如何使用Python实现哈夫曼编码和译码,包括读取文件、统计字符频率、构建哈夫曼树、生成编码表、编码和译码等操作。
3. 理解哈夫曼编码的优点和局限性,了解其他压缩算法的特点和应用场景。
以下是Python实现哈夫曼编码和译码的示例代码:
```python
# 哈夫曼编码
import heapq
import os
class HuffmanCoding:
def __init__(self, path):
self.path = path
self.heap = []
self.codes = {}
self.reverse_mapping = {}
class HeapNode:
def __init__(self, char, freq):
self.char = char
self.freq = freq
self.left = None
self.right = None
def __lt__(self, other):
return self.freq < other.freq
def __eq__(self, other):
if(other == None):
return False
if(not isinstance(other, HeapNode)):
return False
return self.freq == other.freq
def make_frequency_dict(self, text):
frequency = {}
for character in text:
if not character in frequency:
frequency[character] = 0
frequency[character] += 1
return frequency
def make_heap(self, frequency):
for key in frequency:
node = self.HeapNode(key, frequency[key])
heapq.heappush(self.heap, node)
def merge_nodes(self):
while(len(self.heap)>1):
node1 = heapq.heappop(self.heap)
node2 = heapq.heappop(self.heap)
merged = self.HeapNode(None, node1.freq + node2.freq)
merged.left = node1
merged.right = node2
heapq.heappush(self.heap, merged)
def make_codes_helper(self, root, current_code):
if(root == None):
return
if(root.char != None):
self.codes[root.char] = current_code
self.reverse_mapping[current_code] = root.char
return
self.make_codes_helper(root.left, current_code + "0")
self.make_codes_helper(root.right, current_code + "1")
def make_codes(self):
root = heapq.heappop(self.heap)
current_code = ""
self.make_codes_helper(root, current_code)
def get_encoded_text(self, text):
encoded_text = ""
for character in text:
encoded_text += self.codes[character]
return encoded_text
def pad_encoded_text(self, encoded_text):
extra_padding = 8 - len(encoded_text) % 8
for i in range(extra_padding):
encoded_text += "0"
padded_info = "{0:08b}".format(extra_padding)
encoded_text = padded_info + encoded_text
return encoded_text
def get_byte_array(self, padded_encoded_text):
if(len(padded_encoded_text) % 8 != 0):
print("Encoded text not padded properly")
exit(0)
b = bytearray()
for i in range(0, len(padded_encoded_text), 8):
byte = padded_encoded_text[i:i+8]
b.append(int(byte, 2))
return b
def compress(self):
filename, file_extension = os.path.splitext(self.path)
output_path = filename + ".bin"
with open(self.path, 'r+') as file, open(output_path, 'wb') as output:
text = file.read()
text = text.rstrip()
frequency = self.make_frequency_dict(text)
self.make_heap(frequency)
self.merge_nodes()
self.make_codes()
encoded_text = self.get_encoded_text(text)
padded_encoded_text = self.pad_encoded_text(encoded_text)
b = self.get_byte_array(padded_encoded_text)
output.write(bytes(b))
print("Compressed")
return output_path
""" 哈夫曼译码 """
def remove_padding(self, padded_encoded_text):
padded_info = padded_encoded_text[:8]
extra_padding = int(padded_info, 2)
padded_encoded_text = padded_encoded_text[8:]
encoded_text = padded_encoded_text[:-1*extra_padding]
return encoded_text
def decode_text(self, encoded_text):
current_code = ""
decoded_text = ""
for bit in encoded_text:
current_code += bit
if(current_code in self.reverse_mapping):
character = self.reverse_mapping[current_code]
decoded_text += character
current_code = ""
return decoded_text
def decompress(self, input_path):
filename, file_extension = os.path.splitext(self.path)
output_path = filename + "_decompressed" + ".txt"
with open(input_path, 'rb') as file, open(output_path, 'w') as output:
bit_string = ""
byte = file.read(1)
while(len(byte) > 0):
byte = ord(byte)
bits = bin(byte)[2:].rjust(8, '0')
bit_string += bits
byte = file.read(1)
encoded_text = self.remove_padding(bit_string)
decompressed_text = self.decode_text(encoded_text)
output.write(decompressed_text)
print("Decompressed")
return output_path
# 测试
path = "test.txt"
h = HuffmanCoding(path)
output_path = h.compress()
h.decompress(output_path)
```
阅读全文