C++设计Huffman 编码器与解码器 问题描述:利用哈夫曼编码进行信息通讯可以大大提高信道的利用率,缩短信息传输时间,降低传输成本。但是,这要求在发送端通过一个编码系统对待传输数据预先编码;在接受端将传来的数据进行译码。对于双工信道(即可以双向传输信息的信道),每端都需要一个完整的编/译码系统。试为这样的信息收发站编写一个哈夫曼码的编/译码系统。 基本要求:根据某字符文件统计字符出现频度,构造Huffman 树,编制Huffman 编码,并将给定字符文件编码,生成编码文件;再将给定编码文件解码,生成字符文件。(要求按二进制位表示编码) 测试数据:英文文件。 提高要求:用二进制表示编码,生成二进制的编码文件。
时间: 2024-02-29 21:53:36 浏览: 102
好的,这是一个非常有趣的问题!我会尽力回答你的问题。
首先,让我们简单介绍一下哈夫曼编码。哈夫曼编码是一种变长编码方式,它将出现频率较高的字符用较短的编码表示,出现频率较低的字符用较长的编码表示。这样可以大大减小编码长度,提高传输效率。
下面是我给出的C++代码实现哈夫曼编码器与解码器的基本思路:
1. 统计字符出现频度并构造Huffman树
首先读入待编码的文件,统计每个字符的出现频度。然后构造Huffman树,具体实现可以使用优先队列。
2. 生成Huffman编码
通过遍历Huffman树,可以生成每个字符的Huffman编码。通常使用递归的方式实现字符编码的生成。
3. 编码原始文件
读入原始文件,将每个字符替换为其对应的Huffman编码,并将编码写入到编码文件中。
4. 解码编码文件
读入编码文件,根据Huffman编码恢复原始的字符,并将字符写入到字符文件中。
下面是基本代码实现的一个框架:
```c++
#include <iostream>
#include <fstream>
#include <queue>
#include <unordered_map>
using namespace std;
// 哈夫曼树节点
struct HuffmanNode {
char c; // 字符
int freq; // 出现频度
HuffmanNode* left;
HuffmanNode* right;
HuffmanNode(char _c, int _freq) : c(_c), freq(_freq), left(nullptr), right(nullptr) {}
};
// 优先队列比较器
struct Compare {
bool operator()(const HuffmanNode* a, const HuffmanNode* b) const {
return a->freq > b->freq;
}
};
// 统计字符频度
unordered_map<char, int> count_freq(string filename) {
unordered_map<char, int> freq;
ifstream fin(filename);
char c;
while (fin.get(c)) {
freq[c]++;
}
fin.close();
return freq;
}
// 构造Huffman树
HuffmanNode* build_huffman_tree(unordered_map<char, int>& freq) {
priority_queue<HuffmanNode*, vector<HuffmanNode*>, Compare> pq;
for (auto& kv : freq) {
pq.push(new HuffmanNode(kv.first, kv.second));
}
while (pq.size() > 1) {
auto left = pq.top(); pq.pop();
auto right = pq.top(); pq.pop();
auto parent = new HuffmanNode('*', left->freq + right->freq);
parent->left = left;
parent->right = right;
pq.push(parent);
}
return pq.top();
}
// 生成Huffman编码
void generate_huffman_code(HuffmanNode* root, string code, unordered_map<char, string>& codes) {
if (root == nullptr) return;
if (root->c != '*') {
codes[root->c] = code;
}
generate_huffman_code(root->left, code + '0', codes);
generate_huffman_code(root->right, code + '1', codes);
}
// 编码原始文件
void encode_file(string src_filename, string dst_filename, unordered_map<char, string>& codes) {
ifstream fin(src_filename);
ofstream fout(dst_filename, ios::binary);
char c;
string code;
while (fin.get(c)) {
code += codes[c];
while (code.size() >= 8) {
char byte = 0;
for (int i = 0; i < 8; i++) {
byte = byte << 1;
if (code[i] == '1') {
byte |= 1;
}
}
fout.write(&byte, 1); // 写入字节
code = code.substr(8); // 去掉已经写入的8个bit
}
}
// 处理最后不足8个bit的情况
if (!code.empty()) {
char byte = 0;
for (int i = 0; i < code.size(); i++) {
byte = byte << 1;
if (code[i] == '1') {
byte |= 1;
}
}
byte = byte << (8 - code.size()); // 补齐剩下的bit
fout.write(&byte, 1);
}
fin.close();
fout.close();
}
// 解码编码文件
void decode_file(string src_filename, string dst_filename, HuffmanNode* root) {
ifstream fin(src_filename, ios::binary);
ofstream fout(dst_filename);
char byte;
HuffmanNode* node = root;
while (fin.read(&byte, 1)) {
for (int i = 0; i < 8; i++) {
if ((byte & (1 << (7 - i))) != 0) {
node = node->right;
} else {
node = node->left;
}
if (node->c != '*') {
fout.put(node->c);
node = root;
}
}
}
fin.close();
fout.close();
}
int main() {
// 统计字符频度
auto freq = count_freq("input.txt");
// 构造Huffman树
auto root = build_huffman_tree(freq);
// 生成Huffman编码
unordered_map<char, string> codes;
generate_huffman_code(root, "", codes);
// 编码原始文件
encode_file("input.txt", "output.bin", codes);
// 解码编码文件
decode_file("output.bin", "decoded.txt", root);
return 0;
}
```
其中,encode_file函数将编码文件写入到一个二进制文件中,每8个bit为一个字节,而decode_file函数则读取编码文件,并将解码结果写入到字符文件中。
当然,这只是一个基本的实现,还有很多可以优化的地方。比如可以使用压缩算法进一步压缩编码文件,或者使用并行算法加速编码和解码过程等。
阅读全文