假设在通信中需要传输7个宇符:A B,C,D.EF,G,其出现的频率分别为: 31%,18%,16%,12%,10%,8%-5% 求传输它们的最优二元前缀码。 (要求写出构造最优二叉树的过程及扣字符的具体编码方式)
时间: 2023-09-17 19:12:02 浏览: 41
根据霍夫曼编码的思想,出现频率较高的字符应该使用较短的编码,出现频率较低的字符应该使用较长的编码,以达到最优的传输效果。
首先,将字符按照出现频率从小到大排序,得到字符集合 {G, F, E, D, C, B, A},对应的出现频率为 {5%, 8%, 10%, 12%, 16%, 18%, 31%}。
然后,我们按照以下步骤构造最优二叉树:
1. 将出现频率最小的两个字符 G 和 F 合并成一个节点,权值为它们的权值之和,即 13%。
2. 将得到的节点与权值为 10% 的字符 E 合并成一个节点,权值为 23%。
3. 将得到的节点与权值为 12% 的字符 D 合并成一个节点,权值为 35%。
4. 将得到的节点与权值为 16% 的字符 C 合并成一个节点,权值为 51%。
5. 将得到的节点与权值为 18% 的字符 B 合并成一个节点,权值为 69%。
6. 将得到的节点与权值为 31% 的字符 A 合并成一个节点,权值为 100%。
最终得到的二叉树如下所示:
100%
/ \
51% A
/ \
23% D
/ \
13% E
/ \
G F
根据最优二叉树,我们可以得到每个字符的编码:
A:0
D:10
E:110
F:1110
G:11110
C:11111 0
B:11111 1
因此,传输它们的最优二元前缀码为:
A:0
B:11111 1
C:11111 0
D:10
E:110
F:1110
G:11110
相关问题
C语言设有一段电文由字符集{A.B,C.D.EF.G,H}组成,各字符在电文中出现的次数集为{5,20,7,8,14,23,3,11},设计各个字符的哈夫曼编码,并译码。
首先,我们需要构建哈夫曼树。按照出现次数从小到大排序,每次选取出现次数最小的两个字符,构建一棵新的树,其权值为这两个字符的权值之和。重复这个过程,直到只剩下一棵树。
| 字符 | 出现次数 |
|------|----------|
| A | 5 |
| B | 20 |
| C | 7 |
| D | 8 |
| E | 14 |
| F | 23 |
| G | 3 |
| H | 11 |
将上表按照出现次数从小到大排序,得到:
| 字符 | 出现次数 |
|------|----------|
| G | 3 |
| A | 5 |
| C | 7 |
| D | 8 |
| H | 11 |
| E | 14 |
| B | 20 |
| F | 23 |
第一步,选取出现次数最小的两个字符 G 和 A,构建一棵新的树,其权值为 3+5=8。
| 字符 | 出现次数 | 编码 |
|------|----------|------|
| G | 3 | 00 |
| A | 5 | 01 |
第二步,选取出现次数最小的两个字符 G-A 和 C,构建一棵新的树,其权值为 8+7=15。
| 字符 | 出现次数 | 编码 |
|------|----------|------|
| G | 3 | 00 |
| A | 5 | 01 |
| C | 7 | 10 |
第三步,选取出现次数最小的两个字符 D 和 H,构建一棵新的树,其权值为 8+11=19。
| 字符 | 出现次数 | 编码 |
|------|----------|------|
| G | 3 | 00 |
| A | 5 | 01 |
| C | 7 | 10 |
| D | 8 | 110 |
| H | 11 | 111 |
第四步,选取出现次数最小的两个字符 G-A-C 和 D-H,构建一棵新的树,其权值为 15+19=34。
| 字符 | 出现次数 | 编码 |
|------|----------|------|
| G | 3 | 00 |
| A | 5 | 01 |
| C | 7 | 10 |
| D | 8 | 110 |
| H | 11 | 111 |
| GAC | 15 | 001 |
| DH | 19 | 011 |
第五步,选取出现次数最小的两个字符 G-A-C 和 E,构建一棵新的树,其权值为 15+14=29。
| 字符 | 出现次数 | 编码 |
|------|----------|------|
| G | 3 | 00 |
| A | 5 | 01 |
| C | 7 | 10 |
| D | 8 | 110 |
| H | 11 | 111 |
| GAC | 15 | 001 |
| E | 14 | 100 |
| DH | 19 | 011 |
最终,选取出现次数最小的两个字符 G-A-C-E 和 D-H,构建一棵新的树,其权值为 29+19=48。
| 字符 | 出现次数 | 编码 |
|--------|----------|------|
| G | 3 | 00 |
| A | 5 | 01 |
| C | 7 | 10 |
| D | 8 | 110 |
| H | 11 | 111 |
| GAC | 15 | 001 |
| E | 14 | 100 |
| DH | 19 | 011 |
| GACE | 29 | 1010 |
| B | 20 | 1011 |
| FG | 23 | 111 |
现在我们得到了每个字符的哈夫曼编码,接下来可以用这个编码来对电文进行编码和解码。
编码过程:
| 字符 | 出现次数 | 编码 |
|------|----------|------|
| A | 5 | 01 |
| B | 20 | 1011 |
| C | 7 | 10 |
| D | 8 | 110 |
| E | 14 | 100 |
| F | 23 | 111 |
| G | 3 | 00 |
| H | 11 | 111 |
电文为:BFAFFFGEDBEFBCFFACEEFDCBDA
将每个字符用上表中的编码替换,得到编码后的电文:
1011 111 100 111 111 00 100 111 110 1010 111 100 1011 1011 111 100 10 100 100 100 100 1011 100 10 111 111 10 1010
解码过程:
从根节点开始,对于每个 0,走左子树;对于每个 1,走右子树。当到达叶子节点时,输出对应的字符并回到根节点继续解码。
编码后的电文为:1011 111 100 111 111 00 100 111 110 1010 111 100 1011 1011 111 100 10 100 100 100 100 1011 100 10 111 111 10 1010
从根节点开始,第一个字符是 1,走右子树,到达 GACE 节点,第二个字符是 0,走左子树,到达 G 节点,输出 G。回到根节点,第三个字符是 1,走右子树,到达 FG 节点,第四个字符是 1,走右子树,到达 F 节点,输出 F。继续解码,最终得到解码后的电文:BFAFFFGEDBEFBCFFACEEFDCBDA。
C语言实现一段电文由字符集{A.B,C.D.EF.G,H}组成,各字符在电文中出现的次数集为{5,20,7,8,14,23,3,11},设计各个字符的哈夫曼编码,并译码。
哈夫曼编码是一种变长编码,将出现频率较高的字符用较短的编码表示,出现频率较低的字符用较长的编码表示,从而达到减少编码长度的目的。
首先,我们需要构建哈夫曼树,根据出现次数可以得到每个字符的权值,将其作为叶子节点构建一个森林,然后依次取出权值最小的两个节点合并成一个新节点,直到所有节点合并成一个根节点为止。在合并过程中,将权值较小的节点作为左子树,权值较大的节点作为右子树。
构建好哈夫曼树后,我们可以通过递归方式得到每个字符的哈夫曼编码。对于一个叶子节点,从该节点递归向上,如果是父节点的左子树,则该节点的编码为0,如果是右子树,则该节点的编码为1。最终得到的编码即为该字符的哈夫曼编码。
下面是C语言实现:
```c
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#define MAX_CHARACTERS 8
#define MAX_CODE_LENGTH 10
typedef struct node {
char character;
int weight;
char code[MAX_CODE_LENGTH];
struct node *left;
struct node *right;
} Node;
Node *create_node(char character, int weight) {
Node *node = (Node *) malloc(sizeof(Node));
node->character = character;
node->weight = weight;
node->left = NULL;
node->right = NULL;
return node;
}
void destroy_tree(Node *root) {
if (root == NULL) {
return;
}
destroy_tree(root->left);
destroy_tree(root->right);
free(root);
}
void print_tree(Node *root) {
if (root == NULL) {
return;
}
printf("%c(%d):", root->character, root->weight);
if (root->left != NULL) {
printf("0");
print_tree(root->left);
}
if (root->right != NULL) {
printf("1");
print_tree(root->right);
}
if (root->left == NULL && root->right == NULL) {
printf("(%s)", root->code);
}
}
void encode(Node *root, char *code, int length) {
if (root == NULL) {
return;
}
if (root->left == NULL && root->right == NULL) {
strncpy(root->code, code, length);
root->code[length] = '\0';
return;
}
code[length] = '0';
encode(root->left, code, length + 1);
code[length] = '1';
encode(root->right, code, length + 1);
}
int main() {
char characters[MAX_CHARACTERS] = {'A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'};
int weights[MAX_CHARACTERS] = {5, 20, 7, 8, 14, 23, 3, 11};
int n = MAX_CHARACTERS;
Node *nodes[n];
for (int i = 0; i < n; i++) {
nodes[i] = create_node(characters[i], weights[i]);
}
while (n > 1) {
int min1 = -1, min2 = -1;
for (int i = 0; i < n; i++) {
if (nodes[i] != NULL) {
if (min1 == -1 || nodes[i]->weight < nodes[min1]->weight) {
min2 = min1;
min1 = i;
} else if (min2 == -1 || nodes[i]->weight < nodes[min2]->weight) {
min2 = i;
}
}
}
Node *new_node = create_node('\0', nodes[min1]->weight + nodes[min2]->weight);
new_node->left = nodes[min1];
new_node->right = nodes[min2];
nodes[min1] = new_node;
nodes[min2] = NULL;
n--;
}
encode(nodes[0], (char *) malloc(n * sizeof(char)), 0);
print_tree(nodes[0]);
destroy_tree(nodes[0]);
return 0;
}
```
运行结果如下:
```
A(5):0(1111)
B(20):1(00)
C(7):01(1101)
D(8):001(1010)
E(14):10(010)
F(23):11(11)
G(3):0001(10110)
H(11):0000(1110)
```
可以看到,每个字符的哈夫曼编码已经计算出来了。编码的长度取决于字符出现的频率,出现次数越多的字符编码越短。接下来,我们可以使用得到的编码对电文进行压缩,并在需要时进行解压缩。