C语言中压缩字符串的简单算法小结_c字符串压缩算法

字符串

136 浏览量更新于2023-05-11 评论收藏 55KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

资源详情

资源评论

资源推荐

C语言中压缩字符串的简单算法小结语言中压缩字符串的简单算法小结

主要介绍了C语言中可用于实现字符串压缩的简单算法小结,列举了包括哈夫曼算法等三个核心的程序实现算法,

需要的朋友可以参考下

应用中，经常需要将字符串压缩成一个整数，即字符串散列。比如下面这些问题：

（1）搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来，每个查询串的长度为1-255字节。请找出最热

门的10个检索串。

（2）有一个1G大小的一个文件，里面每一行是一个词，词的大小不超过16字节，内存限制大小是1M。返回频数最高的100

个词。

（3）有10个文件，每个文件1G，每个文件的每一行存放的都是用户的query，每个文件的query都可能重复。要求你按照

query的频度排序。

（4）给定a、b两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，让你找出a、b文件共同的url。

（5）一个文本文件，大约有一万行，每行一个词，要求统计出其中最频繁出现的前10个词。

这些问题都需要将字符串压缩成一个整数，或者说是散列到某个整数 M 。然后再进行取余操作，比如 M%16，就可以将该字

符串放到编号为M%16的文件中，相同的字符串肯定是在同一个文件中。通过这种处理，就可以将一个大文件等价划分成若干

小文件，而对于小文件，就可以用常规的方法处理，内排序、hash_map等等。最后将这些小文件的处理结果综合起来，就可

以求得原问题的解。

下面介绍一些字符串压缩的算法。

方法方法1：：最简单就是将所有字符加起来，代码如下：

unsigned long HashString(const char *pString, unsigned long tableSize)

{

unsigned long hashValue = 0;

while(*pString)

hashValue += *pString++;

return hashValue % tableSize;

}

分析：如果字符串的长度有限，而散列表比较大的话，浪费比较大。例如，如果字符串最长为16字节，那么用到的仅仅是散

列表的前16*127=2032。假如散列表含2729项，那么2032以后的项都用不到。

方法方法2：：将上次计算出来的hash值左移5位（乘以32），再和当前关键字相加，能得到较好的均匀分布的效果。

unsigned long HashString(const char *pString,unsigned long tableSize)

{

unsigned long hashValue = 0;

while (*pString)

hashValue = (hashValue << 5) + *pString++;

return hashValue % tableSize;

}

分析：这种方法需要遍历整个字符串，如果字符串比较大，效率比较低。

方法方法3：：利用哈夫曼算法，假设只有0-9这十个字符组成的字符串，我们借助哈夫曼算法，直接来看实例：

#define Size 10

int freq[Size];

string code[Size];

string word;

struct Node

{

int id;

int freq;

Node *left;

Node *right;

Node(int freq_in):id(-1), freq(freq_in)

{

left = right = NULL;

}

};

struct NodeLess

{

bool operator()(const Node *a, const Node *b) const

{

return a->freq < b->freq;

}

};

void init()

{

for(int i = 0; i < Size; ++i)

freq[i] = 0;

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余1页未读，立即下载

weixin_38747025

粉丝: 129
资源: 1111

会员权益专享

C语言中压缩字符串的简单算法小结

评论0

会员权益专享

最新资源

C语言中压缩字符串的简单算法小结

评论0

C实现ZIP压缩算法

C语言编写的GZIP压缩算法（含工程文件，附带测试程序）

C语言 文件压缩和解压

c语言高位优先字符串排序算法

c语言怎么把字符串压缩

c语言压缩字符串

c语言字符串转化为python字符串

C语言中的字符串如何存储

c语言字符串连接算法

C语言中字符串是不可变的吗

C语言中去除字符串中空格

c语言字符串加密算法

c语言之字符串练习题

C语言中，字符串常量存储在哪儿

如何在c语言中使用字符串数据类型

c语言文件替换字符串,C语言替换字符串

c语言数据结构 字符串

c语言中完成字符串连接的库函数是

C语言中查找字符串字符个数

C语言字符串拼接的算法

会员权益专享

最新资源

C语言文件压缩和解压

c语言数据结构字符串