几种经典的 Hash 算法的实现(源代码)
2008 年 10 月 13 日 星期一 22:03
哈希算法将任意长度的二进制值映射为固定长度的较小二进制值,这个小的二进制值称为哈
希值。哈希值是一段数据唯一且极其紧凑的数值表示形式。如果散列一段明文而且哪怕只更
改该段落的一个字母,随后的哈希都将产生不同的值。要找到散列为同一个值的两个不同的
输入,在计算上是不可能的,所以数据的哈希值可以检验数据的完整性。
链表查找的时间效率为 O(N),二分法为 log2N,B+ Tree 为 log2N,但 Hash 链表查找的时间
效率为 O(1)。
设计高效算法往往需要使用 Hash 链表,常数级的查找速度是任何别的算法无法比拟
的,Hash 链表的构造和冲突的不同实现方法对效率当然有一定的影响,然 而 Hash 函数是
Hash 链表最核心的部分,下面是几款经典软件中使用到的字符串 Hash 函数实现,通过阅读
这些代码,我们可以在 Hash 算法的执行效率、离散性、空间利用率等方面有比较深刻的了
解。
下面分别介绍几个经典软件中出现的字符串 Hash 函数。
●PHP 中出现的字符串 Hash 函数
static unsigned long hashpjw(char *arKey, unsigned int nKeyLength)
{
unsigned long h = 0, g;
char *arEnd=arKey+nKeyLength;
while (arKey < arEnd) {
h = (h << 4) + *arKey++;
if ((g = (h & 0xF0000000))) {
h = h ^ (g >> 24);
h = h ^ g;
}
}
return h;
}
●OpenSSL 中出现的字符串 Hash 函数
unsigned long lh_strhash(char *str)
{
int i,l;
unsigned long ret=0;
unsigned short *s;
if (str == NULL) return(0);
l=(strlen(str)+1)/2;
s=(unsigned short *)str;
for (i=0; i
ret^=(s[i]<<(i&0×0f));
return(ret);
}