北大杨仝教授团队：多拷贝Cuckoo Hashing原理与应用

需积分: 17 16 浏览量更新于2024-07-16 收藏 1.93MB PPTX 举报

Multi-copy Cuckoo Hash是一种高级哈希算法，由北京大学的杨仝老师和Dagang Li等人在ICDE 2019年的论文中提出，其目的是为了改善Cuckoo Hashing在实际应用中的性能问题。Cuckoo Hashing的核心概念是基于多个哈希函数（如d个）为每个元素分配备用桶，同时结合了重定位（relocation）策略，旨在实现高负载比（load ratio）和平均O(1)的查找时间。然而，它牺牲了插入过程的简单性来换取高效的查找性能，因为插入过程中可能存在复杂的冲突解决，可能导致多次重插甚至死循环。插入算法的关键步骤如下，假设d=2： 1. 使用hashA和hashB确定两个位置。 - 如果两个位置都为空，选择其中一个插入。 - 如果只有一个位置空，将元素插入空位置。 - 若两个位置都不空，尝试将元素踢出一个位置（如位置A），并将该元素的键通过hash函数找到其另一个位置（如位置B）。重复此过程直到找到空位或达到预设的最大踢出次数。 - 当踢出次数过多而未成功插入，表明表满，需要进行rehash操作，可能涉及到表的大小调整，通常是增加到下一个素数。查找过程相对简单，只需检查原始哈希函数确定的位置，然后查看备用位置，如Cuckoohash(b)中的c，尽管这减少了查找所需的计算量，但可能会导致不确定的迭代次数，增加了潜在的复杂性。影响Multi-copy Cuckoo Hash性能的主要因素包括： - **插入时的循环踢出**：标准Cuckoo Hashing的不确定性导致插入过程可能需要遍历整个链表，增加时间和空间消耗，甚至可能导致死循环。通过使用多副本，可以减少这种不确定性。 - **插入失败的损耗**：传统Cuckoo Hashing在插入失败时会进行rehash，涉及全表重算和数据迁移，效率较低。在多副本方案中，这方面的损耗有所缓解。 - **多桶检查**：查找时需要检查所有备用桶，尤其在表较大且存放在外部内存时，增加了查找时的数据访问延迟。在硬件层面，例如Altera FPGA开发板中，对哈希计算和存储操作的性能考虑也至关重要。哈希计算在单个时钟周期完成，而片上SRAM读取需要3个时钟周期，写入仅需1个时钟周期。相比之下，片下SDRAM的读取速度慢得多，需要18个时钟周期。这些性能指标对于优化Cuckoo Hash算法在实际应用中的实现具有指导意义。

已有的方法是怎么改进的

防止死循环

•

尝试预先判断出循环次数，从一开始就不允许进入死循环： SmartCuckoo[15] 、 Necklace[16]

•

减少踢出过程中的重复部分，使得更多的 buckets 被搜索到，搜索到空桶的概率也会增加： MinCounter[17]

•

每个桶分配多个槽： blocked Cuckoo hash tables （ BCHT)[18][19][20][21]

插入失败

•

将 stash 放在 on-chip 减少对性能的影响，当 stash 本身满的时候，其中的 items 会尝试插入主表

多桶查询

当实施的平台上要用很小很快的 on-chip memory 去处理很大的表， (ASIC/FPGA/SOC based packet processing

devices) 每次要检查多个位置就会成为大问题。

•

使用可以放在 on-chip 内存里的 compact helping structure 例如 bloom filter 来 pre-screening ，来减少不必要的

对主表的访问： DEHT[25] ， EMOMA[24]

剩余23页未读，继续阅读

iroy33

粉丝: 110
资源: 3

北大杨仝教授团队：多拷贝Cuckoo Hashing原理与应用

官方下载Cuckoo-*.*.*.* Python库提升云原生监控效能

"Cuckoo Hash算法在大数据存储中的应用分析

Cuckoo.Plus:乳齿象的自定义Google+客户端开发

python-cuckoo-1.1.1.tar.gz_cuckoo_cuckoo python_python

Python库 | Cuckoo-2.0.5.2.tar.gz

PyPI 官网下载 | Cuckoo-2.0.6.1.tar.gz

Yang, X. S., & Deb, S. (2013). Multi-objective cuckoo search for design optimization. Computers & Operations Research, 40(6), 1616-1624.

Cuckoo++ Hash Tables - High-Performance Hash Tables for Networking Applications - 2017 (1712.09624)-计算机科学

Cuckoo-Optimization-Algorithm-for-ANN-cost.rar_ANN_ANN optimizat

Cuckoo-search-master.zip_cuckoo_gulfzzh_matlab_布谷鸟寻优_布谷鸟算法

最新资源

官方下载Cuckoo-... Python库提升云原生监控效能