Python与Redis实战：构建高效布隆过滤器及其优缺点

39 浏览量更新于2024-09-01 收藏 91KB PDF 举报

布隆过滤器是一种空间效率高、查询速度快的非精确数据结构，由 Burton Howard Bloom 在1970年提出。它基于散列表（哈希表）原理，通过一组随机映射函数将元素映射到一个二进制位数组中。当一个元素被添加时，这些映射函数会将元素的位置设置为1，从而表示该元素可能存在于集合中。查询时，只需检查所有映射位置的值是否都为1，若至少有一个位置为0，则判断该元素肯定不在集合内；如果所有位置均为1，则可能存在误识别。布隆过滤器的主要优点包括： 1. 空间效率：由于只存储位数组和映射函数，相对于存储实际元素，空间需求较小。 2. 查询速度：通过并行计算多个哈希函数，查询时间基本固定，不受集合大小影响。 3. 无需存储元素：适合对数据保密性要求高的场景，因为不必存储实际元素信息。 4. 表示全集能力：虽然存在误识别，但能表示集合是否存在某个元素，而非实际成员。然而，布隆过滤器也有其局限性： 1. 误识别率：随着元素数量增加，误识别率会提高，这是布隆过滤器的固有性质。为降低误识，可配合小的白名单来标记可能的误判。 2. 删除困难：布隆过滤器不支持删除元素，因为无法确定一个标记为1的位是否仅由一个元素引起。删除操作可能导致计数器回绕问题，成本较高。 Python 实现布隆过滤器的一个简单示例中，使用mmh3库来创建哈希函数，并使用bitarray库来管理位数组。以下是一个基础的BloomFilter类的代码： ```python from bitarray import bitarray import mmh3 class BloomFilter(set): def __init__(self, size, hash_count): super(BloomFilter, self).__init__() self.bit_array = bitarray(size) self.bit_array.setall(0) self.size = size self.hash_count = hash_count def __len__(self): return self.size def __iter__(self): # 实现迭代器，允许使用集合方法如交集、并集等 ... def add(self, element): for _ in range(self.hash_count): index = mmh3.hash(element, self.size) % self.size self.bit_array[index] = 1 def contains(self, element): for _ in range(self.hash_count): index = mmh3.hash(element, self.size) % self.size if not self.bit_array[index]: return False return True ``` 这段代码定义了一个BloomFilter类，包含了初始化、添加元素和检查元素是否存在的功能。在实际应用中，应根据具体需求调整大小（size）和哈希函数的数量（hash_count），以平衡误识别率和空间使用。

Python+Redis实现布隆过滤器实现布隆过滤器

布隆过滤器是什么布隆过滤器是什么

　　布隆过滤器（Bloom Filter）是1970年由布隆提出的。它实际上是一个很长的二进制向量和一系列随机映射函数。布隆过

滤器可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都比一般的算法要好的多，缺点是有一定的误

识别率和删除困难。

布隆过滤器的基本思想布隆过滤器的基本思想

　　通过一种叫作散列表（又叫哈希表，Hash table）的数据结构。它可以通过一个Hash函数将一个元素映射成一个位阵列

（Bit array）中的一个点。这样一来，我们只要看看这个点是不是1就可以知道集合中有没有它了

布隆过滤器的优缺点布隆过滤器的优缺点

优点：优点：

　　1.布隆过滤器的存储空间和插入/查询时间都是常数

　　2.Hash函数相互之间没有关系，方便由硬件并行实现

　　3.布隆过滤器不需要存储元素本身，在某些对保密要求非常严格的场合有优势

　　4.布隆过滤器可以表示全集，其它任何数据结构都不能

缺点缺点:

　　1.存在一定的误算率，随着存入的元素数量增加，误算率随之增加

　　　　（常见的补救办法是建立一个小的白名单，存储那些可能被误判的元素。但是如果元素数量太少，则使用散列表足

矣）

　　2.一般情况下不能从布隆过滤器中删除元素

　　　　首先我们必须保证删除的元素的确在布隆过滤器里面. 这一点单凭这个过滤器是无法保证的。另外计数器回绕也会造

成问题。这就导致删除元素需要很高的成本。

正文正文

简单的python实现

pip install mmh3

对于安装报错，c++编译错误问题：可以安装 Microsoft Visual C++ Build Tools（）

例子转载（https://www.jb51.net/article/175929.htm）

from bitarray import bitarray

# 3rd party

import mmh3

class BloomFilter(set):

def __init__(self, size, hash_count):

super(BloomFilter, self).__init__()

self.bit_array = bitarray(size)

self.bit_array.setall(0)

self.size = size

self.hash_count = hash_count

def __len__(self):

return self.size

def __iter__(self):

return iter(self.bit_array)

def add(self, item):

for ii in range(self.hash_count):

index = mmh3.hash(item, ii) % self.size

self.bit_array[index] = 1

return self

def __contains__(self, item):

out = True

for ii in range(self.hash_count):

index = mmh3.hash(item, ii) % self.size

if self.bit_array[index] == 0:

out = False

return out

def main():

下载后可阅读完整内容，剩余3页未读，立即下载

抹蜜茶

粉丝: 303

Python与Redis实战：构建高效布隆过滤器及其优缺点

Python-bloomfilter过滤器

pyreBloom, 在 python 中，快速 Redis Bloom filter.zip

Redis 中的布隆过滤器的实现

redis布隆过滤器使用

利用redis实现布隆过滤器

redis 布隆过滤器 签到

scrapy 布隆过滤器中间件编写

python redisbloom

redis和redis

redis缓存怎么做

最新资源

redis 布隆过滤器签到