PHP与Redis实现：优化内存的布隆过滤器解决计数系统和黑名单问题

152 浏览量更新于2024-09-05 收藏 106KB PDF 举报

布隆过滤器是一种空间效率极高的概率型数据结构，用于检测一个元素是否可能在一个集合中，而非精确判断。它主要用于减少查找的时间复杂度和内存占用，适用于大量数据且需要快速判断的情况，如高并发计数系统中的缓存命中检查、黑名单系统中的垃圾邮件过滤等。在高并发计数系统中，常规做法是为未计数的键设置默认值0并存储在缓存中，但这样会浪费内存且不能防范恶意攻击。布隆过滤器通过将数据映射到多个哈希函数产生的位数组上，每个哈希函数将数据分散到不同的位置。当需要判断一个元素是否存在时，通过对该元素进行同样的哈希运算，如果所有对应位都为1，则可能认为该元素在集合中；反之，存在误判的可能性。虽然存在一定的误判率，但可以通过增加哈希函数的数量来减小误判率。在黑名单系统中，例如邮件系统，布隆过滤器可以用来存储大量的黑名单用户，通过快速的哈希查询避免对黑名单进行昂贵的数据库查询。这种方法虽然牺牲了一定的准确性，但极大地节省了内存空间。一个布隆过滤器能够支持海量数据，比如10亿条记录只需较小的内存，每条数据占用的字节数大大减少。实现布隆过滤器在PHP中，可以利用内置的哈希函数或者自定义函数，将数据转换为位数组的形式。而在Redis这样的内存数据库中，由于其强大的哈希功能，可以直接支持布隆过滤器的实现和操作。布隆过滤器的处理流程包括以下几个步骤： 1. 初始化：创建一个固定大小的位数组，并用多个哈希函数确定每个元素的位置。 2. 插入元素：对元素进行哈希，将对应位设为1。 3. 查询元素：对查询的元素执行相同的哈希过程，如果所有对应位都为1，则可能是集合成员，否则可能是误判。 4. 错误处理：尽管误判可能，但布隆过滤器不会报告元素不存在，而是提供可能存在的提示。如果需要更低的误判率，可以增加哈希函数或增大位数组。布隆过滤器是一种高效的数据结构选择，尤其适用于需要快速判断且允许有一定误判率的场景，通过合理设计哈希函数和位数组大小，可以在内存和查询速度之间找到最佳平衡。在PHP和Redis等环境中，实现起来相对简单，能够有效应对高并发和大数据量下的性能需求。

布隆过滤器布隆过滤器(bloom filter)及及php和和redis实现布隆过滤器的方法实现布隆过滤器的方法

引言引言

在介绍布隆过滤器之前我们首先引入几个场景。

场景一场景一

在一个高并发的计数系统中，如果一个key没有计数，此时我们应该返回0，但是访问的key不存在，相当于每次访问缓存都不

起作用了。那么如何避免频繁访问数量为0的key而导致的缓存被击穿？

有人说，将这个key的值置为0存入缓存不就行了吗？确实，这是一个好的方案。大部分情况我们都是这样做的，当访问一个

不存在的key的时候，设置一个带有过期时间的标志，然后放入缓存。不过这样做的缺点也很明显，浪费内存和无法抵御随机

key攻击。

场景二场景二

在一个黑名单系统中，我们需要设置很多黑名单内容。比如一个邮件系统，我们需要设置黑名单用户，当判断垃圾邮件的时

候，要怎么去做。比如爬虫系统，我们要记录下来已经访问过的链接避免下次访问重复的链接。

在邮件很少或者用户很少的情况下，我们用普通数据库自带的查询就能完成。在数据量太多的时候，为了保证速度，通常情况

下我们会将结果缓存到内存中，数据结构用hash表。这种查找的速度是O(1)，但是内存消耗也是惊人的。打个比方，假如我

们要存10亿条数据，每条数据平均占据32个字节，那么需要的内存是64G，这已经是一个惊人的大小了。

一种解决思路一种解决思路

能不能有一种思路，查询的速度是O(1)，消耗内存特别小呢？前辈门早就想出了一个很好的解决方案。由于上面说的场景判断

的结果只有两种状态（是或者不是，存在或者不存在），那么对于所存的数据完全可以用位来表示！数据本身则可以通过一个

hash函数计算出一个key，这个key是一个位置，而这个key所对的值就是0或者1（因为只有两种状态），如下图：

布隆过滤器原理布隆过滤器原理

上面的思路其实就是布隆过滤器的思想，只不过因为hash函数的限制，多个字符串很可能会hash成一个值。为了解决这个问

题，布隆过滤器引入多个hash函数来降低误判率。

下图表示有三个hash函数，比如一个集合中有x，y，z三个元素，分别用三个hash函数映射到二进制序列的某些位上，假设我

们判断w是否在集合中，同样用三个hash函数来映射，结果发现取得的结果不全为1，则表示w不在集合里面。

布隆过滤器处理流程布隆过滤器处理流程

布隆过滤器应用很广泛，比如垃圾邮件过滤，爬虫的url过滤，防止缓存击穿等等。下面就来说说布隆过滤器的一个完整流

程，相信读者看到这里应该能明白布隆过滤器是怎样工作的。

第一步：开辟空间

开辟一个长度为m的位数组（或者称二进制向量），这个不同的语言有不同的实现方式，甚至你可以用文件来实现。

第二步：寻找hash函数

获取几个hash函数，前辈们已经发明了很多运行良好的hash函数，比如BKDRHash，JSHash，RSHash等等。这些hash函数

我们直接获取就可以了。

第三步：写入数据

将所需要判断的内容经过这些hash函数计算，得到几个值，比如用3个hash函数，得到值分别是1000，2000，3000。之后设

置m位数组的第1000，2000，3000位的值位二进制1。

第四步：判断

接下来就可以判断一个新的内容是不是在我们的集合中。判断的流程和写入的流程是一致的。

误判问题误判问题

布隆过滤器虽然很高效（写入和判断都是O(1)，所需要的存储空间极小），但是缺点也非常明显，那就是会误判。当集合中的

元素越来越多，二进制序列中的1的个数越来越多的时候，判断一个字符串是否在集合中就很容易误判，原本不在集合里面的

字符串会被判断在集合里面。

数学推导数学推导

下载后可阅读完整内容，剩余5页未读，立即下载

weixin_38657376

粉丝: 0
资源: 928

PHP与Redis实现：优化内存的布隆过滤器解决计数系统和黑名单问题

Redis布隆过滤器压缩包下载指南

RedisBloom-2.2.6下载 - 强大的布隆过滤器免费提供

Java实现布隆过滤器详解

Redis Bloom redis布隆过滤器redisbloom.so下载

Redis实现布隆过滤器的方法及原理

RedisBloom-2.2.6.zip | Redis布隆过滤器下载

Python+Redis实现布隆过滤器

redis-lua-scaling-bloom-filter：用于缩放布隆过滤器的LUA Redis脚本

redis-bloomfilter:基于Redis的分布式Bloom过滤器实现

硬核 - Redis 布隆（Bloom Filter）过滤器原理与实战.doc

最新资源