大数据处理方法总结：Bloomfilter与Counting Bloomfilter详解

需积分: 48 72 浏览量更新于2024-08-30 收藏 157KB PDF 举报

大数据量和海量数据处理是现代IT行业中至关重要的话题，尤其在搜索引擎、社交媒体和大数据分析等领域。面试和笔试题目常会涉及此类问题，以评估候选人的技术能力和应对大规模数据挑战的能力。本文档提供了一个关于处理海量数据的一般性总结，包括了Bloomfilter算法的应用。 Bloomfilter是一种空间效率高的数据结构，用于快速判断一个元素是否属于某个集合，而不保证100%的准确性。其核心原理是利用位数组和多个独立的哈希函数，将元素的哈希值映射到位数组上。插入元素时，相应位置设为1；查询时，若所有映射的位置都为1，认为可能存在，但可能存在误报。Bloomfilter不支持删除操作，为了实现删除，可以使用Counting Bloomfilter，通过计数器数组来跟踪每个位置的值，允许删除元素时相应减少计数。选择Bloomfilter的参数，如位数组大小m和哈希函数数量k，需要谨慎计算以控制错误率。当k满足公式k = (ln2)*(m/n)时，错误率最小。要确保能表示任意n个元素的集合，m需至少为n*lg(1/E)，其中E是允许的错误率。实际应用中，m通常比n大得多，以保持较高的空闲位数。例如，若错误率设为0.01，m可能需要大约是n的13倍，而k约为8个。然而，Bloomfilter并非万能解决方案，它有局限性，如不能确定元素是否存在，且可能存在误报。因此，文档作者强调，尽管这些方法是一般性的总结，可能无法覆盖所有问题，但对于大多数情况，它们还是相当实用的。文档中的内容也提到了Bloomfilter的扩展，如Counting Bloomfilter（支持删除操作）和Spectral BloomFilter（使用更复杂的数学理论提高性能），这些都是在处理海量数据时值得深入研究的技术。掌握这些处理海量数据的方法和技术，对于IT专业人士来说，不仅可以提升面试竞争力，也是在实际工作中解决大数据挑战的关键技能。

数据量，海量数据处理法总结

数据量的问题是很多试笔试中经常出现的问题，如baidu google 腾讯这样的些涉及到海量数据

的公司经常会问到。

下的法是我对海量数据的处理法进了个般性的总结，当然这些法可能并不能完全覆盖所

有的问题，但是这样的些法也基本可以处理绝多数遇到的问题。下的些问题基本直接来源于

公司的试笔试题，法不定最优，如果你有更好的处理法，欢迎与我讨论。

1.Bloom filter

适范围：可以来实现数据字典，进数据的判重，或者集合求交集

基本原理及要点：

对于原理来说很简单，位数组+k个独hash函数。将hash函数对应的值的位数组置1，查找时如果发现

所有hash函数对应位都是1说明存在，很明显这个过程并不保证查找的结果是100%正确的。同时也不

持删除个已经插的关键字，因为该关键字对应的位会牵动到其他的关键字。所以个简单的改进就

是 counting Bloom filter，个counter数组代替位数组，就可以持删除了。

还有个较重要的问题，如何根据输元素个数n，确定位数组m的及hash函数个数。当hash函

数个数k=(ln2)*(m/n)时错误率最。在错误率不于E的情况下，m少要等于n*lg(1/E)才能表任意

n个元素的集合。但m还应该更些，因为还要保证bit数组少半为0，则m应该>=nlg(1/E)*lge 

概就是nlg(1/E)1.44倍(lg表以2为底的对数)。

举个例我们假设错误率为0.01，则此时m应概是n的13倍。这样k概是8个。

注意这m与n的单位不同，m是bit为单位，n则是以元素个数为单位(准确的说是不同元素的个数)。

通常单个元素的长度都是有很多bit的。所以使bloom filter内存上通常都是节省的。

扩展：

Bloom filter将集合中的元素映射到位数组中，k（k为哈希函数个数）个映射位是否全1表元素在不

在这个集合中。Counting bloom filter（CBF）将位数组中的每位扩展为个counter，从持了元

素的删除操作。Spectral Bloom Filter（SBF）将其与集合元素的出现次数关联。SBF采counter中的最

值来近似表元素的出现频率。

问题实例：给你A,B两个件，各存放50亿条URL，每条URL占64字节，内存限制是4G，让你找出

A,B件共同的URL。如果是三个乃n个件呢？

根据这个问题我们来计算下内存的占，4G=2^32概是40亿*8概是340亿，n=50亿，如果按出错

下载后可阅读完整内容，剩余6页未读，立即下载

szy19811114

粉丝: 0

大数据处理方法总结：Bloomfilter与Counting Bloomfilter详解

高效处理海量数据的技术方法探索

揭秘海量数据处理的赚钱项目方法

探索海量数据高效处理技术

大数据量,海量数据 处理方法总结.pdf

大数据量,海量数据处理方法总结知识.pdf

大数据量,海量数据处理方法总结参照.pdf

常用大数据量、海量数据处理方法__算法总结.pdf

大数据量,海量数据处理方法总结[参考].pdf

大数据量,海量数据处理方法总结[转][文].pdf

地质灾害海量监测数据处理方法研究.pdf

最新资源

大数据量,海量数据处理方法总结.pdf