海量数据处理面试题：Bit-map方法与URL去重策略

需积分: 9 32 浏览量更新于2024-09-12 收藏 119KB DOC 举报

本文是一篇关于海量数据处理的面试题集和技术详解文章，主要关注于如何在内存限制为4GB的情况下，处理包含50亿个URL的两份大文件，以及使用Bit-map（位图）和Bloom Filter等数据结构优化解决方案。首先，作者提出了两种方案来解决这个问题：方案一：分而治之 1. 拆分文件：将每份文件中的URL分割到1000个小文件，每个小文件大约300MB，这样可以在内存限制内处理。 2. 哈希查找：遍历其中一个文件的小文件，将URL添加到哈希集合中。接着，对比另一个文件的小文件，查找哈希集合中是否存在相同的URL。 3. 错误处理：这种方法存在一定的空间效率牺牲，但能有效找到大部分重复URL。方案二：Bloom Filter应用 1. Bloom Filter：利用Bloom Filter的高效空间利用特性，用4GB内存表示约340亿bit，以处理一部分数据。设置适当的错误率（如0.01），并计算所需的哈希函数数量。 2. 错误率控制：通过调整哈希函数的数量k来最小化错误率，可能需要进一步迭代和调整，直到文件大小均衡。 3. 实际操作：将一个文件的URL映射到Bloom Filter，然后逐个检查另一个文件的URL，即使有误报，也能快速定位大部分重复URL。文章还提到，读者 Crowgns 提供了一点额外的建议，即如果哈希后的文件大小分布不均，应继续进行哈希或使用不同的哈希算法，直到所有文件大小相近，以优化性能。这篇文章不仅提供了实际问题的解决方案，还深入探讨了数据处理中的哈希技术和概率数据结构，对于理解海量数据处理和优化算法具有很高的价值。在面试中，这些问题旨在考察候选人的问题解决能力、空间复杂度理解和优化技术应用。

http://blog.redfox66.com/post/2010/09/24/mass-data-topic-1-start.aspx

第一部分、十五道海量数据处理面试题

1. 给定 a、b 两个文件，各存放 50 亿个 url，每个 url 各占 64 字节，内存限制是 4G，让你

找出 a、b 文件共同的 url？

方案 1：可以估计每个文件安的大小为 50G×64=320G，远远大于内存限制的 4G。所以不可

能将其完全加载到内存中处理。考虑采取分而治之的方法。

1. 遍历文件 a，对每个 url 求取，然后根据所取得的值将 url 分别存储

到 1000 个小文件（记为）中。这样每个小文件的大约为 300M。

2. 遍历文件 b，采取和 a 相同的方式将 url 分别存储到 1000 小文件中（记为

）。这样处理后，所有可能相同的 url 都在对应的小文件（

）中，不对应的小文件不可能有相同的 url。然后我们

只要求出 1000 对小文件中相同的 url 即可。

3. 求每对小文件中相同的 url 时，可以把其中一个小文件的 url 存储到 hash_set 中。然

后遍历另一个小文件的每个 url，看其是否在刚才构建的 hash_set 中，如果是，那么

就是共同的 url，存到文件里面就可以了。

方案 2：如果允许有一定的错误率，可以使用 Bloom lter，4G 内存大概可以表示 340 亿

bit（4G=2^32 大概是 40 亿*8 大概是 340 亿）。将其中一个文件中的 url 使用 Bloom

lter 映射为这 m=340 亿 bit，n=50 亿，如果按出错率 0.01 算, m 应该>=nlg(1/E)*lge

大概就是 nlg(1/E)1.44 倍(lg 表示以 2 为底的对数),需要的大概是 650 亿个 bit。现在可用的

是 340 亿，相差并不多，这样可能会使出错率上升些。然后挨个读取另外一个文件的 url，检

查是否与 Bloom lter，如果是，那么该 url 应该是共同的 url（注意会有一定的错误率）。当

hash 函数个数 k=(ln2)*(m/n)时错误率最小

读者反馈@crowgns：

1. hash 后要判断每个文件大小，如果 hash 分的不均衡有文件较大，还应继续 hash 分

文件，换个 hash 算法第二次再分较大的文件，一直分到没有较大的文件为止。这样文

件标号可以用 A1-2 表示（第一次 hash 编号为 1，文件较大所以参加第二次 hash，

编号为 2）

2. 由于 1 存在，第一次 hash 如果有大文件，不能用直接 set 的方法。建议对每个文件都

先用字符串自然顺序排序，然后具有相同 hash 编号的（如都是 1-3，而不能 a 编号是

1，b 编号是 1-1 和 1-2），可以直接从头到尾比较一遍。对于层级不一致的，如

a1，b 有 1-1，1-2-1，1-2-2，层级浅的要和层级深的每个文件都比较一次，才能确

认每个相同的 uri。

下载后可阅读完整内容，剩余7页未读，立即下载

ningfuxuan

粉丝: 40
资源: 71

海量数据处理面试题：Bit-map方法与URL去重策略

海量数据处理：面试题与Bit-map方法分解URL问题

微软面试宝典：100题详解与大数据处理策略

微软面试宝典：100题覆盖数据结构、算法与海量数据处理

海量数据处理面试题集锦与Bit-map详解

java面试题集

经典python面试题

微软面试宝典：100题覆盖数据结构、算法与海量处理

微软面试100题精华PDF：数据结构、算法与海量处理实战指南

微软面试必备：100题详解，涵盖数据结构与算法

微软面试题：C++与数据结构算法实战

最新资源