大数据面试难题：高效找出共同url及查询排序策略

5星 · 超过95%的资源需积分: 9 110 浏览量更新于2024-09-19 2 收藏 123KB DOC 举报

在大数据量的面试和笔试题目中，常常会遇到处理海量数据的挑战。本文将介绍两种常见问题的解决方案，涉及到文件操作、数据压缩和高效算法。问题一：查找两个大文件中的共同URL，且内存限制为4GB。方案1采用分治策略，首先将两个文件（每个包含50亿个64字节的URL）分解成1000个小文件，每个小文件约300MB。遍历文件a，将每个URL的唯一标识（如哈希值）存储到小文件中，接着对文件b执行同样的操作。这样，共同的URL会在至少一个对应的小文件中出现。然后通过哈希集合（如HashSet）来检查每个小文件中URL的重复性，找到共同的URL。方案2则引入了近似算法，利用Bloom Filter数据结构。由于内存限制，可以创建一个Bloom Filter来存储一个文件的URL，通过检查另一个文件的URL与Bloom Filter的匹配度来判断是否可能是共同URL。然而，Bloom Filter可能导致一定比例的误报。问题二：对多个大文件中的用户查询进行按频次排序，每个文件1GB，查询可能重复。方案1是基于哈希函数和排序技术的组合。首先，使用哈希函数将查询分布到10个新的文件中，每个文件保持1GB大小。接着，使用内存充足的系统（约2GB）计算每个查询的出现次数，并利用快速排序、堆排序或归并排序进行排序。最后，对排序后的结果进行归并，得到10个按频次排序的文件。方案2注意到查询总量有限且重复较多，可以采用一种更为直接的方法。考虑到查询的重复性，可以考虑使用一种更高效的排序算法，如基数排序或Trie树（字典树），对查询进行排序和计数，减少排序的时间复杂度。这样可以在内存限制下更有效地完成任务。这两种问题的解决方法展示了在大数据处理中如何利用空间和时间的权衡，以及不同的数据结构和算法来优化内存使用和性能。面试时，除了实际编程能力，理解和应用这些策略同样重要。

1. 给定 a、b 两个文件，各存放 50 亿个 url，每个 url 各占 64 字节，内存限制

是 4G，让你找出 a、b 文件共同的 url？

方案 1：可以估计每个文件安的大小为 50G×64=320G，远远大于内存限制

的 4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。

s 遍历文件 a，对每个 url 求取，然后根据所取得的值将 url 分别

存储到 1000 个小文件（记为）中。这样每个小文件的大约为

300M。

s 遍历文件 b，采取和 a 相同的方式将 url 分别存储到 1000 各小文件（记为

）。这样处理后，所有可能相同的 url 都在对应的小文件（

）中，不对应的小文件不可能有相同的 url。然后我

们只要求出 1000 对小文件中相同的 url 即可。

s 求每对小文件中相同的 url 时，可以把其中一个小文件的 url 存储到

hash_set 中。然后遍历另一个小文件的每个 url，看其是否在刚才构建的

hash_set 中，如果是，那么就是共同的 url，存到文件里面就可以了。

方案 2：如果允许有一定的错误率，可以使用 Bloom lter，4G 内存大概可

以表示 340 亿 bit。将其中一个文件中的 url 使用 Bloom lter 映射为这 340

亿 bit，然后挨个读取另外一个文件的 url，检查是否与 Bloom lter，如果是，

那么该 url 应该是共同的 url（注意会有一定的错误率）。

2. 有 10 个文件，每个文件 1G，每个文件的每一行存放的都是用户的

query，每个文件的 query 都可能重复。要求你按照 query 的频度排序。

方案 1：

s 顺序读取 10 个文件，按照 hash(query)%10 的结果将 query 写入到另外

10 个文件（记为）中。这样新生成的文件每个的大小大约也 1G（假

设 hash 函数是随机的）。

s 找一台内存在 2G 左右的机器，依次对用 hash_map(query,

query_count)来统计每个 query 出现的次数。利用快速/堆/归并排序按照出现

次数进行排序。将排序好的 query 和对应的 query_cout 输出到文件中。这样

得到了 10 个排好序的文件（记为）。

下载后可阅读完整内容，剩余9页未读，立即下载

小氓

粉丝: 1
资源: 8

大数据面试难题：高效找出共同url及查询排序策略

大型IT公司面试笔试题集锦

程序员面试笔试题及深度解析

C++面试笔试题库解析与答案汇总

大量笔试题目面试经验谈

c++数据结构算法面试笔试题

大量计算机专业笔试面试题

各大IT公司的面试笔试题

迅雷面试笔试题目

各大it公司面试笔试题

java笔试 面试 题目 试题

最新资源

java笔试面试题目试题