解决大数据量问题的策略：URL共现与Query频率排序

需积分: 9 144 浏览量更新于2024-09-17 收藏 123KB DOC 举报

"本文件提供了针对大数据量问题的两种解决方案，主要涉及URL的匹配和查询频率排序。这两种场景都超出了内存限制，因此需要采用外部存储和分布式计算策略。" 在大数据量问题中，面对无法一次性加载到内存的数据，我们需要使用分治和空间效率高的数据结构。以下是详细的知识点： 1. **URL共同部分查找** - 方案1：基于哈希的分治法。首先，对每个文件的URL进行哈希运算，根据结果将URL分配到多个小文件中。这样确保了相同URL会被分配到相同的小文件。然后，对每一对小文件进行比较，使用哈希集合（如Java的HashSet）存储一个文件的URL，遍历另一个文件，检查URL是否在集合中，从而找出共同的URL。 - 方案2：使用Bloom Filter。这是一种空间效率高的概率数据结构，能在有限空间内表示大量元素，允许一定比例的误判。将一个文件的URL映射到Bloom Filter，然后检查另一个文件的URL是否在过滤器中。误判意味着可能会找到一些实际上并不共有的URL。 2. **查询频率排序** - 方案1：基于哈希的分布式统计和归并排序。首先，将10个大文件中的query通过哈希函数重新分布到新的10个文件中。然后，在内存有限的机器上，使用hash_map统计每个query的频率，并按频率排序。最后，对这10个排序后的文件进行外部排序（如归并排序），合并成一个完整的排序文件。 - 方案2：如果所有query总数有限，可以考虑先集中统计所有query的总频率，然后使用排序算法（如快速排序、堆排序或归并排序）对query进行排序。这种方法依赖于query的重复性，且需要足够的内存来存储所有的query及其频率。这些解决方案展示了在处理大数据时的关键技术：分治策略、哈希函数、外部排序和空间效率高的数据结构（如Bloom Filter和哈希集合）。它们是大数据分析和处理的基础，适用于各种实际场景，如日志分析、搜索引擎优化等。在面试和实际工作中，理解并掌握这些方法对于解决大规模数据问题至关重要。

1. 给定 a、b 两个文件，各存放 50 亿个 url，每个 url 各占 64 字节，内存限制

是 4G，让你找出 a、b 文件共同的 url？

方案 1：可以估计每个文件安的大小为 50G×64=320G，远远大于内存限制

的 4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。

s 遍历文件 a，对每个 url 求取，然后根据所取得的值将 url 分别

存储到 1000 个小文件（记为）中。这样每个小文件的大约为

300M。

s 遍历文件 b，采取和 a 相同的方式将 url 分别存储到 1000 各小文件（记为

）。这样处理后，所有可能相同的 url 都在对应的小文件（

）中，不对应的小文件不可能有相同的 url。然后我

们只要求出 1000 对小文件中相同的 url 即可。

s 求每对小文件中相同的 url 时，可以把其中一个小文件的 url 存储到

hash_set 中。然后遍历另一个小文件的每个 url，看其是否在刚才构建的

hash_set 中，如果是，那么就是共同的 url，存到文件里面就可以了。

方案 2：如果允许有一定的错误率，可以使用 Bloom lter，4G 内存大概可

以表示 340 亿 bit。将其中一个文件中的 url 使用 Bloom lter 映射为这 340

亿 bit，然后挨个读取另外一个文件的 url，检查是否与 Bloom lter，如果是，

那么该 url 应该是共同的 url（注意会有一定的错误率）。

2. 有 10 个文件，每个文件 1G，每个文件的每一行存放的都是用户的

query，每个文件的 query 都可能重复。要求你按照 query 的频度排序。

方案 1：

s 顺序读取 10 个文件，按照 hash(query)%10 的结果将 query 写入到另外

10 个文件（记为）中。这样新生成的文件每个的大小大约也 1G（假

设 hash 函数是随机的）。

s 找一台内存在 2G 左右的机器，依次对用 hash_map(query,

query_count)来统计每个 query 出现的次数。利用快速/堆/归并排序按照出现

次数进行排序。将排序好的 query 和对应的 query_cout 输出到文件中。这样

得到了 10 个排好序的文件（记为）。

下载后可阅读完整内容，剩余9页未读，立即下载

sjznit

粉丝: 0
资源: 7

解决大数据量问题的策略：URL共现与Query频率排序

北大ACM经典题目解法合集

LeetCode刷题记录：数组篇（简单题目与解法）

LeetCode题目思路与解法总结：跳跃题型攻略

方案设计题的常见类型与解法.doc

历年全国数学建模试题及解法归纳.doc

C/C++面试题目及解答.doc

完美版资料投资分析考试题目及答案课稿.doc

综合测试3【华师大版】精选.doc

2017年七年级下数学期末试卷..doc

递推算法2668769047.doc

最新资源