海量数据处理：方法与数据结构解析

需积分: 10 165 浏览量更新于2024-07-27 收藏 2.9MB PDF 举报

"这篇文档主要讨论了海量数据处理的常用方法，包括数据结构、算法以及分布式处理技术。文章提到了一些关键概念，如哈希、红黑树、Bloom filter、位图、堆、数据库、倒排索引、Trie树、外排序以及Hadoop/MapReduce等，并对它们在处理大数据时的作用进行了概述。文档首先定义了海量数据处理的含义，指出由于数据量过大导致的处理挑战，然后提出了解决方案，包括时间效率提升和空间优化。在时间效率方面，可以通过使用Bloom filter、哈希、位图、堆、数据库索引等方法来加快处理速度；在空间优化上，主要采用分而治之的策略，例如使用哈希映射和分布式计算。此外，文章还区分了单机处理和集群处理的区别，并列出了处理海量数据的六种主要方法模式。文档的后半部分预计将详细解释这些方法，并对关联式容器如set、map、hashtable等的基础知识进行介绍，为后续的深入讨论做准备。" 在海量数据处理中，理解各种数据结构和算法是至关重要的。例如，哈希表（hashtable/hash_map/hash_set）提供快速的查找、插入和删除操作，通常用于构建索引或进行统计分析。Bloom filter是一种空间效率高的概率型数据结构，用于判断一个元素是否可能存在于一个大规模集合中，适用于节省存储空间但能接受一定误判率的场景。位图（bit-map）则可以表示大量离散状态，特别适合于布尔查询和数据压缩。堆（堆排序）在处理大数据时能够提供近似最优的时间复杂度，适用于需要排序的情况。数据库和倒排索引是数据存储和检索的常见工具，尤其适用于关系型数据和文本数据。Trie树（字典树）用于高效存储和查找字符串，减少字符串比较的次数。外排序是处理超过内存容量的大文件的一种方法，通过磁盘读写来实现排序。此外，分布式处理技术如Hadoop和MapReduce是应对海量数据的关键。Hadoop是一个开源框架，允许在大规模集群上存储和处理数据，而MapReduce是Hadoop中的编程模型，用于编写处理大数据的并行计算任务，它将大型任务分解为可独立执行的小任务，提高了处理效率。该文档将涵盖从基本数据结构到高级处理技术的全面内容，旨在帮助读者理解和掌握处理海量数据的各种方法。对于准备面试或寻求相关知识的人来说，这是一个宝贵的资源。

a) Ki (i=1...n)为关键字，且关键字按顺序升序排序 K(i-1)< Ki。

b) Pi 为指向子树根的接点，且指针 P(i-1)指向子树种所有结点的关键字均小于 Ki，

但都大于 K(i-1)。

c) 关键字的个数 n 必须满足： [ceil(m / 2)-1]<= n <= m-1。如下图所示：

针对上面第 5 点，再阐述下：B 树中每一个结点能包含的关键字（如之前上面的 D H 和 Q T X）

数有一个上界和下界。这个下界可以用一个称作 B 树的最小度数（算法导论中文版上译作度数，

最小度数即内节点中节点最小孩子数目）t（t>=2）表示。

 每个非根的结点必须至少含有 t-1 个关键字。每个非根的内结点至少有 t 个子女。如果

树是非空的，则根结点至少包含一个关键字；

 每个结点可包含之多 2t-1 个关键字。所以一个内结点至多可有 2t 个子女。如果一个结

点恰好有 2t-1 个关键字，我们就说这个结点是满的（而稍后介绍的 B*树作为 B 树的一

种常用变形，B*树中要求每个内结点至少为 2/3 满，而不是像这里的 B 树所要求的至少

半满）；

 当关键字数 t=2（t=2 的意思是，tmin=2，t 可以>=2）时的 B 树是最简单的（有很多人

会因此误认为 B 树就是二叉查找树，但二叉查找树就是二叉查找树，B 树就是 B 树，B

树的真正最准确的定义为：一棵含有 t（t>=2）个关键字的平衡多路查找树）。每个内

结点可能因此而含有 2 个、3 个或 4 个子女，亦即一棵 2-3-4 树，然而在实际中，通常

采用大得多的 t 值。

1. 根据根结点指针找到文件目录的根磁盘块 1，将其中的信息导入内存。【磁

盘 IO 操作 1 次】

2. 此时内存中有两个文件名 17、35 和三个存储其他磁盘页面地址的数据。

根据算法我们发现 17<29<35，因此我们找到指针 p2。

3. 根据 p2 指针，我们定位到磁盘块 3，并将其中的信息导入内存。【磁盘

IO 操作 2 次】

4. 此时内存中有两个文件名 26，30 和三个存储其他磁盘页面地址的数据。

根据算法我们发,26<29<30，因此我们找到指针 p2。

5. 根据 p2 指针，我们定位到磁盘块 8，并将其中的信息导入内存。【磁盘

IO 操作 3 次】

6. 此时内存中有两个文件名 28，29。根据算法我们查找到文件名 29，并定

位了该文件内存的磁盘地址。

分析上面的过程，发现需要 3 次磁盘 IO 操作和 3 次内存查找操作。关于内存中的文件

名查找，由于是一个有序表结构，可以利用折半查找提高效率。至于 IO 操作是影响整个 B

树查找效率的决定因素。

当然，如果我们使用平衡二叉树的磁盘存储结构来进行查找，磁盘 4 次，最多 5 次，而

且文件越多，B 树比平衡二叉树所用的磁盘 IO 操作次数将越少，效率也越高。

B 树的高度

根据上面的例子我们可以看出，对于辅存做 IO 读的次数取决于 B 树的高度。而 B

树的高度由什么决定的呢？

根据 B 树的高度公式:

其中 T 为度数（每个节点包含的元素个数），即所谓的阶数，N 为总元素个数或

总关键字数。

我们可以看出 T 对于树的高度有决定性的影响。因此如果每个节点包含更多的元素

个数，在元素个数相同的情况下，则更有可能减少 B 树的高度。这也是为什么 SQL Server

中需要尽量以窄键建立聚集索引。因为 SQL Server 中每个节点的大小为 8092 字节，如

果减少键的大小，则可以容纳更多的元素，从而减少了 B 树的高度，提升了查询的性能。

上面 B 树高度的公式也可以进行推导得出，将每一层级的的元素个数加起来，比如

度为 T 的节点，根为 1 个节点，第二层至少为 2 个节点，第三层至少为 2t 个节点，第四层

至少为 2t*t 个节点。将所有最小节点相加，从而得到节点个数 N 的公式:

剩余93页未读，继续阅读

HD1106

粉丝: 0
资源: 4

海量数据处理：方法与数据结构解析

美国各州一年电力负荷数据（海量用户）

家庭用电预测-数据集

用电量数据集资料.zip

海量数据用什么语言处理

海量数据管理课程大作业.docx

matlab大数据处理

收集到的海量数据进行分析，以提取有价值的信息的数据模型有哪些

所以mysql存的一般是少量数据，elasticsearch一般存取的是海量数据马

介绍一下Hadoop、Spark等大数据处理框架怎么处理数据的？

阐述大数据框架的概念及常用的大数据框架的分类

最新资源