Hadoop大数据平台：存储、分析与处理详解

版权申诉

79 浏览量更新于2024-07-02 收藏 14.1MB DOCX 举报

"通用大数据存储与分析处理平台-Hadoop.docx" 本文档详细介绍了Hadoop这一通用大数据存储与分析处理平台。Hadoop是基于Java的开源框架，主要用于处理和存储大规模数据集。它由Apache软件基金会开发，已经成为大数据处理领域的核心组件。 1.1 Hadoop概述 Hadoop的主要功能包括数据存储和分布式计算。它能够处理PB级别的数据，并且能够快速地进行数据处理。Hadoop的核心组件包括Hadoop Distributed File System (HDFS) 和 MapReduce 框架。 1.2 Hadoop特点 Hadoop具有高容错性、可扩展性和成本效益。它可以在廉价硬件上运行，支持数据冗余和自动故障恢复，使得大规模数据处理变得经济且高效。 1.3 软件设计 1.3.1 Hadoop中的文件格式：HDFS支持大文件存储，通常以块的形式分布在网络的不同节点上，每个文件块通常为128MB或256MB。 1.3.2 机架感知：Hadoop能够识别数据节点所在的物理机架，以优化数据传输，减少跨机架通信。 1.4 Hadoop知识学习篇 - RPC（Remote Procedure Call）：Hadoop中用于进程间通信的技术。 - Avro、Thrift：数据序列化框架，用于数据交换和存储。 - Java接口：Hadoop提供了丰富的Java API供开发者使用。 - FileSystem总结：Hadoop的文件系统模型，包括文件的创建、打开、读写等操作。 - 文件读取/写入过程：详细描述了HDFS的数据读写流程。 - Hadoop均衡器：负责集群中数据的均衡分配。 - Hadoop存档：用于合并小文件，减少NameNode的负载。 - 数据完整性：通过校验和确保数据在传输和存储中的准确性。 - 压缩：Hadoop支持数据压缩，以节省存储空间和提高传输效率。 - 序列化：将对象转化为字节流的过程，便于存储和网络传输。 - 序列化框架：如Avro、Protocol Buffers、Thrift等，简化序列化和反序列化。 - MapReduce过程中的序列化与反序列化：数据在MapReduce作业中传递的关键步骤。 - HDFS数据结构：包括NameNode、DataNode、Block等概念。 - MapReduce框架：详细解释Map和Reduce阶段的逻辑和工作原理。 - 推测执行：通过并行执行任务的副本来提高效率。 - 重用JVM：优化资源利用，减少启动新JVM的开销。 - IDS（Input Descriptors）、输出格式、计数器：MapReduce中的输入输出管理及性能监控工具。 - 排序技术：如快速排序、归并排序，MapReduce默认对输出结果进行排序。 - 连接：处理不同数据集之间的连接操作。 - DistributedCache：共享文件系统，用于缓存中间结果。 - 作业、默认MapReduce作业：MapReduce作业的生命周期和配置。 - 集群规模：如何根据需求规划和调整Hadoop集群。 - 网络拓扑：优化数据传输的网络结构。 - 环境设置：包括配置文件和系统参数的设定。 - 守护进程的关键属性：如NameNode、DataNode、TaskTracker等的配置选项。 - 安全性：包括访问控制、身份验证和加密。 - 安全模式：启动时的检查模式，确保集群稳定性。 - fsck工具：用于检查和诊断HDFS的状态。 - 日常维护：监控、备份、日志分析等运维任务。 1.5 Hadoop知识总结篇 - Hadoop通信协议：如Namenode与Datanode间的协议。 - 日志分析：通过日志理解Hadoop运行状态。 - MapReduce配置调优：优化性能的策略。 - MapReduce过程配置：调整作业参数以提升性能。 1.6 应用程序运行JOB：如何提交和管理MapReduce作业。 1.7 Hadoop源码篇：深入理解Hadoop的内部实现。此外，文档还涵盖了其他大数据查询支撑系统，如Accumulo、Dremel、Drill、Tez、Impala和Tajo，以及各种序列化框架和RPC技术，如Avro、Protocol Buffers和Thrift。文档中提到的这些技术和概念构成了Hadoop生态系统的基础，对于理解和应用大数据处理平台具有重要价值。

11 / 336

我们在基于行的 shuffle 基础上实现了一种基于 block 的 shuffle 方式，每一次处理

大概 1M 的压缩 block，通过把整个 block 当成一行，我们能够避免 MR 框架上的基

于行的序列化和反序列化消耗，这种方式比基于行的 shuffle 快上 3 倍以上。”

3 数据过滤（Skip List）

除常见的分区和索引之外，使用排序之后的块（Block）间隔也是常见列数据库中使

用的过滤数据的方法。Google Tenzing 同样描述了一种叫做ColumnIO 的数据格式，

ColumnIO 在头部定义该 Block 的最大值和最小值，在进行数据判断的时候，如果

当前 Block 的头部信息里面描述的围中不包含当前需要处理的容，则会直接跳过该

块。Hive 社区里曾讨论过如何跳过不需要的块，可是因为没有排序所以一直没有

较好的实现方式。包括 RCFile 格式，Hive 的 index 机制里面目前还没有一个高效

的根据头部元数据就可以跳过块的实现方式。

4 延迟物化

真正好的列数据库，都应该可以支持直接在压缩数据之上不需要通过解压和排序就

能够直接操作块。通过这种方式可以极大的降低 MR 框架或者行式数据库中先解压，

再反序列化，然后再排序所带来的开销。Google Tenzing 里面描述的 Block Shuffle

也属于延迟物化的一种。更好的延迟物化可以直接在压缩数据上进行操作，并且可

以做部循环，此方面在论文《 Integrating Compression and Execution in

Column-Oriented Database System》[5]的 5.2 章节有描述。不过考虑到它跟 UDF

集成也有关系，所以，它会不会将文件接口变得过于复杂也是一件有争议的事情。

5 与 Hadoop 框架集成

无论文本亦或是二进制格式，都只是最终的储存格式。Hadoop 运行时产生的中间

数据却没有办法控制。包括一个 MR Job 在 map 和 reduce 之间产生的数据或者 DAG

Job 上游 reduce 和下游 map 之间的数据，尤其是中间格式并不是列格式，这会产

生不必要的 IO 和 CPU 开销。比如 map 阶段产生的 spill，reduce 阶段需要先 copy

再 sort-merge。如果这种中间格式也是面向列的，然后将一个大块切成若干小块，

并在头部加上每个小块的最大最小值索引，就可以避免大量 sort-mege 操作中解压

—反序列化—排序—合并（Merge）的开销，从而缩短任务的运行时间。

12 / 336

其他文件格式

Hadoop 社区也曾有对其他文件格式的研究。比如，IBM 研究过面向列的数据格式

并发表论文《Column-Oriented Storage Techniques for MapReduce》[4]，其中特

别提到 IBM 的 CIF（Column InputFormat)文件格式在序列化和反序列化的 IO 消耗

上比 RCFile 的消耗要小 20 倍。里面提到的将列分散在不同的 HDFS Block 块上的

实现方式 RCFile 也有考虑过，但是最后因为重组行的消耗可能会因分散在远程机

器上产生的延迟而最终放弃了这种实现。此外，最近 Avro 也在实现一种面向列的数

据格式，不过目前 Hive 与 Avro 集成尚未全部完成。有兴趣的读者可以关注

avro-806 和 hive-895。

总结

Hadoop 可以与各种系统兼容的前提是 Hadoop MR 框架本身能够支持多种数

据格式的读写。但如果要提升其性能，Hadoop 需要一种高效的面向列的基于整个

MR 框架集成的数据格式。尤其是高效压缩，块重组（block shuffle），数据过滤

（skip list）等高级功能，它们是列数据库相比 MR 框架在文件格式上有优势的地方。

相信随着社区的发展以与 Hadoop 的逐步成熟，未来会有更高效且统一的数据格式

出现。

1.3.2 机架感知

HDFS 作为 Hadoop 中的一个分布式文件系统，而且是专门为它的 MapReduce

设计，所以 HDFS 除了必须满足自己作为分布式文件系统的高可靠性外，还必须为

MapReduce 提供高效的读写性能，那么 HDFS 是如何做到这些的呢？首先，HDFS

将每一个文件的数据进行分块存储，同时每一个数据块又保存有多个副本，这些数

据块副本分布在不同的机器节点上，这种数据分块存储+副本的策略是 HDFS 保证

可靠性和性能的关键，这是因为：一.文件分块存储之后按照数据块来读，提高了文

件随机读的效率和并发读的效率；二.保存数据块若干副本到不同的机器节点实现

可靠性的同时也提高了同一数据块的并发读效率；三.数据分块是非常切合

MapReduce 中任务切分的思想。在这里，副本的存放策略又是 HDFS 实现高可靠

剩余335页未读，继续阅读

智慧安全方案

粉丝: 3815
资源: 59万+

Hadoop大数据平台：存储、分析与处理详解

通用大数据存储和分析处理平台-Hadoop.docx

SparkCore.docx

大数据技术与应用基础_教学大纲.docx

修改namenode core_site.xml Hadoop.tmp.dir

修改core_site.xml Hadoop.tmp.dir有什么影响

class hadoop_Kong2.Job2Bean cannot be cast to class org.apache.hadoop.io.Text (hadoop_Kong2.Job2Bean and org.apache.hadoop.io.Text are in unnamed module of loader 'app')这行代码什么意思

hadoop_env.sh

hadoop.zip和hadoop.tar.gz区别

最新资源