大数据入门到精通：Hadoop与5V特征解析

版权申诉

5星 · 超过95%的资源 127 浏览量更新于2024-07-05 收藏 4.65MB DOCX 举报

“大数据课件从入门到精通.docx”涵盖了大数据的基本概念、Hadoop框架以及其发展历程中的关键组件和改进。大数据是当前信息技术领域的重要趋势，它指的是那些超过传统数据库软件工具处理能力的数据集合，这些数据量巨大、增长速度快、种类繁多，且蕴含着巨大的价值潜力。大数据的特点通常概括为5V：Volume（大量）、Velocity（高速）、Variety（多样）、Value（价值）和Veracity（真实性）。这些特征强调了大数据的规模、速度、复杂性、潜在价值和准确性。 Hadoop是Apache基金会开发的一个开源分布式系统基础设施，它源于Google的三篇标志性论文——GFS（Google File System）、MapReduce和BigTable。Hadoop的核心由两个主要组件构成：HDFS（Hadoop Distributed FileSystem）和MapReduce。HDFS提供了一个分布式文件系统，用于存储大规模数据，而MapReduce则负责对这些数据进行并行处理和计算。 Google的这三篇论文分别启发了Hadoop的HDFS、MapReduce和HBase（对应BigTable）。HDFS是分布式文件系统的实现，类似于GFS，而MapReduce是基于Google MapReduce模型的编程框架，HBase则是一个分布式、面向列的数据库，类似BigTable。随着时间的推移，Hadoop经历了几个主要版本的更新。从Hadoop 1.0到2.0，最重要的改进包括引入了HDFS HA（High Availability），通过standby namenode提供热备份，解决了单点故障问题，以及HDFS Federation，增强了水平扩展能力。此外，MapReduce在2.0版本中引入了YARN（Yet Another Resource Negotiator），将资源管理和计算任务调度分离，提高了系统的效率和灵活性。 Hadoop 2.0到3.0的转变中，主要的变化包括Java运行环境升级到1.8，HDFS支持纠删码以提高数据容错能力，YARN增加了时间线服务，提供更好的监控和分析，以及支持多个NameNodes，进一步增强了可用性和可靠性。此外，MapReduce在3.0版本中进行了本地化优化，性能提升了大约30%。然而，值得注意的是，Hadoop 3.0在实际应用中可能存在稳定性问题。这个课件详细介绍了大数据的基础概念，Hadoop框架的核心组件，以及Hadoop在不同版本之间的演变，对于理解和掌握大数据处理技术，特别是Hadoop生态系统，提供了全面的知识基础。

其中切出的块称为 Block。

负责存放 Block 的节点称之为 DataNode 节点。

负责存放元数据的节点称之为 NameNode 节点。

元数据：描述数据的数据。

另外还有一个独立进程称作 SecondaryNameNode 负责帮助 NameNode 进行元数据的合

并操作

HDFS 中存储的基本单位。

当文件被存储到 HDFS 的过程中，会先将文件按照指定大小来切块即 block，复制出

指定数量的副本（默认是 3 个），分布式存储在集群中

Block 默认的大小为 128(早期版本中为 64)M。

将文件切块有如下几个目的：

一个大文件切分为小的若干个 Block 方便分布式的存储在不同磁盘中

屏蔽了数据的区别，只需要面向 Block 操作，从而简化存储系统。有利于数据的复制。

每次复制的是一个体积较小的 Block，而不是一个大型文件，效率更高。

如果切分过后，剩余数据不够 128MB，则会将剩余数据单独作为一个 Block 存储，数

据多大，Block 就多大，128MB 只是最大大小，不是固定大小。

例如，一个 256MB 文件，共有 256/128=2 个 Block.

一个 258MB 文件，共有 258/128 = 2 余下 2MB，则余下的 2MB 会独占一个 Block 大

小为 2MB，则且分出两个 128MB 的 Block 和一个 2MB 的 Block

一个 1MB 文件，则单独占用一个 Block，这个 Block 为 1MB 大小。

2.DataNode

数据以 Block 的形式存放在 DataNode 中

DataNode 节点会不断向 NameNode 节点发送心跳报告保持与其联系（3 秒一次）在心

跳报告中，向 NameNode 报告信息，从心跳响应中接受 NameNode 的指令,执行对块的复制

移动删除等操作。NameNode 如果 10 分钟都没收到 dn 的心跳，则认为该 DataNode 已经

lost，并 copy 其上的 block 到其他 dn

3.NameNode

NameNode 维护着 HDFS 中的元数据信息，包括文件信息目录结构信息副本数量信息

文件和 Block 之间关系的信息、Block 和 DataNode 之间的关系信息，数据格式参照如下：

FileName replicas block-Ids id2host 例如：

/test/a.log,3,{b1,b2},[{b1:[h0,h1,h3]},{b2:[h0,h2,h4]}]

NameNode 中的元数据信息存储在内存/文件中，内存中为实时信息，文件中为数据镜像作

为持久化存储使用。其中内存中的信息包括文件信息目录结构信息副本数量信息文件和

Block 之间关系的信息、Block 和 DataNode 之间的关系信息而文件中的信息包括文件信息

目录结构信息副本数量信息文件和 Block 之间关系的信息可以发现文件中的元数据比起内

存中缺失了 blockid 和 datanode 之间的对应关系，这是因为，HDFS 集群经常发生变动，

datanode 变多或变少都是很正常的，因此这些信息都是临时在内存中组织的，而不会存储

在磁盘镜像文件中

文件包括：

fsimage 元数据镜像文件。存储某 NameNode 元数据信息，并不是实时同步内存中的数

据。

edits 操作日志文件

fstime 保存最近一次 checkpoit 的时间

当有写请求时，NameNode 会首先写 editlog 到磁盘 edits 文件中，成功后才会修改内

剩余29页未读，继续阅读

袁袁袁袁满

粉丝: 108w+
资源: 54

大数据入门到精通：Hadoop与5V特征解析

大数据从入门到精通学习路线

Python数据分析与大数据处理从入门到精通.pptx

大数据开发——从放弃到入门.docx

大数据平台方案设计.doc.docx

大数据时代的大数据管理研究.docx

【大数据治理】大数据治理体系.docx

大数据在制造领域的应用.docx

大数据时代计量数据的应用.docx

大数据平台开发与案例分析.docx

大数据下的医院药学服务.docx

最新资源