后Hadoop时代：大数据架构演进与开源组件

44 浏览量更新于2024-08-28 收藏 1.18MB PDF 举报

随着大数据时代的演进，Hadoop系统作为早期的核心工具，自2008年左右首次发布以来，历经多年发展，其影响力不可忽视。然而，随着时间的推移，尤其是从2012年开始，我们进入了所谓的“后Hadoop时代”。这个时期并不意味着Hadoop的衰落，而是指随着技术进步和需求多样化，出现了更多的数据处理和存储解决方案，它们可以与Hadoop相互补充，形成一个更加丰富和灵活的大数据架构。在这个后Hadoop时代，虽然Hadoop生态系统依然强大，尤其在HDFS（Hadoop Distributed File System）提供海量数据的存储和MapReduce模型实现数据处理方面，但它不再是单一的选择。NoSQL数据库的兴起，如Cassandra和MongoDB，允许快速读写和水平扩展，使得非结构化数据的处理更加高效。此外，Amazon EMR作为一个托管服务，提供了基于云计算的弹性MapReduce环境，适用于一次性或不频繁的大规模数据处理任务，尽管它的设计更紧密地与Amazon S3集成，可能带来一定的性能牺牲。除了Hadoop本身的扩展技术，Pig和Hive作为数据分析平台，Pig通过高级语言简化了大数据集的处理，而Hive则提供了一个类似SQL的接口，便于数据仓库管理和分析。HBase作为分布式、实时的数据存储系统，支持快速的随机读写操作，对于实时性和低延迟的应用场景非常有用。另外，Sqoop负责在Hadoop与结构化数据源之间高效迁移数据，Flume则专注于日志收集和传输，提供了一种可靠的数据流管道。ZooKeeper作为分布式协调服务，确保了集群的统一管理和数据一致性。后Hadoop时代的大数据架构是一个多元化和灵活的体系，Hadoop作为基石，与其他技术共同构建出一个能够适应不同业务场景和性能需求的生态。开发者和企业可以根据具体项目特点，选择最合适的工具和技术组合，实现数据的高效存储、处理和分析。

后后Hadoop时代的大数据架构时代的大数据架构

提到大数据分析平台，不得不说Hadoop系统，Hadoop到现在也超过10年的历史了，很多东西发生了变化，版本也从0.x进化

到目前的2.6版本。我把2012年后定义成后Hadoop平台时代，这不是说不用Hadoop，而是像NoSQL （Not Only SQL）那

样，有其他的选型补充。我在知乎上也写过Hadoop的一些入门文章如何学习Hadoop - 董飞的回答，为了给大家有个铺垫，

简单讲一些相关开源组件。

背景篇

Hadoop: 开源的数据分析平台，解决了大数据（大到一台计算机无法进行存储，一台计算机无法在要求的时间内进行处

理）的可靠存储和处理。适合处理非结构化数据，包括HDFS，MapReduce基本组件。

HDFS：提供了一种跨服务器的弹性数据存储系统。

MapReduce：技术提供了感知数据位置的标准化处理流程：读取数据，对数据进行映射（Map），使用某个键值对数据

进行重排，然后对数据进行化简（Reduce）得到最终的输出。

Amazon Elastic Map Reduce(EMR)：托管的解决方案，运行在由Amazon Elastic Compute Cloud（EC2）和Simple

Strorage Service（S3）组成的网络规模的基础设施之上。如果你需要一次性的或不常见的大数据处理，EMR可能会为

你节省开支。但EMR是高度优化成与S3中的数据一起工作，会有较高的延时。

Hadoop 还包含了一系列技术的扩展系统，这些技术主要包括了Sqoop、Flume、Hive、Pig、Mahout、Datafu和HUE

等。

Pig：分析大数据集的一个平台，该平台由一种表达数据分析程序的高级语言和对这些程序进行评估的基础设施一

起组成。

Hive：用于Hadoop的一个数据仓库系统，它提供了类似于SQL的查询语言，通过使用该语言，可以方便地进行数

据汇总，特定查询以及分析。

Hbase：一种分布的、可伸缩的、大数据储存库，支持随机、实时读/写访问。

Sqoop：为高效传输批量数据而设计的一种工具，其用于Apache Hadoop和结构化数据储存库如关系数据库之间的

数据传输。

Flume：一种分布式的、可靠的、可用的服务，其用于高效地搜集、汇总、移动大量日志数据。

ZooKeeper：一种集中服务，其用于维护配置信息，命名，提供分布式同步，以及提供分组服务。

Cloudera：最成型的Hadoop发行版本，拥有最多的部署案例。提供强大的部署、管理和监控工具。开发并贡献了可实

时处理大数据的Impala项目。

Hortonworks：使用了100%开源Apache Hadoop提供商。开发了很多增强特性并提交至核心主干，这使得Hadoop能够

在包括Windows Server和Azure在内平台上本地运行。

MapR：获取更好的性能和易用性而支持本地Unix文件系统而不是HDFS。提供诸如快照、镜像或有状态的故障恢复等高

可用性特性。领导着Apache Drill项目，是Google的Dremel的开源实现，目的是执行类似SQL的查询以提供实时处理。

原理篇

数据存储

我们的目标是做一个可靠的，支持大规模扩展和容易维护的系统。计算机里面有个locality（局部性定律），如图所示。从下

到上访问速度越来越快，但存储代价更大。

下载后可阅读完整内容，剩余8页未读，立即下载

weixin_38621553

粉丝: 2
资源: 935

后Hadoop时代：大数据架构演进与开源组件

04-29 后Hadoop时代的大数据架构.pdf

后Hadoop时代的大数据架构.pdf

04-29 后Hadoop时代的大数据架构.docx

后Hadoop时代：大数据架构的转型与创新

后Hadoop时代：大数据架构的演进与选择

"后Hadoop时代的大数据架构演进与应用2015-04-29

后Hadoop时代的多元化大数据架构探索

陈皓：Hadoop与大数据时代的软件架构演变与趋势

Hadoop：大数据时代的分析平台

"进击的大数据：后Hadoop时代的架构演进

最新资源