深入理解Hadoop:分布式存储与计算解析

需积分: 50 5 下载量 119 浏览量 更新于2024-08-08 收藏 4KB MD 举报
"这是一份关于Hadoop学习的笔记,涵盖了Hadoop的核心组件、HDFS的设计原理和架构,以及其中关键角色的功能解释。" Hadoop是一个开源的分布式系统基础架构,主要由三个组件构成:HDFS(分布式文件系统)、MapReduce(分布式计算系统)和YARN(分布式集群资源管理)。HDFS作为数据存储的基础,采用了数据块的概念,每个数据块的大小通常是128MB。为了提高数据的可靠性和容错性,每个数据块都有默认的三个副本,并根据特定策略分布在DataNode节点上。机架感知策略确保了数据在不同机架上的分布,以优化网络传输并增强容错能力。安全模式是HDFS的一种保护状态,确保集群中的数据完整性,仅允许读操作。 HDFS采用主从架构,包括Client、NameNode、DataNode和SecondaryNameNode。Client负责文件的切分、上传、与NameNode交互以获取文件位置信息,以及与DataNode进行读写操作。NameNode作为主节点,维护整个文件系统的元数据(如文件名、路径和数据块映射)并处理客户端请求。DataNode是工作节点,存储实际数据块,执行读写操作,并定期向NameNode发送心跳信息以报告状态。SecondaryNameNode辅助NameNode,帮助合并元数据文件以防止单点故障。 MapReduce是Hadoop的分布式计算框架,用于处理和生成大规模数据集。它将大任务分解成小的Map任务,这些任务在DataNode上并行执行,然后通过Reduce任务整合结果。YARN则作为资源管理系统,负责调度和监控集群中的计算资源,使得除了MapReduce之外的其他计算框架也能在Hadoop上运行。 在深入学习Hadoop时,理解这些基本概念至关重要,因为它们构成了Hadoop处理大数据的核心机制。了解HDFS的工作原理,包括数据块、副本策略、机架感知和架构,以及MapReduce的计算模型,有助于开发者有效地利用Hadoop进行大数据处理和分析。同时,掌握NameNode和SecondaryNameNode的角色对于系统管理及故障恢复也十分关键。

结合下面hive元数据信息,生成hive建表语句,并且加上comment,注意day是分区 dwd_weibo_crawl NULL appmarket_appinfo GN线应用市场 2021-01-07 15:07:29 apk 应用包名 string day string入库日期 org.apache.hadoop.hive.ql.io.orc.OrcSerde serialization.format 1 hdfs://DSbigdata/hiveDW/dwd_exten_crawl/appmarket_appinfo org.apache.hadoop.hive.ql.io.orc.OrcInputFormat org.apache.hadoop.hive.ql.io.orc.OrcOutputFormat dwd_weibo_crawl NULL appmarket_appinfo GN线应用市场 2021-01-07 15:07:29 app_name 应用名称 string day string 入库日期 org.apache.hadoop.hive.ql.io.orc.OrcSerde serialization.format 1 hdfs://DSbigdata/hiveDW/dwd_exten_crawl/appmarket_appinfo org.apache.hadoop.hive.ql.io.orc.OrcInputFormat org.apache.hadoop.hive.ql.io.orc.OrcOutputFormat dwd_weibo_crawl NULL appmarket_appinfo GN线应用市场 2021-01-07 15:07:29 app_url 平台详情页链接 string day string入库日期 org.apache.hadoop.hive.ql.io.orc.OrcSerde serialization.format 1 hdfs://DSbigdata/hiveDW/dwd_exten_crawl/appmarket_appinfo org.apache.hadoop.hive.ql.io.orc.OrcInputFormat org.apache.hadoop.hive.ql.io.orc.OrcOutputFormat dwd_weibo_crawl NULL appmarket_appinfo GN线应用市场 2021-01-07 15:07:29 cate 应用所属分类 string day string入库日期 org.apache.hadoop.hive.ql.io.orc.OrcSerde serialization.format 1 hdfs://DSbigdata/hiveDW/dwd_exten_crawl/appmarket_appinfo org.apache.hadoop.hive.ql.io.orc.OrcInputFormat org.apache.hadoop.hive.ql.io.orc.OrcOutputFormat dwd_weibo_crawl NULL appmarket_appinfo GN线应用市场 2021-01-07 15:07:29 other 其他 string day string 入库日期 org.apache.hadoop.hive.ql.io.orc.OrcSerde serialization.format 1 hdfs://DSbigdata/hiveDW/dwd_exten_crawl/appmarket_appinfo org.apache.hadoop.hive.ql.io.orc.OrcInputFormat org.apache.hadoop.hive.ql.io.orc.OrcOutputFormat dwd_weibo_crawl NULL appmarket_appinfo GN线应用市场 2021-01-07 15:07:29 region 平台名称 string day stri

2023-06-10 上传