Hadoop复习关键点:4V特征,MapReduce与YARN

需积分: 0 114 下载量 140 浏览量 更新于2024-08-04 2 收藏 27KB DOCX 举报
"该资源是一份关于Hadoop的复习资料,包含了Hadoop的相关知识点和期末考试的填空题,适用于大学复习和考试准备。" 在Hadoop领域,大数据的4V特征是其核心特点,分别代表了Volume(大量)、Variety(多样)、Velocity(高速)和Value(价值),这四个方面概括了大数据的基本属性。Hadoop作为一个开源的大数据处理框架,其主要由三大组件构成:HDFS(Hadoop Distributed File System)负责分布式存储,MapReduce处理大规模数据计算,而YARN(Yet Another Resource Negotiator)则作为资源管理系统。 Hadoop 2.x版本的HDFS架构包括NameNode作为主节点,管理元数据;DataNode作为数据存储节点,存储实际数据;SecondaryNameNode则辅助NameNode,定期合并fsimage和EditLog,防止NameNode挂载时数据丢失。Hadoop的发行版有开源社区版和商业版,如Cloudera、 Hortonworks等公司提供的企业级解决方案。 Apache Hadoop的版本历史包括1.x、2.x和3.x,每个版本都有所改进和增强,例如Hadoop 2.x引入了YARN,提高了系统的资源利用率和可扩展性。Hadoop集群的运行模式包括本地单机的独立模式、模拟分布式环境的伪分布式模式以及生产环境的完全分布式模式。 在日常运维中,我们可能需要通过`source /etc/profile`命令来加载环境变量配置文件,以应用修改。`hadoop namenode -format`用于初始化或格式化NameNode,`start-all.sh`脚本可以一键启动Hadoop集群服务。Hadoop的默认端口设置为HDFS的50070用于Web界面监控,而YARN的ResourceManager Web界面端口是8088。 在HDFS的工作机制中,NameNode负责整个文件系统的元数据管理,DataNode则存储数据块,并通过心跳机制与NameNode保持通信。NameNode的元数据包括fsimage(文件系统镜像)和EditLog(操作日志)。MapReduce工作流程包括数据分片、Mapper处理、Shuffle阶段、Reducer处理和结果写回。 在Hadoop生态系统中,Zookeeper是一个分布式协调服务,其角色包括Leader、Follower和Observer,Znode分为永久节点和临时节点,且支持Watch机制进行分布式通知。YARN的主要组件是ResourceManager、NodeManager和ApplicationMaster,负责资源分配、节点管理和任务调度。 数据仓库是数据分析的重要基础,它是一个集中的、主题导向的、经过整合的、非易失的数据集合,用于支持企业的决策制定。Hive是一个基于Hadoop的数据仓库工具,其元数据默认存储在Derby数据库中,可以使用`ROW FORMAT DELIMITED FIELDS TERMINATED BY`命令来定义字段分隔符。Hive SQL查询语句可以进行各种数据操作,如选择特定列(`SELECT c`)等。 这份复习资料覆盖了Hadoop的关键概念、组件、工作原理以及运维和使用技巧,对于理解和掌握Hadoop有极大的帮助,适合准备相关考试的学生或从业人员学习。