Hadoop基础面试题详解:模式、注意事项与配置

版权申诉
0 下载量 154 浏览量 更新于2024-08-24 收藏 11KB DOCX 举报
Hadoop基础知识面试题大汇总文档详细介绍了Hadoop这一分布式计算框架的基础概念和面试中常见的关键问题。Hadoop主要运行在三个模式下: 1. **单机模式**(Standalone Mode):在本地开发环境中,不涉及分布式文件系统,而是直接操作本地文件系统,适用于快速开发和测试MapReduce程序。由于不存在守护进程,注意点在于单机环境模拟有限,不适合大规模数据处理。 2. **伪分布式模式**(Pseudo-Distributed Mode):在一台机器上模拟集群结构,用于开发和测试,所有守护进程如NameNode, DataNode等都在同一台机器上运行。虽然能够体验分布式架构,但并非真实意义上的分布式环境。 3. **全分布式模式**(Fully Distributed Mode):在生产环境中,Hadoop集群由多台主机构成,真正的NameNode, DataNode, JobTracker和TaskTracker在各自独立的主机上运行。在这种模式下,主从节点分离,具有更好的扩展性和容错性。 文档还提及了几个重要的知识点: - **VM与Pseudo的区别**:VM(Virtual Machine)和Pseudo分布式模式是两个不同的概念,Pseudo专指Hadoop的伪分布式实现。 - **JobTracker故障的影响**:当JobTracker宕机时,集群仍能继续运行,只要NameNode正常。 - **输入分片的决定因素**:输入分片的细节由配置文件定义,并非客户端或NameNode单独决定。 - **Hadoop在Windows上的兼容性**:尽管可能运行,但推荐使用Linux(如Red Hat Linux或Ubuntu),因为它们更适合Hadoop。 - **Hadoop遵循UNIX模式**:Hadoop在UNIX环境中支持“conf”目录,体现了其与Unix/Linux环境的紧密集成。 - **Hadoop安装路径**:通常在Cloudera和Apache中,Hadoop安装在`/usr/lib/hadoop-0.20/`目录下。 - **守护进程的端口**:NameNode的默认端口为70,JobTracker为30,TaskTracker为60。 - **核心配置文件**:Hadoop的核心配置主要通过`hadoop-default.xml`和`hadoop-site.xml`这两个XML文件进行设置。 这些知识点对于理解Hadoop的部署、配置和运行机制至关重要,掌握它们有助于面试者在求职面试中展现对Hadoop技术的深入理解和实践经验。

结合下面hive元数据信息,生成hive建表语句,并且加上comment,注意day是分区 dwd_weibo_crawl NULL appmarket_appinfo GN线应用市场 2021-01-07 15:07:29 apk 应用包名 string day string入库日期 org.apache.hadoop.hive.ql.io.orc.OrcSerde serialization.format 1 hdfs://DSbigdata/hiveDW/dwd_exten_crawl/appmarket_appinfo org.apache.hadoop.hive.ql.io.orc.OrcInputFormat org.apache.hadoop.hive.ql.io.orc.OrcOutputFormat dwd_weibo_crawl NULL appmarket_appinfo GN线应用市场 2021-01-07 15:07:29 app_name 应用名称 string day string 入库日期 org.apache.hadoop.hive.ql.io.orc.OrcSerde serialization.format 1 hdfs://DSbigdata/hiveDW/dwd_exten_crawl/appmarket_appinfo org.apache.hadoop.hive.ql.io.orc.OrcInputFormat org.apache.hadoop.hive.ql.io.orc.OrcOutputFormat dwd_weibo_crawl NULL appmarket_appinfo GN线应用市场 2021-01-07 15:07:29 app_url 平台详情页链接 string day string入库日期 org.apache.hadoop.hive.ql.io.orc.OrcSerde serialization.format 1 hdfs://DSbigdata/hiveDW/dwd_exten_crawl/appmarket_appinfo org.apache.hadoop.hive.ql.io.orc.OrcInputFormat org.apache.hadoop.hive.ql.io.orc.OrcOutputFormat dwd_weibo_crawl NULL appmarket_appinfo GN线应用市场 2021-01-07 15:07:29 cate 应用所属分类 string day string入库日期 org.apache.hadoop.hive.ql.io.orc.OrcSerde serialization.format 1 hdfs://DSbigdata/hiveDW/dwd_exten_crawl/appmarket_appinfo org.apache.hadoop.hive.ql.io.orc.OrcInputFormat org.apache.hadoop.hive.ql.io.orc.OrcOutputFormat dwd_weibo_crawl NULL appmarket_appinfo GN线应用市场 2021-01-07 15:07:29 other 其他 string day string 入库日期 org.apache.hadoop.hive.ql.io.orc.OrcSerde serialization.format 1 hdfs://DSbigdata/hiveDW/dwd_exten_crawl/appmarket_appinfo org.apache.hadoop.hive.ql.io.orc.OrcInputFormat org.apache.hadoop.hive.ql.io.orc.OrcOutputFormat dwd_weibo_crawl NULL appmarket_appinfo GN线应用市场 2021-01-07 15:07:29 region 平台名称 string day stri

2023-06-10 上传