构建Apache原生Hadoop平台:从安装到配置

需积分: 1 0 下载量 133 浏览量 更新于2024-07-09 收藏 2.59MB PDF 举报
"该文档主要介绍了如何在原生Hadoop平台上构建大数据处理环境,特别是针对Hive和MariaDB的安装与配置。同时,对比了三种不同类型的大数据平台:Apache原生、CDH和HDP,分析了它们的适用场景、特点以及硬件需求。" 在大数据领域,选择合适的平台对于实现高效的数据处理至关重要。Apache原生大数据平台以其轻量级的特性,适合用于学术、研究、科研、测试和学习等场景,对硬件资源的需求相对较小。而Cloudera的CDH和Hortonworks的HDP则更适用于大型企业的生产环境,提供高性能、稳定性和统一管理服务,但硬件需求较高,且对运维人员的技术要求也更严格。 构建原生Apache大数据平台时,首要任务是准备好运行环境。这包括在CentOS7.2系统上进行一系列的预配置工作,如关闭防火墙和SELinux以减少安全限制,安装并配置JDK1.8,设置YUM源以便后续安装软件,以及安装必要的命令行工具如vim、netstat和lrzsz。此外,还需确保所有节点间的IP和主机名映射正确,这通常通过编辑`/etc/hosts`文件来完成。 Hive是Apache Hadoop的一个数据仓库工具,可将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,方便用户对大数据进行分析。在原生Hadoop平台上安装Hive,需要下载源码编译,配置相关环境变量,创建Hive的元数据存储(例如使用MariaDB或MySQL),并启动Hive服务。MariaDB作为Hive的元数据存储,是一种开源的关系型数据库管理系统,它的安装和配置包括下载安装包、初始化数据库、创建用户和数据库,然后配置Hive连接到MariaDB的配置文件。 在配置过程中,确保所有节点的配置一致性非常重要,因为Hadoop和Hive依赖于集群内的通信和数据同步。此外,还要考虑高可用性和容错性,例如设置Hive Metastore的冗余备份,以及正确配置Hadoop的HDFS和YARN组件,以支持大规模数据处理和计算任务。 总结来说,构建原生Hadoop平台需要对Linux系统有深入理解,熟悉大数据组件的配置和优化,以及掌握基本的网络和数据库管理技能。这个过程既包括硬件资源的规划,也包含软件层面的安装、配置和调优,最终目的是建立一个稳定、高效的大数据处理环境。对于Hive和MariaDB的集成,重点在于确保元数据的可靠存储和访问,以及使Hive能够正确地与Hadoop生态系统中的其他组件(如HDFS和MapReduce或YARN)协同工作。

结合下面hive元数据信息,生成hive建表语句,并且加上comment,注意day是分区 dwd_weibo_crawl NULL appmarket_appinfo GN线应用市场 2021-01-07 15:07:29 apk 应用包名 string day string入库日期 org.apache.hadoop.hive.ql.io.orc.OrcSerde serialization.format 1 hdfs://DSbigdata/hiveDW/dwd_exten_crawl/appmarket_appinfo org.apache.hadoop.hive.ql.io.orc.OrcInputFormat org.apache.hadoop.hive.ql.io.orc.OrcOutputFormat dwd_weibo_crawl NULL appmarket_appinfo GN线应用市场 2021-01-07 15:07:29 app_name 应用名称 string day string 入库日期 org.apache.hadoop.hive.ql.io.orc.OrcSerde serialization.format 1 hdfs://DSbigdata/hiveDW/dwd_exten_crawl/appmarket_appinfo org.apache.hadoop.hive.ql.io.orc.OrcInputFormat org.apache.hadoop.hive.ql.io.orc.OrcOutputFormat dwd_weibo_crawl NULL appmarket_appinfo GN线应用市场 2021-01-07 15:07:29 app_url 平台详情页链接 string day string入库日期 org.apache.hadoop.hive.ql.io.orc.OrcSerde serialization.format 1 hdfs://DSbigdata/hiveDW/dwd_exten_crawl/appmarket_appinfo org.apache.hadoop.hive.ql.io.orc.OrcInputFormat org.apache.hadoop.hive.ql.io.orc.OrcOutputFormat dwd_weibo_crawl NULL appmarket_appinfo GN线应用市场 2021-01-07 15:07:29 cate 应用所属分类 string day string入库日期 org.apache.hadoop.hive.ql.io.orc.OrcSerde serialization.format 1 hdfs://DSbigdata/hiveDW/dwd_exten_crawl/appmarket_appinfo org.apache.hadoop.hive.ql.io.orc.OrcInputFormat org.apache.hadoop.hive.ql.io.orc.OrcOutputFormat dwd_weibo_crawl NULL appmarket_appinfo GN线应用市场 2021-01-07 15:07:29 other 其他 string day string 入库日期 org.apache.hadoop.hive.ql.io.orc.OrcSerde serialization.format 1 hdfs://DSbigdata/hiveDW/dwd_exten_crawl/appmarket_appinfo org.apache.hadoop.hive.ql.io.orc.OrcInputFormat org.apache.hadoop.hive.ql.io.orc.OrcOutputFormat dwd_weibo_crawl NULL appmarket_appinfo GN线应用市场 2021-01-07 15:07:29 region 平台名称 string day stri

2023-06-10 上传