CentOS7搭建大数据环境:Hadoop与Hive2.1.1安装配置教程

需积分: 20 4 下载量 57 浏览量 更新于2024-07-15 收藏 2.05MB PDF 举报
"本资源主要介绍了在CentOS7系统上搭建Hadoop环境,包括安装配置Hive 2.1.1的详细步骤。整个教程共分为8集,涵盖了从SSH免登陆设置到Spark的安装配置。" 在搭建大数据处理平台时,Hadoop是一个核心组件,它提供了分布式文件系统HDFS和MapReduce计算框架。本资源聚焦于在Linux环境下,特别是CentOS7系统上安装配置Hive 2.1.1,Hive作为一个基于Hadoop的数据仓库工具,能够将结构化的数据文件映射为一张数据库表,并提供SQL查询功能。 1. **安装Hive 2.1.1** 首先,通过下载Hive的二进制包并解压缩,然后为了方便管理,可以将解压后的文件夹重命名为更简洁的名字,如`hive-2.1.1`。安装路径可以选择在`/home/hadoop`目录下。 2. **创建必要的目录** 在Hive的安装目录下,需要创建一些用于临时文件、操作日志等的目录,如`/home/hadoop/hive-2.1.1/hive/iotmp`和其子目录`operation_logs`。 3. **配置Hive环境变量** 使用`vim /etc/profile`编辑系统环境变量配置文件,添加Hive的相关路径,包括`HIVE_HOME`、`HIVE_CONF_DIR`,并将它们添加到PATH变量中,以便系统能识别Hive命令。 4. **Hive的配置文件** Hive的配置文件通常位于`$HIVE_HOME/conf`目录下,有四个默认的模板文件。尽管可以使用默认配置,但为了适应实际需求,通常需要进行如下配置: - 更改元数据存储:默认情况下,Hive使用内嵌的Derby数据库存储元数据,但通常会改为MySQL等关系型数据库,以支持多用户并发访问。 - 数据存放位置:默认情况下,Hive的数据会存储在HDFS的/user/hive/warehouse目录下,可以根据需求修改此路径。 - 日志存放位置:创建或指定一个特定的日志目录,以便管理和查看Hive的操作日志。 5. **使用MySQL作为元数据存储** 在使用MySQL存储元数据之前,需要先安装配置MySQL,并创建对应的数据库和用户。然后在Hive的配置文件中(如`hive-site.xml`),配置相关的连接参数,如数据库地址、端口、用户名、密码等。 6. **其他相关组件** 在这个系列的教程中,还提到了安装配置其他Hadoop生态系统组件,如Hadoop 2.7.7、Scala 2.11.8、HBase 1.3.6以及Spark。这些组件与Hive的配合使用,可以构建一个完整的大数据处理平台,例如,HBase提供NoSQL数据存储,Spark则可以提供高效的实时数据处理能力。 本资源详细讲解了在Linux环境中搭建Hadoop大数据平台的过程,特别是重点介绍了Hive的安装和配置,对于想要学习和实践大数据处理的初学者来说是非常实用的教程。通过这一系列步骤,读者将能够构建起一个具备基本功能的大数据处理环境,进一步学习和实践大数据分析技术。

结合下面hive元数据信息,生成hive建表语句,并且加上comment,注意day是分区 dwd_weibo_crawl NULL appmarket_appinfo GN线应用市场 2021-01-07 15:07:29 apk 应用包名 string day string入库日期 org.apache.hadoop.hive.ql.io.orc.OrcSerde serialization.format 1 hdfs://DSbigdata/hiveDW/dwd_exten_crawl/appmarket_appinfo org.apache.hadoop.hive.ql.io.orc.OrcInputFormat org.apache.hadoop.hive.ql.io.orc.OrcOutputFormat dwd_weibo_crawl NULL appmarket_appinfo GN线应用市场 2021-01-07 15:07:29 app_name 应用名称 string day string 入库日期 org.apache.hadoop.hive.ql.io.orc.OrcSerde serialization.format 1 hdfs://DSbigdata/hiveDW/dwd_exten_crawl/appmarket_appinfo org.apache.hadoop.hive.ql.io.orc.OrcInputFormat org.apache.hadoop.hive.ql.io.orc.OrcOutputFormat dwd_weibo_crawl NULL appmarket_appinfo GN线应用市场 2021-01-07 15:07:29 app_url 平台详情页链接 string day string入库日期 org.apache.hadoop.hive.ql.io.orc.OrcSerde serialization.format 1 hdfs://DSbigdata/hiveDW/dwd_exten_crawl/appmarket_appinfo org.apache.hadoop.hive.ql.io.orc.OrcInputFormat org.apache.hadoop.hive.ql.io.orc.OrcOutputFormat dwd_weibo_crawl NULL appmarket_appinfo GN线应用市场 2021-01-07 15:07:29 cate 应用所属分类 string day string入库日期 org.apache.hadoop.hive.ql.io.orc.OrcSerde serialization.format 1 hdfs://DSbigdata/hiveDW/dwd_exten_crawl/appmarket_appinfo org.apache.hadoop.hive.ql.io.orc.OrcInputFormat org.apache.hadoop.hive.ql.io.orc.OrcOutputFormat dwd_weibo_crawl NULL appmarket_appinfo GN线应用市场 2021-01-07 15:07:29 other 其他 string day string 入库日期 org.apache.hadoop.hive.ql.io.orc.OrcSerde serialization.format 1 hdfs://DSbigdata/hiveDW/dwd_exten_crawl/appmarket_appinfo org.apache.hadoop.hive.ql.io.orc.OrcInputFormat org.apache.hadoop.hive.ql.io.orc.OrcOutputFormat dwd_weibo_crawl NULL appmarket_appinfo GN线应用市场 2021-01-07 15:07:29 region 平台名称 string day stri

2023-06-10 上传

[root@zhaosai ~]# hive Logging initialized using configuration in jar:file:/opt/programs/apache-hive-1.2.2-bin/lib/hive-common-1.2.2.jar!/hive-log4j.properties Exception in thread "main" java.lang.RuntimeException: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient at org.apache.hadoop.hive.ql.session.SessionState.start(SessionState.java:522) at org.apache.hadoop.hive.cli.CliDriver.run(CliDriver.java:677) at org.apache.hadoop.hive.cli.CliDriver.main(CliDriver.java:621) at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62) at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) at java.lang.reflect.Method.invoke(Method.java:498) at org.apache.hadoop.util.RunJar.run(RunJar.java:221) at org.apache.hadoop.util.RunJar.main(RunJar.java:136) Caused by: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient at org.apache.hadoop.hive.metastore.MetaStoreUtils.newInstance(MetaStoreUtils.java:1523) at org.apache.hadoop.hive.metastore.RetryingMetaStoreClient.<init>(RetryingMetaStoreClient.java:86) at org.apache.hadoop.hive.metastore.RetryingMetaStoreClient.getProxy(RetryingMetaStoreClient.java:132) at org.apache.hadoop.hive.metastore.RetryingMetaStoreClient.getProxy(RetryingMetaStoreClient.java:104) at org.apache.hadoop.hive.ql.metadata.Hive.createMetaStoreClient(Hive.java:3005) at org.apache.hadoop.hive.ql.metadata.Hive.getMSC(Hive.java:3024) at org.apache.hadoop.hive.ql.session.SessionState.start(SessionState.java:503) ... 8 more Caused by: java.lang.reflect.InvocationTargetException at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method) at sun.reflect.NativeConstructorAccessorImpl.newInstance(NativeConstructorAccessorImpl.java:62) at sun.reflect.DelegatingConstructorAccessorImpl.newInstance(DelegatingConstructorAccessorImpl.java:45) at java.lang.reflect.Constructor.newInstance(Constructor.java:423) at org.apache.hadoop.hive.metastore.MetaStoreUtils.newInstance(MetaStoreUtils.java:1521) ... 14 more Caused by: javax.jdo.JDOFatalInternalException: Error creating transactional connection factory NestedThrowables:

2023-06-09 上传