DataHubble配置详解：从Zookeeper到Hive全面指南

需积分: 0 74 浏览量更新于2024-08-05 收藏 707KB PDF 举报

本篇文档详细介绍了在Linux Ubuntu 18.04环境下配置和安装一系列IT组件的步骤，以便于智能向导系统的搭建。以下是主要内容概要： 1. **Hadoop 配置**： - JobHistory服务器端口：Hadoop的jobhistory服务运行在10020端口，web界面通过19888端口访问。 - ZooKeeper设置：在Zookeeper文件夹下创建Zookeeper服务，这是Hadoop分布式系统中的一个重要组件，用于存储集群元数据。 2. **Java 1.8 安装**： - 必须安装Java 1.8版本，作为许多大数据处理框架的基础。 - 安装过程包括从官网下载安装包、解压、编辑环境变量，并通过javac和java-version验证安装。 3. **MySQL 5.7 安装**： - 在Ubuntu系统上更换默认的软件源后，安装MySQL 5.7，这对于数据库管理至关重要。 - 文档提供了一个参考链接，指导用户如何替换软件源和执行安装。 4. **Spark 2.4.5 和 HBase 配置**： - 除了Hadoop，还涉及Spark和HBase的配置，这两个都是大数据处理和NoSQL数据库技术，用于实时数据分析和存储。 5. **Hive 3.1.2 配置**： - Hive是Hadoop生态系统中的数据仓库工具，用于查询和管理大量数据。 6. **Kylin 2.6.6.4 配置**： - Kylin是一款OLAP引擎，用于快速分析大规模数据。 - 文档涵盖环境配置和如何使用Kylin构建数据立方体，以及可能遇到的问题解决方法。 7. **Anaconda 2.5.0.0 和 Python 3.6 配置**： - Anaconda提供了Python的数据科学库集合，包括NumPy、Pandas等，对数据处理非常有用。 - 文档说明如何配置Python 3.6，以支持数据处理和机器学习应用。 8. **可视化推荐部署**： - 文档涉及系统的可视化展示和推荐功能的部署流程。 9. **后端和前端部署**： - 详细介绍了后端和前端应用的部署策略，确保系统的完整功能实现。 10. **列推荐配置**： - 专为特定业务场景设计的列推荐配置，优化数据展示和推荐结果。 11. **虚拟化**： - 可能涉及到虚拟化技术的使用，以提高资源利用率和系统管理效率。 12. **参考配置**： - 提供了详细的操作系统要求和部分具体操作步骤的参考链接，如Red Hat Enterprise Linux 6的Java 1.8安装教程。总结来说，这篇文档是一份全面且详尽的配置指南，涵盖了从基础的Java和MySQL安装到高级的大数据处理工具和数据分析平台的配置，旨在帮助读者构建一个功能强大的智能向导系统。

三、配置 hadoop 2.9.2 文件

1.在 hadoop/hdfs 文件夹下分别创建 name data tmp 文件夹

2. Hadoop 的 jobhistory 服务器端口为 10020 web 端口为 19888

3.将配置文件中 yarn-site.xml 文件的 name 为

yarn.nodemanager.aux-services.spark_shuffle.class 的 property 的 value 改为

org.apache.spark.network.yarn.YarnShuffleService

4. Hadoop 的 web 端口为 50070

5. Hadoop 格式化

hadoop namenode -format

四、配置 spark 2.4.5 文件

1. Spark 的 web 端口为 8080

2.在 spark 文件夹下创建/data/work 文件夹和 /data/log 文件夹

五、配置 zookeeper 3.4.14 文件

1.在 zookeeper 文件夹下创建 zookeeper/data 文件夹

并在 data 文件夹下创建 log 文件夹

2.zookeeper 的用户端口定义为 2181

六、配置 hbase 的配置文件

1. 配置文件 hbase-env.sh 中的 HBASE_MANAGES_ZK 的值改为 false

即 HBASE_MANAGES_ZK=false

2. hbase 在 hdfs 中的路径为 /hbase

剩余13页未读，继续阅读

网络小精灵

粉丝: 36
资源: 334

DataHubble配置详解：从Zookeeper到Hive全面指南

DataHubble-Bench多表和宽表数据生成文档1

基于FAST平台的数据探索工具DataHubble设计源码

DataHubble-Bench:多表宽表数据生成与融合详解

1基于蓝牙的项目开发--蓝牙温度监测器.docx

AppDynamics：性能瓶颈识别与优化.docx

percona-xtrabackup-2.4.28-1.ky10.x86-64.rpm

2024年全球产品经理大会（脱敏）PPT合集（34份）.zip

基于物联网技术的停车场智能管理系统设计用户有单独APP

Adobe XD：AdobeXD高级技巧与最佳实践.docx

ARKit（iOS的增强现实）：ARKit的多人AR场景实现.docx

最新资源