个人离线数仓搭建教程：JDK与Hadoop伪分布式配置

需积分: 9 33 浏览量更新于2024-06-30 1 收藏 514KB DOCX 举报

"这篇文档是关于如何在个人环境中搭建简易版的离线数仓，采用的是伪分布式的方式，适用于个人学习使用。主要内容包括JDK和Hadoop的安装与配置。" 在搭建离线数仓的过程中，首先需要安装Java Development Kit (JDK)。在这个过程中，用户需要下载JDK的安装包并将其解压缩到指定的"modules"目录下。通过使用`tar –xzvf`命令可以完成解压缩，并使用`mv`命令重命名解压缩后的文件。接着，需要配置环境变量，打开`.bashrc`文件，添加`JAVA_HOME`和`PATH`的路径。完成编辑后，通过运行`source .bashrc`使配置生效，并通过`java -version`命令验证JDK是否安装成功。接下来是Hadoop的安装。同样，用户需要下载Hadoop的安装包，解压缩到"modules"目录，并进行重命名。之后，需要配置Hadoop的环境变量，同样在`.bashrc`文件中添加`HADOOP_HOME`和扩展`PATH`。执行`source .bashrc`后，配置生效。在Hadoop的配置阶段，有两个重要的文件需要关注： 1. **Slaves**文件：在伪分布式环境中，由于只有一个节点，所以只需写入当前节点的主机名。在完全分布式环境中，这里会列出所有从节点的主机名。 2. **core-site.xml**文件：这是Hadoop的核心配置文件，主要设置了以下内容： - 文件系统默认使用HDFS。 - 指定临时数据的存储位置。 - 缓冲区大小，可以根据服务器性能调整。 - 启用HDFS的垃圾桶功能，允许在一定时间内恢复被删除的数据。除了core-site.xml，Hadoop还有其他关键配置文件，例如`hdfs-site.xml`用于配置HDFS参数，`mapred-site.xml`用于MapReduce框架的设置，以及`yarn-site.xml`用于YARN资源管理器的配置。在伪分布式环境中，这些配置文件需要根据个人需求进行适当调整，以满足单机模拟多节点的工作方式。在搭建完成后，用户可以通过Hadoop的命令行工具进行基本操作，如启动HDFS和MapReduce服务，查看集群状态，上传和读取数据等。这对于学习和理解Hadoop的运作原理非常有帮助。虽然这个过程可能对于初学者来说有些复杂，但一旦成功搭建，就能在个人环境中进行离线数据分析和处理，对于提升技能和实践经验非常有价值。

13. See the License for the specific language governing permissions and

14. limitations under the License. See accompanying LICENSE file.

15. -->

16.

17.

18.

19. <configuration>

20.

21. <property>

22. <name>dfs.namenode.secondary.http-address</name>

23. <value>node150:9001</value>

24. </property>

25.

26. <!-- 文件的副本数，一份文件保存多少份,因为是伪分布式所以一个副本，如果是完全分布式，

推荐选择 3 个副本 -->

27. <property>

28. <name>dfs.replication</name>

29. <value>1</value>

30. </property>

31.

32. <!-- NameNode 数据的存放地点。也就是 namenode 元数据存放的地方，记录了 hdfs 系统中文

件的元数据-->

33. <property>

34. <name>dfs.namenode.name.dir</name>

35. <value>/root/modules/hadoop/dfs/name</value>

36. </property>

37.

38.

39. <property>

40. <name>dfs.datanode.data.dir</name>

41. <value>/root/modules/hadoop/dfs/data</value>

42. </property>

43.

44.

45. <property>

46. <name>dfs.namenode.checkpoint.dir</name>

47. <value>/root/modules/hadoop/dfs/secondaryName</value>

48. </property>

49.

50. </configuration>

mapred-site.xml

1. <?xml version="1.0"?>

剩余24页未读，继续阅读

火火埋头干活

粉丝: 10
资源: 1

个人离线数仓搭建教程：JDK与Hadoop伪分布式配置

Hadoop2.0.0伪分布式搭建

离线数仓安装包.rar

hadoop2.4.1伪分布式搭建

hadoop2.2.0伪分布式搭建

【Hadoop离线基础总结】CDH版本Hadoop 伪分布式环境搭建

基于Sqoop+Hive+Spark+MySQL+AirFlow+Grafana的工业大数据离线数仓项目

hadoop伪分布式搭建.docx

Hadoop 伪分布式搭建-附件资源

hadoop伪分布式搭建centos6.5+hadoop2.7

大数据项目线上问诊离线数仓教程完整体系

最新资源