一站式Hadoop环境配置包下载与安装指南

需积分: 9 2 下载量 104 浏览量 更新于2024-09-03 收藏 71B TXT 举报
在本文档中,我们提供了关于在Linux系统上安装Hadoop的一整套资源,包括与Hadoop生态相关的几个关键组件,以便用户能够构建一个高效的大数据处理平台。以下是详细的知识点: 1. **MySQL 8.0.19**: 这是数据库管理系统(DBMS)的安装包,版本为8.0.19。在大数据环境中,MySQL经常被用于存储元数据,如Hive元数据仓库,或者作为NoSQL数据库解决方案。安装并配置MySQL有助于支持Hadoop的数据处理流程。 2. **Apache Hive 2.0.0**: Hive是一个基于Hadoop的数据仓库工具,它将SQL查询翻译成MapReduce任务。这个版本的Hive二进制安装包包含了客户端和服务端组件,可以方便地与Hadoop集成,进行结构化数据的查询和分析。 3. **Spark 2.4.5**: Spark是另一种重要的大数据处理框架,特别适合实时数据处理和机器学习任务。此版本的Spark针对Hadoop 2.7进行了优化,提供了高性能的分布式计算能力,可与Hadoop生态系统无缝协作。 4. **HBase 1.2.1**: HBase是Hadoop的一个开源列式存储数据库,设计用于存储大规模的结构化或半结构化数据。它与Hadoop MapReduce和HDFS紧密集成,适用于高吞吐量、随机读写场景。 5. **Hadoop 2.7.1**: 最为核心的部分,这是Apache Hadoop的主版本,包含Hadoop Distributed File System (HDFS)、MapReduce计算框架等组件。这个版本支持大数据的分布式存储和计算,是整个集群的基础。 6. **JDK 8u162**: Java Development Kit (JDK) 是Java编程语言的标准实现,Hadoop依赖于Java来运行其应用程序。这个版本的JDK对于Hadoop的安装至关重要,因为它提供了Java环境和运行时库。 为了安装这些组件,你需要下载提供的链接中的tar.gz文件,例如`mysql-8.0.19-1.el7.x86_64.rpm-bundle.tar`、`apache-hive-2.0.0-bin.tar.gz`等,并按照文档指导进行解压和配置。在安装过程中,确保所有版本之间的兼容性,并根据实际需求调整配置参数,如设置正确的Hadoop配置文件(如core-site.xml和hdfs-site.xml),以及可能的数据路径和日志设置。 安装完成后,你需要测试每个组件是否正常工作,包括Hadoop的HDFS和YARN服务,以及Hive和Spark的查询能力。这一步也涉及到安装和配置Hadoop的客户端工具,如Hadoop的命令行工具和Hive的Shell。 这份资源包为在Linux环境下搭建一个完整的Hadoop生态系统提供了必要的组件,对于希望从事大数据处理或数据分析的用户来说,这是一个宝贵的基础资源。

INFO [upload-pool-47] c.e.d.j.DataUnitService.DataUnitService#tohiveWy[DataUnitService.java:172] /u01/tarsftp//2023070719592612007140001.txt.gz解压>>>>>>/u01/untarsftp/ 2023-07-07 20:11:54,787 WARN [Thread-4655234] o.a.h.h.DFSClient.DFSOutputStream$DataStreamer#run[DFSOutputStream.java:558] DataStreamer Exception org.apache.hadoop.ipc.RemoteException: File /dataunit/cu_access_log/10/2023070719592612007140001.txt could only be written to 0 of the 1 minReplication nodes. There are 11 datanode(s) running and no node(s) are excluded in this o peration. at org.apache.hadoop.hdfs.server.blockmanagement.BlockManager.chooseTarget4NewBlock(BlockManager.java:2121) at org.apache.hadoop.hdfs.server.namenode.FSDirWriteFileOp.chooseTargetForNewBlock(FSDirWriteFileOp.java:286) at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.getAdditionalBlock(FSNamesystem.java:2706) at org.apache.hadoop.hdfs.server.namenode.NameNodeRpcServer.addBlock(NameNodeRpcServer.java:875) at org.apache.hadoop.hdfs.protocolPB.ClientNamenodeProtocolServerSideTranslatorPB.addBlock(ClientNamenodeProtocolServerSideTranslatorPB.java:561) at org.apache.hadoop.hdfs.protocol.proto.ClientNamenodeProtocolProtos$ClientNamenodeProtocol$2.callBlockingMethod(ClientNamenodeProtocolProtos.java) at org.apache.hadoop.ipc.ProtobufRpcEngine$Server$ProtoBufRpcInvoker.call(ProtobufRpcEngine.java:524) at org.apache.hadoop.ipc.RPC$Server.call(RPC.java:1025) at org.apache.hadoop.ipc.Server$RpcCall.run(Server.java:876) at org.apache.hadoop.ipc.Server$RpcCall.run(Server.java:822) at java.security.AccessController.doPrivileged(Native Method) at javax.security.auth.Subject.doAs(Subject.java:422) at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1730) at org.apache.hadoop.ipc.Server$Handler.run(Server.java:2682)

2023-07-13 上传