大数据工具集合:Hadoop、Hive、Zookeeper与Spark

需积分: 9 0 下载量 184 浏览量 更新于2024-09-03 收藏 67B TXT 举报
该资源集合包含了多个用于搭建和运行大数据处理环境的重要组件,特别是与Hadoop生态系统相关的软件。包括了不同版本的Flume、Hive、ZooKeeper、Java开发工具(JDK)、MySQL数据库连接器以及Spark。此外,还提供了MySQL数据库服务器的安装包。这些组件对于构建分布式数据处理和存储平台至关重要。 Flume 是一个高可用的、分布式的日志聚合工具,用于收集、聚合和移动大量日志数据。在这个资源中,我们看到两个Flume的版本(1.7.0和1.9.0),这可能供用户根据项目需求选择合适的版本。 Hive 是基于Hadoop的数据仓库工具,能够将结构化的数据文件映射为一张数据库表,并提供SQL查询功能。这里提供了三个Hive的版本(2.1.1、2.3.6和1.2.2-bin),这些版本差异可能在于性能优化、新功能支持和错误修复。 Zookeeper 是一个分布式协调服务,它提供了一种简单的方式来管理配置信息,进行名字服务,以及群集管理等任务。版本3.5.6是一个稳定的版本,适合在生产环境中使用。 JDK (Java Development Kit) 是Java编程语言的开发环境,这里提供的是8u77版本,适用于Linux平台。Java是Hadoop和其他大数据处理框架的基础,因此JDK是必不可少的。 MySQL Connector/J 是MySQL数据库的Java驱动程序,使得Java应用程序能够连接到MySQL数据库。这里有两个版本(5.1.36和8.0.18),适应不同MySQL服务器的版本。 Spark 是一个快速、通用且可扩展的大数据处理框架,2.0.0-bin-hadoop2.7版本表明它是与Hadoop 2.7兼容的。 MySQL 数据库服务器的RPM包(5.7.25-1.el7.x86_64.rpm-bundle)适用于Red Hat Enterprise Linux 7系统,用于安装和管理MySQL数据库服务。 这些组件的组合提供了构建一个完整的Hadoop大数据处理环境的基础,包括数据采集(Flume)、数据存储和查询(Hive)、分布式协调(Zookeeper)、计算引擎(Spark)以及数据库连接(JDBC驱动)。同时,JDK作为开发和运行环境的基础,而MySQL则作为可能的数据源或结果存储。提供的百度网盘链接包含了所有这些资源,便于下载和部署。

INFO [upload-pool-47] c.e.d.j.DataUnitService.DataUnitService#tohiveWy[DataUnitService.java:172] /u01/tarsftp//2023070719592612007140001.txt.gz解压>>>>>>/u01/untarsftp/ 2023-07-07 20:11:54,787 WARN [Thread-4655234] o.a.h.h.DFSClient.DFSOutputStream$DataStreamer#run[DFSOutputStream.java:558] DataStreamer Exception org.apache.hadoop.ipc.RemoteException: File /dataunit/cu_access_log/10/2023070719592612007140001.txt could only be written to 0 of the 1 minReplication nodes. There are 11 datanode(s) running and no node(s) are excluded in this o peration. at org.apache.hadoop.hdfs.server.blockmanagement.BlockManager.chooseTarget4NewBlock(BlockManager.java:2121) at org.apache.hadoop.hdfs.server.namenode.FSDirWriteFileOp.chooseTargetForNewBlock(FSDirWriteFileOp.java:286) at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.getAdditionalBlock(FSNamesystem.java:2706) at org.apache.hadoop.hdfs.server.namenode.NameNodeRpcServer.addBlock(NameNodeRpcServer.java:875) at org.apache.hadoop.hdfs.protocolPB.ClientNamenodeProtocolServerSideTranslatorPB.addBlock(ClientNamenodeProtocolServerSideTranslatorPB.java:561) at org.apache.hadoop.hdfs.protocol.proto.ClientNamenodeProtocolProtos$ClientNamenodeProtocol$2.callBlockingMethod(ClientNamenodeProtocolProtos.java) at org.apache.hadoop.ipc.ProtobufRpcEngine$Server$ProtoBufRpcInvoker.call(ProtobufRpcEngine.java:524) at org.apache.hadoop.ipc.RPC$Server.call(RPC.java:1025) at org.apache.hadoop.ipc.Server$RpcCall.run(Server.java:876) at org.apache.hadoop.ipc.Server$RpcCall.run(Server.java:822) at java.security.AccessController.doPrivileged(Native Method) at javax.security.auth.Subject.doAs(Subject.java:422) at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1730) at org.apache.hadoop.ipc.Server$Handler.run(Server.java:2682)

2023-07-13 上传