四种方法：Java命令执行Hadoop.jar包的编译与运行详解

下载需积分: 35 | PDF格式 | 525KB | 更新于2024-08-09 | 12 浏览量 | 举报

本篇文章主要介绍了在Java环境下编译和运行Hadoop程序的四种方法，以实现基础的MapReduce任务和HDFS操作。文章首先强调了项目的目录结构和文件组织，这些是理解和执行后续步骤的关键。 1. 编译: 使用`javac`命令对源代码进行编译。命令中的`-cp`选项用于指定类路径，包括Hadoop核心库（如hadoop-core-1.2.1.jar）、 Commons-Logging 和 Commons-CLI 库。通过`-d`参数，将编译后的.class文件保存到指定目录（./classes/）。 2. 打包: 使用`jar`命令创建可执行的jar文件。`-cvf`表示创建归档文件，并将指定目录（./classes/）下的所有内容添加到jar中，最终文件名为newpiest.jar。 3. 运行: Hadoop程序的运行需要通过Hadoop的bin目录下的`hadoop jar`命令，这个命令会执行jar包中的main类（如com.brianchen.hadoop.NewPiEst）。运行时指定了两个参数，第一个参数是jar文件的路径，第二个和第三个参数则传递给程序的具体任务（在这里是MapReduce任务的输入范围）。 4. 实践应用: 文章详细讲解了词频统计、MapReduce的简单和最简形式示例，以及HDFS的基本操作，如文件复制、删除和读取。这些例子有助于读者理解Hadoop的分布式计算模型和文件系统的工作原理。例如，文件复制通过编写Java程序（如FileCopy.java）实现，而查看结果通常涉及使用Hadoop的命令行工具或通过程序设计来展示统计结果。这篇文章提供了从头开始学习Hadoop编程的实用指导，不仅介绍了基本的开发流程，还深入浅出地展示了如何在实际项目中操作Hadoop，对于想要入门Hadoop的读者来说是一份宝贵的参考资料。通过这些步骤，读者可以掌握如何利用Hadoop进行大数据处理和分布式文件系统管理。