hadoop伪分布式搭建

伪分布式搭建 Hadoop 可以在一台机器上运行 Hadoop，但是每个组件都运行在不同的端口上，以模拟一个多节点的分布式环境。下面是伪分布式 Hadoop 的搭建步骤： 1. 安装 Java Hadoop 是用 Java 编写的，需要先安装 Java。可以通过命令 `java -version` 查看是否已经安装 Java。如果没有，可以通过以下命令安装： ``` sudo apt-get update sudo apt-get install openjdk-8-jdk ``` 2. 安装 Hadoop 下载 Hadoop 并解压缩： ``` wget https://downloads.apache.org/hadoop/common/hadoop-3.3.1/hadoop-3.3.1.tar.gz tar -xzvf hadoop-3.3.1.tar.gz ``` 将 Hadoop 移动到 `/usr/local` 目录下： ``` sudo mv hadoop-3.3.1 /usr/local/hadoop ``` 3. 配置 Hadoop 进入 Hadoop 的配置目录： ``` cd /usr/local/hadoop/etc/hadoop ``` 配置 Hadoop 的环境变量，在 `hadoop-env.sh` 文件中添加以下代码： ``` export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64 export HADOOP_HOME=/usr/local/hadoop export PATH=$PATH:$HADOOP_HOME/bin ``` 配置 Hadoop 的核心配置文件 `core-site.xml`，在 `configuration` 标签中添加以下内容： ``` <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </property> ``` 配置 Hadoop 的 HDFS 文件系统，创建 `hdfs-site.xml` 文件并添加以下内容： ``` <property> <name>dfs.replication</name> <value>1</value> </property> ``` 配置 Hadoop 的 YARN 资源管理系统，创建 `yarn-site.xml` 文件并添加以下内容： ``` <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <property> <name>yarn.nodemanager.auxservices.mapreduce.shuffle.class</name> <value>org.apache.hadoop.mapred.ShuffleHandler</value> </property> ``` 配置 Hadoop 的 MapReduce 分布式计算框架，创建 `mapred-site.xml` 文件并添加以下内容： ``` <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> ``` 4. 启动 Hadoop 格式化 HDFS 文件系统： ``` hdfs namenode -format ``` 启动 Hadoop： ``` start-all.sh ``` 查看 Hadoop 是否成功启动： ``` jps ``` 如果成功启动，会看到以下进程： ``` 2325 Jps 2114 ResourceManager 1937 DataNode 2022 NodeManager 1825 NameNode 2185 JobHistoryServer ``` 现在，就可以通过浏览器访问 Hadoop 的 Web 界面了，地址为 `http://localhost:9870`。 5. 执行 MapReduce 任务在 Hadoop 的安装目录下创建一个输入文件： ``` echo "Hello World" > input.txt ``` 将该文件上传到 HDFS 文件系统中： ``` hdfs dfs -put input.txt /input ``` 在 Hadoop 的安装目录下创建一个 MapReduce 程序： ``` mkdir wordcount cd wordcount ``` 创建一个名为 `WordCount.java` 的文件，并添加以下代码： ```java import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Job; import org.apache.hadoop.mapreduce.Mapper; import org.apache.hadoop.mapreduce.Reducer; import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; public class WordCount { public static class TokenizerMapper extends Mapper<Object, Text, Text, IntWritable>{ private final static IntWritable one = new IntWritable(1); private Text word = new Text(); public void map(Object key, Text value, Context context ) throws IOException, InterruptedException { StringTokenizer itr = new StringTokenizer(value.toString()); while (itr.hasMoreTokens()) { word.set(itr.nextToken()); context.write(word, one); } } } public static class IntSumReducer extends Reducer<Text,IntWritable,Text,IntWritable> { private IntWritable result = new IntWritable(); public void reduce(Text key, Iterable<IntWritable> values, Context context ) throws IOException, InterruptedException { int sum = 0; for (IntWritable val : values) { sum += val.get(); } result.set(sum); context.write(key, result); } } public static void main(String[] args) throws Exception { Configuration conf = new Configuration(); Job job = Job.getInstance(conf, "word count"); job.setJarByClass(WordCount.class); job.setMapperClass(TokenizerMapper.class); job.setCombinerClass(IntSumReducer.class); job.setReducerClass(IntSumReducer.class); job.setOutputKeyClass(Text.class); job.setOutputValueClass(IntWritable.class); FileInputFormat.addInputPath(job, new Path("hdfs://localhost:9000/input/")); FileOutputFormat.setOutputPath(job, new Path("hdfs://localhost:9000/output/")); System.exit(job.waitForCompletion(true) ? 0 : 1); } } ``` 编译这个程序： ``` export HADOOP_CLASSPATH=$(hadoop classpath) javac -classpath ${HADOOP_CLASSPATH} -d . WordCount.java ``` 打包这个程序： ``` jar cf wc.jar WordCount*.class ``` 执行这个程序： ``` hadoop jar wc.jar WordCount /input /output ``` 查看输出结果： ``` hdfs dfs -cat /output/* ``` 以上就是伪分布式 Hadoop 的搭建和运行 MapReduce 任务的步骤。

hadoop伪分布式搭建

相关推荐

hadoop伪分布式搭建.doc

hadoop伪分布式搭建.docx

大数据 Hadoop 伪分布式搭建

HDFS：Hadoop分布式文件系统的详解

如何使用Hadoop实现数据的分布式处理

Hadoop基础架构解析与全分布式集群概述

hadoop伪分布式搭建ubuntu

hadoop伪分布式搭建详细步骤

hadoop伪分布式搭建全过程

hadoop伪分布式搭建centos

hadoop伪分布式搭建cetos7

hadoop伪分布式搭建没有namenode

hadoop伪分布式搭建centos7

hadoop伪分布式环境搭建

搭建hadoop伪分布式环境

linux搭建hadoop伪分布式

hadoop系统伪分布式搭建

ubuntu搭建hadoop伪分布式

hadoop伪分布式环境搭建要怎么做

最新推荐

Hadoop单节点伪分布式搭建中文版

Hadoop的单机伪分布式搭建和运行第一个WordCount程序

Windows7下eclipse调试Fedora虚拟机的hadoop+hbase伪分布式

行政数据分析看板8.xlsx

自动驾驶运动规划(Motion Planning).pdf

RTL8188FU-Linux-v5.7.4.2-36687.20200602.tar(20765).gz

管理建模和仿真的文件

：YOLO目标检测算法的挑战与机遇：数据质量、计算资源与算法优化，探索未来发展方向

c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf