精通Hadoop：构建分布式应用程序

需积分: 0 170 浏览量更新于2024-07-01 收藏 937KB PDF 举报

"精通HADOOP1" 本书深入介绍了如何在云环境中利用Hadoop构建可扩展的分布式应用程序。Hadoop是大数据处理领域的基石，它提供了一个分布式文件系统和MapReduce编程模型，使得处理大规模数据变得可能。 1. 初识Hadoop 单个机器的计算能力往往无法满足大规模数据处理的需求，而升级硬件则成本高昂。Hadoop作为解决方案，通过构建集群来模拟单一强大计算资源，实现了以较低成本扩展计算能力。它允许企业在有限预算内处理海量数据，而无需购买昂贵的高端硬件。 2. MapReduce模型介绍 MapReduce是一种分布式计算模型，由两个主要阶段组成：Map阶段和Reduce阶段。Map阶段将大任务拆分成小任务并并行处理，Reduce阶段则将Map的结果整合起来。这种模型非常适合于批处理、大数据量的数据分析任务。 3. Hadoop核心：MapReduce与分布式文件系统 - Hadoop的核心是MapReduce，它提供了处理大规模数据集的能力。MapReduce通过拆分数据、并行处理和结果合并来实现高效运算。 - Hadoop的分布式文件系统（HDFS）则是数据存储的基础，它设计为容错性高、可扩展性强，适合于处理大型数据集。 4. 安装Hadoop 安装Hadoop涉及一系列步骤，包括确认前提条件、下载安装包、配置环境变量以及进行必要的系统调整。检查环境是为了确保Hadoop能正确运行，包括网络配置、Java环境以及Hadoop配置文件的设置。 5. 执行和测试Hadoop样例程序安装完成后，通过运行Hadoop自带的样例程序可以验证安装是否成功。这些样例包括WordCount等，它们展示了MapReduce的基本用法，帮助理解框架的工作原理。 6. MAPREDUCE任务基础知识 - 作业的基本构成要素包括输入分割、Mapper和Reducer。输入分割将原始数据切分成适合Map任务的小块，Mapper处理这些块，Reducer则负责汇总Mapper的结果。 - IdentityMapper和IdentityReducer是两个简单的示例，分别演示了如何实现基本的映射和化简操作。 - 配置作业包括指定输入格式、设置输出参数以及配置Reduce阶段，这些是定制MapReduce任务的关键步骤。 7. 创建客户化的Mapper和Reducer 开发者可以创建自己的Mapper和Reducer类以实现特定的数据处理逻辑。继承自MapReduceBase是为了利用框架提供的基础功能，同时还可以使用客户化的分割器来更精确地控制数据处理。 8. 总结本书章节涵盖了Hadoop的基础知识，从认识Hadoop到MapReduce模型的详解，再到实际操作和高级定制，为读者提供了一套完整的Hadoop学习路径。通过学习，读者可以掌握在云环境中构建和管理可扩展的分布式应用程序的技能。

ec into your running shell sessions" ho "paste the following two lines

echo export JAVA_HOME=${JAVA_HOME}

echo export PATH='${JAVA_HOME}'/bin:'${PATH}'

执行上面列表 1-1 的脚本，你就会找到 JDK 的安装目录，然后，更新你的环境变

，使这个安装的 JDK 能够被你的 Hadoop 程序所使用。

量

update_env.sh "FULL_PATH_TO_DOWNLOADED_JDK"

./update_env.sh ~/Download/jdk-6u7-linux-i586-rpm.bin

The setting for the JAVA_HOME environment variable is /usr/java/jdk1.6.0_07

update the user's .bashrc if they have one with the setting

➥

for JAVA_HOME and the PATH.

Updating the ~/.bashrc file with the java environment variables

update the user's .bash_profile if they have one with the setting

➥

for JAVA_HOME and the PATH.

Updating the ~/.bash_profile file with the java environment variables

paste the following two lines into your running shell sessions

export JAVA_HOME=/usr/java/jdk1.6.0_07

export PATH=${JAVA_HOME}/bin:${PATH}

1.3.1.2 ：方法和常见问题

ygwin 环境(你能

够从 http://sources.redhat.com/cywin 下载 Cygwin)。

Bash Shell 脚本。你需要在 JDK 安装目

和~/Java 所在的目录下建立一个符号链接，这样，当你执行 cd ~/java 的时候，目录就会改

变到

在Windows下安装Hadoop

为了在 Windows 操作系统上使用 Hadoop, 你需要先安装 Sun JDK 和 C

通过点击图标 1-3 所示的图标开始运行 Cygwin

录

JDK 的安装目录。因此，JAVA_HOME 目录应该设置为 JAVA_HOME=~/java。这样你

的进程会根据进程的环境变量找到你的 java 可执行程序，例如，Hadoop 需要找到 Java 安装

目录去执行相应的任务。

图表 1-3 Cygwin Bash Shell图标

如果 JAVA_HOME 环境变量指向的路径包含空格，bin/hadoop 脚本就不能正常执行。通

常情况下我们在 C:\Program Files\java\jdkRELEASE_VERSION 下安装 JDK。如果我们做一

个符号链接，然后，把 JAVA_HOME 指向到这个符号链接, bin/hadoop 就会正常工作。我通

常这样设置我的 Cygwin 安装目录，

$echo $JAVA_HOME

/home/Jason/jdk1.6.0_12

$ls –l /home/Jason/jdk1.6.0_12

lrwxrwxrwx 1 Jason None 43 Mar 20 16:32 /home/Jason/jdk1.6.0_12

➥

 /cygdrive/c/Program Files/Java/jdk1.6.0_12/

Cygwin 映射 Windows 磁盘字符到/cygdrive/X，X 是磁盘的盘符。此外，Cygwin 路径的

分隔符是“/”，而 Windows 的路径分隔符是“\”。

当你执行 bin/hadoop 脚本的时候，你必须记得你的文件有两套路径，bin/haoop 脚本和所

有的 Cygwin 实用程序使用 Windows 文件系统的一个子系统的路径。这个子系统把 Windows

磁盘映射到/cygdrive 目录下。然而，Windows 程序看见传统的 C:\文件系统。以/tmp 为例，

在一个标准的 Cygwin 安装里，/tmp 也是 C:\cywin\tmp 目录。Java 将要转换/tmp 作为 C:\tmp，

他们是一个完全不同的目录。如果你从 Cygwin 里启动 Windows 应用程序，并且出现文件没

有找到错误，那么，通常情况下是这个应用程序（例如，Java 可执行程序）在一个错误的路

径下查找文件。

请注意，你可能会需要在你的系统中对 Cygwin 的安装路径有所改变。这根据 Sun JDK

的安装和 Windows 的安装环境的不同而有所不同。特别是用户名可能不是 Jason，JDK 版本

也可能不是 1.6.0_12, 而且 JDK 安装位置可能也不是 C:\Program Files\Java。

1.3.2 安装Hadoop

当你安装了 Linux 操作系统或者带有 Cygwin 的 Windows 操作系统，下一步你应该下载

和安装 Hadoop。

打开Hadoop下载网址http://www.apache.org/dyn/closer.cgi/hadoop/core/

。在这个网址上找

到你选择的tar.gz文件包，相信你还记得我在前一小节Hadoop介绍中所说的那个文件，然后

下载它。

剩余67页未读，继续阅读

三山卡夫卡

粉丝: 26

精通Hadoop：构建分布式应用程序

精通Hadoop：构建分布式应用程序指南

精通Hadoop：构建云中的分布式应用指南

精通 HADOOP.7z

精通Hadoop：MapReduce实战

精通Hadoop MapReduce实战指南

精通Hadoop：分布式编程实战

精通Hadoop集群配置与管理

精通Hadoop：基础与实战

精通Hadoop：构建分布式应用程序

精通Hadoop：分布式编程框架实战

最新资源