精通Hadoop：构建分布式应用程序指南

5星 · 超过95%的资源需积分: 10 17 浏览量更新于2024-07-28 1 收藏 618KB PDF 举报

"精通Hadoop.pdf" 本书旨在帮助读者深入理解并精通Apache Hadoop技术，它是一种用于处理和存储大量数据的开源框架。Hadoop的核心是MapReduce编程模型和Hadoop分布式文件系统（HDFS），两者共同构建了一个能够在云计算环境中运行可扩展的分布式应用程序的平台。 1. 初识Hadoop Hadoop的诞生是为了应对大数据处理的需求，传统单机解决方案往往无法满足大规模数据的存储和计算。MapReduce模型是Hadoop的核心，它将大型任务拆分为小的Map任务和Reduce任务，分别在集群中的不同节点上并行处理，从而实现了高度分布式的数据处理能力。Hadoop的分布式文件系统（HDFS）则提供高容错性和高吞吐量的数据存储，即使硬件出现故障，也能保证数据的可靠性和可用性。 2. MapReduce任务的基础知识 Hadoop MapReduce作业由输入、Map阶段、Shuffle与Sort阶段、Reduce阶段和输出组成。输入被分割成多个块，每个块由一个或多个Map任务处理。IdentityMapper和IdentityReducer是两个基本示例，前者将输入键值对原样传递，后者则将Map的输出直接作为Reduce的输入，不做任何改变。配置作业涉及指定输入格式、设置输出参数以及配置Reduce阶段的具体行为。 3. 安装与运行Hadoop 安装Hadoop前需确保满足前提条件，例如Java环境和合适的硬件配置。安装过程包括下载Hadoop发行版、配置环境变量和集群配置文件。安装完成后，通过运行Hadoop自带的样例程序进行测试，以确保环境正确配置无误。 4. 创建定制的Mapper和Reducer 为了实现特定的处理逻辑，可以编写自定义的Mapper和Reducer类，这些类通常继承自MapReduceBase。Mapper处理输入数据，Reducer聚合Mapper的输出。理解如何创建和集成这些类是掌握Hadoop的关键。 5. 解决问题与总结在Hadoop开发过程中，遇到问题时，需要具备调试和解决故障的能力。书中提供了相关的故障排查指南。最后的总结部分回顾了主要概念和技术，帮助读者巩固所学知识。通过本书的学习，读者将能够熟练掌握Hadoop的原理和实践，从而有效地处理大规模数据集，构建高效的分布式应用。

ec into your running shell sessions" ho "paste the following two lines

echo export JAVA_HOME=${JAVA_HOME}

echo export PATH='${JAVA_HOME}'/bin:'${PATH}'

执行上面列表 1-1 的脚本，你就会找到 JDK 的安装目录，然后，更新你的环境变

，使这个安装的 JDK 能够被你的 Hadoop 程序所使用。

量

update_env.sh "FULL_PATH_TO_DOWNLOADED_JDK"

./update_env.sh ~/Download/jdk-6u7-linux-i586-rpm.bin

The setting for the JAVA_HOME environment variable is /usr/java/jdk1.6.0_07

update the user's .bashrc if they have one with the setting

➥

for JAVA_HOME and the PATH.

Updating the ~/.bashrc file with the java environment variables

update the user's .bash_profile if they have one with the setting

➥

for JAVA_HOME and the PATH.

Updating the ~/.bash_profile file with the java environment variables

paste the following two lines into your running shell sessions

export JAVA_HOME=/usr/java/jdk1.6.0_07

export PATH=${JAVA_HOME}/bin:${PATH}

1.3.1.2 ：方法和常见问题

ygwin 环境(你能

够从 http://sources.redhat.com/cywin 下载 Cygwin)。

Bash Shell 脚本。你需要在 JDK 安装目

和~/Java 所在的目录下建立一个符号链接，这样，当你执行 cd ~/java 的时候，目录就会改

变到

在Windows下安装Hadoop

为了在 Windows 操作系统上使用 Hadoop, 你需要先安装 Sun JDK 和 C

通过点击图标 1-3 所示的图标开始运行 Cygwin

录

JDK 的安装目录。因此，JAVA_HOME 目录应该设置为 JAVA_HOME=~/java。这样你

的进程会根据进程的环境变量找到你的 java 可执行程序，例如，Hadoop 需要找到 Java 安装

目录去执行相应的任务。

图表 1-3 Cygwin Bash Shell 图标

如果 JAVA_HOME 环境变量指向的路径包含空格，bin/hadoop 脚本就不能正常执行。通

常情况下我们在 C:\Program Files\java\jdkRELEASE_VERSION 下安装 JDK。如果我们做一

个符号链接，然后，把 JAVA_HOME 指向到这个符号链接, bin/hadoop 就会正常工作。我通

常这样设置我的 Cygwin 安装目录，

$echo $JAVA_HOME

/home/Jason/jdk1.6.0_12

$ls –l /home/Jason/jdk1.6.0_12

lrwxrwxrwx 1 Jason None 43 Mar 20 16:32 /home/Jason/jdk1.6.0_12

➥

 /cygdrive/c/Program Files/Java/jdk1.6.0_12/

Cygwin 映射 Windows 磁盘字符到/cygdrive/X，X 是磁盘的盘符。此外，Cygwin 路径的

分隔符是“/”，而 Windows 的路径分隔符是“\”。

当你执行 bin/hadoop 脚本的时候，你必须记得你的文件有两套路径，bin/haoop 脚本和所

有的 Cygwin 实用程序使用 Windows 文件系统的一个子系统的路径。这个子系统把 Windows

磁盘映射到/cygdrive 目录下。然而，Windows 程序看见传统的 C:\文件系统。以/tmp 为例，

在一个标准的 Cygwin 安装里，/tmp 也是 C:\cywin\tmp 目录。Java 将要转换/tmp 作为 C:\tmp，

他们是一个完全不同的目录。如果你从 Cygwin 里启动 Windows 应用程序，并且出现文件没

有找到错误，那么，通常情况下是这个应用程序（例如，Java 可执行程序）在一个错误的路

径下查找文件。

请注意，你可能会需要在你的系统中对 Cygwin 的安装路径有所改变。这根据 Sun JDK

的安装和 Windows 的安装环境的不同而有所不同。特别是用户名可能不是 Jason，JDK 版本

也可能不是 1.6.0_12, 而且 JDK 安装位置可能也不是 C:\Program Files\Java。

1.3.2 安装Hadoop

当你安装了 Linux 操作系统或者带有 Cygwin 的 Windows 操作系统，下一步你应该下载

和安装 Hadoop。

打开Hadoop下载网址http://www.apache.org/dyn/closer.cgi/hadoop/core/

。在这个网址上找

到你选择的tar.gz文件包，相信你还记得我在前一小节Hadoop介绍中所说的那个文件，然后

下载它。

剩余67页未读，继续阅读

xinhua1232

粉丝: 0
资源: 1

精通Hadoop：构建分布式应用程序指南

hadoop从入门到精通课件pdf

hadoop入门教程.pdf

[网盘]SQL Server从入门到精通.pdf.2018_03_17

HIVE从入门到精通.pdf

大数据云计算技术系列 Hadoop之Hbase从入门到精通（共243页）.pdf

Hive从入门到精通资源.zip

Hadoop之Hbase从入门到精通 .doc

XXX简历.pdf

Hadoop2.x企业级实战：从入门到精通

精通Hadoop：构建分布式应用程序指南

最新资源