Hadoop Streaming 中文指南

4星 · 超过85%的资源需积分: 10 133 浏览量更新于2024-09-15 收藏 172KB PDF 举报

"Hadoop Streaming 官方中文文档" Hadoop Streaming 是一个 Hadoop 的实用工具，它允许用户使用可执行的脚本或程序（如 Unix 的标准输入/输出）作为 Map 和 Reduce 操作的输入和输出。这个工具使得非 Java 语言的开发者也能方便地利用 Hadoop 分布式计算框架进行大数据处理。以下是对 Hadoop Streaming 的详细介绍： 1. **工作原理** Hadoop Streaming 的核心思想是通过标准输入和输出进行数据交互。Map 阶段，系统将输入数据行分发到各个 Map 节点，每个 Map 进程读取标准输入，处理后将结果写入标准输出。Reduce 阶段，Map 的输出作为 Reduce 进程的标准输入，经过处理后，Reduce 进程再将结果写入标准输出。 2. **数据格式** 在 Hadoop Streaming 中，数据通常以键值对的形式传递。Map 和 Reduce 之间的数据交换是以行为基础的，每行由键和值组成，用制表符分隔，键值对后面可能跟有一个空行。例如，`key\tvalue\n`。 3. **脚本语言支持** Hadoop Streaming 支持任何可以读写标准输入/输出的程序，包括 Python、Perl、Ruby 等。用户可以编写这些脚本来实现自定义的 Map 和 Reduce 函数。 4. **配置参数** 使用 Hadoop Streaming 需要设置一些参数，比如指定 Map 和 Reduce 任务使用的可执行文件、命令行参数等。这些可以通过 Hadoop 的 JobConf 对象来设置。 5. **错误处理** 如果 Map 或 Reduce 任务出现错误，Hadoop Streaming 会捕获其标准错误输出，并将其作为日志保存，以便于调试。 6. **性能优化** 为了提高效率，可以使用 combiner 函数来减少数据传输量。Combiner 类似于一个本地的 Reduce，它在 Map 任务完成后，对本地 Map 输出进行一次初步的聚合，减少了网络传输的数据量。 7. **并行度控制** 用户可以通过设置 mapred.map.tasks 和 mapred.reduce.tasks 参数来控制 Map 和 Reduce 任务的并发度，以优化集群资源的利用率。 8. **输入和输出格式** Hadoop Streaming 支持多种输入和输出格式，包括 TextInputFormat 和 TextOutputFormat。用户也可以自定义输入输出格式来处理特定类型的数据。 9. **错误检查** Hadoop Streaming 提供了检查点功能，以确保 Map 和 Reduce 任务的正确性。如果某个任务失败，Hadoop 可以从最近的检查点恢复。 10. **日志与调试** 通过设置 log4j.properties 文件，可以控制 Hadoop Streaming 的日志级别，便于在开发和调试过程中获取必要的信息。 11. **与其他工具集成** Hadoop Streaming 可以与 Pig、Hive 等其他大数据处理工具结合使用，提供更丰富的数据分析能力。 Hadoop Streaming 是一个强大且灵活的大数据处理工具，它极大地扩展了 Hadoop 生态系统的适用范围，让非 Java 开发者也能参与到大数据处理的行列中来。通过熟练掌握 Hadoop Streaming，用户能够构建自己的数据处理管道，高效地处理海量数据。

,  

 dÎ"STÏ] ÐÑÒ)ÓÔÕ7|HSWÖ×"

NQ_#] ØÙÖ×"NQ_#ÎÚSÙ¬HÛÜÝ

ÛÞQ_¸Aß

$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/hadoop-streaming.jar \

-input myInputDirs \

-output myOutputDir \

-mapper /bin/cat \

-reducer /bin/wc

, 

àá"AB]7Q_âÎ¬H]Ðãäåæ¼½ç½?èXSH

SHçe] éÊêëìíåæ¼Â¸ÏÔÕST/NîQ_#

] éÐìïígð"ñò]ó®ôõØT#"öT¬H÷Ç¸

ST¬Hø)n]ùúûü®] STéØ

T¬H0STý~"þÇÿĀ¸ |H®]Ðé¼½FGKHé

SH āí¬HþÇ"åæ¼½¸ ó®]Ăñ¬HþÇåæ¼

Â"ăĄ]éĂ"SHăĄąüKĆMN¶PQR]0"¼Â¸ ćĈĉ

Ċċ]SH$ČSTač"ĎG0ĆM]"XďĐae0¶PQ¸ 

đĒa]öH0ĆMē]¶PQē0QPP¸ď÷]Ø2Ĕ]ċ$ĕĖ

C2DĆM7¶PQ"FGEª¸

ST¬Hø)nQ_]TQ_éØT¬H0ST

ý~"þÇÿĀ¸ îQ_|H®]Ðé¼½FGKHéSH āí¬H

þÇ"åæ¼½¸ ó®]Q_Ăñ¬HþÇåæ¼Â"ăĄ]é

SHăĄąüKĆMN¶PQR]0Q_"¼Â¸ ćĈĉĊċ]SH$ČSTa

č"ĎG0ĆM]"XďĐae0¶PQ¸ċ$ĕĖC2D

ĆM7¶PQ"FGEª¸

ØÎ/NîQ_ėĘ7d NQ_ę"Ěě³Ĝĝ¸

)ÓĞ.)ğ¶W0ÛÞQ_¸àá"AB(Ø"ĠġĢģß

$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/hadoop-streaming.jar \

-input myInputDirs \

-output myOutputDir \

-mapper org.apache.hadoop.mapred.lib.IdentityMapper \

 

Page 3

剩余13页未读，继续阅读

fengyunjack

粉丝: 0
资源: 6

Hadoop Streaming 中文指南

hadoop-0.21.0-streaming.jar

Hadoop Streaming 编程

Hadoop streaming详细介绍

hadoop streaming 介绍文档

Hadoop官方中文帮助文档1.1.0

HadoopStreaming编程.doc

Migration from Hadoop Streaming to Spark

hadoop官方文档

hadoop2.7 官方文档(英文)

在Yosemite上用NodeJS和Python使用Hadoop Streaming

最新资源