Hadoop streaming 编程包含哪些部分
时间: 2024-05-21 18:11:23 浏览: 86
HadoopStreaming编程.doc
Hadoop streaming 编程主要包含以下部分:
1. Mapper:处理输入数据,将其转换为键值对。
2. Reducer:对 Mapper 输出的键值对进行聚合和排序操作。
3. Partitioner:将 Mapper 输出的键值对根据键的哈希值分配到不同的 Reducer 中。
4. InputFormat:指定输入数据格式。
5. OutputFormat:指定输出数据格式。
6. Combiner:对 Mapper 输出的键值对进行本地聚合操作,减少数据传输量。
7. Command line 参数:通过命令行参数指定 Mapper、Reducer、Partitioner、InputFormat、OutputFormat 等组件。
8. Hadoop 集群配置参数:包括 HDFS、YARN、MapReduce 等配置参数。
阅读全文