MapReduce进阶：计数器、排序与连接操作解析

需积分: 9 114 浏览量更新于2024-07-21 收藏 551KB PDF 举报

"Hadoop MapReduce的高级特性包括计数器、排序和数据集连接，这些功能对于优化和监控大数据处理任务至关重要。计数器提供了一种有效地收集和分析作业统计信息的方法，而排序则保证了数据处理的有序性和一致性。" 在Hadoop MapReduce框架中，计数器（Counters）扮演着重要的角色。它们是一种用于跟踪和汇总任务执行过程中的各种统计信息的机制。计数器分为系统计数器和自定义计数器两类。系统计数器由Hadoop内置，用于报告作业的不同度量，如处理的字节数、记录数等，帮助开发者确保数据处理的正确性和输出的一致性。自定义计数器则是开发人员根据实际需求创建的，用于记录特定的业务指标或状态，例如错误计数、特定事件发生次数等。 Hadoop提供了多个计数器组，每组包含了不同类型的计数器。例如，MapReduceTask Counters组包含了与Map和Reduce任务直接相关的计数器；FileSystem Counters组关注文件系统的操作，如读取和写入的字节数；FileInputFormat和FileOutputFormat Counters组分别关注输入和输出数据的处理情况。通过这些计数器，开发者可以深入了解任务的运行状态，进行性能优化，以及快速定位问题。排序（Sorting）是MapReduce处理过程中的另一个关键特性。根据Hadoop的设计，Map阶段结束后，数据会被部分排序，即同组键的数据会聚集在一起。这一步被称为“分区”（Partitioning），接着在Reduce阶段之前，会进行“shuffle”和“sort”，确保所有相同键的值都被归并到一起，并按照键的自然顺序排序。这种局部排序对于下游处理，如聚合和连接操作，非常有益，因为它保证了键的连续性，减少了不必要的计算。部分排序（Local Sorting）是在每个mapper本地完成的，而文件排序（Total Sorting）则是在所有mapper的输出合并到reduce输入之前全局进行的。键内数据的排序是指，即使键相同，其对应的值也会按照预设规则进行排序，这通常通过实现Comparator接口来实现。数据集连接（Join）是MapReduce中处理多个数据源时常用的一种操作，它允许将来自不同输入源的数据关联在一起。例如，如果有一个用户表和一个订单表，通过join操作可以将用户信息与对应的订单信息匹配。Hadoop MapReduce通过使用特殊的MapReduce库，如Pig或Hive，或者自定义mapper和reducer来实现复杂的join操作。理解和熟练掌握Hadoop MapReduce的这些高级特性，能够帮助开发者更高效地处理大规模数据，优化任务性能，同时也能提供更强大的数据处理能力。在实际项目中，灵活运用计数器进行监控，确保排序的正确性，以及有效地执行数据集连接，都是提升大数据分析质量的关键步骤。

09/04/20 06:33:36 INFO mapred.JobClient: 2=1246032

09/04/20 06:33:36 INFO mapred.JobClient: 1=97342173

09/04/20 06:33:36 INFO mapred.JobClient: 0=1

09/04/20 06:33:36 INFO mapred.JobClient: 6=40066

09/04/20 06:33:36 INFO mapred.JobClient: 5=158291879

09/04/20 06:33:36 INFO mapred.JobClient: 4=10764500

09/04/20 06:33:36 INFO mapred.JobClient: 9=66136858

09/04/20 06:33:36 INFO mapred.JobClient: Air Temperature Records

09/04/20 06:33:36 INFO mapred.JobClient: MalFormed=3

09/04/20 06:33:36 INFO mapred.JobClient: MISSING=66136858

(1) 动态计数器

如果一个计数器没有用 enum 定义时，可以使用动态计数器。因为一个 Java 枚举计数器

在编译时定义，所以不能在运行过程中创建计数器。如果我们想计算温度质量代码的分布，

我们就可以使用动态计数器，我们使用了 Reporter 的带三个参数的方法，具体如下：

public void incrCounter(String group, String counter, long amount);

事实上以枚举操作参数的 incrCounter 与以组合计数器名字为参数的方法是等价的，因

为 Hadoop 会把枚举转换为字符串。只是枚举更容易使用，并且提供了类型安全。

(2) 易读计数器名字

缺省情况下，一个计数器的名字是枚举的全名，当这些名字出现在 WEB 页面上时，易

读性不好，因此 Hadoop 提供了一个方法用资源包去改变计数器的展示名。本例中我们做了

转换处理，所以我们看到的计数器的名字是“Air Temperature Records ”，而不是

“Temperature$MISSING”。对于动态计数器组名和计数器名被用来展示，所以不存在上述问

题。

提供易读的名的方法如下。创建一个以枚举类型命名的属性文件，使用下划线作为内嵌

类的分隔符。属性文件与包括枚举类的外部类在同一目录。上例中的属性文件名为：

MaxTemperatureWithCounters_Temperature.properties 。属性文件中有一个名字为

CounterGroupName 的属性，其值为组名，同时枚举中的每个字段对应一个属性。

MaxTemperatureWithCounters_Temperature.properties 文件内容如下：

CounterGroupName=Air Temperature Records

MISSING. name=Missing

MALFORMED.name=Malformed

Hadoop 使用 Java 的本地化机制来加载资源文件。因此，你可以创建一个以上属性文件

的中文版本 MaxTemperatureWithCounters_Temperature_zh_CN.properties，当在中文环境中

运行时，将使用该属性文件。

(3) 提取计数器

除了可以通过 WEB 界面和命令行（使用 hadoop job -count）访问计数器，也可以通过

JAVA 接口访问他们。可以在作业运行过程中获取计数器，当然一般情况下是在作业运行完

计数器不变之后才访问计数器。下面的代码是计算缺失温度的记录的百分比。

import org.apahce.hadoop.conf.Configured;

import org.apache.hadoop.mapred.*;

import org.apache.hadoop.util.*;

public class MissingTemperatureFields extends Configured implements Tool{

@Override

剩余21页未读，继续阅读

zhangbaolin

粉丝: 104
资源: 33

MapReduce进阶：计数器、排序与连接操作解析

深入探讨Hadoop MapReduce编程与测试流程

精通Hadoop MapReduce实战指南

深入理解Hadoop MapReduce：高级编程与实践

hadoop mapreduce

Hadoop MapReduce Cookbook

hadoop mapreduce2

Hadoop MapReduce Cookbook 源码

Hadoop MapReduce教程详解

Hadoop MapReduce实战指南

python hadoop mapreduce 相似用户|mapreduce.rar

最新资源