定制Hadoop OutputFormat：优化数据输出与系统集成

152 浏览量更新于2024-08-28 收藏 102KB PDF 举报

HadoopOutputFormat是Hadoop生态系统中的关键组件，用于处理MapReduce作业的输出阶段，确保数据以特定格式持久化并可供其他应用程序读取。它作为FileOutputFormat的扩展，允许开发者自定义数据写入策略，以优化存储效率和性能。本文将深入探讨OutputFormat的工作原理、其核心接口和几个重要实现： 1. **OutputFormat的作用**： OutputFormat的主要职责是定义数据写入的路径、格式以及如何存储MapReduce任务的结果。它通过继承Hadoop提供的抽象类，如FileOutputFormat、MapFileOutputFormat、SequenceFileOutputFormat等，定制输出行为。例如，TextOutputFormat以易于人类阅读的文本格式存储键值对，而SequenceFileOutputFormat采用二进制格式和压缩，节省存储空间并提高读取速度。 2. **示例应用**： - **拆分作业结果到不同目录**：通过MultipleOutputFormat，可以将同一份数据按不同的键值对规则写入不同的文件夹，便于后续根据需求进行分类分析。 - **快速键值查找服务**：对于需要高效查找的场景，如搜索引擎或缓存系统，可以选择SequenceFileAsBinaryOutputFormat，其二进制存储方式可以减少I/O开销，提升性能。 3. **类层次结构**： - FileOutputFormat：所有OutputFormat的基类，提供了通用的输出配置。 - MapFileOutputFormat：使用部分索引键，适合存储大量键值对但查询不频繁的情况。 - SequenceFileOutputFormat：二进制键值对，压缩后存储，适用于需要高效读取的场景。 - SequenceFileAsBinaryOutputFormat：纯二进制格式，进一步压缩存储。 - TextOutputFormat：文本格式，易读但占用较多存储空间。 - MultipleOutputFormat：支持多输出路径的抽象类，简化处理复杂输出需求。理解并掌握HadoopOutputFormat是优化大数据处理流程的关键，它不仅涉及编程技巧，还包括对数据存储效率和性能优化的理解。通过灵活运用这些类和接口，开发者可以根据实际应用场景选择最合适的输出格式，从而提高整个Hadoop生态系统的整体效能。

探索探索HadoopOutputFormat

Hadoop常常被用作大型数据处理生态系统中的一部分。它的优势在于能够批量地处理大量数据，并将结果以最好的方式与其

他系统相集成。从高层次角度来看，整个过程就是Hadoop接收输入文件、使用自定义转换（Map-Reduce步骤）获得内容

流，以及将输出文件的结果写回磁盘。上个月InfoQ展示了怎样在第一个步骤中，使用InputFormat类来更好地对接收输入文件

进行控制。而在本文中，我们将同大家一起探讨怎样自定义最后一个步骤——即怎样写入输出文件。OutputFormat将

Map/Reduce作业的输出结果转换为其他应用程序可读的方式，从而轻松实现与其他系统的互操作。为了展示OutputFormts的

实用性，我们将用两个例子进行讨论：如何拆分作业结果到不同目录以及如何为提供快速键值查找的服务写入文件。

OutputFormats是做什么的？

OutputFormt接口决定了在哪里以及怎样持久化作业结果。Hadoop为不同类型的格式提供了一系列的类和接口，实现自定义

操作只要继承其中的某个类或接口即可。你可能已经熟悉了默认的OutputFormat，也就是TextOutputFormat，它是一种以行

分隔，包含制表符界定的键值对的文本文件格式。尽管如此，对多数类型的数据而言，如再常见不过的数字，文本序列化会浪

费一些空间，由此带来的结果是运行时间更长且资源消耗更多。为了避免文本文件的弊端，Hadoop提供了

SequenceFileOutputformat，它将对象表示成二进制形式而不再是文本文件，并将结果进行压缩。下面是Hadoop提供的类层

次结构：

FileOutputFormat（实现OutputFormat接口）—— 所有OutputFormats的基类

MapFileOutputFormat —— 一种使用部分索引键的格式

SequenceFileOutputFormat —— 二进制键值数据的压缩格式

SequenceFileAsBinaryOutputFormat —— 原生二进制数据的压缩格式

TextOutputFormat —— 以行分隔、包含制表符定界的键值对的文本文件格式

MultipleOutputFormat —— 使用键值对参数写入文件的抽象类

MultipleTextOutputFormat —— 输出多个以标准行分割、制表符定界格式的文件

MultipleSequenceFileOutputFormat —— 输出多个压缩格式的文件

OutputFormat提供了对RecordWriter的实现，从而指定如何序列化数据。 RecordWriter类可以处理包含单个键值对的作业，

并将结果写入到OutputFormat中准备好的位置。RecordWriter的实现主要包括两个函数：“write”和“close”。“write”函数从

Map/Reduce作业中取出键值对，并将其字节写入磁盘。LineRecordWriter是默认使用的RecordWriter，它是前面提到的

TextOutputFormat的一部分。它写入的内容包括：

键(key)的字节（由getBytes()函数返回）

一个用以定界的制表符

值(value)的字节（同样由getBytes()函数返回）

一个换行符

“close”函数会关闭Hadoop到输出文件的数据流。

我们已经讨论了输出数据的格式，下面我们关心的问题是数据存储在何处？同样，你或许看到过某个作业的输出结果会以多

个“部分”文件的方式存储在输出目录中，如下：

|-- output-directory

| |-- part-00000

| |-- part-00001

| |-- part-00002

| |-- part-00003

| |-- part-00004

'-- part-00005

默认情况下，当需要写入数据时，每个进程都会在输出目录创建自己的文件。数据由reducers在作业结束时写入（如果没有

reducers会由mapper写入）。即使在本文后面提到的创建自定义输出目录时，我们仍会保持写入“部分”文件，这么做可以让多

个进程同时写入同一个目录而互不干扰。

自定义OutputFormat

从前面我们已经看到，OutputFormat类的主要职责是决定数据的存储位置以及写入的方式。那么为什么要自定义这些行为

呢？自定义数据位置的原因之一是为了将Map/Reduce作业输出分离到不同的目录。例如，假设需要处理一个包含世界范围内

的搜索请求的日志文件，并希望计算出每个国家的搜索频度。你想要在不牵涉其他国家的前提下能够查看某个特定国家的结

果。也许以后在你的数据管道中，会用不同的进程来处理不同的国家，或者想要把某个特定国家的结果复制一份到该国的数据

中心去。使用默认的OutputFormat时，所有的数据都会存储在同一目录下，这样在不浏览的情况下是无从知晓“部分”文件的内

容的。而通过使用自定义的OutputFormat，你可以为每个国家创建一个子目录的布局，如下：

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38655347

粉丝: 9
资源: 919

定制Hadoop OutputFormat：优化数据输出与系统集成

stays mad 反PCL宣传库。Anti PCL pro.zip

伊犁师范大学在四川2020-2024各专业最低录取分数及位次表.pdf

yolo算法-植物数据集-1417张图像带标签adamweeds.zip

clickhouse-jdbc驱动jar文件用于建立jdbc链接

辽宁何氏医学院在四川2020-2024各专业最低录取分数及位次表.pdf

泰尔指数、泰尔指数模型（含案例源码+数据+stata详细操作过程）-最新出炉.zip

springboot124中药实验管理系统设计与实现.zip

比赛地址：中文NLP地址要素解析 方案：BERT-BiLSTM-CRF-NER

基于pytorch卷积神经网络的中文手写汉字识别，使用HWDB数据库_hand-writing-recognition.zip

SQLLLLLLLLLLL

最新资源

比赛地址：中文NLP地址要素解析方案：BERT-BiLSTM-CRF-NER