Hadoop自定义序列化：Writable接口详解

需积分: 0 192 浏览量更新于2024-08-05 收藏 491KB PDF 举报

"Hadoop序列化是Hadoop生态系统中用于数据交换的一种机制，它设计的目标包括紧凑、快速、可扩展和互操作性。Hadoop的序列化不同于Java的默认序列化，后者在序列化过程中会产生较多额外信息，不适合高效的数据传输。Hadoop序列化主要使用Writable接口，提供了一系列基础数据类型的实现，如BooleanWritable、IntWritable等，同时也支持Map和Array的序列化。对于自定义bean对象的序列化，需要遵循特定步骤，包括实现Writable接口、提供无参构造函数、重写序列化和反序列化方法，并确保方法执行顺序的一致性。此外，如果需要在MapReduce中作为key使用，bean对象还需实现Comparable接口以满足排序需求。" 在Hadoop中，序列化是核心组件之一，因为它允许数据在节点之间以及持久化存储之间有效地流动。Hadoop的序列化机制强调效率，特别是对于大数据处理场景，减少存储空间的占用和提高读写速度至关重要。例如，BooleanWritable、ByteWritable等类都是为了实现紧凑存储而设计的，它们只存储必要的数据，而不包含Java序列化所需的额外元数据。为了实现自定义对象的序列化，开发者需要让类实现Writable接口。这个接口规定了`write()`和`readFields()`两个方法，分别用于序列化和反序列化对象。确保这两个方法的执行顺序一致是关键，因为反序列化时必须按照相同的顺序恢复数据。此外，为了在控制台上打印或记录数据，通常需要重写`toString()`方法，使其输出符合特定格式，如使用制表符分隔各个字段。如果自定义bean需要作为MapReduce的key，那么还需要实现Comparable接口，因为MapReduce的Shuffle阶段要求key是可排序的。通过实现Comparable，可以定义对象之间的比较逻辑，确保数据处理的正确性。 Hadoop的序列化机制是为了适应大数据环境下的高性能、低开销的数据交换需求。通过自定义Writable类和遵循特定的序列化规则，开发者能够创建自己的数据类型，使其能够在Hadoop生态系统中无缝地进行传输和处理。

知之为知之，不知为不知

Hadoop序列化

序列化概念

序列化就是把内存中的对象，转换成字节序列（或其他数据传输协议）以便于存储（持久化）

和网络传输反序列化就是将收到字节序列（或其他数据传输协议）或者是硬盘的持久化数据，转

换成内存中的对象。



序列化作用

“活的”对象只生存在内存里，关机断电就没有了。而且“活的”对象只能由本地的进程使用，不能

被发送到网络上的另外一台计算机。然而序列化可以存储“活的”对象，可以将“活的”对象发送到远

程计算机



为什么不用Java的序列化

Java的序列化是一个重量级序列化框架 Serializable，一个对象被序列化后，会附带很多额外的信息

（各种校验信息， Header，继承体系等），不便于在网络中高效传输。所以， Hadoop自己开发了一

套序列化机制（ Writable）。【有问题都可以私聊我WX：focusbigdata，或者关注我的公众号：

FocusBigData，注意大小写】

Hadoop序列化特点



常用数据的序列化类型

（1）紧凑：高效使用存储空间。

（2）快速：读写数据的额外开销小。

（3）可扩展：随着通信协议的升级而可升级

（4）互操作：支持多语言的交互

下载后可阅读完整内容，剩余5页未读，立即下载

王向庄

粉丝: 25
资源: 344

Hadoop自定义序列化：Writable接口详解

Hadoop序列化机制

16_尚硅谷大数据之MapReduce_Hadoop序列化1

java-Hadoop序列化

Hadoop序列化与反序列化详解

Hadoop Writable接口详解：序列化与反序列化核心

Hadoop大数据教程：MapReduce序列化深度解析

Hadoop Writable接口详解：序列化与分布式计算的关键

Avro: Hadoop的高效数据序列化解决方案

Hadoop Writable接口：序列化与分布式开发关键

Hadoop序列化机制详解：Writable接口和序列化格式

最新资源