深入理解Hadoop序列化：Avro详解与应用

163 浏览量更新于2024-08-29 收藏 970KB PDF 举报

点 “float” double双精度(64位)IEEE754浮点数 “double” stringUTF-8编码的字符串 “string” bytes无符号字节序列 “bytes” 固定固定长度字节数组 { "type": "fixed", "name": "MD5", "size": 16 } 数组有序的、可变长度的值列表 { "type": "array", "items": "int" } 映射键值对集合，键必须为字符串 { "type": "map", "values": "long" } 记录包含字段的复杂数据结构 { "type": "record", "name": "Person", "fields": [ { "name": "name", "type": "string" }, { "name": "age", "type": "int" } ] } 枚举有限的符号集 { "type": "enum", "name": "Suit", "symbols": ["SPades", "Hearts", "Diamonds", "Clubs"] } 联合可为多种类型的值 { "type": "union", "types": [ "string", "int" ] } Avro复杂类型如记录（Record）、数组（Array）、映射（Map）、固定（Fixed）和枚举（Enum）允许创建更复杂的数据结构。其中，记录类型类似于类，包含多个字段，每个字段都有自己的类型和名称。数组用于表示一组有序的同类型元素，映射则用于存储键值对，键是字符串，值可以是任何Avro类型。固定类型定义了一个固定大小的字节数组，而枚举则定义了一组有限的符号。 Avro数据序列化/反序列化 Avro提供两种方式来处理序列化和反序列化： 1. 使用编译的方式序列化反序列化： Avro提供了Java和其他语言的SDK，这些SDK可以生成Java代码或者其他语言的代码，用于直接操作模式定义的数据。当使用这种方式时，需要先将模式编译成Java类，然后在代码中直接使用这些类进行序列化和反序列化。这种方法效率高，但需要编译过程。 2. 不使用编译的方式序列化反序列化：如果不想生成编译后的类，Avro还提供了动态模式解析。在这种情况下，可以在运行时动态加载模式，并使用它来序列化和反序列化数据。这种方法灵活性较高，但可能比编译方式稍慢。 Avro的优势在于其自我描述性，每个Avro文件都包含了其模式信息，这使得不同的应用程序即使使用不同的编程语言也能读取和写入数据。此外，Avro还支持版本控制，允许数据模式随时间演进而不破坏向后兼容性。总结，Avro作为Hadoop首选的串行化系统，凭借其高效的二进制数据格式、丰富的数据类型、跨语言支持以及模式驱动的特性，在大数据领域扮演着重要角色。无论是在Hadoop生态系统内部，如HBase和Hive，还是在其他分布式系统中，Avro都能提供可靠且高性能的数据序列化解决方案。

Hadoop首选串行化系统首选串行化系统——Avro简介及详细使用简介及详细使用

本篇博客，Alice为大家介绍的是Hadoop中作为首选串行化系统的Avro。

文章目录文章目录简介特点Avro数据类型和模式Avro基本类型Avro复杂类型Avro数据序列化/反序列化方法1 使用编译的方式序列化反序列化方法2 不使用编译的方式序列化反序列化

简介简介

Avro是Hadoop中的一个子项目，也是Apache中一个独立的项目，由Hadoop的创始人Doug Cutting（也是Lucene，Nutch等项目的创始人）开发，设计用于支持大批量数据交换

的应用。Avro是一个基于二进制数据传输高性能的中间件。在Hadoop的其他项目中例如HBase(Ref)和Hive(Ref)的Client端与服务端的数据传输也采用了这个工具。Avro是一个数据

序列化的系统。Avro 可以将数据结构或对象转化成便于存储或传输的格式。Avro设计之初就用来支持数据密集型应用，适合于远程或本地大规模数据的存储和交换。

特点特点

丰富的数据结构类型；

快速可压缩的二进制数据形式，对数据二进制序列化后可以节约数据存储空间和网络传输带宽；

存储持久数据的文件容器

可以实现远程过程调用RPC

简单的动态语言结合功能

另外，avro支持跨编程语言实现（C, C++, C#，Java, Python, Ruby, PHP），类似于Thrift，但是avro的显著特征是：avro依赖于模式，动态加载相关数据的模式，Avro数据的

读写操作很频繁，而这些操作使用的都是模式，这样就减少写入每个数据文件的开销，使得序列化快速而又轻巧。这种数据及其模式的自我描述方便了动态脚本语言的使用。当Avro

数据存储到文件中时，它的模式也随之存储，这样任何程序都可以对文件进行处理。如果读取数据时使用的模式与写入数据时使用的模式不同，也很容易解决，因为读取和写入的模

式都是已知的。

Avro数据类型和模式数据类型和模式

Avro定义了少量的基本数据类型，通过编写模式的方式，它们可被用于构建应用特定的数据结构。考虑到互操作性，实现必须支持所有的Avro类型。

Avro基本类型基本类型

类型类型描述描述模式示例模式示例

null 空值 “null”

boolean 二进制值 “boolean”

int 32位带符号整数 “int”

long 64位带符号整数 “long”

float 单精度(32位)IEEE754 浮点数 “float”

double 双精度(64位)IEEE754 浮点数 “double”

bytes 8位无符号字节序列 “bytes”

string Unicode字符序列 “string”

Avro复杂类型复杂类型

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38512781

粉丝: 6
资源: 953

深入理解Hadoop序列化：Avro详解与应用

Avro Schema 格式说明+示例

Hadoop课程实验和报告——Hadoop安装实验报告

Hadoop分布式文件系统——翻译

Hadoop课程实验和报告——K-Means算法并行实现

hadooprpc机制&&将avro引入hadooprpc机制初探

Hadoop分布式文件系统——导入和导出数据内含源码以及说明书可以自己运行复现.zip

操作系统课设——Hadoop文件系统

hadoop——wordcount

Hadoop 2.0 生态系统第三章 序列化Avro2

Hadoop 2.0 生态系统第三章 序列化Avro1

最新资源

Hadoop 2.0 生态系统第三章序列化Avro2

Hadoop 2.0 生态系统第三章序列化Avro1