PigLatin基础教程：Hadoop上的脚本语言入门

5星 · 超过95%的资源需积分: 50 149 浏览量更新于2024-07-26 1 收藏 293KB PDF 举报

"Pig官方基础教程" Pig是Hadoop生态系统中的一个高级数据处理语言，它的设计目的是简化大规模数据集的分析。Pig Latin是Pig的编程语法，类似于SQL，但更适合处理大规模分布式数据。以下是一些Pig Latin基础知识的详细说明： 1. **约定（Conventions）** - **括号()**：用于包围一个或多个项目，也可以表示元组数据类型。例如：`(1,abc,(2,4,6))` 表示一个包含三个元素的元组。 - **方括号[]**：表示一个或多个可选项目，同时也用于表示Map数据类型。如 `[INNER|OUTER]` 表示INNER或OUTER可选。 - **花括号{}**：用于包围两个或更多项，其中一项是必需的。同样用于表示Bag数据类型，如 `{block|nested_block}` 表示block或nested_block至少需要选择一个。 - **省略号…**：表示可以重复代码的某一部分。例如，`catpath[path…]` 指示可以有零个或多个path。 2. **保留关键字（Reserved Keywords）** - Pig Latin中有一系列保留关键字，它们在语句中具有特定含义，不能用作自定义函数或变量名。保留关键字的例子包括`LOAD`, `FOREACH`, `FILTER`, `JOIN`, `GROUP`, `DUMP`, `ORDER BY`等。 3. **大小写敏感性（Case Sensitivity）** - Pig Latin是大小写敏感的，这意味着`LOAD`和`load`在语法上有不同的含义。 4. **数据类型和更多（Data Types and More）** - Pig支持多种数据类型，包括`BOOLEAN`, `TINYINT`, `SMALLINT`, `INT`, `BIGINT`, `FLOAT`, `DOUBLE`, `BINARY`, `CHARARRAY`, `BYTEARRAY`, `DATETIME`, 和 `BAG`，`TUPLE`, `MAP`等复杂类型。 - 数据类型的转换和操作是Pig Latin中的重要部分。 5. **算术运算符和更多（Arithmetic Operators and More）** - Pig Latin支持基本的算术运算符，如`+`, `-`, `*`, `/`, `%`，以及比较运算符，如`=`, `<`, `>`, `<=`, `>=`, `!=`，这些用于数值和字符串的处理。 - 还有一些逻辑运算符，如`AND`, `OR`, `NOT`，用于布尔表达式的构造。 6. **关系运算符（Relational Operators）** - 关系运算符如`=`, `!=`, `<`, `>`, `<=`, `>=`用于过滤和比较数据，是数据分析中的核心部分。 - 此外，还有`IS NULL`和`IS NOT NULL`用于检查值是否为NULL。 7. **用户定义的函数（UDF Statements）** - Pig Latin允许用户定义自己的函数（UDF），这可以扩展Pig的功能，处理更复杂的计算和逻辑。 - UDF分为两种主要类型：` bytearray` UDF，处理二进制数据，以及`eval` UDF，用于处理各种数据类型。 8. **其他** - Pig Latin还包括流控制结构，如`IF-THEN-ELSE`，循环`FOREACH-GROUP`，以及数据加载和存储的指令。 - 还有数据排序、分组、连接等高级功能。通过学习这些基础知识，你可以开始编写Pig Latin脚本来处理Hadoop集群上的大数据。然而，这只是Pig的冰山一角，实际应用中还需要结合具体的数据处理需求和场景来灵活运用。

•

Accessing a field that does not exist in a tuple.

4.4.3.1. Example: Accessing a field that does not exist in a tuple

In this example nulls are injected if fields do not have data.

cat data;

2 3

7 8 9

A = LOAD 'data' AS (f1:int,f2:int,f3:int)

DUMP A;

(,2,3)

(4,,)

(7,8,9)

B = FOREACH A GENERATE f1,f2;

DUMP B;

(,2)

(4,)

(7,8)

4.4.4. Nulls and Load Functions

As noted, nulls can occur naturally in the data. If nulls are part of the data, it is the

responsibility of the load function to handle them correctly. Keep in mind that what is

considered a null value is loader-specific; however, the load function should always

communicate null values to Pig by producing Java nulls.

The Pig Latin load functions (for example, PigStorage and TextLoader) produce null values

wherever data is missing. For example, empty strings (chararrays) are not loaded; instead,

they are replaced by nulls.

PigStorage is the default load function for the LOAD operator. In this example the is not null

operator is used to filter names with null values.

A = LOAD 'student' AS (name, age, gpa);

B = FILTER A BY name is not null;

4.4.5. Nulls and GROUP/COGROUP Operators

When using the GROUP operator with a single relation, records with a null group key are

grouped together.

Pig Latin Basics

Page 15

剩余92页未读，继续阅读

zlingh

粉丝: 82
资源: 40

PigLatin基础教程：Hadoop上的脚本语言入门

仿 pigx 的 springcloud 项目 java代码

第8讲：Pig应用开发文档

最新版本淘宝助理4.0版本

centos7安装Pig

pig 的基本框架与实现

pig 配置环境变量教学

ubuntu安装pig

pig4cloud springOpenAPI

Pig 申请了空间... Pig 申请了空间... MagicPig 申请了空间... 我只是个平凡的猪猪。 我能上树了耶！ Pig 释放了空间... MagicPig 释放了空间... Pig 释放了空间...

最新资源

Pig 申请了空间... Pig 申请了空间... MagicPig 申请了空间... 我只是个平凡的猪猪。我能上树了耶！ Pig 释放了空间... MagicPig 释放了空间... Pig 释放了空间...