Apache Pig入门与实战：快速掌握大规模数据处理

需积分: 6 11 浏览量更新于2024-07-23 收藏 994KB PDF 举报

Apache Pig 是一个强大的大数据处理工具，它作为 Hadoop 生态系统的一部分，提供了一种高级的、SQL-like 的查询语言，用于处理和分析大规模数据集。本文旨在为初学者提供一个全面的Pig基础概念概览，包括其用途、优势和工作原理。 Pig 的核心概念包括： 1. **数据模型**: Pig 使用一系列称为关系代数（Relational Algebra）的概念，如加载（Load）、存储（Store）、转换（Transform）和联接（Join）等操作，将原始数据转换成需要的结构。 2. **Pig Latin**: Pig Latin 是Pig的主要编程语言，它结合了SQL的简洁性与MapReduce的并行处理能力。例如，`grunt {A = load 'data.txt'; B = filter A by A.field > 10; store B into 'output.txt';}` 这段代码展示了加载数据、过滤条件和保存结果的基本流程。 3. **数据流管道（Data Flow Pipeline）**: Pig的工作方式是通过构建一个数据流管道，数据会依次经过各个阶段处理，直到最终输出。Pig Latin语句实际上是构建这个管道的指令。 4. **资源管理与优化**: Pig自动并行化执行任务，利用Hadoop的分布式计算能力。然而，理解和优化Pig的优化级别（如JOIN优化）对于高效处理大型数据至关重要。 5. **版本与配置**:文中提到的Pig版本为0.8.1，不同版本可能存在细微差异，因此熟悉当前使用的特定版本特性很重要。同时，配置编辑器以支持Pig语法高亮有助于提高编程效率。 6. **工具与资源**:推荐使用Notepad++或Emacs等编辑器，并利用相应的插件来提升代码阅读和编写体验。另外，参考Pig官方文档（链接1和2）和社区翻译内容来获取最准确的信息。 7. **实践案例**:Twitter的成功应用证明了Pig的强大实用性，学习Pig时可以参考Twitter工程师的PPT来深入了解其在实际场景中的应用。学习Pig时，新手应重视基础概念的学习，理解Pig的语法结构和工作原理，这样才能在编写代码时更加得心应手。通过本文提供的实例和教程，可以逐步掌握Pig的使用技巧，从而在大数据处理中发挥重要作用。

这里传入的参数“output_dir”的值为“/home/my_output_dir/”。

文章来源：http://www.codelast.com/

（11）就算是同样一段 pig 代码，多次计算所得的结果也有可能是不同的

例如用 AVG 函数来计算平均值时，同样一段 pig 代码，多次计算所得的结果中，小数点的最后

几位也有可能是不相同的（当然也有可能相同），大概是因为精度的原因吧。不过，一般来说

小数点的最后几位已经不重要了。例如我对一个数据集进行处理后，小数点后 13 位才开始有

不同，这样的精度完全足够了。

（12）如何编写及使用自定义函数（UDF）

请看这个链接：《Apache Pig 中文教程（进阶）》

（13）什么是聚合函数（Aggregate Function）

在 pig 中，聚合函数就是那些接受一个输入包（bag），返回一个标量（scalar）值的函数。

COUNT 函数就是一个例子。

（14）COGROUP 做了什么

与 GROUP 操作符一样，COGROUP 也是用来分组的，不同的是，COGROUP 可以按多个关

系中的字段进行分组。

还是以一个实例来说明，假设有以下两个数据文件：

[root@localhost pig]$ cat a.txt

uidk

12 3

hfd 132 99

bbN 463

231

UFD 13

[root@localhost pig]$ cat b.txt

908 uidk

888

345 hfd 557

28790 re

00000

现在我们用 pig 做如下操作及得到的结果为：

grunt> A = LOAD 'a.txt' AS (acol1:chararray, acol2:int, acol3:int);

grunt> B = LOAD 'b.txt' AS (bcol1:int, bcol2:chararray,

bcol3:int);

grunt> C = COGROUP A BY acol1, B BY bcol2;

grunt> DUMP C;

(re,{},{(28790,re,0)})

(UFD,{(UFD,13,10)},{})

(bbN,{(bbN,463,231)},{})

(hfd,{(hfd,132,99)},{(345,hfd,557)})

(uidk,{(uidk,12,3)},{(908,uidk,888)})

每一行输出的第一项都是分组的 key，第二项和第三项分别都是一个包（bag），其中，第二项

是根据前面的 key 找到的 A 中的数据包，第三项是根据前面的 key 找到的 B 中的数据包。

来看看第一行输出：“re”作为 group 的 key 时，其找不到对应的 A 中的数据，因此第二项就是

一个空的包“{}”，“re”这个 key 在 B 中找到了对应的数据（28790 re 00000），因此第三

项就是包{(28790,re,0)}。

其他输出数据也类似。

（15）安装 pig 后，运行 pig 命令时提示“Cannot find hadoop configurations in classpath”等错

误的解决办法

pig 安装好后，运行 pig 命令时提示以下错误：

ERROR org.apache.pig.Main - ERROR 4010: Cannot find hadoop configurations in classpath

(neither hadoop-site.xml nor core-site.xml was found in the classpath).If you plan to use local

mode, please put -x local option in command line

显而易见，提示找不到与 hadoop 相关的配置文件。所以我们需要把 hadoop 安装目录下的

“conf”子目录添加到系统环境变量 PATH 中：

修改 /etc/profile 文件，添加：

export HADOOP_HOME=/usr/local/hadoop

export PIG_CLASSPATH=$HADOOP_HOME/conf

PATH=$JAVA_HOME/bin:$HADOOP_HOME/bin:$PIG_CLASSPATH:$PATH

然后重新加载 /etc/profile 文件：

source /etc/profile

文章来源：http://www.codelast.com/

（16）piggybank 是什么东西

Pig also hosts a UDF repository called piggybank that allows users to share UDFs that they

have written.

说白了就是 Apache 把大家写的自定义函数放在一块儿，起了个名字，就叫做 piggybank。你

可以把它理解为一个 SVN 代码仓库。具体请看这里。

（17）UDF 的构造函数会被调用几次

你可能会想在 UDF 的构造函数中做一些初始化的工作，例如创建一些文件，等等。但是你不

能假设 UDF 的构造函数只被调用一次，因此，如果你要在构造函数中做一些只能做一次的工

作，你就要当心了——可能会导致错误。

（18）LOAD 数据时，如何一次 LOAD 多个目录下的数据

例如，我要 LOAD 两个 HDFS 目录下的数据：/abc/2010 和 /abc/2011，则我们可以这样写

LOAD 语句：

A = LOAD '/abc/201{0,1}';

（19）怎样自己写一个 UDF 中的加载函数(load function)

请看这个链接：《Apache Pig 中文教程（进阶）》

（20）重载(overloading)一个 UDF

请看这个链接：《Apache Pig 中文教程（进阶）》。

（21）pig 运行不起来，提示“org.apache.hadoop.ipc.Client - Retrying connect to server:

请看这个链接：《Apache Pig 中文教程（进阶）》

（22）用含有 null 的字段来 GROUP，结果会如何

假设有数据文件 a.txt 内容为：

1 2 5

1 3

6 9 8

其中，每两列数据之间是用 tab 分割的，第二行的第 2 列、第三行的第 3 列没有内容（也就是

说，加载到 Pig 里之后，对应的数据会变成 null），如果把这些数据按第 1、第 2 列来

剩余62页未读，继续阅读

qeveeqnui

粉丝: 2
资源: 48

Apache Pig入门与实战：快速掌握大规模数据处理

apache-pig-on-storm:使用Apache Pig的Pig Latin生成并运行Apache Storm拓扑

Apache pig去除数据集异常值

Java 整合hadoop

利用Hadoop来处理和分析房产信息数据。

大数据高级开发工程师必备技能

1. Hadoop如何处理缺失值？

hadoop的降序工具

hcatalog 是什么

请给出至少5种方法。这些方法需要，能实现用代码完成大规模数据计算的，资源分布的集聚程度分析。要求能形成表格可视化结果，最好有检验指标。

java大数据学习路线

最新资源