pig 导入数据操作演示
时间: 2024-02-10 11:06:23 浏览: 25
好的,以下是导入数据的演示:
1. 首先,在 Pig 脚本中使用 `LOAD` 命令加载数据。例如,如果要从 HDFS 中的 `/input/data.csv` 文件读取数据,则可以使用以下命令:
```
data = LOAD '/input/data.csv' USING PigStorage(',');
```
这将使用 PigStorage 函数将 CSV 文件中的数据读入 `data` 变量中,并将逗号作为字段分隔符。
2. 如果需要对数据进行预处理,可以使用 Pig 自带的函数或编写自定义函数。例如,以下是使用 `FILTER` 命令过滤出 `data` 中符合条件的数据:
```
filtered_data = FILTER data BY age >= 18 AND gender == 'F';
```
这将从 `data` 变量中过滤出年龄大于等于 18 并且性别为女性的数据,并将结果存储在 `filtered_data` 变量中。
3. 最后,可以使用 `STORE` 命令将处理后的数据输出到 HDFS 中的指定位置。例如,以下命令将 `filtered_data` 中的数据输出到 HDFS 中的 `/output/filtered_data` 目录下:
```
STORE filtered_data INTO '/output/filtered_data' USING PigStorage(',');
```
这将使用 PigStorage 函数将处理后的数据以 CSV 格式输出到 HDFS 中的指定位置。
以上就是 Pig 导入数据的基本操作演示。