hive表中脏数据如何清洗
时间: 2024-01-18 20:03:38 浏览: 37
清洗Hive表中的脏数据有多种方法,以下是两种常用的方法:
1. 使用Shell命令过滤脏数据
可以使用grep命令过滤掉第一行的脏数据,具体操作如下:
```shell
hive -e "CREATE TABLE trains(order_id STRING, product_id STRING, add_to_cart_order STRING, reordered STRING) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS TEXTFILE; LOAD DATA LOCAL INPATH 'order_products__train.csv' OVERWRITE INTO TABLE trains;"
sed -i '1d' order_products__train.csv
```
其中,sed命令用于删除文件的第一行。
2. 使用Hive内置函数过滤脏数据
可以使用Hive内置函数skip.header.line.count来跳过第一行,具体操作如下:
```sql
CREATE TABLE priors(order_id STRING, product_id STRING, add_to_cart_order STRING, reordered STRING) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS TEXTFILE;
LOAD DATA LOCAL INPATH 'order_products__prior.csv' OVERWRITE INTO TABLE priors;
ALTER TABLE priors SET TBLPROPERTIES('skip.header.line.count'='1');
```
相关推荐
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)