Hive表DDL操作(一)头歌
时间: 2024-09-13 10:06:30 浏览: 62
Hive是一个基于Hadoop的数据仓库工具,用于对大量数据进行存储、管理和分析。在创建Hive表之前,需要使用DDL(Data Definition Language,数据定义语言)来定义表的结构。下面是一些基本的Hive表DDL操作:
1. **创建表(CREATE TABLE)**:
```
CREATE TABLE [IF NOT EXISTS] table_name (
column1 datatype,
column2 datatype,
...
) [PARTITIONED BY (partition_column datatype)] [CLUSTERED BY (column) INTO num_buckets BUCKETS] [ROW FORMAT delimited | json | orc | parquet] [STORED AS file_format];
```
- `table_name`: 表的名称。
- `columns` 和 `datatypes`: 列名及其对应的类型,如INT, STRING等。
- `PARTITIONED BY`: 如果按分区存储,列出分区列和类型。
- `CLUSTERED BY`: 如果进行聚簇,指定聚簇键和桶数。
- `ROW FORMAT`: 定义行的存储格式。
2. **修改表(ALTER TABLE)**:
可以增加、删除或更改列、修改分区、调整表属性等。
```sql
ALTER TABLE table_name ADD|DROP COLUMN column_name;
ALTER TABLE table_name SET TBLPROPERTIES ('property_name'='value');
```
3. **加载数据(LOAD DATA INPATH)**:
```
LOAD DATA INPATH 'file_path' INTO TABLE table_name;
```
4. **创建分区(ADD PARTITION)**:
```
ADD PARTITION (partition_column = 'partition_value') TO TABLE table_name;
```
5. **查询数据(SELECT)**:
查询已经创建的Hive表中的数据。
```sql
SELECT * FROM table_name WHERE condition;
```