没有合适的资源?快使用搜索试试~ 我知道了~
首页Hive_SQL语法大全
Hive_SQL语法大全
需积分: 50 710 浏览量
更新于2023-05-30
评论
收藏 46KB DOC 举报
Hive_Sql语法详述,平时工作中遇到的问题,用于Hadoop平台的数据挖掘。
资源详情
资源评论
资源推荐

创建表--Create Table
CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name
[(col_name data_type [COMMENT col_comment], ...)]
[COMMENT table_comment]
[PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)]
[CLUSTERED BY (col_name, col_name, ...)
[SORTED BY (col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS]
[ROW FORMAT row_format]
[STORED AS file_format]
[LOCATION hdfs_path]
CREATE TABLE 创建一个指定名字的表。如果相同名字的表已经存在,则抛出异常;用户可
以用 IF NOT EXIST 选项来忽略这个异常。
EXTERNAL 关键字可以让用户创建一个外部表,在建表的同时指定一个指向实际数据的路径
(LOCATION), Hive 创建内部表时,会将数据移动到数据仓库指向的路径;若创建外部表,仅
记录数据所在的路径,不对数据的位置做任何改变。在删除表的时候,内部表的元数据和数 据会
被一起删除,而外部表只删除元数据,不删除数据。
LIKE 允许用户复制现有的表结构,但是不复制数据。
用户在建表的时候可以自定义 SerDe 或者使用自带的 SerDe。如果没有指定 ROW FORMAT 或
者 ROW FORMAT DELIMITED,将会使用自带的 SerDe。在建表的时候,用户还需要为表指定列,
用户在指定表的列的同时也会指定自定义的 SerDe,Hive 通过 SerDe 确定表的具体的列的数据。
如果 文件 数据 是纯 文本 ,可 以使 用 STORED AS TEXTFILE 。 如果 数据 需要 压缩 ,使 用
STORED AS SEQUENCE 。
有分区的表可以在创建的时候使用 PARTITIONED BY 语句。一个表可以拥有一个或者多个分
区,每一个分区单独存在一个目录下。而且,表和分区都可以对某个列进行 CLUSTERED BY 操作,
将若干个列放入一个桶(bucket)中。也可以利用 SORT BY 对数据进行排序。这样可以为特定应
用提高性能。
表名和列名不区分大小写,SerDe 和属性名区分大小写。表和列的注释是字符串。
删除表--Drop Table
删除一个内部表的同时会删除表的元数据和数据。删除一个外部表,只删除元数据而保留数据。
修改表结构--Alter Table
Alter table 语句允许用户改变现有表的结构。用户可以增加列/分区,改变 serde,增加表和
serde 熟悉,表本身重命名。
1. Add PARTITION
ALTER TABLE table_name ADD
partition_spec [ LOCATION 'location1' ]
partition_spec [ LOCATION 'location2' ] ...
其 中 , partition_spec 为 : PARTITION (partition_col = partition_col_value, partition_col =
partiton_col_value, ...)
可以用 ALTER TABLE ADD PARTITION 来向一个表中增加分区。当分区名是字符串时加引号。
ALTER TABLE page_view ADD
PARTITION (dt='2008-08-08', country='us')
location '/path/to/us/part080808'
PARTITION (dt='2008-08-09', country='us')
location '/path/to/us/part080809';


















安全验证
文档复制为VIP权益,开通VIP直接复制

评论0