Hive基本查询操作(一)
时间: 2023-07-13 11:08:43 浏览: 133
Hive是一个基于Hadoop的数据仓库工具,可以将结构化数据映射为一张数据库表,然后通过类SQL的命令进行查询和分析。本文将介绍Hive的基本查询操作。
1. 创建表
在Hive中,首先需要创建表并定义表的结构,例如:
```
CREATE TABLE IF NOT EXISTS employee (
id INT,
name STRING,
age INT,
salary FLOAT,
address STRING
) ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
LINES TERMINATED BY '\n'
STORED AS TEXTFILE;
```
上述代码创建了一个名为employee的表,包含id、name、age、salary和address五个字段,数据类型分别为整数、字符串、整数、浮点数和字符串。
2. 加载数据
在创建好表之后,需要将数据加载到表中,例如:
```
LOAD DATA LOCAL INPATH '/path/to/data.txt' OVERWRITE INTO TABLE employee;
```
上述代码将本地路径为/path/to/data.txt的数据文件加载到名为employee的表中。
3. 查询数据
Hive支持类SQL的查询语句,例如:
```
SELECT name, age FROM employee WHERE salary > 5000;
```
上述代码查询了表employee中salary大于5000的记录,并返回这些记录的name和age字段。
4. 聚合数据
Hive还支持聚合查询,例如:
```
SELECT COUNT(*) FROM employee WHERE age > 30;
```
上述代码查询了表employee中年龄大于30岁的记录数。
5. 分组数据
Hive还支持分组查询,例如:
```
SELECT address, AVG(salary) FROM employee GROUP BY address;
```
上述代码查询了表employee中每个地址的平均工资。
6. 排序数据
Hive支持对查询结果进行排序,例如:
```
SELECT * FROM employee ORDER BY salary DESC;
```
上述代码查询了表employee中所有记录,并按照工资从高到低进行排序。
以上就是Hive的基本查询操作,可以帮助你快速了解和使用Hive进行数据分析。
阅读全文