Hive4大数据:部门与员工表创建及基础SQL查询

1 下载量 19 浏览量 更新于2024-08-29 收藏 88KB PDF 举报
本文档主要介绍了如何在Hive中进行数据处理和查询,针对大数据场景,详细讲解了Hive的数据建模、数据导入和基本的SQL查询操作。以下是主要内容的详细解析: 1. **数据表创建**: - 创建部门表(dept):定义了一个包含`deptno`(整型)、`dname`(字符串)和`loc`(整型)字段的表格,使用`ROW FORMAT DELIMITED`语句指定字段之间以制表符`\t`分隔。 - 创建员工表(emp):同样,定义了一个包含`empno`(整型)、`ename`(字符串)、`job`(字符串)、`mgr`(整型)、`hiredate`(字符串)、`sal`(双精度浮点型)、`comm`(双精度浮点型)和`deptno`(整型)字段的表格,字段间同样用制表符分隔。 2. **数据导入**: 使用`LOAD DATA LOCAL INPATH`命令将本地路径的文本文件`dept.txt`和`emp.txt`导入到对应的表中,这是Hive中常用的文件导入方式。 3. **SQL查询基础**: - 全表查询:执行`SELECT * FROM emp;`来获取员工表中的所有列和行。 - 选择特定列查询:通过`SELECT empno, ename FROM emp;`仅返回员工号和姓名这两列。 - SQL语法注意事项:Hive SQL支持标准SQL语法,包括大小写不敏感、语句可写多行、关键字不能缩写和分行编写等规则。 4. **列别名和算术运算符**: - 列别名:使用`AS`关键字重命名列,如`SELECT ename AS name, deptno AS dno FROM emp;`,便于查询和计算。 - 算术运算符:介绍了一组常见的算术运算符,如加法(+)、减法(-)、乘法(*)、除法(/)、取余(%)、按位与(&)、按位或(|)、按位异或(^)以及按位取反(~),并给出了实际操作示例。 5. **更高级查询**: - 调整表达式:例如,`SELECT (cast(sal as int) + 1) FROM emp;`,将薪水字段转换为整数后加1。 - 统计函数:展示如何使用`COUNT()`函数计算行数,包括`COUNT(1)`和`COUNT(*)`两种形式,以及求最大值(`MAX(sal)`)、最小值(`MIN(sal)`)和总和(`SUM(sal)`)。 通过以上内容,读者可以了解到Hive在大数据场景下的基础表结构建立、数据导入以及SQL查询操作技巧,这对于理解和处理大规模数据至关重要。掌握这些技能有助于进行更复杂的查询分析和数据处理任务。