Hive基础与大数据课程解析

需积分: 49 28 下载量 127 浏览量 更新于2024-08-16 收藏 741KB PPT 举报
"大数据课程之Hive-hive基础ppt" Hive是Apache Hadoop生态系统中的一个数据仓库工具,它允许通过SQL-like语言(HiveQL)对大规模数据集进行查询和管理。这个大数据课程主要涵盖了Hive的基础知识,包括其编译过程、执行策略以及数据存储和处理方式。 在Hive的编译阶段,Driver组件接收HiveQL语句,如DDL(数据定义语言)、DML(数据操纵语言)和查询语句,并将这些语句转化为执行策略。策略由元数据操作和HDFS(Hadoop分布式文件系统)操作组成。元数据操作主要用于创建、修改或删除表等结构,而HDFS操作涉及数据的加载。对于插入和查询操作,策略会转化为MapReduce任务的DAG(有向无环图),这有助于并行处理数据。 在执行策略中,`set hive.exec.mode.local.auto=true;` 这一行配置表示Hive可以根据数据量自动决定是否使用本地模式执行任务。`hive --service hiveserver10000 > /dev/null 2>&1 &` 是启动Hive Server服务的命令,它在后台运行并监听10000端口,等待客户端连接。 Hive的数据操作方面,删除表时可能会遇到错误,如“max key length is 1000 bytes”,这通常是因为键的长度超过了限制。在处理数据时,可以使用`gzip`或`bzip2`进行压缩,例如`gzip -crvwlan > wlan.gz`和`bzip2 -ckvwlan/* > wlan.bz2`。 在数据导入和导出中,`INSERT OVERWRITE TABLE`语句用于覆盖现有分区的数据,例如`INSERT OVERWRITETABLE t2PARTITION(class='job2',city='bj') SELECT name, age FROM t1 WHERE class='job1' AND city='bj';` 和 `INSERT OVERWRITETABLE t3PARTITION(class="job1",city="bj") SELECT name, age FROM t1;`。同时,Hive支持使用不同的文件格式,如TextFile、SequenceFile和RCFile,用户可以根据需求自定义数据格式,包括列分隔符、行分隔符和数据读取方法。 Hive还提供了丰富的内置函数,用户可以通过`SHOW FUNCTIONS;`来查看所有可用函数,`DESCRIBE FUNCTION substr;`则用于获取特定函数的使用说明。Hive的一个关键优点是它允许用户直接在HDFS上的原始数据上操作,无需进行额外的数据转换步骤,这大大提高了处理大数据的效率和便利性。
2016-09-21 上传