"Hadoop_Hadoop集群(第14期)_Hive应用开发.pdf" 本文主要探讨了Hadoop集群中的Hive应用开发,Hive是一个基于Hadoop的数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供SQL查询功能。以下是详细的知识点介绍: 1. **Hive服务**: Hive提供了多种服务接口,包括HiveShell、Thrift服务器、Web接口、元数据服务以及JDBC/ODBC支持,这些服务增强了其功能性和可扩展性。 2. **HiveShell**: - HiveShell是Hive的基本交互界面,用户可以通过它来编写和执行HiveQL(Hive的SQL方言)语句。在HiveShell中,每条语句以分号结尾。 - HiveShell也允许执行Hive的管理命令,如导入jar包、设置临时环境变量等。 3. **HiveQL执行**: - 查询示例:`select name from xp;` 当执行这样的查询时,Hive会启动一个MapReduce作业来处理数据。 - HiveShell还支持HDFS文件操作,用户可以直接在shell中使用dfs命令查看HDFS上的文件。 4. **数据存储**: - Hive的数据仓库位于HDFS的`/user/hive/warehouse`目录下,每个表对应一个以表名为名的子目录。 - 表内的数据、分区目录和桶文件等都存储在这个目录下。 - 查询日志默认保存在本地的`/tmp/<user.name>`目录,而MapReduce执行计划则存储在`/tmp/<user.name>/hive`。 5. **配置属性**: - `hive.metastore.metadb.dir`:用于设置HDFS上的元数据目录。 - `hive.querylog.location`:指定查询日志的存放位置。 - `hive.exec.scratcher`:设定HDFS上的临时文件目录。 6. **设置和查看临时变量**: - 用户可以通过`set`命令设置临时变量,如`set fs.default.name=hdfs://192.168.1.2:9000`,这仅在当前会话中有效,便于切换不同的执行环境。 Hadoop集群中的Hive应用开发是一个关键环节,它使得大数据分析变得更加便捷。通过Hive,用户无需深入理解底层的MapReduce,即可进行复杂的数据处理和分析任务。Hive的灵活性和易用性使其成为大数据处理领域的一个重要工具。
剩余31页未读,继续阅读
- 粉丝: 152
- 资源: 11
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- zlib-1.2.12压缩包解析与技术要点
- 微信小程序滑动选项卡源码模版发布
- Unity虚拟人物唇同步插件Oculus Lipsync介绍
- Nginx 1.18.0版本WinSW自动安装与管理指南
- Java Swing和JDBC实现的ATM系统源码解析
- 掌握Spark Streaming与Maven集成的分布式大数据处理
- 深入学习推荐系统:教程、案例与项目实践
- Web开发者必备的取色工具软件介绍
- C语言实现李春葆数据结构实验程序
- 超市管理系统开发:asp+SQL Server 2005实战
- Redis伪集群搭建教程与实践
- 掌握网络活动细节:Wireshark v3.6.3网络嗅探工具详解
- 全面掌握美赛:建模、分析与编程实现教程
- Java图书馆系统完整项目源码及SQL文件解析
- PCtoLCD2002软件:高效图片和字符取模转换
- Java开发的体育赛事在线购票系统源码分析