大数据面试题资料:Hive内外部表区别及创建流程详解
Hive是一个开源的数据仓库基础架构,用于将结构化数据映射到Hadoop上进行查询和分析。在Hive中,有内部表和外部表两种类型。 首先,我们来看一下Hive中内部表和外部表的区别。 内部表(Internal Table)是指在创建表时,Hive会将数据移动到指定的数据仓库路径下。换句话说,内部表的数据存储在Hive指定的路径下,与Hive内部表的元数据一起被删除。这意味着,如果删除了内部表,则数据也会被删除。内部表适用于那些数据不需要与外部共享,且需要严格控制数据的存放位置的情况。 外部表(External Table)是指创建表时,Hive只记录数据所在的路径,不对数据的位置做任何改变。也就是说,外部表的数据仍然存储在原来的位置,而Hive只是在元数据中记录了数据的位置。所以,删除外部表只会删除元数据,不会删除数据本身。外部表适用于那些数据需要与外部共享、或者数据存储在其他系统中的情况。 需要注意的是,Hive和传统数据库在表数据验证上存在一些差异。传统数据库通常采用"写时模式"(schema on write)进行数据验证,即在写入数据时检查数据是否符合表的结构。而Hive采用的是"读时模式"(schema on read),即在读取数据时才进行解析和验证数据的字段和结构。这使得Hive在加载数据时速度非常快,因为它不需要解析数据,只需复制或移动文件。而"写时模式"在提升查询性能方面具有优势,因为它可以预先解析数据并建立索引和压缩,但加载时间会增加。 接下来,我们来看一下Hive如何创建内部表。 Hive创建内部表的语法如下: CREATE TABLE table_name(column1 data_type, column2 data_type, ...); 其中,table_name为表的名称,column1, column2等为表的列名和数据类型。 例如,创建一个名为test的内部表,列名为userid,数据类型为字符串: CREATE TABLE test(userid string); 在创建表后,我们可以使用LOAD DATA语句将数据加载到内部表中: LOAD DATA INPATH 'hdfs_path' INTO TABLE table_name; 其中,hdfs_path为数据所在的路径,table_name为要将数据加载进的表名。 综上所述,Hive内部表和外部表的区别在于数据存放的位置和删除的行为。内部表将数据移动到Hive指定的路径,并且删除表时会同时删除元数据和数据,而外部表只记录数据的路径,删除表时只会删除元数据。此外,Hive采用的是读时模式,提高了加载数据的速度,但查询性能可能会受到影响。创建内部表时,需要定义表的结构和数据类型,并通过LOAD DATA语句将数据加载到表中。
![](https://csdnimg.cn/release/download_crawler_static/86983086/bge.jpg)
![](https://csdnimg.cn/release/download_crawler_static/86983086/bgf.jpg)
![](https://csdnimg.cn/release/download_crawler_static/86983086/bg10.jpg)
![](https://csdnimg.cn/release/download_crawler_static/86983086/bg11.jpg)
剩余83页未读,继续阅读
![doc](https://img-home.csdnimg.cn/images/20210720083327.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://profile-avatar.csdnimg.cn/default.jpg!1)
- 粉丝: 713
- 资源: 7万+
我的内容管理 收起
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助
![](https://csdnimg.cn/release/wenkucmsfe/public/img/voice.245cc511.png)
会员权益专享
最新资源
- VMP技术解析:Handle块优化与壳模板初始化
- C++ Primer 第四版更新:现代编程风格与标准库
- 计算机系统基础实验:缓冲区溢出攻击(Lab3)
- 中国结算网上业务平台:证券登记操作详解与常见问题
- FPGA驱动的五子棋博弈系统:加速与创新娱乐体验
- 多旋翼飞行器定点位置控制器设计实验
- 基于流量预测与潮汐效应的动态载频优化策略
- SQL练习:查询分析与高级操作
- 海底数据中心散热优化:从MATLAB到动态模拟
- 移动应用作业:MyDiaryBook - Google Material Design 日记APP
- Linux提权技术详解:从内核漏洞到Sudo配置错误
- 93分钟快速入门 LaTeX:从入门到实践
- 5G测试新挑战与罗德与施瓦茨解决方案
- EAS系统性能优化与故障诊断指南
- Java并发编程:JUC核心概念解析与应用
- 数据结构实验报告:基于不同存储结构的线性表和树实现
![](https://img-home.csdnimg.cn/images/20220527035711.png)
![](https://img-home.csdnimg.cn/images/20220527035111.png)
![](https://csdnimg.cn/release/wenkucmsfe/public/img/green-success.6a4acb44.png)