stored as parquet

时间: 2024-02-29 08:42:01 浏览: 69

hive从入门到放弃(六)——常用文件存储格式.doc

Hive 文件存储格式详解 Hive 文件存储格式是 Hive 中非常重要的概念，它直接影响着数据的存储和查询效率。在 Hive 中，常用的文件存储格式有 TextFile、ORC 和 Parquet 三种。下面我们将详细介绍这三种存储格式的特点和应用场景。一、TextFile TextFile 是 Hive 中默认的文件存储格式，它是行式存储的。 TextFile 的特点是： * 建表时无需指定，一般默认这种格式。 * 以这种格式存储的文件，可以直接在 HDFS 上 cat 查看数据。 * 可以用任意分隔符对列分割，建表时需要指定分隔符。 * 不会对文件进行压缩，因此加载数据的时候会比较快，因为不需要解压缩；但也因此更占用存储空间。二、ORCFile ORCFile 是列式存储的。ORCFile 的特点是： * 建表时需指定 STORED AS ORC，文件存储方式为二进制文件。 * 支持 None、Zlib、Snappy 压缩，默认支持 Zlib 压缩。 * Zlib 压缩率比 Snappy 高，Snappy 效率比 Zlib 高。 * 不支持文件分割，因此压缩后的文件在执行 Map 操作时只会被一个任务所读取。 * ORC 格式包括 stripe、index data、rows data、stripe footer、file footer 和 postscript 等部分。 * 在 Hive 中，事务表需要指定为 ORC 存储格式。三、Parquet Parquet 也是列式存储的。Parquet 的特点是： * 建表时需指定 STORED AS PARQUET，文件存储方式为二进制文件。 * 可以使用的压缩方式有 UNCOMPRESSED、SNAPPY、GZP 和 LZO，默认值为 UNCOMPRESSED。 * 行组（Row Group）是 Parquet 中的基本存储单元，每一个行组包含一定的行数。 * 列块（Column Chunk）是 Parquet 中的存储单元，在一个行组中每一列保存在一个列块中。四、三者对比通过对比，我们可以看到： * 压缩比：ORC > Parquet > TextFile * 在只有 Fetch 的情况下，由于 TextFile 不需要解压缩，因此效率较高。 * 对于需要 MapReduce 操作的查询，效率：ORC >= Parquet > TextFile 在实际生产中，选择哪种存储格式需要基于自身业务进行考量。如果数据量并不大，使用 ORC 存储 snappy 压缩的效率还是非常高的；对于需要事务的场景，还是用 ORC。但是，如果数据量很大，使用 Parquet 存储 lzo 压缩的方式可以避免由于读取不可分割的大文件引发的数据倾斜。 Hive 文件存储格式的选择需要根据实际情况进行考虑，选择合适的存储格式可以提高数据的存储和查询效率。

Parquet is a columnar storage file format that is designed to be highly efficient for processing large amounts of data. It is commonly used in big data processing frameworks such as Apache Hadoop and Apache Spark. Parquet files are highly compressed and can be read and written quickly, making them ideal for storing large data sets that need to be analyzed quickly. They can also be easily converted to other file formats such as CSV or JSON.

阅读全文

stored as parquet

相关推荐

DB2 Universal Database for iSeries: Stored Procedures, Triggers, and User-Defined Functions

SQL ストレージ手続き: 日本語版 1Q-4Q 季節別価格計算

stored as parquet是什么意思

partitioned BY (pdate STRING) stored AS parquet

sorted as parquet

hive的建表语句stored as inputformat 是textfile，outputformat可以是parquet格式么

stored as qarquet

stored as qarquet是什么意思

dataworks肿 STORED AS ALIORC是什么意思

hive parquet snapy

hive创建parquet分区表

hive 创建 parquet Bloom Filter表语句

防止非法复制的Delphi可执行文件存储技巧

理解Delphi的Stored限定符与数组特性

若依管理存在任何文件读取漏洞检测系统，渗透测试.zip

【java毕业设计】学生社团管理系统源码（完整前后端+说明文档+LW）.zip

【java毕业设计】音乐+商城的设计与实现源码（完整前后端+说明文档+LW）.zip

最新推荐

若依管理存在任何文件读取漏洞检测系统，渗透测试.zip

C语言数组操作：高度检查器编程实践

管理建模和仿真的文件

【KUKA系统变量进阶】：揭秘从理论到实践的5大关键技巧

如何使用Python编程语言创建一个具有动态爱心图案作为背景并添加文字'天天开心（高级版）'的图形界面？

基于Swift开发的嘉定单车LBS iOS应用项目解析

"互动学习：行动中的多样性与论文攻读经历"

PROTEUS符号定制指南：个性化元件创建与修改的全面攻略

https://www.lagou.com/wn/爬取该网页职位名称，薪资待遇，学历，企业类型，工作地点数据保存为CSV文件的python代码

钗头凤声乐表演的二度创作分析报告