首页hudi是不是数据存储框架

hudi是不是数据存储框架

时间: 2023-08-29 11:05:13 浏览: 98

数据湖Hudi操作文档和实例代码

5星 · 资源好评率100%

大多数大数据企业在构建数仓时采用Lambda架构，一条离线数仓链路，一条实时数仓链路。一些实时业务多的公司构建数仓时采用Kappa架构，但是也避免不了离线处理一些数据，所以一些公司也采用Kappa架构+Lambda架构方式构建数仓。以上不同的架构都有各自的优点及缺点，这里不再赘述。批数据处理与流式数据处理的不同效率决定了针对两类数据采用不同的架构进行分析处理，未来数据仓库的发展也终将走向批数据和流数据使用同一套架构处理，同时也要求批数据及流数据存储上也需要统一，这就所说的批流一体，那么使用什么技术可以既能满足批数据海量存储分析又能满足实时数据存储的效率高、支持数据更新删除？数据湖技术应运而生。Hudi 就是典型的数据湖技术，支持批数据和流式数据的存储，同时还支持高效的OLAP分析查询。这份资料将会带领大家学习为什么要用数据湖技术、Hudi Timeline、Hudi文件格式及索引、Hudi表类型、Hudi与Spark、Flink框架整合等知识，如果你在学习、工作中针对批流一体数据处理场景正不知选择何种技术，在工作中使用到数据湖技术，那么下载这份资料绝对没错，可以快速学习真正使用数据湖

是的，Apache Hudi（Hadoop Upserts Deletes and Incrementals）是一个用于构建和管理大规模数据湖的开源数据存储框架。Hudi提供了一种基于分布式文件系统（如Hadoop HDFS）的数据存储格式和索引结构，以支持大规模数据的插入、更新、删除和增量处理。 Hudi的设计目标是提供高性能、可伸缩和容错的数据湖管理解决方案。它支持以时间为单位的数据版本管理，可以实现时间旅行查询（即查询历史数据版本）。Hudi还提供了基于写前日志（WAL）的机制，确保数据一致性和可恢复性。除了数据存储功能，Hudi还提供了用于数据处理和查询的A

阅读全文