Cloudera Kudu：高速列存数据库，融合实时与离线分析

88 浏览量更新于2024-08-31 收藏 414KB PDF 举报

"Cloudera Kudu是一种由Cloudera开发的开源列式存储系统，旨在为快速变化的数据提供快速分析和实时处理能力。它填补了Hadoop存储层的某些空白，结合了HDFS的高吞吐量和HBase的实时性，并支持SQL查询。Kudu的设计使得它在商品硬件上运行，具有水平可扩展性和高可用性。" Cloudera Kudu的核心特性包括： 1. **列式存储**：Kudu通过列式存储优化了数据分析，因为列式存储对于分析查询非常高效，尤其是在处理大量数据时。 2. **实时性**：Kudu提供了行级别的随机读写，这使得它能够支持实时数据插入、更新和删除，类似于HBase。 3. **高吞吐量**：Kudu设计为处理大规模数据，能够提供高吞吐量的数据读写性能，这得益于HDFS的启发。 4. **数据更新支持**：不同于传统的HDFS，Kudu允许数据的在线更新，这对于需要实时更新的应用场景非常关键。 5. **水平扩展性**：Kudu可以轻松扩展到更多的节点，以适应不断增长的数据需求。 6. **高可用性**：Kudu设计为在分布式环境中运行，支持故障切换和数据复制，确保服务的持续可用。 7. **SQL支持**：Kudu通过与Apache Impala、Apache Hive等工具集成，提供了对SQL查询的支持，使得数据分析师和数据科学家能更方便地访问数据。 8. **适合混合工作负载**：Kudu可以用于批处理和实时分析，适应多种不同的工作负载，如在线分析处理(OLAP)和实时数据处理。 9. **适应现代硬件**：Kudu优化了对现代硬件，如SSD和多核CPU的利用，以实现最佳性能。 Kudu在Hadoop生态系统中的位置很独特，可以与Apache Spark、Apache Kafka等组件配合使用，形成一种可能的架构：Kafka用于流数据处理，Spark进行实时计算，而Kudu则作为存储层，提供快速的分析和实时访问。这样的架构有望成为未来大数据处理的一个强有力竞争者。然而，是否能成为主流架构还需要时间验证，因为实际的采用取决于各种因素，包括社区支持、性能表现、生态系统整合以及用户需求。尽管如此，Kudu的出现无疑丰富了Hadoop生态，为数据存储和分析提供了新的选择。

ClouderaKudu是什么？是什么？

Cloudera Kudu是什么？

kudu是cloudera在2012开始秘密研发的一款介于hdfs和hbase之间的高速分布式列式存储数据库。兼具了hbase的实时性、

hdfs的高吞吐，以及传统数据库的sql支持。作为一款实时、离线之间的存储系统。定位和spark在计算系统中的地位非常相

似。如果把mr+hdfs作为离线计算标配，storm+hbase作为实时计算标配。spark+kudu有可能成为未来最有竞争力的一种架

构。

也就是kafka -> spark -> kudu这种架构，未来此架构是否会风靡，暂且不言论。让我们拭目以待吧！

Kudu是Cloudera开源的新型列式存储系统，是Apache Hadoop生态圈的新成员之一（incubating），专门为了对快速变化的

数据进行快速的分析，填补了以往Hadoop存储层的空缺。

Kudu是Todd Lipcon@Cloudera带头开发的存储系统，其整体应用模式和HBase比较接近，即支持行级别的随机读写，并支持

批量顺序检索功能。

Kudu 是一个针对 Apache Hadoop 平台而开发的列式存储管理器。Kudu 共享 Hadoop 生态系统应用的常见技术特性:它在

commodity hardware（商品硬件）上运行，horizontally scalable（水平可扩展），并支持 highly available（高可用）性操

作。

Kudu的目标是：提供快速的全量数据分析与实时处理功能；充分利用先进CPU与IO资源；支持数据更新；简单、可扩展的数

据模型。

Kudu的官网

A new addition to the open source Apache Hadoop ecosystem, Apache Kudu completes Hadoop's storage layer to enablefast

analytics on fast data.

背景——功能上的空白

Hadoop 生态系统有很多组件，每一个组件有不同的功能。在现实场景中，用户往往需要同时部署很多 Hadoop 工具来解决同

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38701407

粉丝: 5

Cloudera Kudu：高速列存数据库，融合实时与离线分析

【大数据课设】p105出租车数据可视化分析-大数据-实训大作业.zip

TypeScript 入门教程

人脸识别_课堂考勤_OpenCV_服务端系统_1741777828.zip

历届电赛试题及综合测评（真题+模拟题）

2024人工智能如何塑造未来产业：AI对各行业组织带来的的变革研究研究报告.pdf

人脸识别_Golang_SDK_命令行登录_微信小程序应用_1741772240.zip

Vulkan原理与实战课程

SiriYXR_Sokoban11_1741860914.zip

海豚鲸鱼数据集 5435张图 正确识别率可达92.6% 可识别：海豚 虎鲸 蜥蜴 海豹 鲨鱼 龟 支持yolov8格式标注

答谢中书书教学设计.docx

最新资源

海豚鲸鱼数据集 5435张图正确识别率可达92.6% 可识别：海豚虎鲸蜥蜴海豹鲨鱼龟支持yolov8格式标注