Apache Kudu详解与安装配置

136 浏览量更新于2024-08-31 收藏 795KB PDF 举报

"kudu介绍及安装配置" Kudu是一个专为Apache Hadoop设计的列式存储管理系统，旨在提供高效的数据处理能力，特别是针对在线分析处理（OLAP）工作负载。Kudu的核心特性在于其能够在普通的商品硬件上运行，并且具备水平扩展性和高可用性，使其成为大数据解决方案的重要组成部分。 Kudu的特性包括： 1. **快速OLAP处理**：Kudu针对OLAP查询进行了优化，能够快速处理大量数据的分析任务，适合实时数据更新和即时查询的需求。 2. **生态系统集成**：Kudu无缝集成到Hadoop生态中，能够与MapReduce、Spark等工具协同工作，同时也与Apache Impala紧密配合，提供对Parquet格式数据的支持，成为HDFS的有力补充。 3. **灵活一致性模型**：Kudu提供了一套强大的一致性机制，用户可以根据需求选择不同的事务一致性级别，包括严格的可序列化一致性。 4. **高性能设计**：无论是顺序还是随机读写，Kudu都能保持高效的性能，尤其适合同时处理这两种类型的工作负载。 5. **易于管理和维护**：通过Cloudera Manager，Kudu的部署和管理变得简单，便于监控和故障恢复。 6. **高可用性**：Kudu的 Tablet Server 和 Master 节点采用Raft一致性算法，确保只要半数以上副本可用，数据就能正常读写。在节点故障时，读写操作可以通过只读的follower tablets继续进行。 7. **结构化数据模型**：Kudu支持结构化的数据存储，使得数据管理和查询更加直观和高效。 Kudu主要应用于： 1. **实时更新应用**：对于需要立即处理新数据并供用户访问的应用场景，Kudu提供实时响应能力。 2. **时间序列应用**：对于需要处理大量历史数据并进行细粒度查询的时间序列数据，Kudu能够提供高效的解决方案。 3. **实时预测模型**：在需要频繁根据所有历史数据更新预测模型的场景中，Kudu的高性能处理能力大有裨益。 4. **其他复杂应用案例**：Kudu还适用于各种其他需要快速数据分析和更新的场景，具体可以参考官方的Example Use Cases文档。 Kudu与Impala的集成让Impala可以直接创建、修改和删除基于Kudu的表，这极大地扩展了Impala在大数据处理中的能力，使得实时分析和快速查询成为可能。这种集成使得用户可以在不牺牲速度的情况下，享受到Hadoop生态系统带来的便利性和灵活性。

kudu介绍及安装配置介绍及安装配置

kudu介绍及安装配置

Kudu 是一个针对 Apache Hadoop 平台而开发的列式存储管理器。Kudu 共享 Hadoop 生态系统应用的常见技术特性: 它在

commodity hardware（商品硬件）上运行，horizontally scalable（水平可扩展），并支持 highly available（高可用）性操

作。此外，Kudu 还有更多优化的特点：

OLAP 工作的快速处理。

与 MapReduce，Spark 和其他 Hadoop 生态系统组件集成。

与 Apache Impala（incubating）紧密集成，使其与 Apache Parquet 一起使用 HDFS 成为一个很好的可变的替代方案。

强大而灵活的一致性模型，允许您根据每个 per-request（请求选择）一致性要求，包括 strict-- serializable（严格可序列化）

一致性的选项。

针对同时运行顺序和随机工作负载的情况性能很好。

使用 Cloudera Manager 轻松维护和管理。

High availability（高可用性）。Tablet server 和 Master 使用 Raft Consensus Algorithm 来保证节点的 -- 高可用，确保只要有

一半以上的副本可用，该 tablet 便可用于读写。例如，如果 3 个副本中有 2 个或 5 个副本中的 3 个可用，则该 tablet 可用。

即使在 leader tablet 出现故障的情况下，读取功能也可以通过 read-only（只读的）follower tablets 来进行服务。

结构化数据模型。

通过结合这些所有的特性，Kudu 的目标是支持应用家庭中那些难以在当前Hadoop 存储技术中实现的应用。Kudu 常见的几个

应用场景:

1.实时更新的应用。刚刚到达的数据就马上要被终端用户使用访问到。

2.时间序列相关的应用，需要同时支持：

根据海量历史数据查询。

必须非常快地返回关于单个实体的细粒度查询。

3.实时预测模型的应用，支持根据所有历史数据周期地更新模型。

4.有关这些和其他方案的更多信息，请参阅 Example Use Cases。

Kudu-Impala 集成特性

CREATE/ALTER/DROP TABLE

Impala 支持使用 Kudu 作为持久层来 creating（创建），altering（修改）和 dropping（删除）表。这些表遵循与 Impala 中其

他表格相同的 Internal / external（内部 / 外部）方法，允许灵活的数据采集和查询。

INSERT

数据可以使用与那些使用 HDFS 或 HBase 持久性的任何其他 Impala 表相同的语法插入 Impala 中的 Kudu 表。

UPDATE / DELETE

Impala 支持 UPDATE 和 DELETE SQL 命令逐行或批处理修改 Kudu 表中的已有的数据。选择 SQL 命令的语法与现有标准尽

可能兼容。除了简单 DELETE 或 UPDATE 命令之外，还可以 FROM 在子查询中指定带有子句的复杂连接。

Flexible Partitioning（灵活分区）

与 Hive 中的表分区类似，Kudu 允许您通过 hash 或范围动态预分割成预定义数量的 tablets，以便在集群中均匀分布写入和查

询。您可以通过任意数量的 primary key（主键）列，任意数量的 hashes 和可选的 list of split rows 来进行分区。参见模式设

计。

Parallel Scan（并行扫描）

为了在现代硬件上实现最高的性能，Impala 使用的 Kudu 客户端可以跨多个 tablets 扫描。

High-efficiency queries（高效查询）

在可能的情况下，Impala 将谓词评估下推到 Kudu，以便使谓词评估为尽可能接近数据。在许多任务中，查询性能与 Parquet

相当。

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38744207

粉丝: 344
资源: 2万+

Apache Kudu详解与安装配置

KUDU介绍及实践

kudu安装包.zip

kudu简介ppt

kudu 怎么配置重试次数

kudu-client 1.3.0 怎么配置重试次数

CDH集群kudu使用

编写datax mongodb到kudu

kudu+hdfs集群搭建

kudu-client api 1.3.0 怎么配置重试次数

怎么安装presto sql引擎访问kudu数据 写一个java示例

最新资源

怎么安装presto sql引擎访问kudu数据写一个java示例