Apache Kudu 1.4.0 列式存储管理中文文档

需积分: 9 145 浏览量更新于2024-07-16 收藏 1.46MB PDF 举报

"Apache Kudu 1.4.0 中文文档.pdf" Apache Kudu 是一个针对 Apache Hadoop 生态系统设计的列式存储管理器，它提供了实时数据摄取和低延迟查询的能力。Kudu 旨在填补 Hadoop 生态系统中的空白，允许快速随机读写操作，同时保持批处理和分析的高效性。以下是对 Kudu 的关键知识点的详细说明： 1. **列式存储**：与传统的行式存储不同，Kudu 采用列式存储方式，这种设计优化了数据分析和处理，因为通常在分析查询中只涉及少数列。列式存储可以显著减少数据处理时间和I/O成本。 2. **实时数据摄取**：Kudu 支持快速插入和更新操作，使得实时数据处理成为可能。这对于需要实时监控和分析的应用场景至关重要。 3. **分层存储架构**：Kudu 使用主-从（Master-Slave）架构，由一个或多个 Master 节点管理表的元数据，并协调数据分布和复制。每个 Tablet Server 负责存储和处理一部分数据，确保高可用性和容错性。 4. **副本管理**：Kudu 数据的每个 Tablet 都有多份副本，以确保容错性和数据一致性。这些副本可以跨多个服务器分布，以防止单点故障。 5. **多版本并发控制（MVCC）**：Kudu 使用 MVCC 实现并发控制，允许多个读写操作并行执行，提高了系统的吞吐量。 6. **Kudu Schema Design（模式设计）**：Kudu 的模式设计考虑了列的压缩、数据类型选择、分区策略等因素。合理的模式设计可以显著提升查询性能和存储效率。 7. **Kudu Security（安全）**：Kudu 提供了安全性功能，如认证、授权和加密，以保护数据的隐私和完整性。 8. **Kudu 与 Apache Impala 集成**：Kudu 可以无缝集成到 Impala 中，允许用户直接通过 Impala 进行实时查询，提供了实时分析的能力。 9. **Kudu Transaction Semantics（事务语义）**：虽然 Kudu 不支持标准的 ACID 事务，但它提供了一种弱一致性模型，适用于许多大数据应用的需求。 10. **后台维护任务**：Kudu 自动执行诸如数据平衡、垃圾回收和表分裂等后台任务，以维持系统的稳定性和性能。 11. **Kudu 配置**：Kudu 允许用户通过配置文件调整各种参数，以优化性能和资源利用率，例如设置内存限制、磁盘使用策略等。 12. **Kudu 命令行工具参考**：Kudu 提供了一系列命令行工具，用于管理集群、监控状态、诊断问题等。 13. **故障排除**：文档提供了识别和解决 Kudu 集群中常见问题的方法，包括日志分析、监控指标检查等。 14. **已知问题和限制**：文档列出了 1.4.0 版本已知的问题和限制，帮助用户理解和规避潜在的陷阱。 Kudu 是一个强大的工具，尤其适合需要实时数据处理和分析的场景，如互联网日志分析、实时监控、在线广告定向等。通过理解和掌握 Kudu 的特性和操作方法，开发者和管理员能够构建高效、可扩展的大数据解决方案。

4. 注意：kudu-master和kudu-tserver软件包仅在分别有master或tserver的主机上需要(如果

使用ClouderaManager则完全不必要)。每个提供配置文件和一个init.d脚本来管理相应的Kudu

进程。一旦安装，Kudu进程将在主机启动并关闭时自动启动和停止。

1. 下载并配置您的操作系统的Kudu存储库，或使用KuduPackageLocations的相应链接手动下载各个

RPM。

2. 如果使用Zypper存储库，请在将cloudera-kudu.repo文件保存到/etc/zypper/repos.d之后，

使用以下命令在每个主机上安装Kudu软件包。

1. sudozypperinstallkudu#BaseKudufiles

2.

sudozypperinstallkudu-master#Kudumasterinit.dservicescriptanddefault

configuration

3.

sudozypperinstallkudu-tserver#Kudutabletserverinit.dservicescriptanddefault

configuration

4. sudozypperinstallkudu-client0#KuduC++clientsharedlibrary

5. sudozypperinstallkudu-client-devel#KuduC++clientSDK

3. 要手动安装KuduRPM，首先下载它们，然后使用命令sudorpm-ivh<RPM安装>来安装。

4. 注意：kudu-master和kudu-tserver软件包仅在分别有master或tserver的主机上需要(如果

使用ClouderaManager则完全不必要)。每个提供配置文件和一个init.d脚本来管理相应的Kudu

进程。一旦安装，Kudu进程将在主机启动并关闭时自动启动和停止。

1. 如果使用ubuntu或debian存储库，请在将cloudera.list文件保存到

/etc/apt/sources.list.d/之后，使用以下命令在每个主机上安装Kudu软件包。

1. sudoapt-getinstallkudu#BaseKudufiles

2. sudoapt-getinstallkudu-master#Servicescriptsformanagingkudu-master

3. sudoapt-getinstallkudu-tserver#Servicescriptsformanagingkudu-tserver

4. sudoapt-getinstalllibkuduclient0#KuduC++clientsharedlibrary

5. sudoapt-getinstalllibkuduclient-dev#KuduC++clientSDK

2. 要手动安装KuduRPM，首先下载它们，然后使用命令sudorpm-ivh<RPM安装>来安装。

3. 注意：kudu-master和kudu-tserver软件包仅在分别有master或tserver的主机上需要(如果

使用ClouderaManager则完全不必要)。每个提供配置文件和一个init.d脚本来管理相应的Kudu

进程。一旦安装，Kudu进程将在主机启动并关闭时自动启动和停止。

1. 使用以下方法之一验证服务是否正在运行：*在服务器上检查ps命令的输出，以验证kudu-master或

kudu-tserver进程之一或两者正在运行。*打开Master或者TabletServerwebUI，方法是打开

http://<_host_name_>:8051/formaster或者http://<_host_name_>:8050/fortablet

安装在SLES主机上

安装在Ubuntu或Debian主机上

验证安装

安装指南

-15-本文档使用书栈(BookStack.CN)构建

servers。

2. 如果Kudu没有运行，请查看‘/var/log/kudu’中的日志文件，如果有一个以‘.FATAL’结尾的文件，

那意味着Kudu无法启动。

如果error是“Errorduringholepunchtest”，可能是您的操作系统的问题。

如果error是“Couldn’tgetthecurrenttime“，这是ntp的问题。

如果这是其他似乎不明显的东西，或者如果您没有运气尝试上述解决方案，您可以在用户邮件列表中寻

求帮助。

在启动Kudu服务之前，需要在每个主机上执行其他配置步骤。

1. 这些包在操作系统的备用数据库中创建一个kudu-conf条目，并且它们运送内置的conf.dist替代。要

调整配置，您可以直接编辑/etc/kudu/conf/中的文件，或者使用操作系统实用程序创建一个新的选项，

确保它是/etc/kudu/conf/指向的链接，在那里创建自定义配置文件配置的某些部分也配置在

/etc/default/kudu-master和/etc/default/kudu-tserver文件中。如果创建自定义配置文件，

您应该包括或者复制这些配置选项。查看配置，包括默认的WAL和数据目录位置，并根据您的要求进行调整。

2. 使用以下命令启动Kudu服务：

1. $sudoservicekudu-masterstart

2. $sudoservicekudu-tserverstart

3. 要停止Kudu服务，请使用以下命令：

1. $sudoservicekudu-masterstop

2. $sudoservicekudu-tserverstop

4. 将Kudu服务配置为在服务器启动时自动启动，将其添加到默认运行级别：

1. $sudochkconfigkudu-masteron#RHEL/CentOS/SLES

2. $sudochkconfigkudu-tserveron#RHEL/CentOS/SLES

3.

4. $sudoupdate-rc.dkudu-masterdefaults#Debian/Ubuntu

5. $sudoupdate-rc.dkudu-tserverdefaults#Debian/Ubuntu

5. 有关Kudu服务的其他配置，请参阅配置Kudu。

如果使用包裹或者软件包安装Kudu不能提供所需的灵活性，则可以从源代码构建Kudu。您可以在任何支持的操

作系统上从源代码构建。

注意

已知的构建问题

必需配置

从源代码构建

安装指南

-16-本文档使用书栈(BookStack.CN)构建

不可能在MicroSoftWindows上构建Kudu。

需要一个C+11编译器(GCC4.8)。

需要RHEL或者CentOS6.6或更高版本从源代码构建Kudu。要建立在7.0以上的版本上，必须安装Red

HatDeveloperToolset(才能访问支持C++11的编译器)。

1. 安装必备库(如果没有安装)。

1. $sudoyuminstallautoconfautomakecyrus-sasl-develcyrus-sasl-gssapi\

2. cyrus-sasl-plaingccgcc-c++gdbgitkrb5-serverkrb5-workstationlibtool\

3. makeopenssl-develpatchpkgconfigredhat-lsb-corersyncunzipvim-commonwhich

2. 如果建立在7.0以上的RHEL或CentOS上，请安装RedHatDeveloperToolset

1. $DTLS_RPM=rhscl-devtoolset-3-epel-6-x86_64-1-2.noarch.rpm

2.

$DTLS_RPM_URL=https://www.softwarecollections.org/repos/rhscl/devtoolset-3/epel-6-

x86_64/noarch/${DTLS_RPM}

3. $wget${DTLS_RPM_URL}-O${DTLS_RPM}

4. $sudoyuminstall-yscl-utils${DTLS_RPM}

5. $sudoyuminstall-ydevtoolset-3-toolchain

3. 可选：如果您计划构建文档，请安装其他包，包括ruby。

1. $sudoyuminstalldoxygengemgraphvizruby-develzlib-devel

注意

如果建立在7.0以上的RHEL或者CentOS上，则可能需要使用rubygems替换gem包

4. 克隆Git存储库并切换到新的kudu目录

1. $gitclonehttps://github.com/apache/kudu

2. $cdkudu

5. 使用build-if-necessary.sh脚本构建任何缺少的第三方要求。不使用devtoolset会导致主机编译器

似乎需要libatomic，但找不到它。

1. $build-support/enable_devtoolset.shthirdparty/build-if-necessary.sh

6. 使用上一步中安装的实用程序构建Kudu。为中间输出选择一个构建目录，除了Kudu目录本身之外，它可

以在文件系统中的任何位置。请注意，devtoolset仍然必须指定，否则您会得到cc1plus：错误：

unrecognizedcommandlineoption“-std=c++11”。

1. mkdir-pbuild/release

2. cdbuild/release

RHEL或者CentOS

安装指南

-17-本文档使用书栈(BookStack.CN)构建

3. ../../build-support/enable_devtoolset.sh\

4. ../../thirdparty/installed/common/bin/cmake\

5. -DCMAKE_BUILD_TYPE=release\

6. ../..

7. make-j4

7. 可选：安装Kudu二进制文件，库和标题。如果不通过DESTDIR环境变量指定安装目录，则默认为

/usr/local/。

1. sudomakeDESTDIR=/opt/kuduinstall

8. 可选：构建文档。注意：此命令构建不适合上传到Kudu网站的本地文档。

1. $makedocs

示例1.RHEL/CentOS构建脚本

此脚本概述了在新安装的RHEL或CentOS主机上构建Kudu的过程，可用作自动部署场景的基础。它跳过上面

标记为可选步骤的步骤。

1. #!/bin/bash

2.

3. sudoyum-yinstallautoconfautomakecyrus-sasl-develcyrus-sasl-gssapi\

4. cyrus-sasl-plaingccgcc-c++gdbgitkrb5-serverkrb5-workstationlibtool\

5. makeopenssl-develpatchpkgconfigredhat-lsb-corersyncunzipvim-commonwhich

6. DTLS_RPM=rhscl-devtoolset-3-epel-6-x86_64-1-2.noarch.rpm

7. DTLS_RPM_URL=https://www.softwarecollections.org/repos/rhscl/devtoolset-3/epel-6-x86_64/noarch/${DTLS_RPM}

8. wget${DTLS_RPM_URL}-O${DTLS_RPM}

9. sudoyuminstall-yscl-utils${DTLS_RPM}

10. sudoyuminstall-ydevtoolset-3-toolchain

11. gitclonehttps://github.com/apache/kudu

12. cdkudu

13. build-support/enable_devtoolset.shthirdparty/build-if-necessary.sh

14. mkdir-pbuild/release

15. cdbuild/release

16. ../../build-support/enable_devtoolset.sh\

17. ../../thirdparty/installed/common/bin/cmake\

18. -DCMAKE_BUILD_TYPE=release\

19. ../..

20. make-j4

1. 安装必备库(如果它们没有安装)

1. $sudoapt-getinstallautoconfautomakecurlg++gccgdbgit\

2. krb5-admin-serverkrb5-kdckrb5-userlibkrb5-devlibsasl2-devlibsasl2-modules\

3. libsasl2-modules-gssapi-mitlibssl-devlibtoollsb-releasemakentpopenssl\

4. patchpkg-configpythonrsyncunzipvim-common

Ubuntu或者Debian

安装指南

-18-本文档使用书栈(BookStack.CN)构建

剩余92页未读，继续阅读

harli

粉丝: 9
资源: 61

Apache Kudu 1.4.0 列式存储管理中文文档

Apache Kudu 1.4.0 中文文档

Apache Kudu用户指导手册.pdf

kudu, Apache Kudu 从https镜像.zip

Apache Kudu 1.4.0中文版：高效列式存储与大数据应用解决方案

藏经阁-Apache Kudu & Apache Spark SQL.pdf

apache-kudu-1.15.0.tar.gz

apache-kudu-1.16.0.tar.gz

10-2.Apache+Kudu在网易的实践.pdf

kudu1.14.tar.gz

Kudu集群安装手册和使用kudu client操作kudu.zip

最新资源