clickhouse-zh_201906.pdf（开源分析性数据库--高速查询，大数据实时分析时代的黑马）_sqldbm开源

需积分: 13 196 浏览量更新于2023-05-17 评论收藏 4.78MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

资源详情

资源评论

资源推荐

ClickHouse文档

什么是ClickHouse？

ClickHouse是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。

在传统的行式数据库系统中，数据按如下顺序存储：

Row WatchID JavaEnable Title GoodEvent EventTime

#0 89354350662 1 Investor Relations 1 2016-05-18 05:19:20

#1 90329509958 0 Contact us 1 2016-05-18 08:10:20

#2 89953706054 1 Mission 1 2016-05-18 07:38:00

#N ... ... ... ... ...

处于同一行中的数据总是被物理的存储在一起。

常见的行式数据库系统有： MySQL、Postgres和MS SQL Server。

在列式数据库系统中，数据按如下的顺序存储：

Row: #0 #1 #2 #N

WatchID: 89354350662 90329509958 89953706054 ...

JavaEnable: 1 0 1 ...

Title: Investor Relations Contact us Mission ...

GoodEvent: 1 1 1 ...

EventTime: 2016-05-18 05:19:20 2016-05-18 08:10:20 2016-05-18 07:38:00 ...

该示例中只展示了数据在列式数据库中数据的排列顺序。对于存储而言，列式数据库总是将同一列的数据存储在一起，不

同列的数据也总是分开存储。

常见的列式数据库有： Vertica、 Paraccel (Actian Matrix，Amazon Redshift)、 Sybase IQ、 Exasol、 Infobright、

InfiniDB、 MonetDB (VectorWise， Actian Vector)、 LucidDB、 SAP HANA、 Google Dremel、 Google PowerDrill、

Druid、 kdb+。

不同的存储方式适合不同的场景，这里的查询场景包括：进行了哪些查询，多久查询一次以及各类查询的比例；每种查询

读取多少数据————行、列和字节；读取数据和写入数据之间的关系；使用的数据集大小以及如何使用本地的数据集；是

否使用事务,以及它们是如何进行隔离的；数据的复制机制与数据的完整性要求；每种类型的查询要求的延迟与吞吐量等

等。

系统负载越高，根据使用场景进行定制化就越重要，并且定制将会变的越精细。没有一个系统同样适用于明显不同的场景。

如果系统适用于广泛的场景，在负载高的情况下，所有的场景可以会被公平但低效处理，或者高效处理一小部分场景。

CPUCPU

由于执行一个查询需要处理大量的行，因此在整个向量上执行所有操作将比在每一行上执行所有操作更加高效。同时这将有

助于实现一个几乎没有调用成本的查询引擎。如果你不这样做，使用任何一个机械硬盘，查询引擎都不可避免的停止CPU进

行等待。所以，在数据按列存储并且按列执行是很有意义的。

有两种方法可以做到这一点：

1. 向量引擎：所有的操作都是为向量而不是为单个值编写的。这意味着多个操作之间的不再需要频繁的调用，并且调用的

成本基本可以忽略不计。操作代码包含一个优化的内部循环。

2. 代码生成：生成一段代码，包含查询中的所有操作。

这是不应该在一个通用数据库中实现的，因为这在运行简单查询时是没有意义的。但是也有例外，例如，MemSQL使用代

码生成来减少处理SQL查询的延迟(只是为了比较，分析型数据库通常需要优化的是吞吐而不是延迟)。

请注意，为了提高CPU效率，查询语言必须是声明型的(SQL或MDX)，或者至少一个向量(J，K)。查询应该只包含隐式循

环，允许进行优化。

ClickHouse的独特功能

示例示例





$ clickhouse-client

ClickHouse client version 0.0.52053.

Connecting to localhost:9000.

Connected to ClickHouse server version 0.0.52053.

:) SELECT CounterID, count() FROM hits GROUP BY CounterID ORDER BY count() DESC LIMIT 20

SELECT

CounterID,

count()

FROM hits

GROUP BY CounterID

ORDER BY count() DESC

LIMIT 20

┌─CounterID─┬──count()─┐

│ 114208 │ 56057344 │

│ 115080 │ 51619590 │

│ 3228 │ 44658301 │

│ 38230 │ 42045932 │

│ 145263 │ 42042158 │

│ 91244 │ 38297270 │

│ 154139 │ 26647572 │

│ 150748 │ 24112755 │

│ 242232 │ 21302571 │

│ 338158 │ 13507087 │

│ 62180 │ 12229491 │

│ 82264 │ 12187441 │

│ 232261 │ 12148031 │

│ 146272 │ 11438516 │

│ 168777 │ 11403636 │

│ 4120072 │ 11227824 │

│ 10938808 │ 10519739 │

│ 74088 │ 9047015 │

│ 115079 │ 8837972 │

│ 337234 │ 8205961 │

└───────────┴──────────┘

20 rows in set. Elapsed: 0.153 sec. Processed 1.00 billion rows, 4.00 GB (6.53 billion rows/s., 26.10 GB/s.)

真正的列式数据库管理系统

在一个真正的列式数据库管理系统中，除了数据本身外不应该存在其他额外的数据。这意味着为了避免在值旁边存储它们的

长度“number”，你必须支持固定长度数值类型。例如，10亿个UInt8类型的数据在未压缩的情况下大约消耗1GB左右的空

间，如果不是这样的话，这将对CPU的使用产生强烈影响。即使是在未压缩的情况下，紧凑的存储数据也是非常重要的，因

为解压缩的速度主要取决于未压缩数据的大小。

这是非常值得注意的，因为在一些其他系统中也可以将不同的列分别进行存储，但由于对其他场景进行的优化，使其无法有

效的处理分析查询。例如： HBase，BigTable，Cassandra，HyperTable。在这些系统中，你可以得到每秒数十万的吞吐

能力，但是无法得到每秒几亿行的吞吐能力。

需要说明的是，ClickHouse不单单是一个数据库，它是一个数据库管理系统。因为它允许在运行时创建表和数据库、加载

数据和运行查询，而无需重新配置或重启服务。

数据压缩

在一些列式数据库管理系统中(例如：InfiniDB CE and MonetDB) 不是用数据压缩。但是, 数据压缩在实现优异的存储系统中

确实起着关键的作用。

数据的磁盘存储

许多的列式数据库(如 SAP HANA, Google PowerDrill)只能在内存中工作，这种方式会造成比实际更多的设备预算。

ClickHouse被设计用于工作在传统磁盘上的系统，它提供每GB更低的存储成本，但如果有可以使用SSD和内存，它也会合

理的利用这些资源。

多核心并行处理

大型查询可以以很自然的方式在ClickHouse中进行并行化处理，以此来使用当前服务器上可用的所有资源。

多服务器分布式处理

上面提到的列式数据库管理系统中，几乎没有一个支持分布式的查询处理。在ClickHouse中，数据可以保存在不同的shard

上，每一个shard都由一组用于容错的replica组成，查询可以并行的在所有shard上进行处理。这些对用户来说是透明的

支持SQL

ClickHouse支持基于SQL的查询语言，该语言大部分情况下是与SQL标准兼容的。支持的查询包括 GROUP BY，ORDER

BY，IN，JOIN以及非相关子查询。不支持窗口函数和相关子查询。

向量引擎

为了高效的使用CPU，数据不仅仅按列存储，同时还按向量(列的一部分)进行处理。

实时的数据更新

ClickHouse支持在表中定义主键。为了使查询能够快速在主键中进行范围查找，数据总是以增量的方式有序的存储在

MergeTree中。因此，数据可以持续不断高效的写入到表中，并且写入的过程中不会存在任何加锁的行为。

索引

按照主键对数据进行排序，这将帮助ClickHouse以几十毫秒的低延迟对数据进行特定值查找或范围查找。

剩余428页未读，继续阅读

RollinSpark

粉丝: 8
资源: 20

会员权益专享

clickhouse-zh_201906.pdf（开源分析性数据库--高速查询，大数据实时分析时代的黑马）

评论0

会员权益专享

最新资源

clickhouse-zh_201906.pdf（开源分析性数据库--高速查询，大数据实时分析时代的黑马）

评论0

腾讯 clickhouse应用实践.pdf

ClickHouse中文版pdf

8. clickhouse在OneAPM的应用.pdf

languagepack_1.11.0.28416-x64-zh_cn.msi

wordpress-5.2.2-zh_cn.tar.g

clickhouse_zh.pdf

luci-i18n-base-zh-cn_git-19.055.62634-0cc62b4-1_all.ipk

handwriting-zh_cn.model 怎么训练出来的

materialidsrandomgenerator-1.0.0-zh_cn.ms

ocr_zh-cn_1.6.0.117_4

languagepack_1.14.0.28885-x64-zh_cn.msi

languagepack_1.8.4.24972-win32-zh_cn

ocr_zh-cn_1.6.0.117_4.zip

apisix-dashboard-3.0.1-0.el7.x86_64.rpm 下载

languagepack_1.14.0.28885-x64-zh_cn22.zip

qgis-osgeo4w-3.16.12-1-setup-x86_64.exe下载

debian怎么安装对应的zh_CN.UTF-8语言包

bcompare-zh-4.3.7.25118

red_hat_enterprise_linux-6-global_file_system_2-zh-cn.pdf

bcompare-zh-3.3.5.15075-withkey

会员权益专享

最新资源