Apache Druid（Imply-3.0.4）详解与CentOS部署

需积分: 0 67 浏览量更新于2024-08-04 收藏 501KB PDF 举报

"Apache Druid是一个高性能、分布式的实时分析数据库，主要设计用于在线分析查询（OLAP）。它提供了亚秒级的查询响应时间，特别适合处理大量时序数据。Druid由MetaMarket公司创建，现在是Apache软件基金会的顶级项目。在Druid中，数据以列式存储，这种存储方式对于分析查询非常高效。它采用了倒排索引和位图索引等技术，以优化查询性能。Druid支持实时流数据摄入，允许数据在亚秒级别内被处理和查询，同时也提供了丰富的实时数据可视化功能。它具有强大的聚合和过滤能力，能够处理高并发的查询请求。 Druid的关键特性包括： 1. **亚秒级查询**：通过列式存储、倒排索引和位图索引等技术，Druid可以在极短的时间内处理复杂查询。 2. **实时流处理**：Druid支持实时数据摄入，能够在数据到达后立即进行分析。 3. **SQL支持**：提供SQL查询语言，方便用户进行数据查询和分析。 4. **高可用性和可扩展性**：Druid设计为分布式系统，可以水平扩展以适应更大的数据量和更高的负载。 Druid适用于以下场景： - **高频率的数据插入**：适用于需要频繁插入新数据，但数据更新较少的情况。 - **聚合和分组查询**：大部分查询涉及聚合和分组操作，且有检索和扫描查询需求。 - **低延迟查询**：查询延迟目标在100毫秒至几秒钟之间。 - **时序数据**：数据具有时间戳，Druid在处理这类数据时有专门的优化。 - **单表查询和多表连接**：在一个大型分布式表和一些小型lookup表的环境中。 - **高基数维度**：处理如URL、用户ID等高基数维度数据的快速计数和排序。然而，Druid不适用于以下场景： - **频繁的低延迟更新**：Druid不支持基于主键的低延迟数据更新。 - **强事务性需求**：如果你的应用需要高度的事务一致性，Druid可能不是最佳选择。在部署Druid时，通常需要先安装和配置基础环境，比如JDK、ZooKeeper和HDFS。然后，你可以通过Imply提供的工具来简化部署过程。Imply是围绕Druid构建的一套全面的数据平台，它包括了Druid以及相关的工具和服务，使得部署和管理更加便捷。在CentOS 6.10上部署Druid，你需要按照以下步骤操作： 1. 安装JDK、ZooKeeper和HDFS。 2. 下载并解压Druid的发行版（如Imply-3.0.4）。 3. 配置Druid的相关配置文件，如`druid/_common/common.properties`、`druid/_overlord/overlord.properties`等。 4. 启动Druid的各种服务组件，如Broker、Coordinator、Historical和MiddleManager等。 5. 验证部署，可以通过提交测试数据和执行查询来确保系统正常运行。在后续的文章中，你将会学习到如何使用不同的方式摄入数据、操作Druid的API、配置文件详解以及Rollup的概念和应用。这些内容将帮助你更深入地理解和使用Druid，实现高效的数据分析和处理。"

Apache Druid 系列文章  
1、Druid（Imply-3.0.4）介绍及部署（centos6.10）、验证 
2、Druid的入门示例（使用三种不同的方式摄入数据和提交任务） 
3、Druid的load data 示例（实时kafka数据和离线-本地或hdfs数据） 
4、java操作druid api 
5、Druid配置文件详细介绍以及示例 
6、Druid的Roll up详细介绍及示例
@TOC
本问介绍了Druid的基本内容以及部署。 
本文前提依赖jdk、zookeeper、hdfs，相关内容参考本人编写的其他专栏博文。 
本文分为2个部分，即介绍和imply方式部署。
一、Druid介绍  
1、Druid简介  
官网：https://imply.io/what-is-druid/ 
 http://www.apache-druid.cn/ 
Druid是MetaMarket 公司开发的，将Druid定义为“开源、分布式、面向列式存储的实时分析数据存储系
统”。要解决的"痛点"：
在高并发环境下，保证海量数据查询分析性能
提供海量实时数据的查询、分析与可视化功能
2、Druid关键特性  
Druid是面向海量数据的、用于实时查询与分析的OLAP存储系统，時序數據庫。Druid的关键特性如
下：
亚秒级的OLAP查询分析，采用了列式存储、倒排索引、位图索引等关键技术
在亚秒级别内完成海量数据的过滤、聚合以及多维分析等操作
实时流数据分析
实时数据在亚秒级内的可视化
丰富的数据分析功能
SQL查询语言，REST查询接口
高可用性与高可拓展性
3、Druid的使用场景  
如果使用场景符合以下的几个特征，那么Druid是一个可选项：
数据插入频率比较高，但较少更新数据
大多数查询场景为聚合查询和分组查询（GroupBy），同时还有一定得检索与扫描查询
将数据查询延迟目标定位100毫秒到几秒钟之间
数据具有时间属性（Druid针对时间做了优化和设计）

下载后可阅读完整内容，剩余8页未读，立即下载

一瓢一瓢的饮alanchanchn

粉丝: 7557
资源: 69

Apache Druid（Imply-3.0.4）详解与CentOS部署

rime输入法-下载 RIME／中州韻輸入法引擎，是一個跨平臺的輸入法算法框架 基於這一框架，Rime 開發者與其他開源社區的參與者在 Windows、macOS、Linux、Android 等平

深度学习项目-街景字符识别.zip

ruoyi-vue-pro-vben 芋道管理后台，基于 vben 最新版本，最新的 vue3 vite6 ant-design-vue 4.0 typescript 语法进行重构开发

MATLAB实现TSO-LSSVM金枪鱼群算法优化最小二乘支持向量机多输入单输出回归预测（多指标，多图）（含完整的程序和代码详解）

(完整数据)全国土地出让、流转与城市房价微观数据合集（三份数据）

操作系统-模拟进程调度（时间片轮转调度算法，高优先级调度算法）C语言实现-实验报告

C#Excel导入学生成绩管理系统源码数据库 SQL2008源码类型 WebForm

【java毕业设计】定州人民医院药品采购管理系统源码（完整前后端+说明文档+LW）.zip

网络安全与渗透测试工具导航.zip

高分项目，跨平台的深度学习神经网络模型，纯C语言实现，可以在windows、linux、android、stm32等嵌入式系统上面部署

最新资源

rime输入法-下载 RIME／中州韻輸入法引擎，是一個跨平臺的輸入法算法框架基於這一框架，Rime 開發者與其他開源社區的參與者在 Windows、macOS、Linux、Android 等平