Druid配置详解与数据摄取示例

需积分: 0 70 浏览量更新于2024-08-03 收藏 410KB PDF 举报

" Druid配置文件详解，包括摄取配置文件结构、数据解析模式、数据源、数据粒度规则等，结合示例说明了配置文件的使用。" Apache Druid 是一个高性能、分布式、列式存储的数据仓库，常用于实时数据分析。配置文件在Druid中扮演着至关重要的角色，它定义了数据摄取、解析、存储和查询的方式。以下是对Druid配置文件的详细介绍：一、摄取配置文件结构 Druid的摄取配置文件主要由以下几个部分构成： 1. `type`：决定了数据摄取的方式，例如`index`（本地文件上传）、`index_hadoop`（HDFS文件上传）或`kafka`（实时Kafka数据摄取）。 2. `spec`：包含了数据解析模式、数据源和优化配置的详细设置。 3. `dataSchema`：定义了数据解析规则，包括数据源、解析规则、数据粒度和指标计算。 4. `ioConfig`：配置数据源信息，如数据的读取和写入位置。 5. `tuningConfig`（可选）：优化配置，如分区策略和分区大小。二、数据解析模式（`dataSchema`） 1. `dataSource`：定义了数据源的名称，即数据在Druid中存储的表名。 2. `parser`：指定数据解析方式，包括数据格式和转换规则。 - `type`：指定数据类型，默认为`string`，对于HDFS上的数据可能为`hadoopyString`。 - `parseSpec`：定义数据的格式，如`csv`、`json`、`tsv`等，并配置列名、分隔符等信息。 3. `granularitySpec`：定义数据的粒度，用于决定数据如何被划分和存储，例如按小时、天或自定义粒度。 4. `metricsSpec`：定义如何计算指标，例如总和、平均值、计数等。三、数据源配置（`ioConfig`） `ioConfig` 部分配置数据的读取和写入位置，如HDFS路径、Kafka主题等。例如，在Kafka摄取中，需要指定`topic`、`consumerProperties`等参数。四、优化配置（`tuningConfig`） `tuningConfig` 用于优化数据摄取性能，包括分区策略（如按时间或大小分区）和并行度设置，以提高数据处理速度。示例配置： ```json { "type": "index_hadoop", "spec": { "dataSchema": { "dataSource": "myTableName", "parser": { "type": "csv", "parseSpec": { "format": "csv", "columns": ["column1", "column2"], "timestampSpec": { ... }, "dimensionsSpec": { ... }, "metricsSpec": [ ... ] } }, "granularitySpec": { ... } }, "ioConfig": { "inputSource": { ... }, "inputFormat": { ... } }, "tuningConfig": { "partitionsSpec": { ... }, "maxRowsPerSegment": 5000000 } } } ``` 这个示例展示了从CSV文件摄取数据的基本配置，包括数据源名称、数据解析规则、输入源和优化配置。通过理解这些配置选项，你可以根据实际需求定制Druid的配置文件，实现高效、灵活的数据处理。配置文件的正确设置对Druid系统的性能和功能至关重要，因此在实际使用中应仔细调整和测试。

展开

2）、示例

// segmentGranularity（可选）：指定每个segment包含的时间戳的范围。默认为day，用来确定每个

segment包含的时间戳的范围，可以为"SECOND"、"MINUTE"

、"HOUR"、"DAY"、"DOW"、"DOY"、"WEEK"、"MONTH"、"QUARTER"、"YEAR"、"EPOCH"、"DECADE"

、"CENTURY"、"MILLENNIUM"等。

// queryGranularity（可选）：默认为None，允许查询的时间粒度，单位与segmentGranularity相

同，如果为None那么允许以任意时间粒度进行查询。

// rollup（可选）：是否使用预计算算法，默认为true，推荐true，比较快。

// intervals：用于指定上传时间限制时间段。只有时间段内的数据可以上传。批量数据导入需要设置/流

式导入无需设置。示例：

   "granularitySpec" : {

     "type" : "uniform",

     "segmentGranularity" : "DAY",

     "queryGranularity" : { "type" : "none"},

     "rollup" : "true",

     "intervals" : [ "2017-11-15T00:00:00.000Z/2017-11-18T00:00:00.000Z"

]

     }

     

//4、metricsSpec：包含了一系列的aggregators转换

 //type可以为：count、longSum、doubleSum、doubleMin\doubleMax、longMin\longMax、

doubleFirst\doubleLast、longFirst\longLast

 //除count外其他都需要指定name和fieldName两个参数，name表示最后输出的，也就是在表中体现

的名称，而fieldName则代表源数据中的列名。

 //更多说明参考：http://druid.io/docs/0.10.1/querying/aggregations.html

 //示例：

 "metricsSpec":

   [

     {"type":"count","name":"count"},

     {"type":"doubleSum","name":"added","fieldName":"added"},

     {"type":"doubleSum","name":"deleted","fieldName":"deleted"},

     {"type":"doubleSum","name":"delta","fieldName":"delta"}

   ]

//数据摄取模式

"dataSchema": {

 // 数据源（表），数据源名称，用于设置上传数据之后的表名称

 "dataSource": "testdata",

 // 解析器，用于指定数据怎么被转化，转化为什么格式

 "parser": {

   // 解析字符串文本

   "type": "String",

   "parseSpec": {

     // 字符串文本格式为JSON

     "format": "json",

     // 指定维度列名，维度与时间一致，导入时聚合

     "dimensionsSpec": {

       "dimensions": [

         "city",

         "platform"

       ]

     },

     // 指定时间戳的列，以及时间戳格式化方式

下载后可阅读完整内容，剩余10页未读，立即下载

身份认证购VIP最低享 7 折!

30元优惠券

一瓢一瓢的饮alanchanchn

粉丝: 1w+

Druid配置详解与数据摄取示例

1、Druid（Imply-3.0.4）介绍及部署（centos6.10）、验证

6、Druid的Roll up详细介绍及示例

3、Druid的load data 示例（实时kafka数据和离线-本地或hdfs数据）

druid配置文件详细介绍以及示例

druid配置文件下载

druid的yml配置 给个示例

写一个druid配置文件

SpringBoot开发案例之配置Druid数据库连接池的示例

Java Druid 1.0.1数据库连接池实践示例

Druid配置详解：下载地址及文件编码介绍

最新资源

druid的yml配置给个示例