Druid入门教程：三种数据摄入与任务提交方法

需积分: 0 112 浏览量更新于2024-08-04 收藏 1.22MB PDF 举报

"Apache Druid是一个高性能的列式存储系统，常用于实时数据分析和大数据处理。本文将通过三个示例介绍如何使用Druid摄入数据并提交任务。首先，我们需要确保Druid集群已经部署并正常运行。" Apache Druid是一个针对大数据实时分析的开源时序数据库，其特点是快速查询响应和高效的数据摄取。在本示例中，我们将通过三种方法学习如何将数据导入Druid并执行任务。 **一、Druid简单示例1：通过命令和Postman操作** 在这个示例中，我们将使用命令行工具和Postman API客户端来摄入数据。首先，将测试数据`order.json`分发到Druid集群的每台服务器上。这个文件包含商品订单信息，如时间戳、类别、地区和金额。接下来，使用Druid的索引服务接口来处理这些数据，这通常涉及到创建数据源定义、设置数据摄入配置，然后提交任务。 **二、Druid简单示例2：通过Druid操作** 在这个示例中，我们可能使用Druid的Web界面或者其提供的API直接操作数据摄入。首先，创建一个新的数据源定义，指定数据的列结构和时间粒度。然后，配置数据摄入任务，例如设置输入源（可能是Kafka、HDFS或其他）、数据分隔符和转换规则。最后，启动任务，Druid会自动处理数据并将结果存储在数据库中。 **三、Druid简单示例3：通过命令提交任务** 此示例中，我们通过执行脚本或者命令行工具（如curl）提交数据摄入任务。这通常涉及编写JSON配置文件，其中包含了所有必要的数据源和任务信息，然后使用Druid的命令行工具（如`druid-indexing-service`）提交该配置。这种方式适用于自动化流程，可以在不直接交互的情况下批量处理数据摄入。在所有示例中，确保数据摄入成功后，我们可以使用Druid的SQL查询能力对数据进行分析，例如查询2022年5月8日按商品分类和区域的商品订单总额。Druid的列式存储和优化的查询引擎使其在处理此类分析任务时表现优秀。了解这些基本示例后，你可以进一步深入学习Druid的其他特性，如load data示例（实时Kafka数据和离线本地或HDFS数据），使用Java API操作Druid，详细配置文件的解释，以及Druid的Rollup机制，它允许在数据摄入时就进行数据聚合，从而提高查询效率。在实际应用中，Druid广泛用于在线业务分析、日志分析、物联网(IoT)数据处理等领域，因其强大的实时分析性能而受到青睐。掌握这些基础操作，将帮助你更好地利用Druid解决大数据场景下的实时分析挑战。

# 1 打开postman，请求地址设置为 http://server1:8090/druid/indexer/v1/task

# 2 请求方式选择为POST

# 3 body > raw > JSON(application/json)

# 4 將下屬index_order.json放在請求參數中

# 5 postman 发送請求

# index_order.json

{

"spec": {

   "dataSchema": {

   "dataSource": "demo_order",

   "parser": {

    "type": "String",

    "parseSpec": {

     "format": "json",

     "dimensionsSpec": {

      "dimensions": [

       "category",

       "areaName"

      ]

     },

     "timestampSpec": {

      "column": "timestamp",

      "format": "auto"

     }

    }

   },

   "metricsSpec": [

    {

     "type": "count",

     "name": "count"

    },

    {

     "type": "longSum",

     "name": "money",

     "fieldName": "money",

     "expression": null

    }

   ],

   "granularitySpec": {

    "type": "uniform",

    "segmentGranularity": "DAY",

    "queryGranularity": "HOUR",

    "rollup": true,

    "intervals": [

     "2022-05-06T00:00:00.000Z/2022-05-09T00:00:00.000Z"

    ]

   },

   "transformSpec": {

    "filter": null,

    "transforms": []

   }

  },

  "ioConfig": {

   "type": "index",

剩余10页未读，继续阅读

一瓢一瓢的饮alanchanchn

粉丝: 9285

Druid入门教程：三种数据摄入与任务提交方法

3、Druid的load data 示例（实时kafka数据和离线-本地或hdfs数据）

6、Druid的Roll up详细介绍及示例

1、Druid（Imply-3.0.4）介绍及部署（centos6.10）、验证

写一个druid配置示例

使用Druid但不使用他的数据源

springboot druid 多数据源 示例

spring集成druid线程池的使用示例

给一个springboot集成druid的示例 需要完整的代码

druid多数据源切换

properties多数据源druid

最新资源

springboot druid 多数据源示例

给一个springboot集成druid的示例需要完整的代码