dolphinscheduler 字段级血缘 任务配置规范
时间: 2023-09-20 09:06:46 浏览: 174
DolphinScheduler 的字段级血缘可以通过以下步骤进行配置:
1. 在创建数据源时,需要勾选“是否开启数据血缘”选项,并填写数据源的元数据信息。
2. 在创建数据表时,需要勾选“是否开启数据血缘”选项,并填写数据表的元数据信息。
3. 在创建数据表字段时,需要勾选“是否开启数据血缘”选项,并填写字段的元数据信息。
4. 在创建任务时,需要在任务配置中勾选“开启血缘”选项,并填写任务的元数据信息。
5. 在任务中使用到的表字段需要在任务配置中进行映射,以建立字段级血缘关系。
规范的任务配置包括以下几点:
1. 任务名称和描述应该清晰明了,能够表达任务的用途和目的。
2. 任务类型应该选择适合场景的类型,例如,数据抽取任务应该选择“数据同步”类型,数据处理任务应该选择“数据处理”类型。
3. 任务的执行周期应该根据业务需求进行设置,例如,每天执行一次、每小时执行一次等。
4. 任务的依赖关系需要清晰明了,确保任务按照正确的顺序执行。
5. 任务的参数设置需要根据业务需求进行设置,例如,数据库连接信息、数据表名称、数据抽取条件等。
通过以上规范的任务配置和字段级血缘的设置,可以帮助用户更好地管理和监控数据处理任务的执行情况,提高数据处理任务的可靠性和准确性。
相关问题
dolphinscheduler json 样例
Dolphinscheduler是一个分布式任务调度系统,它支持通过RESTful API进行配置和操作。JSON(JavaScript Object Notation)在Dolphinscheduler中主要用于传输数据和配置信息,因为JSON是一种轻量级的数据交换格式,易于解析和生成。
一个简单的Dolphinscheduler JSON配置样例如下:
```json
{
"job": {
"name": "example_job",
"group": "default_group",
"cron": "0/5 * * * *", // 每五分钟触发一次
"description": "这是一个示例任务",
"tasks": [
{
"task_id": "task_1",
"type": "shell", // 任务类型,如shell、spark等
"executor": "local", // 执行器类型
"content": "echo 'Hello, Dolphinscheduler!'"
}
]
}
}
```
在这个例子中,`job`字段包含了作业的基本信息,如名称、组名、定时规则等。`tasks`数组定义了作业中的单个任务,包括任务ID、类型、执行器以及具体的执行内容。
作为datahub的专家,开源datahub元数据工具怎么获取DolphinScheduler中的数据血缘关系,具体案例
作为 DataHub 的专家,我需要再次纠正一下之前的回答。DataHub 和 DolphinScheduler 是两个不同的开源项目,它们虽然都是与大数据相关的项目,但是功能和用途有所不同。接下来我将为您介绍开源的 DataHub 元数据工具如何获取 DolphinScheduler 中的数据血缘关系,并给出一个具体的案例。
开源的 DataHub 元数据工具是一款基于 DataHub 的元数据管理工具,可以自动化地收集和管理数据的元数据信息。其中,元数据管理包括数据血缘关系的记录和展示。具体步骤如下:
1. 在 DataHub 中创建需要记录数据血缘的 Topic,并设置需要记录血缘信息的字段。
2. 在 DolphinScheduler 中创建数据血缘任务,指定需要记录数据血缘的数据源和表,并执行任务。
3. 在 DataHub 元数据工具中添加 DolphinScheduler 的元数据源,配置数据血缘任务的信息。
4. 开启元数据采集任务,DataHub 元数据工具会自动从 DolphinScheduler 中获取数据血缘信息,并保存到元数据库中。
5. 在元数据工具中查看数据血缘关系,可以查看到每个数据的来源和去向,以及数据在流程中的处理状态和时间。
下面是一个具体的案例,假设我们有一个需求,需要实时统计某个数据源中数据的血缘关系,以及数据在流程中的处理状态。
1. 在 DataHub 中创建一个 Topic,名为 data_topic,并设置需要记录数据血缘的字段。
2. 在 DolphinScheduler 中创建数据血缘任务,指定要记录数据血缘的数据源和表。
3. 在 DataHub 元数据工具中添加 DolphinScheduler 的元数据源,配置数据血缘任务的信息。
4. 开启元数据采集任务,DataHub 元数据工具会自动从 DolphinScheduler 中获取数据血缘信息,并保存到元数据库中。
5. 在元数据工具中查看数据血缘关系,可以查看到每个数据的来源和去向,以及数据在流程中的处理状态和时间。
通过以上步骤,我们就可以实时获取 data_topic 中数据的血缘关系,以及数据在流程中的处理状态。同时,DataHub 元数据工具可以自动化地管理数据的元数据信息,提高数据管理的效率和准确性。
阅读全文