Apache DolphinScheduler:高效支撑企业大数据核心业务的新一代任务调度

需积分: 10 12 下载量 13 浏览量 更新于2024-07-15 收藏 7.33MB PPTX 举报
Apache DolphinScheduler 在企业大数据核心业务中的应用 Apache DolphinScheduler 是一款新一代的开源大数据任务调度系统,旨在解决大数据任务之间错综复杂的依赖关系,使整个数据处理过程可直观感知。该系统致力于提供高效、可靠、灵活的任务调度服务,以满足企业大数据核心业务的需求。 **DolphinScheduler 的主要特点** 1. **DAG 形式的任务组装**:DolphinScheduler 采用有向无环图(DAG)的方式将 Task 组装起来,实时监控任务的运行状态,同时支持重试、从指定节点恢复失败、暂停及 Kill 任务等操作。 2. **高性能任务调度**:DolphinScheduler 支持每日十万数据量级任务,稳定运行工作流可定时、依赖、手动、暂停/停止/恢复 Task,以 DAG 形式关联,实时监控任务的状态。 3. **去中心化设计**:DolphinScheduler 采用去中心化设计,确保系统的稳定、高可用,支持 Shell、MR、Spark、SQL、依赖等 10 多种任务类型。 4. **多种数据加工任务类型**:DolphinScheduler 支持多种数据加工任务类型,包括 Shell、数据源、Spark、Flink、MR、Python、Http、子流程、以及任务依赖。 5. **可视化拖曳快速建立流程**:DolphinScheduler 提供了可视化拖曳功能,快速建立流程,大大提高数据导入任务创建效率。 6. **任务管理**:DolphinScheduler 提供了任务状态多粒度监控、任务执行状态回溯、数据加工平台任务监控总览、流程实例状态查看、任务执行日志查看等功能,方便运维实时了解任务运行状况,快速定位问题。 7. **插件式设计**:DolphinScheduler 采用插件式设计,支持自由扩展数据源,包括 MySql、PostgerSql、Hive、Impala、Spark、ClickHouse、Oracle、SqlServer、DB2、MongoDB 等。 **DolphinScheduler 在企业大数据核心业务中的应用** 1. **大数据任务调度**:DolphinScheduler 可以高效支撑企业大数据核心业务,提供了灵活的任务调度服务,满足企业大数据处理的需求。 2. **数据加工平台**:DolphinScheduler 提供了数据加工平台,支持多种数据加工任务类型,包括数据源、Spark、Flink、MR、Python、Http 等。 3. **任务管理**:DolphinScheduler 提供了任务管理功能,包括任务状态多粒度监控、任务执行状态回溯、数据加工平台任务监控总览等。 4. **数据源管理**:DolphinScheduler 提供了数据源管理功能,支持自由扩展数据源,包括 MySql、PostgerSql、Hive、Impala、Spark、ClickHouse、Oracle、SqlServer、DB2、MongoDB 等。 Apache DolphinScheduler 是一款功能强大且灵活的任务调度系统,能够高效支撑企业大数据核心业务,满足企业大数据处理的需求。