Dinky:一站式实时计算平台与Flink集成实践

需积分: 1 4 下载量 107 浏览量 更新于2024-06-17 收藏 5.38MB PDF 举报
"Dinky(0.7.3)学习笔记" Dinky是一个基于Apache Flink构建的一站式实时计算平台,它旨在简化OLAP和数据湖的连接,并促进流批一体和湖仓一体的实施。这个平台拥有多个核心特性,使得实时计算和数据管理变得更加高效和便捷。 1. **沉浸式体验**:Dinky提供了DataStudio工具,具备全屏开发环境,支持自动提示、语法高亮、语句美化、语法校验等功能。此外,它还具备调试预览、全局变量、MetaStore、字段级血缘分析、元数据查询以及FlinkSQL的生成能力,极大地提升了开发者的使用体验。 2. **易用性**:Dinky允许用户在不同Flink执行模式之间无缝切换,支持多版本Flink,同时自动化管理实时任务、恢复点和报警系统。它还提供自定义配置和持久化的Flink Catalog,便于用户管理和操作。 3. **增强功能**:Dinky不仅兼容官方的FlinkSQL语法,还增加了如SQL表值聚合函数、全局变量、CDC整库同步、执行环境定制、语句合并和共享会话等增强功能,增强了Flink的功能性。 4. **一站式服务**:从FlinkSQL的开发调试到上线运维监控,Dinky覆盖了整个流程,提供SQL查询执行能力,实现数据仓库建设和数据治理的一体化。 5. **易扩展性**:Dinky的源码采用SPI插件化设计,通过各种设计模式支持用户快速扩展新功能,包括但不限于连接器、数据源、报警方式、FlinkCatalog、CDC整库同步和自定义FlinkSQL语法等。 在实际应用中,Dinky支持以下主要功能: - **集群注册和管理**:包括Standalone集群和YarnSession集群的注册,以及集群配置的管理。 - **作业提交和运行**:用户可以创建作业,配置信息,设置作业和执行配置,然后在不同模式下提交运行,如Local、Standalone、YarnSession和YarnApplication模式。 - **持久化Catalog**:用户可以选择和查看Catalog,管理元数据。 - **变量使用**:Dinky支持全局变量定义、查看和注册,方便在FlinkSQLEnv中使用。 - **数据源管理**:包括创建数据源、数据源访问和建表语句的使用。 - **ADDJAR命令**:用于添加JAR包到运行环境中。 - **CDCSOURCE整库同步**:Dinky支持Flink CDC与Kafka的多源数据合并,可以将实时数据合并到单个或多个Kafka Topic。 - **UDF开发**:用户可以创建UDF并在作业中注册,以扩展计算能力。 - **用户管理**:包括创建用户和修改密码。 - **报警管理**:Dinky提供邮箱告警实例的配置,包括POP3/SMTP服务设置、报警实例和报警组的创建,以及作业报警组的指定。 Dinky是一个强大的工具,它集成了多种功能,简化了实时计算平台的使用和维护,同时提供了丰富的扩展性,满足不同场景下的数据处理需求。