数栖实时开发1.5.0用户指南:简化实时分析与作业管理

1 下载量 159 浏览量 更新于2024-06-14 收藏 5.51MB DOCX 举报
数栖·实时开发v1.5.0用户手册是一份详细介绍数澜公司提供的实时数据处理平台的文档。该平台旨在提供低延迟、高吞吐量且高可靠性的分布式流数据分析服务,让开发者无需深入理解底层计算集群结构,专注于业务逻辑的编写,特别是对于具备SQL编程基础的用户来说,非常友好。它支持两种主要的作业类型:StructuredStreaming和Flink,以及通过可视化界面轻松创建实时计算作业。 在这个文档中,"作业"作为核心概念,是平台的基本执行单元,支持多种实时计算引擎,如StructuredStreamingSql和FlinkSql。资源文件(Resource)则是用户上传的jar包或其他依赖,供作业和函数开发使用。"函数"包括自定义代码函数和UDF(用户定义函数),它们在实时计算和同步作业中发挥关键作用。 实例(Instance)是作业的具体执行实例,每次作业运行都会生成一个新的实例,它会经历待运行、运行中等状态,并通过版本号管理作业的变更和发布,以便于故障排查和管理。 FlinkSql作为一种易用的SQL方言,降低了实时计算的入门门槛,它遵循标准SQL语法,使得用户可以更直观地编写处理任务。"Topic"在文档中指的是Kafka的消息队列,存储特定类型的消息,并保证消息的强有序。"Schema"定义了Topic的数据格式,包括字段信息和类型,确保数据的正确解析。 "算子"是实时计算中的核心操作单元,负责数据的变换和处理,是任务执行过程中的基本组件。"副本数"的概念强调了分布式系统的容错机制,通过增加数据副本来提高数据可靠性,防止单点故障。 最后,"Broker"是Kafka中的节点,负责消息的存储和传递,而"Offset"则是指每个分区中的消息位置标识,用于跟踪和管理消息的消费进度。 数栖·实时开发v1.5.0用户手册详细介绍了如何利用这个平台进行实时数据分析,涵盖了从作业创建、资源管理、函数开发到数据处理的各种核心概念和技术细节。这份文档对于理解和使用实时开发工具的开发者来说,具有很高的实用价值。