BigWhale:大数据分布式任务调度系统简介

需积分: 39 0 下载量 25 浏览量 更新于2024-11-29 收藏 3.99MB ZIP 举报
资源摘要信息:"Big Whale任务调度系统-其他" Big Whale任务调度平台是由美柚大数据研发的一个分布式计算任务调度系统。它主要提供了针对Spark、Flink等批处理任务的DAG执行调度功能和流处理任务的状态监测调度功能。该平台还具备重复应用检测和大内存应用检测等高级功能,用以优化和保障计算任务的高效稳定运行。 Big Whale任务调度平台是基于Spring Boot 2.0框架开发的,这意味着它具备快速开发和简化配置的特点,同时还易于打包和部署。它可以在各种基于Spring Boot环境的应用服务器上运行。 在开始部署和安装Big Whale任务调度平台之前,需要准备一定的环境,具体环境要求为Java版本1.8及以上,以及Mysql数据库版本为5.1.0或更高。安装部署可以按照以下步骤进行: 1. 创建数据库:首先需要创建一个名为big-whale的数据库。 2. 运行数据库脚本:接着需要在上述创建的数据库中运行big-whale.sql脚本,用于初始化数据库结构。 3. 配置数据库账号密码以及SMTP信息:根据Spring Boot环境,需要配置相关数据库账号密码,并设置SMTP信息,以便平台能够发送邮件通知。 4. 配置big-whale.properties文件:这个文件包含了多个配置项,例如ssh远程登录的用户名和密码,是否开启钉钉告警功能,Yarn应用内存上限以及白名单列表等。 5. 修改Flink配置:由于Flink提交任务时只能读取本地jar包,因此需要修改$FLINK_HOME/bin/flink文件,以便从hdfs上下载jar包并替换脚本中的jar包路径参数。 6. 打包应用程序:使用mvn clean package命令对应用程序进行打包。 启动Big Whale任务调度平台时,需要检查端口17070是否已被占用,如果已被占用,则需要关闭占用的进程或修改端口号并重新打包。然后将打包好的big-whale.jar文件拷贝到target目录下,并通过命令“java -jar big-whale.jar”来启动平台。 初始配置方面,需要在浏览器中打开地址***,并使用默认的账号admin和密码admin登录。登录后,用户需要修改账号的邮箱地址为一个合法且存在的邮箱地址,以免邮件发送失败。此外,还需要进行集群管理、添加代理、集群用户和计算框架版本的配置。 在集群管理方面,需要添加集群信息,包括yarn管理地址和程序包存储目录等。同时,需要配置“支持Flink任务代理用户”、“流处理任务黑名单”和“批处理任务黑名单”等任务分配规则。 代理管理方面,可以添加多个实例(仅支持IP地址,可指定端口号,默认为22),以便在执行脚本时随机选择一个实例执行。如果实例不可达,将随机选择下一个实例,直至执行成功或者所有实例均不可达导致执行失败。 集群用户管理方面,需要配置平台用户在所选集群下可以使用的Yarn资源队列(--queue)和代理用户(--proxy-user)。 最后,在版本管理方面,需要添加不同版本的Spark或Flink任务的提交命令配置,因为不同版本的任务提交命令可能有所不同。 Big Whale任务调度平台的标签为BigWhale、巨鲸任务调度平台和分布式计算任务调度系统。通过这些标签,我们可以明确地知道该平台是专门用于处理分布式计算任务的高效调度系统。