setparallelism

setParallelism指定Apache Storm拓扑中并行度的数量，即同时运行的任务数量。在Storm拓扑中，任务是一个实现组件逻辑的操作单元。并行度指的是一次可以并行执行的任务数量。在设置并行度时，需要考虑拓扑的特性，包括数据流量、接收器的处理能力、处理单元的性能、任务运行的资源需求等。过高或过低的并行度都会导致性能问题和资源浪费。 setParallelism可以在定义Spout和Bolt时设置。在Spout和Bolt的execute方法中，通过TopologyContext对象可以获取当前组件所在的Task ID和该组件的并行度信息。通过Task ID和并行度信息，可以实现任务分发和负载均衡。 setParallelism函数的调用方式为：builder.setBolt("boltName", new Bolt(), parallelismHint)，其中parallelismHint参数表示Bolt的并行度数量。同样，Spout的并行度数量也可通过类似的方式设置。在设置并行度数量时需要注意，根据不同的业务需求和拓扑结构，合理的设置并行度数量可以有效提升拓扑的处理性能。

DataStreamSource<String> source = environment.addSource(new YjxxtCustomSourceRich("data/secret.txt")).setParallelism(7);

这段代码是使用 Flink 框架中的 DataStream API 从文件中读取数据，并将读取到的数据作为字符串类型的数据流输入到 Flink 程序中。具体来说，这段代码首先创建了一个 `YjxxtCustomSourceRich` 类型的数据源，该数据源会读取 `data/secret.txt` 文件中的数据。然后使用 `setParallelism` 方法设置了并行度为 7，即在 Flink 集群中会创建 7 个并行的任务来读取该文件中的数据。最后，将该数据源添加到 Flink 程序中，使其成为数据流处理的起点。

import org.apache.flink.api.java.io.TextInputFormat import org.apache.flink.streaming.api.TimeCharacteristic import org.apache.flink.streaming.api.scala._ //输入数据的样例类 case class UserBehavior( userId: Long, itemId: Long, categoryId: Int, behavior: String, timestamp: Long ) object Test1 { def main(args: Array[String]): Unit = { //flink的流执行环境 val env = StreamExecutionEnvironment.getExecutionEnvironment //设定Time类型为EventTime env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime) //并发为1 env.setParallelism(1) //获得数据源的文件 val stream = env.readFile[String]( new TextInputFormat(null), "/data/workspace/myshixun/pflinkhotitems1_2/src/UserBehavior1.csv") // Begin // End stream1.writeAsText("/root/files/result.txt").setParallelism(1) env.execute("获得数据") } }

根据提示，我们需要在输入数据之后添加代码来对数据进行处理。可以使用 Flink 中的 DataStream API 对数据进行操作，例如过滤、分组、聚合等。下面是一个示例代码，将读取的数据流按照用户行为分组，统计每个行为的数量，并将结果输出到文件中： ```scala import org.apache.flink.api.java.io.TextInputFormat import org.apache.flink.streaming.api.TimeCharacteristic import org.apache.flink.streaming.api.scala._ import org.apache.flink.streaming.api.windowing.time.Time case class UserBehavior(userId: Long, itemId: Long, categoryId: Int, behavior: String, timestamp: Long) object Test1 { def main(args: Array[String]): Unit = { //flink的流执行环境 val env = StreamExecutionEnvironment.getExecutionEnvironment //设定Time类型为EventTime env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime) //并发为1 env.setParallelism(1) //获得数据源的文件 val stream = env.readFile[String]( new TextInputFormat(null), "/data/workspace/myshixun/pflinkhotitems1_2/src/UserBehavior1.csv") // 对数据进行处理 val dataStream = stream .map(line => { val fields = line.split(",") UserBehavior(fields(0).toLong, fields(1).toLong, fields(2).toInt, fields(3), fields(4).toLong) }) .filter(_.behavior == "pv") // 过滤出行为为 pv 的数据 .map(behavior => (behavior.behavior, 1)) // 将行为转换为键值对，并将数量设为 1 .keyBy(_._1) // 按照行为分组 .timeWindow(Time.minutes(10)) // 设定时间窗口为 10 分钟 .sum(1) // 统计数量 // 输出结果到文件 dataStream.writeAsText("/root/files/result.txt").setParallelism(1) // 执行作业 env.execute("获得数据") } } ``` 在上面的代码中，首先创建了一个 TextInputFormat 对象，并使用 readFile() 方法从文件中读取数据。然后使用 map() 方法将每行数据解析为 UserBehavior 对象，并使用 filter() 方法过滤出行为为 pv 的数据。接着使用 map() 方法将每个行为转换为键值对，并将数量设为 1，使用 keyBy() 方法按照行为分组，使用 timeWindow() 方法设定时间窗口为 10 分钟，使用 sum() 方法统计数量。最后使用 writeAsText() 方法将结果输出到文件中，使用 execute() 方法执行作业。

DataStreamSource<String> source = environment.addSource(new YjxxtCustomSourceRich("data/secret.txt")).setParallelism(7);

相关推荐

医院挂号系统源码（含数据库）.pdf

flink多并行数据源下的waterMark触发机制1.pdf

Flink之滑动窗口（SlidingEventTimeWindows）

flink 并行度设置

flink job如何配置并行度

flink Task并行度

flinksql并行度

flink JdbcSink.sink 怎么捕获入库异常

flink 批量读kafka 数量

flink 设置任务并行度

flink如何指定slot

Python学习笔记16 - 猜数字小游戏

机器人比赛内容的讲解，帮助简单了解一下机器人比赛的注意事项

最新推荐

Python学习笔记16 - 猜数字小游戏

BSC绩效考核指标汇总 (2).docx

管理建模和仿真的文件

【进阶】Flask中的会话与用户管理

卷积神经网络实现手势识别程序

BSC资料.pdf

"互动学习：行动中的多样性与论文攻读经历"

【进阶】Flask中的请求处理

transformer模型对话

BSC绩效考核指标汇总 (3).pdf