Flink流数据：优化批量写入数据库的策略与实现

需积分: 2 190 浏览量更新于2024-08-03 收藏 152KB PDF 举报

Flink 流数据批量写入数据库是一个常见的场景，特别是在实时处理中，为了提高性能并减轻数据库的负载压力，通常会选择避免单条数据写入的频繁操作。单条写入存在的问题包括增加数据库的I/O负担、降低写入效率和可能导致反压。因此，采用批量写入的方式是提高性能的关键。批量写入的实现主要涉及到以下几个步骤： 1. **主函数KeyedStream设置**：首先，你需要创建一个KeyedStream，这通常是通过对原始流数据按照某个键（key）进行分组来实现。在这个例子中，`keyBy` 方法用于指定键的选择器，如 `HashModKeySelector`，它使用 MD5 散列算法对数据进行分区，确保数据均匀分布，避免数据倾斜。`HashModKeySelector` 类负责根据给定的键索引列表和并行度，选择合适的键值作为分区依据。 2. **窗口处理**：接下来，通过时间滑动窗口 `TumblingProcessingTimeWindows.of(Time.milliseconds(windowSize))` 对分组后的数据进行窗口化。这样，所有在同一窗口内的数据将被视为一个批次进行处理，减少了写入频率。 3. **窗口处理器` newRowProcessWindowFunction`**：窗口处理器是一个自定义的函数，它会接收到窗口内的所有数据并对其进行处理，通常会合并或聚合这些数据，准备将其作为一个批次写入数据库。`newRowProcessWindowFunction(keyIndexList)` 是这个阶段的关键部分，它根据 `keyIndexList` 调用适当的逻辑，可能涉及数据清洗、转换或计算。 4. **DataStreamSink 设置**：最后，使用 `addSink` 方法将处理后的窗口数据写入到数据库。`newDbSinkFunction(conf,writeSql)` 是一个具体的数据库写入函数，它接收配置和SQL语句，将窗口中的数据按照批量方式进行持久化。总结来说，Flink 流数据批量写入数据库的核心在于合理地组织数据流，通过键值分区、窗口操作和窗口处理器，将数据批量处理后再写入，从而提高写入性能，减少数据库压力，并确保数据一致性。这种技术在实时分析和大数据处理中尤为重要，能够有效提升整个系统的吞吐量和响应速度。

Flink 流数据批量写入数据库

概要

Flink 常常存在将流数据写入数据库的场景，一般是通过继承 RichSinkFunction 来实现对数据

的写入。如果 sink 之前不做优化处理，写入时都是单条写入。单条写入有许多弊端：

1、写入频繁造成数据库压力大

2、写入速度慢、效率低，造成反压

所以需要使用批量写入的方式，那如何实现呢？

批量写入功能实现

主函数

KeyedStream keyedStream=sinkStream.keyBy(new

HashModKeySelector(keyIndexList,paralleSize));

winStream=keyedStream.window(TumblingProcessingTimeWindows.of(Time.milliseconds(wi

ndowSize))) .process(new RowProcessWindowFunction(keyIndexList));

DataStreamSink sink=winStream.addSink(new DbSinkFunction(conf,writeSql));

1、对业务数据进行分区 HashModKeySelector

为避免出现数据倾斜的问题，这里使用了更优的散列算法， md5 算法。md5 具有抗修改性，

对原数据进行任何改动，哪怕只是修改 1 个字节，所得到的 MD5 值都有很大的区别。

public class HashModKeySelector implements KeySelector<Row, String> {

private static final Logger logger =

LoggerFactory.getLogger(HashModKeySelector2.class);

private static final long serialVersionUID = 1L;

/**

* key 在 row 中的索引

private List<Integer> keyIndexList=null;

private Integer paralleSize;

private Map<String,String> md5Map = new ConcurrentHashMap<>();

public HashModKeySelector2(List<Integer> keyIndexList, Integer paralleSize) {

this.keyIndexList=keyIndexList;

this.paralleSize=paralleSize;

下载后可阅读完整内容，剩余6页未读，立即下载

shandongwill

粉丝: 5998
资源: 676

Flink流数据：优化批量写入数据库的策略与实现

Flink Kafka数据批量写入到数据库

Flink实时读取Kafka数据批量聚合（定时按数量）写入Mysql.rar

Flink与Kafka集成实现数据批量入库数据库

flink读取kafka数据批量写入到impala数据库代码示例

flink 批处理写入数据库

flink 批量写入clickhouse

Flink与Kafka整合实现数据实时批量聚合及存储

Flink实时数据处理与导入Redis集群及MySQL

Flink 实时数据处理系统：架构与特性解析

Spark与Flink流处理框架对比分析

最新资源