宜信数据一致性与实时同步：日志与Kafka的创新解决方案

159 浏览量更新于2024-08-27 收藏 1.06MB PDF 举报

在互联网金融企业宜信，数据的一致性和实时性是数据管理的重要挑战。传统的解决方案包括DBA在业务低峰期开放备库进行数据抽取，但这可能导致数据不一致和重复抽取，效率低下，时效性差。为了解决这些问题，公司引入了基于日志和消息队列的技术。首先，日志被视作核心，因为它能够记录系统的所有操作和变更，确保数据的一致性。LinkedIn的思路启发了宜信，采用log作为基础，通过实时日志收集和分布式消息传递系统Kafka来同步数据。这种方式的优势在于： 1. 实时性：Kafka允许数据消费者订阅并即时消费日志，从而实现实时的数据更新。即使在业务高峰期，新数据也能通过日志流传输，而非依赖于周期性的批量抽取。 2. 数据一致性：由于日志记录了所有变更，消费者可以从源头获取数据，减少了中间环节可能出现的错误，保持了与数据库的强一致性。 3. 灵活性：不同的数据使用方可以根据需求选择合适的数据存储方式，如Hive、Elasticsearch、Redis或自定义数据库，无需侵入业务逻辑。 4. 容错性：Kafka的日志重复消费特性使得即使数据丢失，系统仍能从最近的可用日志恢复，提高了系统的鲁棒性。 5. 避免双写：相比于传统的双写（dual write）方法，基于日志的方案避免了多个系统同时写入数据带来的复杂性和潜在问题，简化了数据处理流程。然而，选择log和Kafka也需权衡，例如可能会增加系统复杂性，管理和处理大规模日志可能需要专门的工具和技术。通过基于日志的同步策略，宜信成功地提升了数据一致性与实时性，实现了更高效的数据管理。

图片来自：https://github.com/alibaba/canal

而binlog有三种模式：

Row 模式：日志中会记录成每一行数据被修改的形式，然后在slave端再对相同的数据进行修改。

Statement 模式: 每一条会修改数据的sql都会记录到 master的bin-log中。slave在复制的时候SQL进程会解析成和原来master

端执行过的相同的SQL来再次执行。

Mixed模式： MySQL会根据执行的每一条具体的sql语句来区分对待记录的日志形式，也就是在Statement和Row之间选择一

种。

他们各自的优缺点如下：

此处来自：http://www.jquerycn.cn/a_13625

由于statement 模式的缺点，在与我们的DBA沟通过程中了解到，实际生产过程中都使用row 模式进行复制。这使得读取全量

日志成为可能。

通常我们的MySQL布局是采用 2个master主库(vip)+ 1个slave从库 + 1个backup容灾库的解决方案，由于容灾库通常是用于异

地容灾，实时性不高也不便于部署。

为了最小化对源端产生影响，显然我们读取binlog日志应该从slave从库读取。

读取binlog的方案比较多，github上不少，参考https://github.com/search?utf8=%E2%9C%93&q=binlog。最终我们选用了阿

里的canal做位日志抽取方。

Canal最早被用于阿里中美机房同步， canal原理相对比较简单：

1.Canal模拟MySQL Slave的交互协议，伪装自己为MySQL Slave，向MySQL Slave发送dump协议

2.MySQL master收到dump请求，开始推送binary log给Slave(也就是canal)

3.Canal解析binary log对象(原始为byte流)

剩余11页未读，继续阅读

weixin_38612568

粉丝: 3
资源: 897

宜信数据一致性与实时同步：日志与Kafka的创新解决方案

基于交易日志的数据库同步和热备

宜信数据一致性与实时抽取：日志与Kafka驱动的解决方案

基于归档日志的数据同步服务平台研究与应用

Oracle基于日志的数据备份

GoldenGate详解：基于日志的实时数据同步与架构剖析

"DBus数据总线平台安装文档：解决数据一致性和实时性的完美方案

福建电网数据服务平台：基于归档日志的数据同步实践

Oracle数据表增量抽取：基于快照日志的DELTA算法

主数据管理：管理核心数据实现数据一致性与准确性

MRST数据同步技术：确保数据一致性的终极工具

最新资源