解决分库分表后的数据完整性与一致性挑战

185 浏览量更新于2024-09-02 收藏 292KB PDF 举报

"分库分表带来的完整性和一致性问题探讨" 在大数据量的业务场景下，分库分表是常见的数据库优化策略，旨在提高查询效率和系统吞吐量。然而，这种方式同时也带来了数据完整性和一致性的挑战。在描述中提到的场景中，项目团队面临的问题是确保1W条数据在被分散到三个物理库后，既能保持完整性，又能达到一致性。首先，我们需要理解数据完整性意味着所有数据在各个分库中都是完整的，没有丢失或重复。而数据一致性则要求所有分库中的数据状态在任何时刻都与原始数据源保持一致。在单库环境中，这些目标相对容易实现，但在分布式数据库中，它们变得复杂。面对这样的问题，提出的两种解决方案是： 1. 方案1：利用JTA（Java Transaction API）提供的分布式事务机制。JTA允许跨多个资源（如数据库）的事务管理，确保全局的一致性。当数据库支持XA（eXtended Architecture）协议时，可以实现两阶段提交或类似机制。然而，使用XA事务可能会引入性能开销，而且可能带来不必要的复杂性，特别是对于不需要强一致性的场景。因此，除非绝对必要，否则应谨慎使用。 2. 方案2：创建一个文件批次表来跟踪处理进度。这个表存储在独立的数据库中，记录待处理文件的信息。在处理文件数据时，首先在批次表中插入记录，然后按库进行数据分发。在所有分库的数据导入完成后，更新批次表的状态，表示该批次处理完成。这种方法通过引入中间协调者，可以实现最终一致性，但它依赖于正确地管理批次状态，并且可能无法处理部分失败的情况。除了这两种方案，还可以考虑其他策略，如使用分布式事务协调器如ZooKeeper或Kafka来管理事务流程，或者采用批量更新和补偿机制来修复异常情况。此外，设计更灵活的数据同步策略，如异步复制或基于事件驱动的数据更新，也可以在一定程度上缓解一致性问题，但可能会牺牲实时性。在实际应用中，选择合适的解决方案往往需要权衡性能、复杂性、成本和业务需求。通常，需要对业务场景进行深入分析，以确定最佳实践。例如，如果业务容许一定的延迟，可以采用最终一致性模型；反之，如果业务对实时性要求较高，则可能需要采用强一致性模型，即使这意味着更高的系统复杂度和可能的性能损失。

分库分表带来的完整性和一致性问题分库分表带来的完整性和一致性问题

在最近做的一个项目中，由于每天核算的数据量过于庞大，需要把数据库进行分库保存。当数据分散到各个库之后，带来的数

据更新操作就会存在一个一致性和完整性的问题。下面是一个典型的场景

假设目前存在三个物理库，现在有一个文件，里面有1W条数据，根据分库的规则，可以把文件里面的数据分到三个库中，现

在需要保证这1W条数据要要完整的保存到这三个库里面，并且数据是一致性的，也就是说三个库里面已导入的数据完全和文

件里面的数据一致。

正常情况下，我们先把文件里面的数据按照所属的数据库分成三份，然后针对每一份数据库进行保存，在单库的情况下，可以

保证单库的数据完整性。但是三个库要保证一致性，就是非常复杂的一项工作，很有可能第一个库的数据保存成功了，但是后

面三个库的数据保存失败了，导致整个文件的里面的数据在数据库里面不完整。

如何解决这种问题，目前想到的有几个办法：

方案1

使用类似JTA提供的分布式事物机制，也就是说需要相关的数据库提供支持XA的驱动。（ XA 是指由 X/Open 组织提出的分布

式交易处理的规范）。这个需要依赖特定的数据库厂商，也是比较简单的方案。毕竟复杂的事务管理都可以通过提供JTA服务

的厂商和提供XA驱动的数据库厂商来完成。目前大多数实现了JTA的服务器厂商比较多，比如JBOSS，或者开源的

JOTM(Java Open Transaction Manager)——ObjectWeb的一个开源JTA实现。但是引入支持XA的数据库驱动会带来很多潜在

的问题，在《java事务设计策略》里面：在Java事务管理中，常常令人困惑的一个问题是什么时候应该使用XA，什么时候不

应使用XA。由于大多数商业应用服务器执行单阶段提交（one-phase commit）操作，性能下降并非一个值得考虑的问题。然

而，非必要性的在您的应用中引入XA数据库驱动，会导致不可预料的后果与错误，特别是在使用本地事务模型（Local

Transaction Model）时。因此，一般来说在您不需要XA的时候，应该尽量避免使用它。” 所以这个是一个可选的方案，也是

最简单的一个方案

方案2

建立一张文件批次表（放在一个独立的数据库里面），保存待处理的文件批次信息（不是明细数据，简单说的就是要处理的文

件名和所在路径），在每次处理文件数据的时候，先往表里面插入一条文件批次信息，并且设置文件的状态为初始状态，在文

件中的数据全部成功的保存到三个分库里面之后，在更新文件的批次状态为成功。如果保存到分库的过程中出现异常，文件批

次的状态还是初始状态。而后台启动一个定时机制，定时去扫描文件批次状态，如果发现是初始状态，就重新执行文件的导入

操作，直到文件完全导入成功。这个方案看起来没有问题，但是可能存在重复导入的情况，比如批次导入到第一个分库成功

了，后面两个库失败了，重新导入的话，可能会重复把数据重复导入第一个分库。我们可以在导入之间进行判断，如果导入

过，就不进行导入，但是极端的情况，我们无法判断数据是否导入过，也是一个有缺陷的方案，并且如果每次导入之前，都进

行数据是否导入的操作，性能会有一些影响。我们也可以通过异常恢复机制来进行，如果发现文件导入失败了，我们删除已经

导入入库的流水，但是这也引入了错误处理带来的一致性问题，比如我们已经导入成功2个分库的数据，在导入第三个分库失

败的情况下，要删除掉前面两个分库的数据，这也没有办法保证是一致的。

在这个方案里面，我们可以在进行一定的优化，让它看起来运作起来是没有问题的。首先再建立一张子批次表（和文件批次表

放在同一个库），在进行处理的时候，我们把大的文件的数据按照分库规则拆成三个子文件，每一个子文件里面的数据对应一

个分库。这样就产生三条子批次信息，由于文件批次信息和子批次信息在同一个库里面，可以保证一致性。这样每个待处理

的文件就分成了四条记录，一条主文件批次信息，三条子批次信息，在导入数据之前，这些批次的信息的状态都是初始状态。

这样一个文件的导入就分解为三个子文件，分别导入到对应库里面去。对于每个子文件批次，我们可以保证子文件数据的都是

在同一个库里面，保证每个子文件里面数据的一致性和完整性，然后导入成功之后，在更新子批次的状态为成功，如果所有的

子文件的批次状态都为成功，那么对应的文件批次状态就更新为成功。这样看起来非常完美，解决了问题。但是仔细考虑一

下，有一个小的细节问题：子批次信息和一个独立的库，要导入的数据是和子批次信息可能不再一个库，没有办法保证这两个

操作是一致性的，也就是说子文件里面的数据成功的导入到分库，但是可能子批次信息状态没有更新。那子批次信息能不能

放在每个分库里面了，这样的话，又回到刚开始提出的问题了（这里面就不解释，可以去自己去想想）。

下面一副图简单的演示的设计思想：

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38695061

粉丝: 4
资源: 931

解决分库分表后的数据完整性与一致性挑战

解决分库分表后的数据完整性和一致性挑战

SpringBoot与sharding-jdbc自定义分库分表解决方案

ShardingSphere 5.0.0分库分表技术详解与实践

MySQL分库分表数据一致性保证：理论与实践，确保数据完整性

mysql中的分库分表

sharding-jdbc之——分库分表实例完整源码

对分库分表的一些想法

sharding-jdbc之——分库分表实例完整源码.zip

MySQL分库分表数据同步机制：保障数据一致性，避免数据丢失

MySQL数据库分库分表策略：应对海量数据挑战，提升数据库可扩展性和性能

最新资源