解决分库分表后的数据完整性和一致性挑战

版权申诉

71 浏览量更新于2024-09-10 1 收藏 292KB PDF 举报

"分库分表带来的完整性和一致性问题" 在分布式数据库系统中，分库分表是一种常见的数据存储策略，用于应对大规模数据处理和高并发访问。然而，这种策略也引入了新的挑战，特别是关于数据的完整性和一致性。在描述的场景中，项目团队面临的问题是确保在三个物理库中分散的1W条数据既能完整保存，又能保持一致性。当数据分布在多个数据库中时，数据的完整性意味着每个库中的数据都是完整的，没有丢失或重复。一致性则要求所有数据库在任何时刻看到的数据状态都是一致的，即一旦数据被写入，所有节点都能立即反映出这一变化。在单库环境下，这些可以通过标准的事务管理机制来保证。但在多库环境下，尤其是涉及跨库的操作，事情变得复杂。首先，提到的方案1是利用分布式事务，如JTA（Java Transaction API）配合支持XA的数据库驱动。XA是一个分布式事务处理标准，能够协调多个资源管理器（如数据库）共同参与一个全局事务。尽管JTA提供了方便的事务管理，但使用XA驱动可能带来性能损耗和额外的复杂性，因为它需要所有参与的数据库都支持两阶段提交（2PC）协议。2PC在分布式环境中可能存在协调失败、阻塞等问题，尤其是在大规模系统中。方案2则提出了使用一个独立的批次处理表来跟踪文件处理的状态。这种方法不依赖于分布式事务，而是通过记录每个文件批次的信息（如文件名和路径）并监控处理过程来保证一致性。在处理文件前，先在批次表中插入记录，处理完成后更新状态，确保所有数据都已正确导入。如果过程中出现异常，可以通过检查批次表的状态回滚或重试操作，以达到最终一致性。这种方法虽然避免了分布式事务的复杂性，但需要额外的监控和错误处理机制，且可能不适合实时性要求极高的场景。除了以上两种方案，还可以考虑其他策略，例如使用分布式事务协调器（如ZooKeeper或etcd）来管理和监控跨库操作，或者采用批量处理和补偿事务（Saga）等设计模式。批量处理可以减少事务边界，提高效率；Saga通过一系列本地事务的序列来模拟分布式事务，当某个步骤失败时，通过回滚之前的步骤来恢复一致性。解决分库分表带来的完整性和一致性问题需要权衡性能、复杂性和可靠性。选择合适的解决方案取决于具体业务需求、系统规模和技术栈。在实际操作中，往往需要结合多种策略，通过精心设计的数据流向和异常处理机制来确保数据的完整性和一致性。

分库分表带来的完整性和一致性问题分库分表带来的完整性和一致性问题

在最近做的一个项目中，由于每天核算的数据量过于庞大，需要把数据库进行分库保存。当数据分散到各个库之后，带来的数

据更新操作就会存在一个一致性和完整性的问题。下面是一个典型的场景

假设目前存在三个物理库，现在有一个文件，里面有1W条数据，根据分库的规则，可以把文件里面的数据分到三个库中，现

在需要保证这1W条数据要要完整的保存到这三个库里面，并且数据是一致性的，也就是说三个库里面已导入的数据完全和文

件里面的数据一致。

正常情况下，我们先把文件里面的数据按照所属的数据库分成三份，然后针对每一份数据库进行保存，在单库的情况下，可以

保证单库的数据完整性。但是三个库要保证一致性，就是非常复杂的一项工作，很有可能第一个库的数据保存成功了，但是后

面三个库的数据保存失败了，导致整个文件的里面的数据在数据库里面不完整。

如何解决这种问题，目前想到的有几个办法：

方案1

使用类似JTA提供的分布式事物机制，也就是说需要相关的数据库提供支持XA的驱动。（ XA 是指由 X/Open 组织提出的分布

式交易处理的规范）。这个需要依赖特定的数据库厂商，也是比较简单的方案。毕竟复杂的事务管理都可以通过提供JTA服务

的厂商和提供XA驱动的数据库厂商来完成。目前大多数实现了JTA的服务器厂商比较多，比如JBOSS，或者开源的

JOTM(Java Open Transaction Manager)——ObjectWeb的一个开源JTA实现。但是引入支持XA的数据库驱动会带来很多潜在

的问题，在《java事务设计策略》里面：在Java事务管理中，常常令人困惑的一个问题是什么时候应该使用XA，什么时候不

应使用XA。由于大多数商业应用服务器执行单阶段提交（one-phase commit）操作，性能下降并非一个值得考虑的问题。然

而，非必要性的在您的应用中引入XA数据库驱动，会导致不可预料的后果与错误，特别是在使用本地事务模型（Local

Transaction Model）时。因此，一般来说在您不需要XA的时候，应该尽量避免使用它。” 所以这个是一个可选的方案，也是

最简单的一个方案

方案2

建立一张文件批次表（放在一个独立的数据库里面），保存待处理的文件批次信息（不是明细数据，简单说的就是要处理的文

件名和所在路径），在每次处理文件数据的时候，先往表里面插入一条文件批次信息，并且设置文件的状态为初始状态，在文

件中的数据全部成功的保存到三个分库里面之后，在更新文件的批次状态为成功。如果保存到分库的过程中出现异常，文件批

次的状态还是初始状态。而后台启动一个定时机制，定时去扫描文件批次状态，如果发现是初始状态，就重新执行文件的导入

操作，直到文件完全导入成功。这个方案看起来没有问题，但是可能存在重复导入的情况，比如批次导入到第一个分库成功

了，后面两个库失败了，重新导入的话，可能会重复把数据重复导入第一个分库。我们可以在导入之间进行判断，如果导入

过，就不进行导入，但是极端的情况，我们无法判断数据是否导入过，也是一个有缺陷的方案，并且如果每次导入之前，都进

行数据是否导入的操作，性能会有一些影响。我们也可以通过异常恢复机制来进行，如果发现文件导入失败了，我们删除已经

导入入库的流水，但是这也引入了错误处理带来的一致性问题，比如我们已经导入成功2个分库的数据，在导入第三个分库失

败的情况下，要删除掉前面两个分库的数据，这也没有办法保证是一致的。

在这个方案里面，我们可以在进行一定的优化，让它看起来运作起来是没有问题的。首先再建立一张子批次表（和文件批次表

放在同一个库），在进行处理的时候，我们把大的文件的数据按照分库规则拆成三个子文件，每一个子文件里面的数据对应一

个分库。这样就产生三条子批次信息，由于文件批次信息和子批次信息在同一个库里面，可以保证一致性。这样每个待处理

的文件就分成了四条记录，一条主文件批次信息，三条子批次信息，在导入数据之前，这些批次的信息的状态都是初始状态。

这样一个文件的导入就分解为三个子文件，分别导入到对应库里面去。对于每个子文件批次，我们可以保证子文件数据的都是

在同一个库里面，保证每个子文件里面数据的一致性和完整性，然后导入成功之后，在更新子批次的状态为成功，如果所有的

子文件的批次状态都为成功，那么对应的文件批次状态就更新为成功。这样看起来非常完美，解决了问题。但是仔细考虑一

下，有一个小的细节问题：子批次信息和一个独立的库，要导入的数据是和子批次信息可能不再一个库，没有办法保证这两个

操作是一致性的，也就是说子文件里面的数据成功的导入到分库，但是可能子批次信息状态没有更新。那子批次信息能不能

放在每个分库里面了，这样的话，又回到刚开始提出的问题了（这里面就不解释，可以去自己去想想）。

下面一副图简单的演示的设计思想：

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38665944

粉丝: 6
资源: 914

解决分库分表后的数据完整性和一致性挑战

MySQL分库分表技术

MySQL 分库分表的实现原理及演示案例

第六节课交易分库分表详解二1

解决分库分表后的数据完整性与一致性挑战

MySQL分库分表数据一致性保证：理论与实践，确保数据完整性

sharding-jdbc之——分库分表实例完整源码

sharding-jdbc之——分库分表实例完整源码.zip

SpringBoot + ShardingSphere分库分表实战(附完整代码)

Mybatis分库分表扩展插件

MySQL分库分表数据同步机制：保障数据一致性，避免数据丢失

最新资源