数据库分片策略：基于ID特征的Sharding实现

167 浏览量更新于2024-08-28 收藏 156KB PDF 举报

"本文主要探讨了一种以ID特征为依据的数据分片（Sharding）策略，作为应对系统扩展性问题的解决方案。随着业务增长，数据量增大，系统需要进行伸缩，向上伸缩（Scale Up）是提升硬件性能，而向外伸缩（Scale Out）则是增加硬件资源，后者在成本和系统极限方面通常更具优势。数据分片成为解决数据存储瓶颈的有效方法，它将数据分散在多个存储设备上，降低单个设备的压力。文章介绍了几种分片策略，包括基于ID特征、时间范围和检索表，并强调选择策略需根据具体业务需求。同时，数据分片会带来系统复杂性，如跨分区的关联操作和事务处理，以及全局查询的挑战。因此，在采用数据分片策略时需要谨慎考虑其潜在影响和长期后果。" 在分布式数据库系统中，数据分片是一种重要的横向扩展技术，用于应对大数据量带来的性能挑战。标题中提到的“以ID特征为依据”的数据分片策略，是指根据数据记录的ID值进行分片。这种策略通常包括对ID取模，将数据均匀分布到各个分区。例如，若系统有N个分区，可以取ID模N，确保每个分区承担相似的数据负载。然而，不同的分片策略各有优缺点。基于ID特征的策略简单且易于实现，但可能造成热点问题，即某些特定ID范围的数据访问频率高，导致这些分区压力过大。基于时间范围的策略可以避免热点，但可能导致分区数据不平衡，因为新数据的加入通常是连续的。基于检索表的策略可以提供更灵活的分配方式，但会增加查询复杂度。数据分片虽能提升系统性能，但也引入了新的挑战。首先，跨分区的记录关联可能导致数据冗余，以确保所有相关数据在同一个事务中处理。其次，跨分区事务处理会降低性能，因为必须协调不同分区的操作。最后，全局查询可能变得困难，因为数据不再集中在一个位置，可能需要遍历所有分区。因此，实施数据分片策略前，开发者需要全面评估业务需求、系统性能瓶颈、数据分布特点以及未来扩展的可能性。过度依赖数据分片可能会导致设计复杂、维护困难，而适度的分片策略则能够帮助系统在性能和可扩展性之间取得平衡。在实际应用中，往往需要结合多种分片策略，配合其他优化手段，如缓存、读写分离等，以实现最佳效果。

一种以一种以ID特征为依据的数据分片（特征为依据的数据分片（Sharding）策略）策略

假如您有一个应用程序，随着业务越来越有起色，系统所牵涉到的数据量也就越来越大，此时您要涉及到对系统进行伸缩

（Scale）的问题了。一种典型的扩展方法叫做“向上伸缩（Scale Up）”，它的意思是通过使用更好的硬件来提高系统的性能

参数。而另一种方法则叫做“向外伸缩（Scale Out）”，它是指通过增加额外的硬件（如服务器）来达到相同的效果。从“硬件

成本”还是“系统极限”的角度来说，“向外伸缩”一般都会优于“向上伸缩”，因此大部分上规模的系统都会在一定程度上考虑“向

外”的方式。由于许多系统的瓶颈都处在数据存储上，因此一种叫做“数据分片（Database Sharding）”的数据架构方式应运而

生，本文便会讨论这种数据架构方式的一种比较典型的实现方式。

简介

数据分片，自然便是将整体数据分摊在多个存储设备（下文统称为“数据分区”或“分区”）上，这样每个存储设备的数据量相对

就会小很多，以此满足系统的性能需求。值得注意的是，系统分片的策略有很多，例如常见的有以下几种：

根据ID特征：例如对记录的ID取模，得到的结果是几，那么这条记录就放在编号为几的数据分区上。

根据时间范围：例如前100万个用户数据在第1个分区中，第二个100万用户数据放在第2个分区中。

基于检索表：根据ID先去一个表内找到它所在的分区，然后再去目标分区进行查找。

……

在这些数据分片策略之中没有哪个有绝对的优势，选择哪种策略完全是根据系统的业务或是数据特征来确定的。值得强调的

是：数据分片不是银弹，它对系统的性能和伸缩性（Scalability）带来一定好处的同时，也会对系统开发带来许多复杂度。例

如，有两条记录分别处在不同的服务器上，那么如果有一个业务是为它们建立一个“关联”，那么很可能表示“关联”的记录就必

须在两个分区内各放一条。另外，如果您重视数据的完整性，那么跨数据分区的事务又立即变成了性能杀手。最后，如果有一

些需要进行全局查找的业务，光有数据分片策略也很难对系统性能带来什么优势。

数据分片虽然重要，但在使用之前一定要三思而后行。一旦踏上这艘贼船，往往不成功便成仁，很难回头。在我的经验里，一

个滥用数据分片策略而事倍功半的项目给我留下了非常深刻的印象（当然也有成功的啦），因此目前我对待数据分片策略变得

愈发谨慎。

那么现在，我们便来讨论一种比较常见的数据分片策略。

策略描述

这里我先描述一个极其简单的业务：

1. 系统中有用户，用户可以发表文章，文章会有评论

2. 可以根据用户查找文章

3. 可以根据文章查找评论

那么，如果我要对这样一个系统进行数据分片又该怎么做呢？这里我们可以使用上面提到的第一种方式，即对记录的ID取模，

并根据结果选择数据所在的分区。根据后两条业务中描述的查询要求，我们会为分区策略补充这样的规则：

某个用户的所有文章，与这个用户处在同一数据分区内。

某篇文章的所有评论，与这篇文章处在用一数据分区内。

您可能会说，似乎只要保证“相同用户文章在同一个数据分区内”就行了，不是吗？没错，不过我这里让文章和用户在同一个分

区内，也是为了方便许多额外的操作（例如在关系数据库中进行连接）。那么假设我们有4个数据分区，那么它们内部的条目

可能便是：

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38712899

粉丝: 4
资源: 941

数据库分片策略：基于ID特征的Sharding实现

数据库Sharding的基本思想和切分策略

一种以ID特征为依据的数据分片

数据分片策略：基于ID特征的Sharding实现

配置mongodb分片群集(sharding cluster)

sharding:支持数据分表

基于Java语言编写的轻量级分库分表(Sharding)中间件，丰富的Sharding算法支持(2类4种分片算法).zip

Sharding-JDBC中的数据分片路由策略详解

Sharding-JDBC的分片策略及原理解析

Sharding-JDBC 中的数据分片算法解析

Sharding-JDBC 中的分片键选取策略解析

最新资源