MySQL Join使用与优化策略探讨

需积分: 50 193 浏览量更新于2024-08-26 收藏 1.51MB PDF 举报

MySQL Join使用及优化详解在处理大型数据库系统时，JOIN操作是数据关联的关键，尤其是在关系型数据库如MySQL中。然而，JOIN的使用并非总是那么简单，特别是当涉及到性能优化时。本文将深入探讨以下两个主要问题： 1. DBA对JOIN的限制：有些数据库管理员（DBA）可能出于某些原因不建议在生产环境中频繁使用JOIN，比如可能导致全表扫描，增加I/O负载，或者在大数据量下性能下降。特别是在没有正确使用索引或者JOIN策略不当的情况下，JOIN可能会导致查询效率低下。 2. 驱动表选择：当进行JOIN操作时，选择哪张表作为驱动表至关重要。对于大小不同的表，通常较小的表作为驱动表更为高效，因为这样可以减少数据的移动量。然而，优化器的选择可能会根据表的索引情况、数据分布和查询类型动态调整，所以理解优化器的工作原理很关键。以两个表`t1`和`t2`为例，它们都具有主键索引`id`和非索引字段`a`。首先，我们创建存储过程`idata()`插入数据，使得`t2`有1000行，而`t1`只有100行。为了控制JOIN的执行方式，我们使用`straight_join`，确保`t1`作为驱动表，这样可以避免Index Nested-Loop Join（索引嵌套循环联接）可能导致的性能瓶颈。当我们执行`SELECT * FROM t1 STRAIGHT_JOIN t2 ON (t1.a = t2.a)`时，SQL优化器遵循以下执行流程： - 从`t1`逐行读取数据（驱动表）； - 对于`t1`的每行，使用索引`a`在`t2`中查找匹配项； - 当找到匹配时，将`t2`的数据与`t1`的当前行合并，形成查询结果的一部分； - 重复此过程直到`t1`的所有记录都被处理。这种JOIN方法利用了`t2`上的索引，显著减少了数据扫描次数，提高了查询速度。然而，实际应用中，还应考虑其他因素，如表的大小、数据分布和索引设计，以确定最有效的JOIN策略。通过监控`EXPLAIN`输出，开发者可以更好地理解MySQL如何解析和执行JOIN语句，从而对查询进行优化，提高整体数据库性能。在大型项目中，合理的JOIN优化能极大地提升系统的响应时间和资源利用率。

从每一行 R 取出字段 a 的值 $R.a；

执行select * from t2 where a=$R.a；

把返回的结果和 R 构成结果集的一行。

在这个查询过程，也是扫描了 200 行，但是总共执行了 101 条语句，比直接 join 多了 100 次交互。除

此之外，客户端还要自己拼接 SQL 语句和结果。

显然，这么做还不如直接 join 好。

怎么选择驱动表？

在这个 join 语句执行过程中，驱动表是走全表扫描，而被驱动表是走树搜索。

假设被驱动表的行数是 M。每次在被驱动表查一行数据，要先搜索索引 a，再搜索主键索引。每次搜索

一棵树近似复杂度是以 2 为底的 M 的对数，记为 log2M，所以在被驱动表上查一行的时间复杂度是

2*log2M。

假设驱动表的行数是 N，执行过程就要扫描驱动表 N 行，然后对于每一行，到被驱动表上匹配一次。

因此整个执行过程，近似复杂度是 N + N2log2M。

显然，N 对扫描行数的影响更大，因此应该让小表来做驱动表。

如果你没觉得这个影响有那么“显然”，

可以这么理解：N 扩大 1000 倍的话，扫描行数就会扩大 1000 倍；而 M 扩大 1000 倍，扫描行数

扩大不到 10 倍。

由此可以得到两个结论：

1. 使用 join 语句，性能比强行拆成多个单表执行 SQL 语句的性能要好；

2. 如果使用 join 语句的话，需要让小表做驱动表。

注意，这个结论的前提是“可以使用被驱动表的索引”。



Simple Nested-Loop Join - 简单嵌套循环联接

把 SQL 语句改成这样：

由于表 t2 的字段 b 上没有索引，因此再用图 2 的执行流程时，每次到 t2 去匹配的时候，就要做一次全

表扫描。

你可以先设想一下这个问题，继续使用图 2 的算法，是不是可以得到正确的结果呢？如果只看结果的

话，这个算法是正确的，而且这个算法也有一个名字，叫做“Simple Nested-Loop Join”。

但是，这样算来，这个 SQL 请求就要扫描表 t2 多达 100 次，总共扫描 100*1000=10 万行。

这还只是两个小表，如果 t1 和 t2 都是 10 万行的表（当然了，这也还是属于小表的范围），就要扫描

100 亿行，这个算法看上去太“笨重”了。当然，MySQL 也没有使用这个 Simple Nested-Loop Join 算

法，而是使用了另一个叫作“Block Nested-Loop Join”的算法，简称 BNL。



Block Nested-Loop Join - 块嵌套循环联接

这时候，被驱动表上没有可用的索引，算法的流程是这样的：

select * from t1 straight_join t2 on (t1.a=t2.b);

剩余13页未读，继续阅读

hadoopxsy

粉丝: 641
资源: 4

MySQL Join使用与优化策略探讨

MySQL Join详解：语法与性能优化关键

深入理解：MySQL Join实现原理与优化策略

MySQL优化技巧：JOIN操作实战解析

浅析Mysql Join语法以及性能优化

mysql优化join关联示例表

Mysql join优化示例：提升SQL性能的艺术

MySQL多表连接优化：JOIN与LEFT/RIGHT JOIN详解

mysql left join 优化

mysql left join优化

mysql inner join优化

最新资源