MySQL优化：深入理解in与exists的区别与使用场景

74 浏览量更新于2024-09-04 收藏 525KB PDF 举报

本文档深入探讨了MySQL中的两个关键查询操作——IN和EXISTS的使用以及它们对数据库性能的影响。首先，我们通过一个实际案例，创建了两个表t1和t4，其中t1包含百万级别的数据且仅有一个主键索引，而t4有主键索引和非主键索引，数据量较小。这些数据用于后续的性能分析。 1. IN查询与索引使用 - 关于“in后面数据量过大不走索引”的疑问：这是一个常见的误解。当使用IN查询时，即使数据量大，只要IN列表中的值可以利用到索引，MySQL仍然可能使用索引进行搜索。然而，如果列表过于庞大，可能导致全表扫描，效率降低。因此，尽管这个观点是错误的，但还是建议在处理大数据集时谨慎使用IN，尤其是当列表长度远大于索引列的范围时。 2. IN查询优化建议 - 对于Java开发者，推荐尽量避免在大型应用中使用IN，特别是针对大数据量，可以考虑其他更高效的查询策略，如使用JOIN或子查询，以减少对服务器资源的压力。 3. EXISTS查询的索引使用 - EXISTS查询通常会利用到索引，因为它只需要检查是否存在匹配的记录，而不是返回所有匹配的结果。这使得EXISTS特别适合于外表（外查询）数据量较小，而内表（被查询表）数据量较大的场景。例如，查询外部表中是否存在某个值在内部表中的记录，通常能利用到内部表的索引。 4. 覆盖索引的重要性 - 覆盖索引是指查询所需的字段都在索引中，这样就不需要回表读取完整的行数据。这对EXISTS查询尤其有利，因为只需验证索引是否包含所需信息即可。对于IN查询，虽然不一定直接利用覆盖索引，但合理的索引设计仍能提高查询性能。 5. 查询适用性对比 - EXISTS和IN在性能上的差异基于具体场景。当内表数据较大，外表数据较少时，使用EXISTS通常更高效。反之，当外表数据规模大，且需要查找多个匹配项时，IN可能更合适，但要注意优化查询以利用索引。总结来说，理解IN和EXISTS在MySQL中的行为以及如何优化查询以利用索引，对于提高数据库性能至关重要。实践是检验真理的唯一标准，通过创建和测试不同规模的数据集，可以更好地理解这些查询操作的实际效果。

【【mysql知识点整理】知识点整理】 — 准确理解准确理解 in 和和 exists

文章目录文章目录测试数据介绍1 inin后面数据量过大不走索引? —> 假的1.2 in查询时，索引使用情况分析1.3 in查询建议 — java开发尽量不使用in2 exists2.1 索引使用情况 — 覆盖索引很重

要3 exists适用于外表小，内表大的情况，in与之相反？？？ — 正确

绝知此事要躬行！！！

测试数据介绍测试数据介绍

-- 表表t1，只有主键索引，数据量为百万级，只有主键索引，数据量为百万级

CREATE TABLE `t1` (

`id` int(10) NOT NULL AUTO_INCREMENT,

`t1_col` varchar(100) DEFAULT NULL,

`t1_col2` varchar(100) DEFAULT NULL,

PRIMARY KEY (`id`),

KEY `idx_t1_col` (`t1_col`) USING BTREE

) ENGINE=InnoDB DEFAULT CHARSET=utf8;

-- 表4 有主键索引和非主键索引，数据量为10万级

CREATE TABLE `t4` (

`id` int(10) NOT NULL AUTO_INCREMENT,

`t4_col` varchar(100) DEFAULT NULL,

PRIMARY KEY (`id`),

KEY `idx_t4_col` (`t4_col`) USING BTREE

) ENGINE=InnoDB DEFAULT CHARSET=utf8;

-- t1,t4表数据插入

DROP PROCEDURE IF EXISTS my_insert;

CREATE PROCEDURE my_insert()

-- 定义存储过程

BEGIN

DECLARE m,n int DEFAULT 0;

loopname1:LOOP

INSERT INTO t1(t1_col,t1_col2) VALUES(CONCAT('t1_',FLOOR(1+RAND()*1000)),CONCAT('t11_',FLOOR(1+RAND()*1000)));

SET n=n+1;

IF n=1000000 THEN

LEAVE loopname1;

END IF;

END LOOP loopname1;

loopname2:LOOP

INSERT INTO t4(t4_col) VALUES(CONCAT('t4_',FLOOR(1+RAND()*1000)));

SET m=m+1;

IF m=100000 THEN

LEAVE loopname2;

END IF;

END LOOP loopname2;

END;

-- 执行存储过程

CALL my_insert();

1 in

in后面数据量过大不走索引后面数据量过大不走索引? —> 假的假的

explain select * from t4 where t4.id in (select id from t1);

explain select * from t1 where t1.id in (select id from t4);

从上图可以看到in后面的数据量过大，仍然会走索引。

但是这并不能说明问题，为什么呢？ —> 这里复习一下执行计划的知识：

从上面的查询语句来看，按说第一个查询语句应该先查询t1表，但是通过执行计划可以看到它先查了t4 （看id列）

第2个查询语句倒是按照我们写的sql来了，但是还有一个问题 —> 就是按照我们的查询语句，其实in里面的结果应该是一张临时表，但上面的执行计划为什么只有两条？？？

有了上面的疑惑，一想肯定就能想到： mysql优化器肯定对上面的语句进行了优化，优化成什么了呢？我觉得一般人其实都是可以猜到的☺☺☺ ，这里咱直接用show warnings;命令看

一下，人家到底优化成了什么：

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38500944

粉丝: 7
资源: 943

MySQL优化：深入理解in与exists的区别与使用场景

MySQL中in与exists的使用及区别介绍

“exists”和“in”的效率问题

对比分析MySQL语句中的IN 和Exists

mysql in和exists

Mysql in和exists

mysql中的in和exists

mysql中 in 和 exists 区别

mysql中in和exists区别

mysql中in、not in、exists和not exists的区别

mysql exists和in

最新资源