复杂关联SQL的优化

人生不过如此 2015-01-04 23:33:18 累计浏览 3,871 次

本机暂存

内容概览

这篇讲的是如何将一个耗时 750ms 的复杂关联 SQL 优化到毫秒级的过程。作者从一个真实案例出发，通过分析执行计划，精准定位了性能瓶颈：一条只返回一行数据的查询，却因为驱动表选择不当和索引缺失，导致在两张表上发生了全表扫描。

优化过程分为两步走。首先，针对 `left join` 的 d 表添加了缺失的 `yh_id` 索引，使其扫描行数从 5 万多行骤降至 272 行。但整体耗时并未改善，因为优化器仍坚持选择 a 表作为驱动表。作者进一步深入分析，发现根本原因在于关联字段 `yh_id` 在 b 表上没有索引，导致优化器认为以 a 表驱动的代价更低。于是，第二步是为 b 表和过滤性极强的 c 表分别添加了 `yh_id` 和 `yh_dm` 索引。

索引齐全后，优化器终于“回心转意”，转而选择数据量更小、过滤条件更强的 c 表作为驱动表，执行计划彻底改变，查询时间从 0.75 秒直接降为 0.00 秒。这个案例清晰地展示了，优化复杂 SQL 不能只看单表索引，更要理清表间关联逻辑与数据分布，通过分析执行计划来引导优化器做出正确选择。

昨天处理了一则复杂关联SQL的优化，这类SQL的优化往往考虑以下四点：

第一.查询所返回的结果集，通常查询返回的结果集很少，是有信心进行优化的；

第二.驱动表的选择至关重要，通过查看执行计划，可以看到优化器选择的驱动表,从执行计划中的rows可以大致反映出问题的所在；

第三.理清各表之间的关联关系，注意关联字段上是否有合适的索引；

第四.使用straight_join关键词来强制表之间的关联顺序，可以方便我们验证某些猜想；

SQL:

执行时间：

mysql> select c.yh_id,

-> c.yh_dm,

-> c.yh_mc,

-> c.mm,

-> c.yh_lx,

-> a.jg_id,

-> a.jg_dm,

-> a.jg_mc,

-> a.jgxz_dm,

-> d.js_dm yh_js

-> from a, b, c

-> left join d on d.yh_id = c.yh_id

-> where a.jg_id = b.jg_id

-> and b.yh_id = c.yh_id

-> and a.yx_bj = ‘Y’

-> and c.sc_bj = ‘N’

-> and c.yx_bj = ‘Y’

-> and c.sc_bj = ‘N’

-> and c.yh_dm = ’006939748XX’ ;

1 row in set (0.75 sec)

这条SQL查询实际只返回了一行数据，但却执行耗费了750ms，查看执行计划：

mysql> explain

-> select c.yh_id,

-> c.yh_dm,

-> c.yh_mc,

-> c.mm,

-> c.yh_lx,

-> a.jg_id,

-> a.jg_dm,

-> a.jg_mc,

-> a.jgxz_dm,

-> d.js_dm yh_js

-> from a, b, c

-> left join d on d.yh_id = c.yh_id

-> where a.jg_id = b.jg_id

-> and b.yh_id = c.yh_id

-> and a.yx_bj = ‘Y’

-> and c.sc_bj = ‘N’

-> and c.yx_bj = ‘Y’

-> and c.sc_bj = ‘N’

-> and c.yh_dm = ’006939748XX’ ;

+—-+————-+——-+——-+——————+———+———+————-+——-+————-+

+—-+————-+——-+——-+——————+———+———+————-+——-+————-+

| 1 | SIMPLE | b | ref | PRIMARY | PRIMARY | 98 | test.a.JG_ID | 1 | Using index |

+—-+————-+——-+——-+——————+———+———+————-+——-+————-+

可以看到执行计划中有两处比较显眼的性能瓶颈：

由于d是left join的表，所以驱动表不会选择d表，我们在来看看a,b,c三表的大小：

mysql> select count(*) from c;

+———-+

| count(*) |

+———-+

| 53731 |

+———-+

mysql> select count(*) from a;

+———-+

| count(*) |

+———-+

| 53335 |

+———-+

mysql> select count(*) from b;

+———-+

| count(*) |

+———-+

| 105809 |

+———-+

由于b表的数据量大于其他的两表，同时b表上基本没有查询过滤条件，所以驱动表选择B的可能排除；

优化器实际选择了a表作为驱动表，而为什么不是c表作为驱动表？我们来分析一下：

第一阶段：a表作为驱动表

a->b->c->d:

(1):a.jg_id=b.jg_id—>(b索引:PRIMARY KEY (`JG_ID`,`YH_ID`) )

(2):b.yh_id=c.yh_id—>(c索引:PRIMARY KEY (`YH_ID`))

(3):c.yh_id=d.yh_id—>(d索引:PRIMARY KEY (`JS_DM`,`YH_ID`))

由于d表上没有yh_id的索引，索引在d表上添加索引：

alter table d add index ind_yh_id(yh_id);

执行计划：

+—-+————-+——-+——-+——————+———-+———+————-+——-+————-+

+—-+————-+——-+——-+——————+———-+———+————-+——-+————-+

| 1 | SIMPLE | b | ref | PRIMARY | PRIMARY | 98 | test.a.JG_ID | 1 | Using index |

| 1 | SIMPLE | d | ref | ind_yh_id | ind_yh_id | 98 | test.b.YH_ID | 272 | Using index |

+—-+————-+——-+——-+——————+———-+———+————-+——-+————-+

执行时间：

1 row in set (0.77 sec)

在d表上添加索引后，d表的扫描行数下降到272行(最开始为：54584 )

| 1 | SIMPLE | d | ref | ind_yh_id | ind_yh_id | 98 | test.b.YH_ID | 272 | Using index |

第二阶段：c表作为驱动表

c->b->a

由于在c表上有yh_dm过滤性很高的筛选条件，所以我们在yh_dm上创建一个索引：

mysql> select count(*) from c where yh_dm = ’006939748XX’;

+———-+

| count(*) |

+———-+

| 2 |

+———-+

添加索引：

alter table c add index ind_yh_dm(yh_dm)

查看执行计划：

+—-+————-+——-+——-+——————-+———-+———+————-+——-+————-+

+—-+————-+——-+——-+——————-+———-+———+————-+——-+————-+

| 1 | SIMPLE | b | ref | PRIMARY | PRIMARY | 98 | test.a.JG_ID | 1 | Using index |

| 1 | SIMPLE | d | ref | ind_yh_id | ind_yh_id | 98 | test.b.YH_ID | 272 | Using index |

+—-+————-+——-+——-+——————-+———-+———+————-+——-+————-+

执行时间：

1 row in set (0.74 sec)

在c表上添加索引后，索引还是没有走上，执行计划还是以a表作为驱动表，所以我们这里来分析一下为什么还是以a表作为驱动表？

1):c.yh_id=b.yh_id—>( PRIMARY KEY (`JG_ID`,`YH_ID`) )

a.如果以c表为驱动表，则c表与b表在关联的时候，由于在b表没有yh_id字段的索引，由于b表的数据量很大，所以优化器认为这里如果以c表作为驱动表，则会与b表产生较大的关联(这里可以使用straight_join强制使用c表作为驱动表)；

b.如果以a表为驱动表，则a表与b表在关联的时候，由于在b表上有jg_id字段的索引，所以优化器认为以a作为驱动表的代价是小于以c作为驱动板的代价；

所以我们如果要以C表为驱动表，只需要在b上添加yh_id的索引：

alter table b add index ind_yh_id(yh_id);

2):b.jg_id=a.jg_id—>( PRIMARY KEY (`JG_ID`) )

3):c.yh_id=d.yh_id—>( KEY `ind_yh_id` (`YH_ID`) )

执行计划：

+—-+————-+——-+——-+——————-+———-+———+————-+——+————-+

+—-+————-+——-+——-+——————-+———-+———+————-+——+————-+

| 1 | SIMPLE | c | ref | PRIMARY,ind_yh_dm | ind_yh_dm | 57 | const | 2 | Using where |

| 1 | SIMPLE | d | ref | ind_yh_id | ind_yh_id | 98 | test.c.YH_ID | 272 | Using index |

| 1 | SIMPLE | b | ref | PRIMARY,ind_yh_id | ind_yh_id | 98 | test.c.YH_ID | 531 | Using index |

+—-+————-+——-+——-+——————-+———-+———+————-+——+————-+

执行时间：

1 row in set (0.00 sec)

可以看到执行计划中的rows已经大大降低，执行时间也由原来的750ms降低到0 ms级别；

同分类推荐文章

使用deepseek进行Oracle恢复,引起重大故障（2026-06-22 10:56:00）
接手一个只差临门一脚的数据库恢复（2026-06-18 00:13:09）
我做了一个 AI 版的 StarRocks 升级风险扫描工具，直接帮我定位到一个风险（2026-06-15 01:00:00）

查看更多数据库文章 →

建议继续学习

MySQL数据库在实际应用一些方面的介绍（累计阅读 36,400）
如何查找消耗资源较大的SQL （累计阅读 15,211）
浅谈TCP优化（累计阅读 11,082）
其实，文件也可以truncate （累计阅读 8,574）
为什么字段尽可能用NOT NULL，而不是NULL （累计阅读 8,512）
MariaDB常见问题FAQ （累计阅读 8,345）
SQL vs NoSQL：数据库并发写入性能比拼（累计阅读 8,004）
Mysql的随机读取（累计阅读 7,865）
MySQL优化之 Discuz论坛MySQL通用优化（累计阅读 7,727）
索引与优化like查询（累计阅读 7,338）