MySQL 中group by的实现

MySQLOPS 数据库与运维自动化技术分享 2012-06-14 13:49:50 累计浏览 2,312 次

本机暂存

内容概览

这篇讲的是 MySQL 中 `GROUP BY` 到底是如何实现的。作者从一个常见的误解出发——很多人根据执行计划中的 `Using filesort` 认为，`GROUP BY` 是“先排序，后分组”。但真的是这样吗？

作者通过一个对比实验来验证：在查询中显式添加 `ORDER BY NULL` 后，`filesort` 消失了，结果行的出现顺序也发生了改变。这说明排序并非分组的必要步骤，而是后续的一个可选操作。

文章深入到了算法层面。MySQL 实际采用的是一种更高效的哈希分组算法：它会创建一个临时表，遍历原表数据时，根据分组键（key）进行哈希查找。若 key 存在则更新计数，不存在则插入新行。整个过程无需预先排序，时间复杂度是 O(n)。

最后，文章解释了默认情况下我们看到的结果是“有序”的，那仅仅是因为 MySQL 默认在分组后追加了一次排序操作。这与“先排序后分组”的直觉正好相反。

有同学问到MySQL数据库group by是如何实现，发现可能存在误解，简单说明一下。

示例

CREATE TABLE `tb` (
`c` int(11) DEFAULT NULL,
`d` int(4) DEFAULT NULL,
`e` varchar(1000) DEFAULT NULL
) ENGINE=InnoDB DEFAULT CHARSET=utf8;
Insert into tb values(2,20,’b’);
Insert into tb values(1,10,’a’);
Insert into tb values(2,20,’b’);
Insert into tb values(1,10,’a’);
Insert into tb values(3,30,’c’);

查询语句和结果

在这个语句的explain结果中有Using temporary; Using filesort，需要用到排序。
因此有人会认为group by的实现，是“先排序，后分组”。

用法分析
先看手册上这段说明：”By default, MySQL sorts all GROUP BY col1, col2, … queries as if you specified ORDER BY col1, col2, … in the query as well. If you include an ORDER BY clause explicitly that contains the same column list, MySQL optimizes it away without any speed penalty, although the sorting still occurs. If a query includes GROUP BY but you want to avoid the overhead of sorting the result, you can suppress sorting by specifying ORDER BY NULL”。

如果我们的查询加了order by null，结果则如下

Explain中也没有Using filesort.
因此我们可以设想，排序其实是分组之后才进行的。

算法分析
其实细想一下，如果是先排序后分组，则时间复杂性为O(nlog(n))，而示例中的需求，若只需要分组，其实可以更快一点。MySQL手册里的作法简单描述如下：

1、建一个空的临时表，三个字段分别为索引列、c、count(*)
这里的” 索引列”就是group by 后的列计算结果，想象一下如果语句是group by 1/c什么的。当然在我们的例子中，其值就是c。

2、从原表中一行行读入，先计算索引列的值key。用key在临时表中查找，若key行存在，则update，否则insert.
在这个例子中，第一次读到c=2的行，则向临时表中插入一行 2, 2, 1。第二次碰到c=2的行，则修改为2,2,2

3、原表全部遍历完成后，分组就结束了。因此我们看到加了order by null的查询结果c的出现顺序是 2, 1, 3，没有order by null的则是在这个基础上做了排序。

临时表中的查询就是简单的hash查找，我们看到这个算法的分组过程时间复杂度为O(n)。

同分类推荐文章

使用deepseek进行Oracle恢复,引起重大故障（2026-06-22 10:56:00）
接手一个只差临门一脚的数据库恢复（2026-06-18 00:13:09）
我做了一个 AI 版的 StarRocks 升级风险扫描工具，直接帮我定位到一个风险（2026-06-15 01:00:00）

查看更多数据库文章 →

建议继续学习

用Hyer来进行网站的抓取（累计阅读 158,252）
MySQL数据库在实际应用一些方面的介绍（累计阅读 36,400）
WordPress插件开发 -- 在插件使用数据库存储数据（累计阅读 29,164）
Mysql监控指南（累计阅读 21,352）
由浅入深探究mysql索引结构原理、性能分析与优化（累计阅读 16,523）
如何查找消耗资源较大的SQL （累计阅读 15,211）
在Apache2.2.XX下安装Mod-myvhost模块（累计阅读 13,058）
15个最好的免费开源电子商务平台（累计阅读 12,541）
浅谈MySQL索引背后的数据结构及算法（累计阅读 11,909）
整理了一份招PHP高级工程师的面试题（累计阅读 11,709）