一个有趣的SQL查询

MySQLOPS 数据库与运维自动化技术分享 2012-03-12 23:37:25 累计浏览 3,900 次

本机暂存

内容概览

这篇讲的是如何用SQL解决一个实际的数据分析需求：从登录表中筛选出在指定时间段内连续7天都有登录的用户。作者从朋友遇到的一个具体问题出发，表结构包含用户ID和登录时间戳两个核心字段，看似简单，但“连续7天”这个条件对SQL查询能力提出了直接挑战。

文章拆解了这个查询背后的逻辑难点——如何用集合操作去表达“连续”这个时序概念。读者可以跟随作者的思路，理解如何利用日期处理、窗口函数或自连接等SQL技巧，将连续天数的判断转化为可执行的查询语句。这种对常见业务指标（如用户活跃留存）的底层查询实现，往往比直接调用现成函数更考验对数据库原理的掌握。

这类问题在用户行为分析、运营报告中极为常见。文章的价值在于，它不仅仅给出了一个答案，更展示了解决此类时序连续性问题的通用分析框架，下次遇到类似“连续N次”、“连续N个周期”的需求时，便能举一反三。

一个朋友有这样一个SQL查询需求：
有一个登录表(tmp_test)，包含用户ID(uid)和登录时间(login_time)。表结构如下：
*************************** 1. row ***************************
Field: uid
Type: int(10) unsigned
Null: NO
Key: MUL
Default: NULL
Extra:
*************************** 2. row ***************************
Field: login_time
Type: timestamp
Null: NO
Key: MUL
Default: 0000-00-00 00:00:00
Extra:
问如何查询出所有在某一段时间内（如：2012-1-1至2012-1-17)连续7天都有登录的用户。

在写这个SQL时，发现一些很有意思东西，也许对大家写SQL有帮助，因此记录一下。

- 基本思路 Loop Join
首先想到的思路是一个类似于Loop Join的方法：
A. 取出2012-1-1到2012-1-11的每一条记录.
B. 对取出的每一条记录，再去表中查询这个用户的接下来6天的记录。
如果总数为6条记录，则满足连续7天的条件

- Range Join
Loop Join的思路可以通过一个Join语句来实现。姑且称之为Range Join。通常join时，使用的都是
等值join. 如果join列的值是唯一的，那么就是左表的一条记录对应右表的一条记录。而Range Join
中，左表的一行数据对应右表的一个范围内的所有记录。

SQL 语句为：
SELECT DISTINCT t.uid FROM tmp_test AS t JOIN tmp_test AS t1
ON date(t.login_time) + 1 <= date(t1.login_time) AND
date(t.login_time) + 7 > date(t1.login_time) AND
t.uid = t1.uid
WHERE t.login_time BETWEEN ’2012-1-1 00:00:00′ AND ’2012-1-11 23:59:59′ ~~AND~~
~~t1.login_time >= ’2012-1-2′ AND t.login_time < ’2012-1-18′~~(可去掉）

- COUNT(DISTINCT)
“计算连续7天”,可以通过GROUP BY分组和COUNT()来完成。因为一个用户在1天内可能会有多次登录，
这里需要使用(COUNT DISTINCT）. SQL 语句为：
GROUP BY t.login_time, t.uid
HAVING COUNT(DISTINCT date(t1.login_time))=6

- BIT_OR
考虑到DISTINCT操作需要缓存数据，就想到了用bit逻辑运算（可能会效率高一些)。因为连续的七天
与第一天的差分别为，1,2,3,4,5,6,7.可以分别用1-7bit位来表示。根据这个特点，可以对分组中
的每一行进行或(|)运算.如果最后的值等于b’1111110′(6个1）.那么就是连续的7天。这个办法可以
避免DISTINC操作。没想到MySQL中真的有了bit操作的聚合函数。BIT_OR就是我们要用的。

SQL 语句为：
GROUP BY t.login_time, t.uid
HAVING BIT_OR(1 << datediff(t1.login_time, t.login_time)) = b’1111110′;

NOTE: 从测试结果看，没有索引时BIT_OR要比DISTINCT好一点点，不是非常明显。当DISTINCT的
字段上有索引时，要比BIT_OR要好一点点.

- 去掉Range Join
虽说上面的思路实现了这个查询要求，但是由于使用了Range Join,效率并不好。在对uid建索引的情
况下，大约需要3.5s(总共约50000条记录). 有没有更好的方法呢？
受BIT_OR的启发，可以通过单表扫描，用bit位来记录每个用户2012-1-1至2012-1-17是否有登录。
然后根据这个值来判断是否有连续7天的情况。

我们需要一个辅助的函数来进行bit的运算：
DELIMITER |
/* 判断一个Bit序列中，是否存在若干个连续的1 */
/* 参数bits: bit序列*/
/* 参数trait: 指定的若干连续的1.如b’111111‘ */
CREATE FUNCTION bits_find_N1(bits BIGINT, trait BIGINT)
RETURNS BOOL
BEGIN
WHILE bits <> 0 DO
IF ((bits & trait) = trait) THEN
RETURN TRUE;
END IF;
SET bits = bits >> 1;
END WHILE;
RETURN FALSE;
END|
DELIMITER ;

SQL 语句为：
SELECT uid AS bit FROM tmp_test
WHERE login_time BETWEEN ’2012-1-1 00:00:00′ AND ’2012-1-17 23:59:59′
GROUP BY uid
HAVING bits_find_N1(BIT_OR(1 << datediff(login_time, ’2012-1-1′)),
b’1111111′) IS TRUE;

这个语句效率还是比较好的，即使不对uid建索引，也只需约0.27s

- 超高效率的语句
下面是另一个朋友写的SQL，虽然有点复杂，但是效率超高，只需要约0.17s是这样的

SET @wy=0;
SELECT DISTINCT uid
FROM (SELECT MAX(date)-MIN(date) less,uid
FROM (SELECT date-rn diff, uid, date, rn
      FROM (SELECT @wy:=@wy+1 rn, uid,
           datediff(login_time,’1971-01-01′) date,login_time
          FROM (SELECT date(login_time) login_time, uid FROM tmp_test
                WHERE login_time>=’2012-01-01 00:00:00′ AND
                    login_time <’2012-01-18 00:00:00′
              GROUP BY uid, date(login_time)
              ORDER BY uid, date(login_time)
             )x
       )x
       )x
       GROUP BY diff,uid
    )x
  WHERE less>=6;

附上测试数据，供大家验证。tmp_test
由于用的是timestamp类型，导入后时间可能会有变化，导致结果不一样。我们测试的结果有183，185两种。
另外：用户可以在同一秒内登录多次，即出现多条相同的记录。
如uid=1, login_time=’2012-1-1 00:00:00′ 会出现多次。

同分类推荐文章

使用deepseek进行Oracle恢复,引起重大故障（2026-06-22 10:56:00）
接手一个只差临门一脚的数据库恢复（2026-06-18 00:13:09）
我做了一个 AI 版的 StarRocks 升级风险扫描工具，直接帮我定位到一个风险（2026-06-15 01:00:00）

查看更多数据库文章 →

建议继续学习

MySQL数据库在实际应用一些方面的介绍（累计阅读 36,400）
如何查找消耗资源较大的SQL （累计阅读 15,211）
其实，文件也可以truncate （累计阅读 8,574）
MariaDB常见问题FAQ （累计阅读 8,345）
SQL vs NoSQL：数据库并发写入性能比拼（累计阅读 8,004）
Mysql的随机读取（累计阅读 7,865）
索引与优化like查询（累计阅读 7,338）
在百度的第一年（累计阅读 6,922）
SQL到NOSQL的思维转变（累计阅读 6,848）
SQL里是否可以使用JOIN （累计阅读 6,818）