专题：延迟排查 -- IT技术博客大学习 -- 共学习共进步！

IT 累计浏览 1,074

SLAVE为什么一直不动了

这篇讲的是MySQL复制延迟中一种“假死”现象的排查。作者从一次延迟超大（超过3小时）但SQL线程却“无事可做”的报警出发，展示了如何一步步定位。初步检查显示，主从IO和SQL线程都在正常运行，但从`show slave status`看，Relay Log的执行位点（Exec_Master_Log_Pos）却纹丝不动。关键的突破点在于检查主库的Binlog内容。作者发现，从卡住的位点（294959）开始，整个事务是一个巨大的`DELETE`操作——它来自Bacula备份系统的自动清理任务，一次性删除过期数据，事务提交耗时超过2000秒，产生的Binlog数据量接近3.9G，几乎填满了整个Binlog文件。根因就在于此：这个超大事务在主库执行完毕并生成Binlog后，从库需要将其“重放”一遍。由于事务过于庞大，应用这个DELETE操作本身就需要极长时间，导致复制位点看起来一直“卡住”。文章不仅点明了直接原因，还提醒了这类大事务的潜在危害：除了延迟，还可能长时间锁住数据行，引发连锁的锁等待。对于通用应用，作者给出的解决方案很务实：在代码层面控制事务粒度，比如每删除几千条记录就提交一次，避免生成这种“一镜到底”的巨型事务。这比直接修改第三方软件的源码更可行。

标签：延迟排查

SLAVE为什么一直不动了