IT技术博客大学习 共学习 共进步
全部 移动开发 后端 数据库 AI 算法 安全 DevOps 前端 设计 开发者

标签:延迟排查

共 1 篇相关文章

IT 累计浏览 1,074

SLAVE为什么一直不动了

这篇讲的是MySQL复制延迟中一种“假死”现象的排查。作者从一次延迟超大(超过3小时)但SQL线程却“无事可做”的报警出发,展示了如何一步步定位。 初步检查显示,主从IO和SQL线程都在正常运行,但从`show slave status`看,Relay Log的执行位点(Exec_Master_Log_Pos)却纹丝不动。关键的突破点在于检查主库的Binlog内容。作者发现,从卡住的位点(294959)开始,整个事务是一个巨大的`DELETE`操作——它来自Bacula备份系统的自动清理任务,一次性删除过期数据,事务提交耗时超过2000秒,产生的Binlog数据量接近3.9G,几乎填满了整个Binlog文件。 根因就在于此:这个超大事务在主库执行完毕并生成Binlog后,从库需要将其“重放”一遍。由于事务过于庞大,应用这个DELETE操作本身就需要极长时间,导致复制位点看起来一直“卡住”。文章不仅点明了直接原因,还提醒了这类大事务的潜在危害:除了延迟,还可能长时间锁住数据行,引发连锁的锁等待。 对于通用应用,作者给出的解决方案很务实:在代码层面控制事务粒度,比如每删除几千条记录就提交一次,避免生成这种“一镜到底”的巨型事务。这比直接修改第三方软件的源码更可行。