IT技术博客大学习 共学习 共进步
全部 移动开发 后端 数据库 AI 算法 安全 DevOps 前端 设计 开发者

标签:checkpoint

共 2 篇相关文章

IT 累计浏览 2,780

InnoDB Log 漫游(3)

这篇讲的是InnoDB日志系统的深度漫游,作者从redo log的写入、刷新到checkpoint机制,带我们走进数据库“心脏”的搏动过程。它剖析了LSN如何贯穿日志管理,揭示了`innodb_flush_log_at_trx_commit`不同参数背后,性能与持久性的权衡逻辑。文章还深入到代码层面,拆解了checkpoint如何保证数据安全又不至于阻塞系统,以及组提交如何通过合并刷盘来显著提升吞吐量。理解这些机制,能帮你在面对写入性能瓶颈或主从延迟问题时,更精准地调优参数,洞察数据库“坚如磐石”背后的精密设计。

IT 累计浏览 2,065

checkpoint小议

这篇讲的是 checkpoint——那个在分布式训练和系统可靠性中反复出现的关键词。作者从最基础的定义切入,清晰解释了 checkpoint 本质上是在特定时间点对系统状态(比如模型参数、优化器状态、训练轮次)做的一个“快照”。它的核心价值在于容错与恢复:一旦训练进程意外中断或机器故障,系统可以载入最近的快照,从断点处继续,而非从零开始。 文章进一步剖析了 checkpoint 在具体场景中的运作。在机器学习分布式训练中,定期保存 checkpoint 是应对节点故障、实现弹性训练的关键;而在数据库或消息队列这类系统里,它则关乎事务的一致性恢复。作者也对比了 checkpoint 与日志等机制的差异,指出 checkpoint 更像是提供了一个完整的状态基准,恢复速度快,但存储开销可能更大,适合对恢复时延要求高的场景。整篇梳理了 checkpoint 从概念到实践的核心逻辑,帮助读者理解为何它是构建鲁棒系统的必备工具。