标签：Replication

共 29 篇相关文章

IT 累计浏览 70

第六章：分区

传统主备复制架构存在扩展性瓶颈、单点故障和数据隔离等问题。为应对这些挑战，系统扩展分为垂直扩展与水平扩展。垂直扩展通过升级单机硬件实现，具有简单、一致性高的优点，但受限于物理上限且存在单点故障。水平扩展则通过增加服务器集群节点来分担负载，具备理论上的无限扩展性、高可用性和弹性伸缩能力，但引入了架构复杂性、数据一致性挑战及网络延迟等新问题。因此，分布式系统常采用水平扩展中的“分区”策略，即将数据分摊到多个节点上，而非由所有节点存储全量数据。分区通常与复制技术结合，在保障数据分片的同时通过多副本提升容错性。引入分区后，系统需解决数据请求如何路由到正确分区、分区数据再平衡以及全排序操作支持等新挑战。后续内容将进一步探讨具体的分区策略、请求路由机制以及分区热点问题。

IT 累计浏览 3,991

[MySQL优化案例] — slave延迟很大优化方法

这篇讲的是如何解决MySQL主从复制中常见的从库延迟问题。作者从根因出发，指出核心矛盾在于主库的并发事务提交与从库单线程复制之间的不匹配，以及MySQL传统的异步复制机制本身就会引入延迟。针对这些痛点，文章梳理了几条切实可行的优化路径。其核心思路是提升从库的并行处理能力和IO效率。例如，推荐使用实现了真正并行复制的MariaDB版本作为从库；强调业务表必须显式定义主键以避免大表全表扫描；在应用层合并写请求以减少数据库压力。在硬件和系统层面，文章也给出了从高到低的优化排序，包括升级为SSD/PCIe-SSD、增大内存以扩大Buffer Pool、将文件系统更换为XFS或ReiserFS、调整RAID级别为RAID 1+0并开启写缓存，以及将IO调度器改为deadline或noop。这些措施从不同层面缓解了从库的IO瓶颈，组合使用能有效改善复制延迟。

IT 累计浏览 1,151

MySQL 5.7 传统复制到GTID在线切换

这篇文章详细讲解了如何将 MySQL 5.7 的传统复制架构，在线、平滑地切换至基于 GTID 的复制模式。它首先明确了两个前提条件：版本需在 5.7.6 及以上，且初始所有节点必须处于 `gtid_mode=off` 状态。核心方案是一套环环相扣的九步操作流程。文章特别强调了第一步设置 `enforce_gtid_consistency = warn` 时，必须确保所有节点都没有警告输出，这是后续切换成功的关键。切换过程通过逐步调整 `enforce_gtid_consistency` 和 `gtid_mode` 两个全局变量来实现，并建议在设置 `gtid_mode=on_permissive` 时，先从 slave 节点执行再操作 master，以确保新产生的日志立即带有 GTID。整个流程中，一个重要的验证点是反复查询 `ongoing_anonymous_transaction_count` 状态值，必须在所有节点确认为“0”后，才能进行最终的 `gtid_mode=on` 设置。最后，文章还提醒需要将配置固化到配置文件，并重启从库复制服务以启用自动位置追踪（`master_auto_position=1`）。整套方案无需停服，通过精细的状态控制与验证，实现了从传统复制到 GTID 复制的在线无损切换，是数据库管理员维护高可用集群时一份非常实用的分步指南。

IT 累计浏览 1,434

MySQL不同复制模式下，如何忽略某些binlog事件

当MySQL主从复制因主键冲突、数据不存在等错误而中断时，如何快速跳过问题事件让复制继续？这篇技术博客给出了清晰的解决方案。文章首先区分了两种场景。在未启用GTID的传统模式下，方法相对直接：通过`STOP SLAVE`、`SET SQL_SLAVE_SKIP_COUNTER=N`、`START SLAVE`三步，即可跳过指定数量的事件。但在启用GTID的现代架构中，操作则更为精细，需要手动计算并设置`GTID_PURGED`来“抹掉”导致错误的那个事务，让复制从下一个事务恢复。此外，文章还推荐了Percona Toolkit中的`pt-slave-restart`工具，它能自动监控并忽略特定错误（如1062错误或匹配指定文本的错误），重启复制进程，是DBA手中非常便捷的利器。整体来看，文章从手动命令到自动化工具，覆盖了处理复制错误的多种思路，对比了不同模式下的操作差异与工具带来的便利性，为数据库运维人员提供了实战性很强的参考指南。

IT 累计浏览 4,346

深入剖析 redis replication 主从连接

这篇讲的是Redis主从复制机制的底层实现，特别是积压空间（repl_backlog）的设计与作用。文章从主从架构的概述切入，指出其支持灵活的DAG拓扑以实现数据弱一致性。核心剖析聚焦于“积压空间”这一关键数据结构：它本质上是一个环形缓冲区，用于暂存数据变更记录。作者通过源码追踪，清晰展示了变更记录的写入路径：当命令执行修改了数据后，会经由 `call() -> propagate() -> replicationFeedSlaves()` 链路，最终被同时写入积压空间并分发给所有在线从机。文章巧妙地解释了这种“双重写入”的设计意图：积压空间是为那些因故障断开连接的从机准备的。这些从机重连后，可以优先从这个环形缓冲区中获取断开期间错过的数据变更，进行高效的增量同步（部分同步），而非每次都进行全量同步。只有当断开时间过长，缓冲区无法覆盖时，才会退化为全同步。通过对核心数据结构（如 `repl_backlog_size`, `repl_backlog_idx` 等）和关键函数的源码解读，文章深入浅出地揭示了Redis如何在保证实时同步的同时，优雅地处理节点故障恢复的场景，展现了其在工程实现上的细腻考量。

IT 累计浏览 5,717

内存表在同步环境注意事项

这篇讲的是许多开发者在追求查询性能时，可能会考虑使用 MySQL 的内存表（MEMORY 引擎），但在主从复制环境中，这个看似完美的性能优化手段却可能变成定时炸弹。文章直指几个关键风险点：从库一旦重启，内存表数据清空会导致复制链路中断；主从操作不均衡时，从库可能因临时表空间不足报错；更隐蔽的是，主库重启会主动对内存表执行 truncate，这极易引发主从数据不一致的严重问题。作者从实际经验出发，点明了内存表在同步架构下的脆弱性。针对这些坑，文中提供了清晰的规避思路。核心建议是优先使用 InnoDB 引擎替代内存表，因为热点数据会被自动缓存在内存，兼顾了速度与可靠性。若业务确实需要特殊配置，可通过复制过滤规则跳过特定表，或将内存表实例与核心业务数据库进行物理隔离，以此消除复制链路中的不稳定因素。对于正在设计高可用数据库架构的团队，这篇文章提醒我们，选型时不能只看单机性能，必须将数据一致性、复制稳定性等全局因素纳入考量，从而避免为后续运维埋下隐患。

IT 累计浏览 4,913

master_pos_wait函数与MySQL主从切换

这篇讲的是MySQL高可用架构切换时一个容易被忽略但至关重要的函数：master_pos_wait。当主库宕机，需要将从库提升为主库时，如何确保这个新“主库”的数据足够新、与原主库保持一致？这是运维人员最焦虑的时刻。问题的根源往往在于，我们可能没有正确使用`master_pos_wait`函数来等待从库应用完所有必要的事务。文章从实际的主从切换故障场景出发，剖析了如果该函数配置不当，会导致数据丢失或复制延迟未被充分消化。作者给出了经过验证的配置方案与执行步骤，明确了在切换流程中应如何设置正确的binlog位点和超时时间，从而让切换过程既安全又可控。这对于搭建高可靠MySQL集群的工程师来说，是一个非常实用的避坑指南。

IT 累计浏览 2,521

Transfer 2.0 介绍

这篇讲的是 Transfer 2.0 的全面升级，作者从实时

IT 累计浏览 3,464

MySQL多线程同步MySQL-Transfer介绍

这篇讲的是如何解决MySQL主从同步中的单线程瓶颈问题。作者介绍了一个基于MySQL 5.1打补丁而来的中间层工具MySQL-Transfer。原生的MySQL主从复制中，从库单线程应用主库的binlog，在高并发写入场景下容易成为性能瓶颈。Transfer的核心方案就是引入多线程并行执行机制。它作为一个“虚拟从库”接收主库binlog，然后通过内部多线程并发地将更新应用到真正的从库上。其巧妙之处在于按照表名进行哈希，将不同表的更新分配到不同线程，从而在多表环境下显著提升同步吞吐量。此外，该方案还支持多主架构，可同时作为多个主库的从库进行同步。从性能测试数据看，效果非常明显。在16个表并发各插入10万行数据的场景下，原生MySQL主从同步耗时363秒，而使用Transfer同步仅需66秒，平均TPS从约4400飙升至约24200，性能提升了数倍。文章还提供了具体的配置参数和应用补丁的方法，具有很强的实践指导性。

IT 累计浏览 4,160

MySQL Cluster 与 MongoDB 复制及分片设计及原理

这篇深度比较了两种主流分布式数据库——MySQL Cluster与MongoDB——在复制与分片机制上的根本性设计差异。文章没有停留在语法层面，而是直接剖析了MySQL Cluster依赖其NDB存储引擎实现的同步复制与自动分片策略，与MongoDB基于副本集（Replica Set）的异步复制以及通过分片键（Shard Key）实现的分片逻辑。作者着重阐释了它们背后的哲学分野：MySQL Cluster更倾向于通过分布式内存架构来追求强一致性和实时性，其数据分片和故障切换高度自动化，但对网络和硬件有特定要求；而MongoDB的设计则更灵活，允许在最终一致性的基础上进行手动或自动分片，更适合需要弹性扩展和复杂数据模型的场景。文章通过对比两者在数据分布、节点通信以及故障恢复等方面的实现细节，清晰地展现了不同技术取舍带来的适用边界。对于正在为数据层架构选型的技术读者而言，这篇文章提供了一个超越功能列表的视角，帮助理解何时该选择MySQL Cluster那种“紧耦合、强一致”的路径，又何时该拥抱MongoDB“松耦合、高灵活”的模式，其分析对把握分布式系统的设计权衡很有启发。

IT 累计浏览 2,722

主从同步失败,报错 1594

这篇讲的是一个MySQL主从同步中断的典型案例。作者从一起真实的故障出发，展示了从库复制线程因读取中继日志失败而停止的过程。故障现场非常清晰：从库的SQL线程在初始化后立刻因I/O错误中断，核心错误码是1594。错误日志详细给出了排查方向，直接指向中继日志的解析失败。作者指出，可能的原因包括主库的二进制日志损坏、从库的中继日志损坏、网络问题或代码缺陷。这篇文章的价值在于它没有停留在报错本身，而是提供了系统的排查思路。作者建议，首先要通过 `SHOW SLAVE STATUS` 确认当前涉及的日志文件名，然后分别使用 `mysqlbinlog` 工具去检查主库的二进制日志和从库的中继日志的完整性。这种从现象到可能原因，再到具体检查命令的剖析，为遇到类似“日志读取失败”问题的工程师提供了清晰的解决路径。

IT 累计浏览 3,920

自己动手实现Multi-Master Replication

这篇讲的是如何深入MySQL内核，通过修改源码来真正实现多Master复制，解决原生架构的局限性。作者从实际生产痛点出发：现有的MySQL复制（包括双主模式）在搭建大规模在线备份时管理成本极高。例如，线上有128个实例，就需要对等数量的实例做复制，这在运维上几乎无法承受。他们评估了现有的Perl脚本方案，发现存在监控缺失、管理不便等问题。与其修补外部脚本，不如直接在MySQL内部实现。核心思路是利用MySQL自身的复制管理框架，扩展其能力以支持多个Master同时向一个Slave提供数据流。这样不仅能统一管理，还能继承MySQL原生的监控和运维接口。巧妙之处在于，这个实现并非从零构建一个复制系统，而是“站在巨人肩膀上”进行扩展，大幅降低了复杂度。文章详细分享了这一过程的实现细节与思考，为有类似高可用或复杂复制需求的团队提供了一个可落地的深度定制方向。

IT 累计浏览 3,274

Redis高可用性之Failover过渡方案

Redis在3.0之前不支持原生的集群模式，但线上应用对高可用性的需求等不了几个月的官方更新。作者从这一实际困境出发，分享了在等待官方Cluster发布的过渡期内，如何基于现有的主从服务器架构，自行设计并实现一个Failover方案的实践。文章的核心思路是利用Sentinel机制监控主节点状态，并在故障发生时自动触发从节点晋升，同时处理客户端重定向与数据一致性问题。作者详细梳理了整个流程，包括监控哨兵的部署、故障判定的机制、以及切换过程中如何尽量减少服务中断时间。这个方案虽然属于“过渡”性质，但通过清晰的架构设计和严谨的故障处理逻辑，为应用提供了关键时期的高可用保障。对于正在使用Redis主从架构并面临类似升级窗口期的团队，文中关于切换流程和潜在坑点的具体描述，提供了直接可借鉴的落地思路。

IT 累计浏览 4,329

MySQL高可用性大杀器之MHA

这篇讲的是MySQL高可用方案的选择难题。作者从常见的MySQL Cluster、Heartbeat+DRBD等复杂方案入手，指出它们实施门槛较高，转而聚焦于基于MySQL复制的简化高可用方案。文章对比了MMM、PRM和MHA三种主流选项。它犀利地指出MMM“带来的问题往往比解决的问题还多”，而PRM作为Percona的新项目虽值得期待，但尚未成熟到可用于生产环境。相比之下，MHA凭借其在DeNA等公司大规模生产环境中的长期稳定运行，被证明是一个靠谱且经过实战检验的工具。作者通过这一系列梳理和对比，清晰地为读者指明：在追求MySQL高可用性的路上，MHA是当前平衡了易用性与可靠性的务实之选。

IT 累计浏览 3,928

如何监控主从之间的延时:seconds_behind_master OR mk-heartbeat

这篇讲的是如何监控MySQL主从复制中的延时问题。作者从日常运维中需要保证复制结构正常和数据一致这两个核心需求出发，但聚焦讨论了“主从延时”这一关键指标的检查方法。文章对比了两种主流方案：一是利用MySQL自身提供的`seconds_behind_master`字段，它直接反映从库SQL线程落后于主库的时间；二是使用Maatkit工具包中的`mk-heartbeat`工具，通过在主库植入心跳记录、从库读取来计算真实延迟。核心差异在于`seconds_behind_master`的计算依赖于从库本地时间戳与主库回放事件的时间差，若主从系统时钟不同步或网络抖动，其值可能不准确。而`mk-heartbeat`采用独立于业务流量的心跳包，能更真实地测量出网络传输与SQL执行的综合延迟，适合对时钟同步要求严格或需要高精度监控的场景。对于DBA来说，理解这两种监控手段的原理和适用范围，有助于构建更可靠的复制监控体系，在延时超出阈值时快速定位是网络问题、从库负载高还是其他原因，保障数据库服务的稳定性。

IT 累计浏览 2,391

使用Percona Xtrabackup备份SLAVE数据

这篇讲的是如何用Percona Xtrabackup对MySQL Slave库进行在线热备，解决的是传统备份工具在操作和恢复效率上的痛点。作者从实际运维需求出发，详细说明了在拥有主从复制的环境中，为何以及如何选择Xtrabackup来替代较早的ibbackup工具。文章核心在于阐述Xtrabackup作为InnoDB存储引擎在线热备方案的优势。它支持直接备份运行中的Slave库，而无需中断复制链路或锁表，确保了业务连续性。具体操作上，文章覆盖了从准备备份文件、执行备份到最终恢复的关键步骤，并可能涉及了与binlog结合以实现时间点恢复的实践思路。结论部分强调了工具的可靠性与高效性，明确指出Xtrabackup已成为当前环境下更受推荐的数据库备份方案。对于需要维护线上MySQL数据库，特别是处理主从架构备份策略的技术人员来说，这提供了一个清晰可行的实操参考。

IT 累计浏览 4,456

redis源代码分析 - replication

这篇讲的是Redis主从复制（Replication）机制在源码层面的完整实现。作者从slaveof命令切入，详细拆解了从建立连接到数据同步的全流程。核心实现思路围绕一系列状态机变迁展开。当slave端收到slaveof命令后，会通过主线程的时间事件发起与master的连接。master收到SYNC指令后，会通过fork子进程进行全量RDB持久化，完成后再将文件发送给slave。slave接收并加载完RDB后，双方便进入基于命令传播的增量同步阶段。整个过程由一系列状态（如REDIS_REPL_CONNECT、REDIS_REPL_TRANSFER、REDIS_REPL_ONLINE等）驱动流转，对应的函数逻辑集中在replication.c中。文章的巧妙之处在于，作者用流程图和状态图将这个涉及父子进程、多线程事件、文件IO的复杂过程梳理得非常清晰。特别是对master端处理多个slave请求时，如何调度或共享bgsave持久化的几种情况，以及slave端在初始化同步时会暂时阻塞服务这一重要细节，都做了明确说明。这帮助读者快速抓住了Redis复制设计中“先全量、后增量”的核心，以及为保证一致性所付出的代价。

IT 累计浏览 4,400

MySQL复制的概述、安装、故障、技巧、工具

这篇文章以MySQL复制的复杂性为核心，作者首先将其与MongoDB和Redis等NoSQL数据库的复制机制进行对比。由于关系型数据库对数据一致性和事务完整性的严格要求，MySQL复制在实现上确实比NoSQL的异步或最终一致性模型更显繁复，但这也使其在传统业务场景中更具可靠性。文章系统性地梳理了MySQL复制的各个方面：从复制原理的基本概述，到不同版本下的安装配置指南，再到主从同步延迟、数据丢失等常见故障的排查与解决。作者还分享了复制过滤、半同步复制等实用技巧，并推荐了如MySQL Workbench、Orchestrator等工具来简化运维管理。通过对比和案例，文章帮助读者理解在不同应用场景中如何选择合适的复制策略，例如在高并发OLTP系统中如何平衡性能与一致性。对于需要部署或维护MySQL复制环境的开发者与DBA来说，这篇文章提供了从入门到进阶的实践路线，让复杂的复制机制变得清晰可操作。

IT 累计浏览 3,126

Microsoft Azure存储架构设计

这篇讲的是微软Azure如何设计其存储架构，特别是以SQL Azure为例的深度剖析。文章从云环境下数据存储面临的一致性、可用性与可扩展性平衡挑战出发，揭示了微软在应对超大规模数据场景时的核心设计思路。作者深入剖析了Azure Storage所采用的“存储计算分离”架构，重点阐释了其底层如何通过分布式文件系统（如Cosmos）实现数据冗余与分发，并在此之上构建出高效可靠的Blob、表、队列等存储服务。文章特别点明了这种设计带来的关键优势：计算资源可以按需独立于存储进行弹性伸缩，从而更灵活地匹配业务负载。此外，文中还探讨了SQL Azure如何依托此基础架构，将传统的数据库功能“云化”，并确保了企业级的高可用与灾难恢复能力。通过具体的架构组件与流程说明，文章清晰地呈现了Azure存储系统为现代云原生应用提供的坚实、灵活且高性能的数据基石。

IT 累计浏览 3,971

mysql主从同步快速设置

这篇讲的是作者梳理的一套MySQL主从同步快速配置方法。在实际项目中，搭建主从架构用于读写分离、数据备份或高可用是常见需求，但标准配置步骤有时略显繁琐。作者从实际使用出发，记录了一个比较简便的操作流程，旨在日后能快速复用。文章重点突出了配置过程中的“快速”与“简便”这两个核心特点。它没有长篇大论地铺陈原理，而是直接切入实操步骤，为需要快速搭建同步环境的开发者提供了一个清晰的路径。对于那些希望简化部署流程、节省配置时间的技术人员来说，这个经过精炼的步骤集合会很实用。