标签：线程管理

共 3 篇相关文章

IT 累计浏览 1,657

解决HDFS磁盘扫描导致死亡结点的问题

这篇讲的是作者在升级Hadoop至2.0后，处理的一个棘手的生产故障：集群中磁盘数量多的DataNode会周期性地变为“死亡结点”，虽未立刻影响业务，但一次双副本DataNode同时死亡导致了数据丢失。问题排查的关键突破口在于“6小时”这个固定间隔。作者将它锁定为DataNode的周期性磁盘扫描任务，并通过jstack抓取堆栈发现了隐蔽的根因：在扫描过程中，数据块对比的步骤需要对核心的DataSet对象加锁，而该步骤中一个看似无害的`File.length()`方法调用，在底层会执行磁盘IO操作。在磁盘压力较大时，这个操作会耗时很长，导致DataSet锁被长时间持有，进而阻塞了心跳线程和所有数据传输线程，造成DataNode被NameNode误判为死亡。解决方法巧妙且高效：将引发IO操作的`getlength`提前到第二步异步的磁盘扫描任务中执行，从而将持锁时间从几十分钟大幅缩短至2秒左右。文章完整还原了从现象观察、假设推翻到利用工具（jstack）锁定真凶的全过程，对理解分布式系统中锁竞争、IO影响以及复杂故障排查思路很有启发。最终，他们将修复补丁提交至了Apache社区（HDFS-5341）。

IT 累计浏览 5,856

InnoDB线程并发检查机制

这篇讲的是InnoDB存储引擎内部一个控制并发的“门卫”机制。它通过一个叫`innodb_thread_concurrency`的参数，来决定是否对并发访问数据库的线程进行检查和数量限制。当这个参数被设置为一个大于0的值时，意味着“门卫”上岗了。InnoDB会实时统计正在活跃执行的线程数，并确保这个数量不超过你设定的上限。这是一种非常有效的流量控制手段，尤其在高并发场景下，能防止单个MySQL实例上的线程因过度竞争CPU和锁资源而导致性能急剧下降。反之，如果将参数设置为0，则等于完全关闭了这项检查。此时InnoDB会尽可能让所有请求线程都进入并发执行，这在理论上有更高的吞吐上限，但也完全依赖于操作系统和硬件层面的调度与资源管理，可能在高压力下出现剧烈波动。所以，这个参数的调优本质上是在“精确控制以求稳定”与“开放竞争以求极致”之间做权衡。对于大多数OLTP应用，设置一个合理的并发线程数上限，往往是保障系统平稳运行更可靠的选择。

IT 累计浏览 3,662

InnoDB线程并发检查机制

这篇讲的是InnoDB处理并发请求时一个底层但关键的机制。作者从innodb_thread_concurrency这个参数切入，清晰地说明了它如何像一道“闸门”来控制进入InnoDB存储引擎的并发线程数量。核心在于参数值的两种状态：当它被设置为一个大于0的数值时，系统会启动并发检查，允许同时进入引擎处理的线程数就被严格限制在这个值。这意味着，如果同时发起的并发请求很多，超出的部分就需要排队等待。而将参数设置为0，则相当于彻底禁用这道检查，允许所有请求线程不受限制地涌入，完全由操作系统和硬件资源来决定实际的并行度。文章点明了这个机制的存在价值，它并非默认启用，而是需要DBA根据业务负载特点去主动配置和调优。理解这一点，对于解决高并发场景下的锁等待、线程上下文切换开销等问题至关重要，是进行数据库性能深度调优时一个需要掌握的控制阀。