用GDB排查Python程序故障
这篇讲的是一个团队在Python程序非预期退出时,尝试用GDB调试解释器,但作者提供了更高效的排查思路。 团队开发的Python程序涉及子进程管理,遇到了非预期退出。最初的调试方向是用GDB追踪Python解释器中的`exit()`调用,但作者认为有更合适的切入点。文章通过一个精简的代码案例(`DebugPythonWithGDB_6.py`)重现了问题:父进程在信号处理函数`on_SIGCHLD`中尝试用`os.waitpid()`回收子进程时,抛出了`OSError: [Errno 10] No child processes`。 作者深入剖析了根因。问题出在复杂的信号与进程交互时序上:当`os.system()`产生的子进程退出并触发`SIGCHLD`信号时,该信号处理器正中断另一个子进程的处理流程。此时在信号处理器中再次调用`waitpid()`,可能因子进程已被其他地方的`wait()`回收,导致系统调用失败,Python将其封装为异常。 文章不仅展示了问题现象,还通过伪代码梳理了`os.system()`底层(从`posix_system`到`do_system`)对信号的处理逻辑,揭示了`SIGCHLD`信号在关键路径被阻塞又释放的微妙过程。它提供了一个可复现的竞争条件案例,对于理解Python子进程管理、信号处理陷阱有很好的参考价值。