从谷歌宕机事件认识互联网工作原理
这篇讲的是谷歌服务曾经历的一次全球性短暂宕机,作者作为一名CloudFlare网络工程师,从亲身参与修复的角度,带读者深入了一次真实的网络故障现场。 故事从发现谷歌所有服务(甚至包括其公共DNS 8.8.8.8)无法访问开始。作者通过追踪发现,本应由谷歌自己管理的IP地址,其BGP路由路径却诡异地指向了印度尼西亚的运营商Moratel。这揭示了问题的根源:一家ISP可能因操作失误(“胖手指”),错误地向其上游提供商(电讯盈科)宣告了本属于谷歌的IP地址,而后者信任了这一宣告,导致错误路由像涟漪般扩散至全球互联网。 文章核心观点在于阐释互联网如何建立在BGP协议的相互信任机制之上,而这种信任一旦被错误信息打破,即便是谷歌这样的巨头也可能服务中断。作者最终通过业界人脉直接联系Moratel公司才得以修复问题。这给我们的启发是:可靠的网络运维不仅关乎技术,也关乎全球协作网络与及时响应能力——即使你控制不了外部路由,也必须有团队时刻监控和管理你与世界的连接。