scribe的生产实践总结
作者结合两年生产实践,分享了对Facebook开源日志系统Scribe的应用总结。Scribe以精简稳定著称,作者团队在线上运行超过两年,未曾遭遇其自身进程崩溃。 文章核心聚焦于生产环境中Scribe的关键运维实践。针对Master节点宕机,标准配置是Primary接Secondary文件,故障时日志本地缓存,恢复后自动补发,并可通过一行脚本监控积压。为防止Scribe进程意外阻塞业务,建议采用异步线程写日志。而最棘手的情况是网络拥塞导致日志追送困难,作者提到一项压缩传输的改造尝试。文章最后将Scribe与LinkedIn开源的Kafka进行对比:Scribe如同“激流勇进”的冲锋舟,简单可靠;Kafka则似“航空母舰”,以集群和去中心化设计,对单点故障的容忍度更高。作者认为,对于中心化的日志收集场景,两者各有适用之处。