AIOps在美团的探索与实践——故障发现篇
这篇讲的是美团如何将AIOps(智能运维)落地到故障发现环节。文章从自动化运维的瓶颈说起,指出传统基于固定规则的监控在海量、多变的指标面前力不从心,而AIOps通过机器学习从数据中自动学习规则,是更进一步的解决方案。 美团规划了一条从单点能力到流程化、免干预的AIOps演进路径,并强调了SRE、开发与算法三类团队的紧密协作。他们首先聚焦于故障管理体系中的“故障发现”,因为它直接影响告警的准确性和效率。 核心实践在于解决海量时序指标的自动分类问题。团队发现,不同形态的指标(如周期型、平稳型)需要不同的告警策略。通过探索,他们最终采用卷积神经网络(CNN)对指标进行自动分类,准确率超过95%,从而能为指标智能匹配合适的异常检测算法。这不仅降低了人工配置成本,也提升了告警信噪比,为后续的告警收敛、故障定位等环节奠定了智能化基础。