标签：distributed computing

共 2 篇相关文章

IT 累计浏览 2,879

从未降级的搜索技术-Hippo在线服务调度系统

这篇讲的是，在搜索团队经历了一次手忙脚乱的双11“搬机器”救援后，如何从零开始构建一个真正服务于在线系统的调度平台——Hippo。故事要从一次教训说起。当年双11，团队为天猫和主搜分别预留了14倍和1倍的资源余量。然而流量突变，主搜压力远超预期，天猫却只涨了4倍。工程师们被迫手动迁移机器来救场，改配置、发数据、起进程，折腾一个半小时才勉强应对。更无奈的是，这种紧急操作往往还未必能准确命中流量高峰。每年大促都像一场无法预演的战役，让运维和开发都身心俱疲。为了解决这些痛点——资源僵化、扩容迟缓、手动部署风险高，团队调研了当时主流的调度系统。但发现Yarn对于C++在线服务显得笨重，而FUXI和Mesos在资源回收上采用强制策略，可能影响在线服务的稳定性，这与搜索系统“高可用、资源分配稳定”的核心要求相悖。因此，他们决定自研一个专注在线服务的平台。 Hippo采用了两层架构：Master层负责核心的资源管理与调度，而具体的AM层则允许各应用定制自己的调度逻辑。它的设计核心在于保证在线服务的平稳运行：资源回收策略更为柔性，并针对海量数据（如40G索引、多GB模型）的快速分发和部署做了特别优化。这篇文章详细拆解了系统从需求诞生到架构落地的全过程，展示了一个为复杂在线场景量身定制的调度系统是如何思考的。

IT 累计浏览 2,944

基数估计算法概览

这篇讲的是如何在海量数据中，高效估算不同元素的个数——也就是基数估计。文章从一个经典场景切入：面对一个大到无法放入内存、且含有大量重复项的数据集，怎样才能快速知道里面有多少不同的数据项？作者首先介绍了一种直观但粗糙的思路：通过哈希将数据映射成均匀分布的随机数，再利用集合中的最小值来反推基数。这个方法虽然简单，但准确度不稳定。真正的突破来自概率算法。文章重点介绍了Flajolet等学者发展的方法：通过一个良好的哈希函数，将任意数据转化为均匀分布的序列。算法巧妙的观察点在于，考察每个哈希值的二进制表示前导零的长度。在均匀分布下，最长前导零的长度与集合基数存在明确的统计关系。这避免了直接存储所有元素，只需记录一个极小的状态信息。从最初的Probabilistic Counting，到LogLog，再到近似最优的HyperLogLog算法，文章勾勒出这类算法的发展脉络。HyperLogLog通过分桶统计和调和平均数，极大地提升了估计精度，并已成为Redis等系统中处理UV统计等场景的标准方案。对于任何需要在大规模数据流上进行实时去重计数的工程师来说，理解这些算法的原理与取舍都非常有价值。