标签：聚合算法

共 2 篇相关文章

IT 累计浏览 2,342

讨论：一则并行聚合计算方案的设计

这篇讲的是作者在构建一个实时数据看板时遇到的并行聚合计算难题。场景很具体：一个最多10万元素的数据集，每秒会收到数百到数千次字段修改（远多于增删操作），系统需要实时计算并维护多达50条聚合规则（如求和、平均、加权平均）在最多5层分组下的完整结果树。所有数据都在内存中，要求能立刻响应任何滚动查看。作者首先实现了一个高效的串行方案：让聚合器监听集合变动，利用更新前后的值进行差值计算，避免全量重算。但面对更高的性能需求，他开始探索并行化。简单的“每次变动后并行计算”不可行，会导致持续高负载和并发错误。他尝试借鉴Erlang的Actor模型，将每个聚合器独立为消息驱动单元，但随之带来了新问题：在传递元素属性更新消息时，是否需要携带整个元素“快照”？直接携带开销太大，不携带则可能因并发修改导致聚合计算拿到中间状态的数据。作者发现，或许只有分组字段变更时才需要快照，这大幅降低了开销。文章详细剖析了一个从串行到并行演进中的经典权衡：如何在保证实时性的同时，平衡计算延迟、系统负载与数据一致性。作者不仅给出了清晰的问题定义，更分享了思考路径与初步尝试，为面临类似挑战的读者提供了宝贵的讨论起点。

IT 累计浏览 2,193

新闻聚合之Google news模式与 Techmeme模式

这篇讲的是当下两种主流科技新闻聚合思路的较量。作者从SWOT分析入手，拆解了Google News依靠算法自动抓取、排序的“无人工”模式，与Techmeme以人工编辑筛选为起点、再用算法辅助排序的“人机结合”模式。核心差异体现在对“效率”与“深度”的不同权衡上。Google News模式像一台不知疲倦的信息收割机，覆盖面广、更新快，但容易混入质量参差不齐的内容。Techmeme模式则更像一位资深主编的数字助手，起点高、噪音少，但可能错过某些小众却优质的信源。文章最终梳理出十二方面的具体区别，比如在内容筛选标准、算法透明度、对突发新闻的反应速度以及社区互动上的不同侧重。这些分析不仅厘清了两种模式各自的适用场景——前者适合快速全景扫描，后者适合获取经过“预审”的行业洞察——也为其他领域的信息聚合，比如图书情报的智能分类，提供了可借鉴的视角。