IT技术博客大学习 共学习 共进步
全部 移动开发 后端 数据库 AI 算法 安全 DevOps 前端 设计 开发者

标签:实时分析

共 2 篇相关文章

IT 累计浏览 3,972

Hermes:来自腾讯的实时检索分析平台

这篇讲的是腾讯数据平台部推出的实时检索分析平台Hermes。它瞄准的是一个非常具体的痛点:当数据量达到千亿级别、维度上万时,如何还能做到秒级响应的多维交互式分析。 Hermes为营销分析、系统运维监控、长期趋势分析以及探索性分析等场景提供了一套完整方案。它的核心思路在于,针对海量数据重新设计了存储和计算引擎。例如,通过嵌套列存储、位图计算、前缀压缩等技术,有效规避了传统数据库和早期搜索引擎在超大规模索引下内存消耗大、扩容困难、恢复慢的问题。文章特别将Hermes与Solr、ElasticSearch做了定位对比:后者更擅长小规模数据的全文检索,而Hermes则为亿级到万亿级的数据仓库提供索引支持与即席分析能力,旨在成为数据仓库的高效分析层。 本质上,Hermes是在大数据领域,为“即查即所见”的敏捷分析体验提供的一个经过生产验证的基础设施选型参考。

IT 累计浏览 3,551

个性化离线实时分析系统pora

这篇讲的是淘宝搜索背后的个性化实时分析系统pora。文章从实际业务痛点出发:为了实现“千人千面”的搜索结果,原先依赖隔天跑批的用户属性计算存在延迟,无法捕捉用户当下的兴趣变化。核心方案是构建一个实时系统,通过Storm处理来自TimeTunnel的实时日志流,并与HBase中的离线全量计算结果合并,最终快速更新用户标签到在线存储中。 作者详细拆解了系统架构与拓扑设计。其亮点在于采用了“框架+插件”的分析模式,让算法逻辑可以灵活插拔;同时,在Joiner和Analyzer环节设计了可配置的微批处理,巧妙地在延迟和HBase的访问性能之间做了平衡。系统最终每天稳定处理几十亿条日志,将用户行为从产生到属性更新的延迟控制在了秒级。 文章末尾分享的经验教训尤为实在,比如为HBase表做预分区、Storm中emit tuple时避免修改list对象等,这些都是经过线上锤炼的宝贵实践。