标签：实时计算

共 3 篇相关文章

IT 累计浏览 2,712

个性化实时计算系统及其应用探索

这篇来自阿里技术团队的文章，分享了他们如何应对电商场景下用户兴趣实时变化的挑战。作者从淘宝搜索个性化的实际需求出发，介绍了团队设计的个性化实时计算系统PORA。 PORA是一个基于HBase与Storm的实时流计算系统，其核心在于从日志通道订阅用户行为，并通过三个Storm组件（解析、计算、更新）快速完成数据处理与存储，端到端延迟约300毫秒。这种“离线计算、实时服务”的架构，使得应用方能便捷地获取到用户最新的兴趣偏好。文章重点阐述了系统在搜索重排序等场景的应用：在商品的相关性排序基础上，融入用户的性别与价格偏好进行个性化调整。实验数据表明，该方案上线后使整体成交金额提升了约2%，其中客单价的提升尤为明显。但作者也客观地指出，由于能获取明确性别画像的用户和Query占比有限，点击率与转化率的提升尚未达到预期。最后，文章探讨了未来的优化方向，包括深化更多偏好维度的挖掘，以及通过动态调整个性化商品的展现比例与混合排序来提升用户体验。

IT 累计浏览 2,210

实时计算引擎处理延迟的排查过程

这篇讲的是量子后端团队如何揪出一次实时计算引擎处理延迟故障的故事。问题很明确：实时引擎必须保证处理速度跟上数据流入，比如一分钟生成一个日志文件，就必须在一分钟内处理完毕，否则日志堆积会导致系统无法承载。作者从一次真实的线上故障切入，生动描述了排查过程。团队没有停留在表面的监控指标，而是深入系统调用层，使用了`ltrace`和`strace`这两个利器，去追踪和分析进程的底层库函数调用与系统调用行为。通过剖析这些工具的输出，他们最终定位到了导致延迟的根源。整个排查过程堪称一次扎实的“系统诊断”教学，展示了当性能问题隐藏在复杂调用链中时，如何运用底层工具自顶向下、层层剥茧地定位关键瓶颈。对于需要处理实时流数据的工程师而言，这篇文章提供了一套清晰的排查思路和实用的工具使用范例。

IT 累计浏览 2,596

从亚运会看框计算与数据时效性

这篇讲的是作者如何借助亚运会这个实时性要求极高的全球事件，来审视和解读“框计算”这一搜索理念在当下面临的核心挑战。文章指出，尽管框计算的理念是直接给出最准确的答案，但在亚运会场景下，奖牌榜、赛程、选手成绩等数据每分每秒都在刷新。这暴露了传统搜索引擎在应对超高时效性需求时的短板——如何快速抓取、验证并呈现瞬息万变的赛场信息。作者具体分析了赛事官方、媒体聚合以及社交舆情等多源数据在框计算中的处理难点，比如数据冲突、延迟和真实性验证。文章的核心观点在于，真正的“框计算”答案不仅需要“准”，更需要“新”。在移动互联网时代，数据的时效性已成为衡量信息服务价值的关键维度。文章最终将讨论延伸至日常的信息获取，启发我们思考：在追求答案“一步到位”的同时，支撑其背后实时、动态的数据供应链是否足够健壮。