阿里技术嘉年华 -- IT技术博客大学习 -- 共学习共进步！

首页 / 阿里技术嘉年华

IT 2013-08-21 13:13:54 / 累计浏览 2,980

关键词推荐技术介绍

这篇文章深入讲解了关键词推荐技术在竞价广告系统中的核心作用。作者从赞助商搜索广告的选词困境出发，对比了Google、百度和阿里巴巴等主流平台的关键词推荐工具，阐明其共同目标：帮助广告主扩展选词思路，挖掘高价值词，从而提升产品曝光并精准获客。文章重点剖析了推荐系统的两种主流方法：基于种子词推荐和基于产品（offer）推荐。尤其详细拆解了阿里巴巴国际站P4P背后的“先知平台”技术实现。该平台巧妙运用了自然语言处理、信息检索及分布式计算架构，通过线下挖掘与线上实时计算相结合的方式，从海量查询日志中高效匹配出与产品相关的关键词，并保证相关性与系统响应速度。整体来看，这篇文章清晰展现了关键词推荐如何串联起广告主、平台与用户三方，并通过具体案例和架构图，将抽象的技术原理讲得直观易懂，为理解搜索广告的底层引擎提供了一个很好的切入点。

本机暂存

IT 2013-08-14 13:36:29 / 累计浏览 1,420

互联网学习型敏捷研发组织的构建及策略

这篇讲的是如何为大型互联网系统打造一个真正敏捷的研发组织。作者一玄犀利地指出，许多团队深受传统瀑布模型影响，错误地将“流程”置于“人”之上，试图用“精密”的官僚流程把开发者当作流水线上的机器来管理，这恰恰忽视了软件开发中水面下的关键因素——“人和组织”。文章主张，高效的敏捷团队必须摒弃命令控制文化，转向扁平、开放、自组织的学习型组织。作者将成功所需的能力分为两层：表层的“硬”技能（产品设计、快速开发、系统运维、社区运营），以及更底层的“软”能力，即组织持续学习、反思调整和团队协作的能力。实现这一点的关键在于重构团队模式——从按职能分割转向按功能划分的跨职能小团队。团队内部自组织、高度自律，共同对项目负责。与之匹配的管理风格也应是“领导-协作式”而非“命令-控制式”：管理者需像教练一样，聚焦客户价值、清除障碍、培养个体、并营造一个鼓励交流与反思的环境。最终，一个真正具备学习能力的组织能够自适应地选择和实践最适合自身的敏捷方法，让优秀的产品自然地从团队中涌现出来。

本机暂存

IT 2013-08-13 13:09:09 / 累计浏览 2,700

个性化实时计算系统及其应用探索

这篇来自阿里技术团队的文章，分享了他们如何应对电商场景下用户兴趣实时变化的挑战。作者从淘宝搜索个性化的实际需求出发，介绍了团队设计的个性化实时计算系统PORA。 PORA是一个基于HBase与Storm的实时流计算系统，其核心在于从日志通道订阅用户行为，并通过三个Storm组件（解析、计算、更新）快速完成数据处理与存储，端到端延迟约300毫秒。这种“离线计算、实时服务”的架构，使得应用方能便捷地获取到用户最新的兴趣偏好。文章重点阐述了系统在搜索重排序等场景的应用：在商品的相关性排序基础上，融入用户的性别与价格偏好进行个性化调整。实验数据表明，该方案上线后使整体成交金额提升了约2%，其中客单价的提升尤为明显。但作者也客观地指出，由于能获取明确性别画像的用户和Query占比有限，点击率与转化率的提升尚未达到预期。最后，文章探讨了未来的优化方向，包括深化更多偏好维度的挖掘，以及通过动态调整个性化商品的展现比例与混合排序来提升用户体验。

本机暂存

IT 2013-08-12 13:35:58 / 累计浏览 2,140

天猫导航的内部机制揭秘

这篇讲的是天猫搜索结果页上方那个看似简单的导航栏，其背后的智能推荐机制。文章从一个常见场景切入：当用户搜索意图不明确时，导航区的类目和属性推荐就成了帮助他们找到商品的关键。作者务达揭示，这些导航项并非静态存储，而是通过算法动态生成和排序的。具体来说，导航分为类目导航和属性导航，其推荐逻辑依赖于离线生成的词表。核心算法基于每个（Query，搜索类目）对的点击、成交和商品数数据，进行线性加权排序，决定展现哪些类目/属性以及它们的排列顺序。例如，属性推荐就细分为根类目、公共类目和叶子类目下的属性，当某个属性分数占比极高时，会直接进行“属性预选”展示。整套系统每天承载着约3000万PV的展现量，是天猫搜索导购链路中的重要一环。文章将智能导航的架构、排序算法以及具体的展现逻辑梳理得清晰透彻，揭开了这个常见却容易被忽视的功能背后的技术面纱。

本机暂存

IT 2013-08-12 13:35:08 / 累计浏览 4,400

淘宝搜索中Query下拉推荐技术

这篇讲的是淘宝搜索下拉推荐系统如何从基础算法演进到更智能的方案。下拉推荐能帮用户快速明确搜索意图，是提升搜索体验的关键。文章从最基础的基于查询词历史PV的推荐策略说起，指出其存在长尾覆盖不足、推荐结果语义重复以及低质或作弊查询容易被推高排序等问题。为解决这些问题，作者介绍了两轮核心迭代：第一步，引入“查询词静态分”这一综合质量指标，它融合了流量、点击、交易转化等多维度数据，用它来排序，能让交易质量高的查询词获得更多机会，有效打压了作弊查询。第二步，则进一步建立了搜索词与候选查询词的动态联系，通过CTR预估模型来预测用户对推荐词的点击率，模型综合考虑了搜索词与候选词的内容相关性、类目匹配度以及结果页特征等，让排序更具个性化和预见性。文章最后还提到了拼音搜索、拼写纠错、作弊清理及个性化等进阶方向，展现了淘宝搜索推荐系统从简单排序到多维度、动态智能化的完整演进路径。

本机暂存

IT 2013-08-12 13:32:35 / 累计浏览 4,580

Learning to rank在淘宝的应用

这篇讲的是淘宝搜索排序系统如何从传统手工调参进化到机器学习自动化调整的实践。作者从排序优化的核心难点切入：传统方法依赖人工特征调优和反复AB测试，效率低且难达最优。为此，团队在已有特征体系上应用了Learning to Rank技术，项目内部命名为Jazz。其核心方案是采用pairwise方法来构建训练数据，但做法很有淘宝特色：没有像常规那样做耗时耗力的人工标注，而是直接利用用户的点击和购买行为数据自动生成商品对。同时，为了保证排序稳定性，还混合了部分原始排序的样本进行分层抽样。模型训练后，通过计算NDCG指标在线下评估效果，显著缩短了测试周期。文章详细拆解了从数据生产、模型训练到效果评估的全流程架构，并坦诚分析了pairwise方法在具体实施中遇到的挑战，比如与传统论文中描述不同的样本构建思路。这种将工业级实践与算法原理结合的分享，清晰地展示了机器学习技术如何解决真实业务中的复杂排序问题。

本机暂存

IT 2013-08-08 23:32:40 / 累计浏览 2,280

谈谈页面停留时间

这篇从内部同事常问的“页面停留时间”指标入手，解释了它的概念与计算逻辑。作者指出，尽管主流分析工具都会计算这个指标，但受限于日志采集的原理，我们无法得知用户真正的“离开”时间。实际采用的方法是用“打开下一个页面的时间”作为近似替代值。文章用一个具体的用户浏览路径示例来说明计算过程：从进入淘宝首页，到多次搜索、浏览商品页，每个页面的停留时间实际上是用下一个动作的时间戳减去当前页面的时间戳。比如搜索结果页的停留时间，就是计算从打开它到打开第一个商品页的间隔。这种基于点击流数据的计算方式虽然存在误差（比如用户可能同时打开多个标签页），但仍然是评估页面吸引力和内容质量的最常用基准。

本机暂存

IT 2013-08-08 23:30:13 / 累计浏览 2,380

从概念的角度审视一淘商品搜索的Online系统架构

这篇技术文章从概念角度剖析了一淘商品搜索系统中的信息组织架构，直指当前设计的不足与优化方向。作者指出，随着商品数量增长，类目、产品节点（SPU/SKU）等层级信息在现有系统中存在割裂，特别是产品节点的类目关系和父子层级在Online系统中未被有效利用，导致搜索结果页（SRP）展示和导航逻辑存在缺陷。文章引入了两个核心概念：AP（访问点/聚合点）与TAG（属性）。AP用于路径导航（如类目、SPU），TAG用于结果筛选（如颜色、尺寸），两者可动态转化。作者认为，当前依赖离线统计的QP决策机制存在局限，而通过构建并利用一棵完整的“AP树”，系统可以进行实时在线统计，从而更智能地决定产品的展示层次、结构化组合（Combo）以及跳转逻辑，大幅降低人工干预成本，提升用户导航体验。其核心方案是统一CatId、SpuId、SkuId的数值空间，构建更完整的层级树，并增强模块的数据更新能力。这一架构不仅旨在解决当前节点展现别扭、导航路径单一的问题，还为关联推荐、公共信息提取等更丰富的产品功能打开了空间。

本机暂存

IT 2013-08-08 23:27:38 / 累计浏览 3,480

只有算法的个性化推荐没有未来

这篇来自淘宝技术团队的文章，探讨了个性化推荐系统的发展方向。作者从淘宝的实际应用出发，区分了依赖数据挖掘与机器学习的“黑盒推荐”，以及融合内容理解与领域知识的“白盒推荐”。他认为，当前业界过于追求算法模型的优化，却忽视了推荐的根本是服务于人。文章从经济学的“理性人”假设切入，指出算法模型将人抽象为数据，但现实中的人是充满情感、存在个体差异且行为具有不确定性的。作者举了一个例子：即使拥有一个人完整的购物历史，也很难精准预测他当下的需求，这正是纯算法推荐的局限所在。基于此，作者提出优秀推荐系统的原则应包含可解释性，即算法必须把“数字”还原成“人”的行为逻辑。文章最终认为，只有当算法能融合常识、技术与运营紧密结合时，个性化推荐才能迈向新的高度——成为“融合常识的推荐”。

本机暂存