AI

共 236 篇文章

IT 2019-03-25 23:07:36 / 累计浏览 1,949

你是如何了解或者进入NLP这个领域的？

这篇讲的是AINLP公众号发起的一次赠书留言征集活动，却意外收获了超过200条关于“如何进入NLP领域”的真实分享。作者将这些充满个人色彩的故事做了汇总，为我们勾勒出一幅生动的NLPer入行图景。从留言中可以看到，许多人的起点充满了“偶然”：数学系的背景被导师安排做统计机器翻译，英语专业的学生因无法忍受纯人工内省而自学编程切入，甚至有心理学和文科背景的同学为了解决论文中的文本分析难题，独自摸索着走进了这个领域。另一个共性是强烈的自驱力——在缺乏系统指导的情况下，通过啃经典教材（如《统计自然语言处理》）、刷公开课、关注技术社区，从零搭建起知识体系。这些故事背后，是一个个具体的技术探索：从Lucene分词的好奇，到词性标注与概率统计的实践，再到BERT、知识图谱的前沿追踪。它们共同指向了NLP领域的迷人之处：它用数学和代码为语言赋予了可计算的维度，而通往这个大门的道路却向所有充满热情和毅力的人敞开。活动本身也通过赠书和互动，完成了一次社区内宝贵的连接与传承。

本机暂存

IT 2018-06-26 12:30:23 / 累计浏览 2,919

聚类算法之Mean Shift

这篇讲的是Mean Shift聚类算法。它从大家熟悉的K-Means算法出发，指出了其需要预先设定聚类个数k的局限，从而引出Mean Shift的核心优势：不需要预设类别数量，能自动发现数据的簇结构。文章梳理了算法的发展脉络，从Fukunage提出概念，到Yizong Cheng引入核函数与权重系数进行关键改进，使得算法能根据样本距离赋予不同权重，更加精确。接着，文章列举了Mean Shift在多个领域的成功应用，包括图像平滑、分割、目标跟踪等计算机视觉任务，以及常规的用户聚类等场景。其理论部分清晰地解释了Mean Shift向量的含义——即邻域内所有点相对于中心点的偏移均值，并通过迭代移动直至收敛来找到密度峰值。文章进一步阐述了核函数如何度量不同样本的贡献，使得算法原理更加完善。整体上，文章将Mean Shift定位为一种基于密度估计、迭代寻优的实用聚类工具，尤其适用于类别未知的复杂数据分析。

本机暂存

IT 2017-09-14 14:36:38 / 累计浏览 2,655

自动人脸识别基本原理

这篇讲的是人脸识别近40年来的核心算法演进。作者开篇就点明，这个领域融合了计算机视觉、机器学习等多学科知识，算法难以统一分，通常根据输入数据分为基于静态图像和视频图像两大类。文章重点对比了三类经典的静态图像识别算法。特征脸方法通过主成分分析将人脸投影到一个低维子空间进行匹配，思路直观，但得到的特征在区分不同类别时未必最优。弹性图匹配则更进一步，它用图结构表示人脸，节点编码局部纹理，边记录几何关系，这种方法对光照和姿态变化有一定鲁棒性，但计算代价过高影响了实用。3D形态模型则另辟蹊径，尝试用三维模型参数来描述人脸的形状和纹理，从而更好地处理姿势和光照变化。针对视频人脸识别，文章梳理了三个发展阶段。早期方法本质是“跟踪后识别”，利用多帧投票来提高稳定性。随后发展出融合声音、步态等信息的多模态系统。最新的方向则是同时在空间和时间维度上建模，直接利用视频中连续的动态特征进行识别。文章也坦诚地指出了视频场景下面临的图像质量低、人脸尺寸小等严峻挑战，这为后续研究指明了方向。

本机暂存

IT 2017-03-01 23:11:39 / 累计浏览 3,480

看历史：下一波伟大公司已经诞生，就在企业服务和AI

这篇文章从历史周期出发，梳理了互联网行业“伟大公司”的诞生与演变规律。作者通过自制一张覆盖经济周期、公司决策和投资热点的详图，发现了几个核心趋势：伟大公司总是在经济低谷期集中诞生，并在上升期壮大；而能否提前布局下一个浪潮（如阿里从电商延伸至云计算、物流与金融科技），决定了公司能否穿越周期。作者的结论极具启发性：当前正处于又一个经济低谷与迷茫期，各种概念涌现，但真正的下一波浪潮已经清晰，那就是**企业服务（To B）与人工智能**。文中以阿里近年来的战略布局和谷歌对AI的押注为例，指出这些领域正是伟大公司正在下重注的方向。文章最后提出，在低谷期，“活着”并看清趋势、专注正确赛道，比追逐短期热点更为重要。

本机暂存

IT 2017-02-20 00:07:01 / 累计浏览 2,118

软件工程在Google

这篇文章揭秘了Google的软件工程实践体系。作者Fergus Henderson是Google资深工程师，曾是构建工具Blaze的核心开发者，他系统梳理了Google内部支撑其庞大业务运转的工程方法论。内容从微观的代码级实践切入，详细介绍了Google如何管理其统一的源码仓库、构建系统，以及强制推行的代码审查与测试流程。文章也深入到宏观层面，剖析了发布工程、线上故障复盘，甚至是“频繁重写代码”这一颇具Google特色的文化。这些实践共同构成了一套确保大规模软件交付质量与效率的完整系统。不同于一般的方法论文章，本文的实践细节非常扎实，涵盖了从日常开发、调试分析到项目管理的全流程，为读者提供了一个观察顶级科技公司如何“做软件”的珍贵窗口。对于希望提升工程化能力的技术团队，这些源自实战的经验与教训，具有很强的参考意义。

本机暂存

IT 2016-04-05 14:53:17 / 累计浏览 3,429

一起来看看淘宝首页的个性化

这篇讲的是淘宝首页从“商品为王”转向“以人为中心”后的个性化改造实践。它没有停留在理念层面，而是深入到了让运营和前端团队“头疼”的技术实现细节。文章的核心是解决一个复杂问题：如何在满足几十个业务模块灵活配置的同时，实现基于用户兴趣的“千人千面”排序和展示？作者详细拆解了前端面临的四大挑战：数据源极其分散（接口超过15个）、模块渲染依赖两次串行请求导致效率瓶颈、业务ID与模板ID需要繁琐的人工匹配，以及多数据源下的兜底容灾逻辑异常复杂。为了解决这些难题，他们遵循“首屏快、滚动流畅”的黄金准则，并通过对模块位置、模板、内容进行分层个性化与开关控制来平衡运营需求与算法效果。文章以实际改版为例，不仅展示了多彩的模块与多套模板设计，更坦诚地讨论了当时未能用上但“很靠谱”的数据过滤体系，体现了工程实践的务实与思考。最后，作者将话题引向了性能优化，为下篇内容埋下了伏笔。

本机暂存

IT 2016-03-21 12:11:45 / 累计浏览 2,552

协同过滤 Collaborative Filtering

这篇从推荐系统的“长尾现象”切入，解释了协同过滤算法为何诞生以及它的核心价值：在有限展示空间里，帮用户发现自己可能感兴趣的小众内容，从而释放长尾的商业潜力。作者首先点出协同过滤最基础的假设——“人有感兴趣的领域”，并由此推论出两条关键逻辑：同时被一个人喜欢的两个事物可能类型不同，而同时被很多人喜欢的两个事物则可能类型相同。基于此，文章逐步拆解了算法的数学模型：如何用余弦相似度量化物品关联度，如何通过加权降低热门物品的干扰，最终计算出用户对未接触内容的偏好预测值。文章没有停留在理论，还坦诚讨论了算法的优缺点：它实现简单、适用性广、效果稳定，但也面临冷启动、数据稀疏等实际挑战，并指出需要针对具体业务进行二次过滤与优化。整篇文章就像一位工程师在分享实践经验，从背景假设到公式推导，再到利弊分析，把一个经典算法讲得既清晰又接地气。对于想了解推荐系统入门逻辑的读者，这是一篇扎实的起点。

本机暂存

IT 2016-03-16 23:36:14 / 累计浏览 2,920

浅谈 WHR 全历史排名

AlphaGo 击败李世石后，围棋积分网站给出的世界排名让作者开始探究这套评分系统的底层逻辑。文章从Bradley-Terry模型讲起，解释了为何需要Elo等级分的指数变换来直观呈现选手间的实力差距，但其本质仍是静态模型，难以适应人类水平的波动。为解决这一问题，文中对比了多种动态评分方案：简单的增量更新系统计算便捷但信息利用不足；引入历史衰退的系统能综合考量，却可能导致不活跃选手分数跳跃。最终，文章聚焦于WHR（全历史排名），它基于动态Bradley-Terry模型，核心突破是提出了一种近似算法，能通过牛顿插值法在每次比赛后增量更新分数，并在后台进行迭代优化，从而高效地利用全部历史数据推算每个时间点的准确评分。作者指出，WHR的开源实现还针对围棋让子棋做了胜率修正，这种思路或许可推广到其他竞技场景。整篇文章从一个现象出发，抽丝剥茧地梳理了等级分系统的演进，清晰展示了WHR在精度与效率上的巧妙权衡。

本机暂存

IT 2016-03-10 23:52:05 / 累计浏览 1,479

彪悍的职业不惧阿尔法狗

这篇文章从阿尔法狗与李世石的对弈讲起，引出了一个更值得深思的现实问题：在机器学习浪潮下，哪些人的职业未来会受到冲击？作者先以戏谑的方式提出了一个关于AI文明发展的宏大猜想，随后将话题拉回地面——Google为机器学习专家开出超200万美元年薪，正是因为资本正在押注这项技术的盈利潜力。核心观点很明确：机器学习将首先替代那些重复性强、无需创造性思考的岗位。例如，机械搬运网络段子的小编辑，其工作可能很快被推荐算法取代。相反，那些需要灵感与创造性的职业，比如段子手、艺术家、导演，以及最重要的软件工程师，则拥有更长的“安全期”。作者甚至断言，当机器能完全替代程序员时，那可能已是AI文明终结地球之时。因此，文章最终将“程序员”定义为地球上最后一个消失的职业，并建议有志者不妨从Python开始，踏入这个面向未来的领域。

本机暂存

IT 2016-01-26 23:54:09 / 累计浏览 2,209

简单内在，复杂外延

很多产品经理在做数据分析时，总觉得使不上劲，找不到提升的关键。作者认为，问题往往出在最开始：没有搞清楚那个最基本的“内在”公式。这篇文章的核心观点是，任何复杂问题（外延）背后，都有一个极其简单的底层逻辑（内在）。比如分析“转化率”，无非是搞清楚“比率 = 分子 / 分母”。要提升它，要么扩大分子（如订单量），要么缩小分母（如访问人数）。而“订单量”又可以继续拆解为“（新用户 + 老用户 - 流失用户）× 使用频率”。把这些元素和关联想清楚，解决问题的路径自然就明确了。作者指出，无论是制定目标（正向拆解）还是排查问题（逆向追溯），这套“从内在到外延”的分析法都同样有效。如果直接从庞杂的外延入手，容易忙于应付；而从简单的内在公式切入，虽然初期思考可能慢一些，但更可能找到高效、根本的解决办法。文章最后提醒，数据分析不局限于服务器上的数字。当指标陷入僵局时，最“笨”的办法——直接打电话访谈或观察用户——反而可能最有效。他呼吁我们停下来自问：自己手头的事，内在公式真的理清了吗？

本机暂存

IT 2015-11-02 22:30:08 / 累计浏览 3,989

百夫长：互联网时代公司的关键员工

这篇从李彦宏推荐的《罗马人的故事》聊起，引出“百夫长”这一历史角色——在罗马军队中，他们是率领百人的基层军官，也是未来执政官的起点。作者将这个比喻直接映射到现代互联网公司：那些带领小团队、负责具体执行的基层管理者，正是公司里的“百夫长”。文章指出，过去金字塔管理结构下，这个角色的重要性并未凸显。但在互联网时代，组织趋向扁平化和小型化，业务单元需要具备快速应变和自驱能力。此时，一个既有执行力、又有独立洞察力的“百夫长”，就变得至关重要。文章也分析了当前“百夫长”的流失困境：他们或因能力强而出去创业，或被外部高薪挖走，或在内部被提拔后留下空缺。这导致许多大型互联网公司正面临基层管理者断层的挑战。最后，作者借用《谷歌：重新定义公司》中“创意精英”的概念，强化了这一论点。他提出，如何培养、管理并留住这些“巨型公司的小团队长”，已成为这个时代一个重大的管理课题。

本机暂存

IT 2015-10-04 23:07:00 / 累计浏览 2,826

行为树及其实现

这篇讲的是作者如何将游戏AI中的行为树概念落地为一段具体的C代码实现。文章从游戏开发中传统状态机的扩展性难题切入，引出了行为树作为解决方案的背景。作者梳理了行为树的核心结构：由负责逻辑判断的中间节点（如顺序、优先级）和执行动作的叶子节点构成，并通过“黑板”机制在节点间共享数据。重点在于其实现部分——作者对比了800行的C++实现，认为其封装偏深，因此用约400行C代码，以组合而非继承的方式完成了一个更轻量的版本，并解释了核心API如创建节点、分支与执行tick的设计。文章还透露了行为树在工业实践中往往依赖可视化编辑器生成JSON描述，为后续扩展埋下了引子。整体而言，这是一次从理论到轻量级代码的实践记录。

本机暂存

IT 2015-01-21 23:36:18 / 累计浏览 2,080

用MeCab打造一套实用的中文分词系统

这篇讲的是如何将原本为日文设计的高性能分词器 MeCab，成功改造为一个实用的中文分词系统。作者从 MeCab 基于条件随机场（CRF）的核心优势和中文资料匮乏的现状出发，分享了一次成功的“跨界”实践。文章的核心方案是，参考一篇关键的日文博客和官方文档的训练指南，结合微软研究院的 backoff2005 中文语料来完成训练。作者详细记录了从准备符合 MeCab 格式的种子词典（例如，词典条目为 `义演,0,0,0,0,0,0`）到利用脚本进行参数估计的完整流程。文中提到，最终得到的系统不仅速度快（实测近 2MB/s），还支持 N-best 输出和用户词典定制等实用功能。这篇文章的价值在于，它并非停留在理论介绍，而是提供了一条可操作的路径。通过作者在 Mac 环境下的亲测记录，读者可以了解如何利用一个强大的现有框架，为自己的中文 NLP 任务快速搭建起一个高性能的基础工具。

本机暂存

IT 2014-04-29 22:35:15 / 累计浏览 4,809

朋友，不要再打听彼此薪水

这篇文章谈的是职场中一个微妙却普遍的现象：朋友间打听薪水。作者从财年季引发的讨论热潮切入，指出这种做法往往带来沮丧情绪，且弊大于利。文章的核心观点很明确：了解行业薪资的大致趋势是必要的，这有助于判断个人价值与市场需求的匹配度。但打听具体个人的薪水，尤其是朋友间的薪水，则很容易引发心态失衡。作者生动地描绘了得知薪水差异后的两种典型负面情绪——“凭什么比我高”的郁闷，或“对方也就值这些”的轻视。这种情绪若演变为消极怠工，便可能形成一个从“郁闷”到“工作效率下降”，最终影响个人收入的恶性循环。作者进一步分析，在满足短暂好奇心之外，打听薪水几乎毫无收益，反而可能给朋友关系贴上不必要的标签，徒增隔阂。因此，他提出了一个简单而有力的个人解决方案：为自己定下规矩，不再打听朋友的薪水，也不再回答此类问题。真正的友谊，其基础在于共同的兴趣与灵魂，而非工资条上的数字。文章最后那句“可以谈谈别的，比如其他人的薪水”，以一种幽默的方式，巧妙地重申了这一观点。

本机暂存

IT 2013-09-06 13:15:38 / 累计浏览 2,675

细说促销（二）：促销的玩法

这篇讲的是如何设计简单有效的促销策略。作者从一个极易被忽略的误区切入：一个卖家做“满148元送手套”活动，销量涨了40%，但因店铺平均客单价本就是156元，这实为“白送”。由此引出核心——促销的关键在于那个“满”字，是让客户“跳一跳够得着”的门槛。文章提炼出一个万能公式：“只要（商家条件）……就能（消费者利益）……还能（附加价值）……”。以此框架，作者对比了三种主流玩法：“满就送”的赠品要选听起来不错、实际成本低的大牌货；“满就减”看似最直接，但容易陷入纠结表面折扣率，真正的学问在于设计如何让客户为“凑单”多花钱；“满就返”虽常被诟病，但用好了对促成临门一脚和提升复购频次效果最强。作者特别指出，所有促销策略的底线是必须能在20秒内用最简单的话向普通人说清楚，否则就容易失败。整篇通过实战案例拆解了“促销促进销售”的过程本质：就是用条件，换取消费者更多的购买行为。

本机暂存

IT 2013-08-21 13:15:06 / 累计浏览 2,072

怎样引导用户发布高品质图片

这篇讲的是一个拍照社交APP运营中遇到的典型困境：用户上传的照片质量不高，导致整个产品界面视觉观感差，挫伤了其他用户的拍照和互动欲望。作者从一个反直觉的角度切入，指出直接“提升普通用户UGC质量”几乎是徒劳的，因为绝大多数用户既无拍摄技巧，也无相关审美。因此，核心策略不应是刺激普通用户，而是从源头上改善用户群的构成，吸引和运营好那些能稳定产出优质内容的用户。同时，对于已有的内容生态，作者强调了“信息展示策略”的重要性。他以自己曾在“蝉游记”中上线“附近游记”功能后迅速下线的亲身经历为例，说明了盲目展示低质内容只会“自曝其短”。正确的做法是，在核心展示区域（如大厅）刻意筛选符合产品调性的优质内容进行露出，而将时效性、地域性等更多维度的（可能质量不均的）内容入口设置得更深，避免损害产品的整体形象气质。文章最终启发我们，产品的核心价值需要清晰，功能设计应服务于这一价值，并通过精细的内容运营与展示逻辑，引导社区正向循环。

本机暂存

IT 2013-08-21 13:13:54 / 累计浏览 3,008

关键词推荐技术介绍

这篇文章深入讲解了关键词推荐技术在竞价广告系统中的核心作用。作者从赞助商搜索广告的选词困境出发，对比了Google、百度和阿里巴巴等主流平台的关键词推荐工具，阐明其共同目标：帮助广告主扩展选词思路，挖掘高价值词，从而提升产品曝光并精准获客。文章重点剖析了推荐系统的两种主流方法：基于种子词推荐和基于产品（offer）推荐。尤其详细拆解了阿里巴巴国际站P4P背后的“先知平台”技术实现。该平台巧妙运用了自然语言处理、信息检索及分布式计算架构，通过线下挖掘与线上实时计算相结合的方式，从海量查询日志中高效匹配出与产品相关的关键词，并保证相关性与系统响应速度。整体来看，这篇文章清晰展现了关键词推荐如何串联起广告主、平台与用户三方，并通过具体案例和架构图，将抽象的技术原理讲得直观易懂，为理解搜索广告的底层引擎提供了一个很好的切入点。

本机暂存

IT 2013-08-13 13:09:09 / 累计浏览 2,736

个性化实时计算系统及其应用探索

这篇来自阿里技术团队的文章，分享了他们如何应对电商场景下用户兴趣实时变化的挑战。作者从淘宝搜索个性化的实际需求出发，介绍了团队设计的个性化实时计算系统PORA。 PORA是一个基于HBase与Storm的实时流计算系统，其核心在于从日志通道订阅用户行为，并通过三个Storm组件（解析、计算、更新）快速完成数据处理与存储，端到端延迟约300毫秒。这种“离线计算、实时服务”的架构，使得应用方能便捷地获取到用户最新的兴趣偏好。文章重点阐述了系统在搜索重排序等场景的应用：在商品的相关性排序基础上，融入用户的性别与价格偏好进行个性化调整。实验数据表明，该方案上线后使整体成交金额提升了约2%，其中客单价的提升尤为明显。但作者也客观地指出，由于能获取明确性别画像的用户和Query占比有限，点击率与转化率的提升尚未达到预期。最后，文章探讨了未来的优化方向，包括深化更多偏好维度的挖掘，以及通过动态调整个性化商品的展现比例与混合排序来提升用户体验。

本机暂存

IT 2013-08-08 23:43:47 / 累计浏览 2,102

如何有效的进行道歉

这篇来自外刊IT评论网的文章，探讨了有效道歉的结构和方法。作者从道歉在人际关系中的不可避免性切入，指出真诚道歉是化解伤害、修复关系的最佳途径。文章核心引用了人类学家Gary Chapman提出的“五种道歉表达”：表达悔恨、承担责任、给予补偿、真诚忏悔与请求谅解，为不同错误场景提供了清晰的行动框架。同时，结合Heidi Grant Halvorson的观点，文章强调了有效道歉的关键——必须将焦点从自己（如意图和感受）完全转向受害者，明确理解并回应对方所受的影响与需求。更深层地，文章将道歉视为一种“关键交流”和“为改变而做的宣言”。它引述《关键交流》一书的观点指出，真正的道歉需要内心真实的转变：放弃挽回面子、坚持自己正确或强调初衷的冲动，承认错误并做出改变。这种“牺牲尊严”的过程，最终会换来关系和睦与个人成长的双重回报。道歉不仅是一种生活技能，更是对所有人际关系的长期投资。

本机暂存

IT 2013-08-08 23:27:38 / 累计浏览 3,510

只有算法的个性化推荐没有未来

这篇来自淘宝技术团队的文章，探讨了个性化推荐系统的发展方向。作者从淘宝的实际应用出发，区分了依赖数据挖掘与机器学习的“黑盒推荐”，以及融合内容理解与领域知识的“白盒推荐”。他认为，当前业界过于追求算法模型的优化，却忽视了推荐的根本是服务于人。文章从经济学的“理性人”假设切入，指出算法模型将人抽象为数据，但现实中的人是充满情感、存在个体差异且行为具有不确定性的。作者举了一个例子：即使拥有一个人完整的购物历史，也很难精准预测他当下的需求，这正是纯算法推荐的局限所在。基于此，作者提出优秀推荐系统的原则应包含可解释性，即算法必须把“数字”还原成“人”的行为逻辑。文章最终认为，只有当算法能融合常识、技术与运营紧密结合时，个性化推荐才能迈向新的高度——成为“融合常识的推荐”。

本机暂存