AI

共 187 篇文章

IT 2013-05-28 22:24:02 / 累计浏览 6,703

如何计算两个文档的相似度（一）

作者在构建“课程图谱”网站时，面临课程推荐系统冷启动的难题：缺乏用户行为数据，人工标注标签又耗时。一个可行的思路是直接利用课程文本内容计算相似度，而作者最终选择了基于主题模型的自动化方案。核心工具是强大的Python库gensim，文章以LSI（浅层语义索引）模型为例，展示了如何将两篇文档映射到主题维度，进而计算其语义相似度。作者用不到百行的代码便实现了这一流程，并给出了以Andrew Ng《机器学习》课为示例的推荐效果图。文章还规划了进一步优化：利用全量英文维基百科语料，在普通笔记本电脑上训练更复杂的LSI和LDA模型，以提升相似度计算效果。文章整体脉络清晰，分为三个部分：先简要铺垫TF-IDF、SVD等基础知识点并提供参考资料；再详解gensim的安装与具体实现；最后探讨在大规模语料上训练模型的应用。作者并非平铺直叙，而是从实际项目需求出发，分享了从选型到落地的完整思考与实践。

本机暂存

IT 2013-03-11 13:53:46 / 累计浏览 3,847

从抛硬币试验看概率论的基本内容及统计方法

这篇讲的是，概率世界里那个最经典也最容易被轻视的例子——抛硬币。作者从“概率为何存在”这个哲学问题切入，指出我们并非先验地认可概率，而是从类似“抛多次硬币，正面频率趋近50%”的反复观测中，总结出了统计规律。文章随后系统梳理了如何将这种直观认识形式化为数学模型：从要求等可能结果的古典概型，到更为普适和严格的公理化概率定义，并引出样本空间、随机事件等核心概念。文章接着引导读者从静态的模型走向动态的统计规律。它介绍了大数定律如何从理论上确保频率的稳定性，并以此为基础，介绍了描述二元（正反）结果的二项分布，以及当试验次数极大时正态分布如何登场。在应用层面，文章触及了如何从有限数据反推模型参数（最大似然估计），以及如何基于模型判断一个观察到的现象是否显著（假设检验）。这篇文章的价值，就在于将抽象的数学大厦建立在一枚硬币的抛掷之上，让读者清晰地看到，从简单的物理实验到严谨的统计推断，中间经历了怎样的思维跨越。

本机暂存

IT 2013-03-11 13:48:34 / 累计浏览 3,443

模糊逻辑在 AI 中的应用

这篇文章从作者阅读游戏编程书籍中有关模糊逻辑的章节出发，用了一个生动的例子来阐释：在游戏中，一个NPC决定是否追击玩家，可能同时受到“距离出生点远近”和“自身血量多少”等多个条件的约束。传统的精确逻辑设置一个硬性阈值（如超过40米就放弃），会导致在边界点上决策发生突变，不够智能和平滑。作者随即引出模糊逻辑如何解决这一问题。它不再使用非此即彼的分界，而是将“远近”、“血量多少”这样的输入，通过定义“近、中等、远”等模糊集合进行软化。然后，基于一组人类经验式的模糊规则（例如“如果距离远且血量少，就非常不想追击”），经过模糊推理和最后的去模糊化计算，能输出一个确定的、但连续平滑的决策倾向值。文章进一步指出，当决策条件增多、规则发生组合爆炸时，可以使用Combs方法将复合规则拆解为一维的独立规则来简化设计。虽然可能导致少量矛盾，但实践证明其结果与完整规则组合非常接近。整体上，这篇文章通过一个具体的游戏AI场景，将模糊逻辑从概念到实现的关键步骤进行了清晰拆解，说明了它如何让AI的决策行为更接近人类的柔性判断。

本机暂存

IT 2013-03-03 23:01:41 / 累计浏览 5,243

给程序员推荐几部电影

这篇文章从程序员视角出发，推荐了六部与编程思维紧密相关的电影。作者的推荐逻辑并非基于票房或类型，而是精准地为每部作品提炼了一个核心编程概念作为关键词：例如《黑客帝国》的“矩阵”、《盗梦空间》的“虚拟化”、《云图》的“并行”，乃至《恐怖游轮》的“递归”与《源代码》的“重入”。这种关联非常巧妙，它将电影中看似科幻或烧脑的情节，映射为开发者熟悉的抽象模型。比如《恐怖游轮》中不断循环的困局，正是递归函数调用自身直至基线条件的经典体现；而《源代码》里在有限时间切片中反复“重启”寻找答案的过程，则像极了重入操作。文章不仅提供了片单，更提供了一种用专业眼光解读故事的有趣视角。对于程序员而言，这些电影或许能成为理解抽象概念的另类注解，或在下班后提供一种充满技术梗的放松方式。作者也将完整片单整理成了豆瓣列表，方便读者一键收藏，体现了社区分享精神。

本机暂存

IT 2013-03-03 22:53:16 / 累计浏览 1,530

U&A在产品市场竞争状况调研中的应用

如何量化产品的市场地位和竞争态势？这篇讲的是利用“使用习惯和态度研究”（U&A）这一成熟调研方法论来进行分析。作者从品牌渗透率、最常使用率、品牌忠诚度等核心指标出发，拆解了一套完整的问卷结构与分析思路。文章通过具体案例展示了如何应用这些指标：比如，通过计算各品牌在不同时间段的使用率与“品牌采用指数”，可以判断用户对品牌的认同程度；用“最常使用率”近似模拟市场占有率；而通过分析用户的“保持率”与“转移率”，则能清晰看到用户在不同品牌间的流动情况与忠诚度。分析结论十分具体，例如发现案例中品牌a在各项指标上均处于领先地位，且用户忠诚度最高；而其他品牌则面临用户流失的问题，有的品牌甚至有超过一半的新用户是从品牌a转移而来。文章最后也指出，这套方法不仅限于竞争分析，还可拓展至购买习惯研究、品牌形象挖掘等多个维度，为产品定位和营销策略提供数据支撑。

本机暂存

IT 2013-02-19 14:00:44 / 累计浏览 2,963

百度AStar2008的一道题：成语纠错

这篇文章聚焦于百度AStar 2008竞赛中的一道经典编程题：“成语纠错”。题目要求在一个错误的四字成语中，只修改其中一个字使其变为给定列表中的正确成语，且修改前后的汉字必须属于同一分类，从而保证结果唯一。文章的核心是分享作者当年满分通过此题的C++实现思路。关键巧妙之处在于对汉字编码（GBK）的处理和高效的索引设计。代码没有暴力枚举所有可能，而是首先利用自定义的哈希函数，将每个GBK编码的汉字映射为一个整数索引。接着，程序为两大数据建立了索引：一是“汉字-分类”关系，通过汉字索引快速查找它所属的分类列表；二是“成语列表”，按成语的第几个字符建立索引，方便快速定位包含某个特定汉字的成语。解题时，对于待纠错成语的每一个字符位置，程序快速查找出成语列表中所有在该位置与之相同、且其他三位字符也恰好只有一位不同的候选成语。随后，验证修改处的两个汉字是否属于同一分类。这种基于精确索引的查找方式，避免了低效的线性扫描，将复杂度控制在了合理范围内，清晰地展示了如何将题目限制（编码、分类）转化为高效的编程解法。

本机暂存

IT 2013-01-10 22:21:23 / 累计浏览 5,530

皮尔逊积矩相关系数的学习

作者从相似度计算中常见的皮尔逊相关系数出发，用两种视角帮你真正“看懂”这个公式。第一种是统计学视角，通过高中课本里的Z分数处理，逐步拆解公式；第二种是几何视角，将其理解为两组数据向量夹角的余弦值，文章里还配了直观的回归线示意图。两种理解方式都附有清晰的Python实现代码，让抽象概念变得可操作。不仅如此，文章最后还梳理了应用皮尔逊相关的四个关键约束条件，并提到了实践中常输出的相关系数与独立样本检验系数。从“算出来”到“看明白”，这篇文章提供了从基础推导到几何直观的完整路径，能帮你建立更立体的技术理解。

本机暂存

IT 2012-12-24 13:29:37 / 累计浏览 3,805

为什么特斯拉是史上最伟大的geek？

这篇讲的是尼古拉·特斯拉如何被大众严重低估，而商业巨头托马斯·爱迪生却被误认为“电力之父”的故事。作者通过一系列具体对比，勾勒出一个被遗忘的天才极客形象。核心在于颠覆认知：我们今天依赖的交流电系统、无线电技术、雷达概念乃至X射线的早期研究，关键突破都指向特斯拉。他像一个痴迷的极客，不断“修补没坏的东西”，将人类带入第二次工业革命。相比之下，爱迪生被刻画为精明的CEO，他擅于改进和专利垄断，甚至曾用不光彩的手段诋毁交流电。文章抛出了一连串震撼的事实：特斯拉的17项专利构成了马可尼无线电的基础，他早在1917年就向美国海军提出了雷达方案，而他对X射线的危险性也早有警告。这些细节串联起来，旨在为这位孤独的发明家正名——他定义了现代世界的电力与无线通信基石，却长期活在另一位更懂营销的“发明家”阴影之下。读完会让人重新思考，真正的极客精神究竟是什么。

本机暂存

IT 2012-12-23 23:22:09 / 累计浏览 5,080

谈谈SVD和LSA

这篇讲的是SVD（奇异值分解）和LSA（隐含语义分析）之间的关系。作者首先拆解了LSA的核心思想：它是一种主题模型，认为词语背后由潜在主题驱动。比如“计算机”和“电脑”在传统词向量空间中无关，但在LSA看来它们同属一个主题，因此包含它们的文章也相关，这突破了表面词汇的限制。而SVD正是实现LSA的关键数学工具。文章从特征值与特征向量这些基础概念切入，为理解SVD如何分解文档-词矩阵、提取潜在语义结构做了铺垫。作者也点出SVD的广泛应用，比如它同样是PCA（主成分分析）和图像压缩的技术基础。整篇文章从数学基础讲到实际应用，清晰地勾勒出SVD作为通用分解方法，如何催生了LSA这一文本分析利器。

本机暂存

IT 2012-12-21 13:27:43 / 累计浏览 7,048

概率语言模型及其变形系列-LDA及Gibbs Sampling

这篇讲的是概率语言模型系列的第二篇，聚焦于LDA（Latent Dirichlet Allocation）及其参数推断方法Gibbs Sampling。文章从LDA的核心思想切入：如何通过无监督学习，从文本中发现隐含的“主题”结构，从而解决“一词多义”和“一义多词”的语义匹配问题，让搜索结果在语义层面真正相关。理解LDA的关键在于其概率基础。文章深入剖析了“随机生成过程”视角，解释了文本如何被看作词项的样本集合。重点阐述了多项分布（Multinomial）与其共轭先验狄利克雷分布（Dirichlet）的特性与计算优势——后者被称为“分布之上的分布”，其样本恰好是多项分布的参数。这些数学工具共同构成了LDA模型的基石。作为PLSA到变形LDA之间的承上启下之作，文章不仅厘清了基础概念，也为后续探讨Twitter LDA、Labeled-LDA等各类变形模型铺平了道路。对于想从理论层面掌握主题模型的读者，这篇系统性的推导提供了扎实的起点。

本机暂存

IT 2012-12-21 13:27:09 / 累计浏览 5,201

概率语言模型及其变形系列-PLSA及EM算法

这篇从LSA（隐性语义分析）的SVD方法入手，分析了其处理一词多义和一义多词问题时的不足——通过低秩逼近虽然能降维去噪，但缺乏严谨的统计基础且计算耗时。由此自然引入Hofmann提出的PLSA模型。 PLSA采用概率图模型重新表述文档生成过程：先以一定概率选中文档，再从中抽取主题，最后根据主题生成单词。文档和主题都被建模为多项分布，而EM算法则负责估计这些隐含参数。文章不仅推导了PLSA的数学框架，还通过简单的混合Unigram模型与高斯混合模型（GMM）类比，帮助理解EM算法“期望步-最大化步”的迭代精髓。整个系列其实计划覆盖从PLSA、LDA到各类变形模型（如Twitter LDA、Labeled-LDA等）的演进脉络，这篇作为开篇，扎实地奠定了概率主题模型的基础认知。

本机暂存

IT 2012-10-28 23:21:18 / 累计浏览 3,621

国内外旅游电子商务个性化推荐系统研究

这篇讲的是如何让旅游网站更懂你。当前多数旅游电商网站内容同质化严重、服务千篇一律，导致游客选择困难、预订转化率低。文章从这一痛点切入，以国内外发展现状为背景，深入探讨了个性化推荐系统在旅游电商中的应用。作者首先梳理了国内（如携程、艺龙）与国外个性化服务从学术研究走向产业应用的历程。核心在于分析影响旅游消费者决策的经济与非经济因素——从收入、价格到动机、个性特征等，这些因素共同构成了个性化推荐的依据。文章重点对比了传统旅游电商与个性化推荐系统的区别：前者以交易效率为核心，后者则以提供个性化服务为前提，通过双向沟通和精细市场细分来设计产品。研究最终落脚于个性化推荐系统的主要功能与体系结构分析，并进行了模拟应用。其目标是帮助游客高效决策，获得更好的旅游体验，从而提升网站竞争力与用户忠诚度。

本机暂存

IT 2012-10-26 22:45:41 / 累计浏览 2,623

“connect the dots” 随想

这篇随想以乔布斯经典的“connect the dots”理念为切入点，探讨了成功叙事之外，个人成长与积累的本质。作者指出，许多年轻人在选择面前感到迷茫，往往源于对“有形”功利目标的过度追求，而忽视了日常积累中那些无形的“点”。文章进而从做人、交友与专业选择三个维度展开论述。做人需以诚信与自省为根基，成为值得信赖的人；交友则要追求真诚互助与价值输出，如同纽曼所描述的理想学习共同体。这两者是“connect the dots”的基础，但目的并非直接兑换利益。在专业方向上，作者结合历史案例，强调突破视界局限、寻找良师与平台、以及持之以恒的重要性。整篇文章的核心观点在于，人生关键的“连接”往往发生在回望之时。那些看似无目的的日常修养、真诚交往与专业沉淀，才是未来得以串联成图的关键节点。

本机暂存

IT 2012-09-20 13:58:06 / 累计浏览 5,444

一个简单的中文分词程序

这篇讲的是作者从零实现一个中文分词程序的过程和思路。中文分词看似简单，实则挑战不少——没有明确的词边界，歧义切分和未登录词识别更是难点。作者没有调用现成库，而是选择用最大匹配算法来构建一个最小可运行版本，核心思路很直接：维护一个词典，每次从句子中切分出与词典匹配的最长词语。文章具体演示了正向最大匹配和逆向最大匹配两种实现。通过对比测试，作者发现逆向匹配在处理某些特定歧义结构时效果更佳。更有趣的是，作者并未止步于此，而是进一步思考了算法的局限性，比如词典大小对性能和覆盖率的直接影响，以及这类基于规则的算法在面对复杂语境时的天花板。整个实现过程清晰展现了编程解决问题的典型路径：将抽象问题拆解为具体步骤，用数据结构和循环控制来实现核心逻辑。对于想了解分词基础原理或练习算法实现的读者来说，这个从简陋到可用的过程本身就是一个不错的参考。

本机暂存

IT 2012-09-20 13:48:29 / 累计浏览 2,148

垂直搜索新问题

这篇讲的是垂直搜索场景中一个容易被忽视但日益凸显的矛盾：当大家还在痴迷于提升搜索速度时，数据服务质量本身，正悄然成为实时或垂直搜索中的新瓶颈。作者从一个常见误区切入，明确区分了实时搜索与垂直搜索的本质不同。他特别指出，在垂直领域，实时性往往是一个更复杂、更待解决的问题，甚至打趣道“垂直搜索都不实时，其他的实时先排队吧”。文章没有纠缠于具体的代码或方案，而是聚焦于描述这一抽象但普遍的现象，强调解决问题的第一步是先建立起清晰的“问题意识”。文章坦言，这类问题往往与具体场景深度绑定，不存在放之四海而皆准的最佳方案。但它给出了一个重要的视角：承认问题的特殊性与复杂性，比急于套用通用解法更为关键。在技术问题泛滥的当下，这种先精准定义问题、再寻求路径的务实思路，或许能为我们打开一扇不同的窗户。

本机暂存

IT 2012-09-20 13:42:40 / 累计浏览 1,682

关于二部图的再次思考

这篇讲的是二部图这个经典数学结构，在实际技术场景中的应用价值与认知差距。作者的感触始于2010年在百度的一堂信息检索课。他第一次真切体会到，二部图并非离散数学中的抽象概念，而是支撑推荐系统、网络关系建模等核心场景的关键工具。然而，此后十多年里，当他向许多技术讲师询问相关实践时，对方的反应多是“吃惊”或“不清楚”。这让他深刻意识到，这个看似基础的概念，其实构成了从业知识结构中一个微妙的断层——有人早已在应用中得心应手，更多人却未曾深究其工程价值。文章没有深入展开技术细节，而是通过这个个人观察，揭示了一个有趣的现象：我们对基础理论的认知深度，往往取决于是否有人将其与真实问题连接起来。对于希望拓宽技术视野、关注“理论如何落地”的读者而言，这个发现或许能带来一点启发。

本机暂存

IT 2012-09-20 13:39:42 / 累计浏览 1,701

有感Google的混合研究方法

作者从长期研发工作中的常见困惑出发——比如研究的价值如何评估、工程与研究如何协作、产品公司该投入多少资源做前沿探索——探讨了谷歌提出的“混合研究方法”如何化解这些矛盾。谷歌的文章结合了工程实践与学术研究的特点，指出研究不必孤立于产品之外，而是可以通过敏捷、可验证的方式融入工程流程，让两者相互催化。例如，研究团队直接参与解决工程中的实际问题，而工程经验又反过来塑造更有落地潜力的研究方向。这篇文章的价值在于，它跳出了“纯研究 vs 纯工程”的二元对立，提供了一种更灵活、更注重实际反馈的协作框架。对于技术管理者、工程师或研究员来说，这或许能帮助他们重新定位自己在组织中的角色，并找到更有共鸣的工作节奏。

本机暂存

IT 2012-09-02 20:32:23 / 累计浏览 2,301

搜狐的江山

这篇讲的是，搜狐创始人张朝阳在一次面向投资者的电话会议上，坦承搜狐微博业务遭遇了“失利”。尽管搜狐公关部门随后试图澄清，认为媒体有所误读，但文章的核心在于探讨一个更深层的问题：在新浪和腾讯已占据微博市场绝对优势的背景下，搜狐微博的落后已是不争的事实。作者从这一公开表态出发，深入剖析了搜狐在微博战场上的战略困境。文章并未止步于复述事件，而是将焦点对准了“失利”背后的可能原因。它探讨了搜狐在社交媒体赛道上是否出现了战略摇摆，以及其产品定位与运营策略在激烈的市场竞争中是否显露出力不从心。这些分析使得事件本身超越了简单的业绩汇报，折射出中国互联网大公司在关键风口前的抉择与挑战。对于读者而言，这篇文章的价值在于它提供了一个观察巨头博弈的切片。它促使我们思考：当一条赛道已成红海，后来者该如何寻找破局点？企业的公开表态与内部真实的业务状况之间，往往存在着怎样的解读空间？这对于所有关注互联网竞争动态和公司战略的人，都是一份颇具启发性的现实案例。

本机暂存

IT 2012-07-27 14:02:53 / 累计浏览 4,189

使用Weka进行数据挖掘

这篇讲的是Weka这款经典工具如何让数据挖掘变得触手可及。作者没有直接堆砌算法，而是从数据科学家的日常痛点出发：面对一堆原始数据，如何快速验证想法、构建模型？Weka正好提供了这样一个从数据预处理、特征选择到模型训练与评估的完整工作台。文章的核心在于展示Weka图形化界面与命令行两种操作模式如何互补，既能满足快速探索的需求，也方便集成到自动化流程中。尤其提到了它对初学者友好的“Explorer”界面，通过可视化拖拽就能调用分类、聚类、关联规则等多种算法，大幅降低了上手门槛。读完你会发现，Weka就像一个数据挖掘的瑞士军刀，特别适合用于教学原型设计或快速验证分析思路。

本机暂存

IT 2012-07-20 13:58:27 / 累计浏览 2,122

庇护所

这篇讲的是作者从现代网络环境中的安全通信需求出发，设计并实现了一个名为“庇护所”的轻量级安全隧道方案。文章详细介绍了在复杂网络环境下，如何通过基于UDP的协议和加密技术，构建一个既能保障数据安全又能保持较高性能的通信通道。核心方案围绕一个自定义的UDP隧道协议展开，重点解决了NAT穿透、数据加密和传输效率三个关键问题。作者不仅分享了客户端与服务端的架构设计，还深入到了协议帧结构、密钥协商以及拥塞控制等具体实现细节。文中提供的性能测试数据显示，在模拟的复杂网络条件下，该方案能将端到端延迟稳定在较低水平，并达到可观的吞吐量。文章最后探讨了这一方案在游戏加速、远程访问等场景下的应用潜力，为需要在不可信网络中构建安全通道的开发者提供了一个兼具思路与实践参考的范例。

本机暂存