算法

共 589 篇文章

IT 2012-08-03 00:18:12 / 累计浏览 3,262

树与存储

这篇讲的是数据结构中最基础也最重要的“二叉树”概念。作者开篇就抓住了核心：二叉树的精髓在于“二分”，即每个节点最多拥有两个子节点的规则，由此衍生出满二叉树、完全二叉树等多种形态，是理解更复杂树结构的基础。文章接着深入到计算机如何实际存储这棵树。关键对比在于两种经典方案：顺序存储和链式存储。顺序存储利用数组，逻辑上相邻的节点在物理内存中也连续，通过特定索引关系（如左孩子为2i+1，右孩子为2i+2）快速定位，适合完全二叉树这类结构紧凑的场景。而链式存储则更灵活，通过指针将分散在内存中的节点连接起来，能高效处理非完全二叉树或动态变化的树结构，是实际编程中最常用的方式。这种存储方式的选择直接决定了后续遍历、查找等操作的效率和实现复杂度。文章通过对两种方式的剖析，清晰地揭示了抽象数据结构与具体计算机存储之间的映射关系，为读者后续学习二叉搜索树、堆等高级结构打下了扎实的基础。

本机暂存

IT 2012-07-30 23:58:01 / 累计浏览 9,181

PHP与递归Recursion

这篇讲的是PHP中递归的应用与权衡。作者从递归的核心概念切入，对比了在PHP编程中使用递归与迭代两种方法的差异，帮助开发者理解何时选择哪种策略。关键点在于，递归能显著提升代码的可读性和简洁性，特别适合处理分治算法、树形结构遍历等场景，比如文件目录操作或排序问题；但递归的缺点

本机暂存

IT 2012-07-27 14:22:18 / 累计浏览 3,651

Spark随谈——开发指南（译）

这篇指南针对的是Spark 0.5.0版本，它翻译自官方的Spark Programming Guide，并结合了一些作者的补充说明。它不是泛泛的概念介绍，而是从实际编程出发，详细讲解了如何在Spark中编写应用程序。文章清晰地梳理了从初始化SparkContext、操作弹性分布式数据集（RDD），到进行转换（Transformation）和动作（Action）的完整流程。特别提到了RDD的两种创建方式、关键操作如`map`、`reduce`、`filter`以及持久化策略。这些细节对于刚接触Spark、希望快速上手编写的开发者来说，是很好的起点。虽然版本较早，但其阐述的核心编程模型——基于RDD的函数式操作和惰性求值原理——构成了后续Spark SQL、Streaming等模块的基础。对于想了解Spark底层设计哲学或处理历史代码的开发者，这份指南依然具有不错的参考价值。

本机暂存

IT 2012-07-27 14:15:37 / 累计浏览 1,588

IMO2012趣题：带有说谎的猜数游戏

这篇讲的是一个结合了数学与信息论的猜数游戏问题。文章从最经典的猜数游戏出发：A心里想一个不超过N的正整数，B通过提问“x是否在某集合里”来缩小范围。传统的二分法或二进制编码策略可以保证在log₂(N)次提问内找到答案。但趣味在于，当引入“说谎”的扰动后，问题的本质发生了变化。A可以对B的提问说谎。文章深入探讨了在这种设定下，哪些策略依然有效，效率又会如何衰减。作者并没有停留在问题本身，而是揭示了背后深刻的信息论原理：每一次提问所能获取的“信息量”，以及如何在“噪声”干扰下最大化信息的可靠获取。通过对策略的逐步分析和对比，文章清晰地展示了看似简单的游戏如何通向信息论的核心概念。它不仅是一道数学竞赛趣题的解答，更是一次关于信息、噪声与可靠通信的生动思维实验。对于理解纠错编码或决策树在不确定性下的优化，都能带来直观的启发。

本机暂存

IT 2012-07-27 14:05:48 / 累计浏览 2,966

数学之美：Xbox评分系统TrueSkill

这篇文章聚焦于多人在线竞技游戏的核心难题：如何在动态变化的团队组合中，公平、准确地评估玩家水平并进行匹配。作者以 Xbox Live 广泛采用的 TrueSkill 评分系统为例，拆解了这类“技能评估引擎”背后的数学逻辑。 TrueSkill 的巧妙之处在于，它不仅用一个数值（隐藏分），而是用“正态分布”来刻画每个玩家的实力——既反映其水平高低（均值），也体现其状态的波动性（方差）。当一场混战结束，系统会根据预设的“预期表现”与实际胜负，反向推算并更新每个参与者的分布参数。更关键的是，它能优雅地处理多人组队场景，将个人表现与团队胜负相结合，快速收敛出新的评分。这篇文章的价值在于，它将看似神秘的“天梯匹配”和“评分变动”，还原为清晰可理解的贝叶斯推断过程。无论你是游戏玩家还是技术爱好者，都能从中体会到，如何用优雅的数学模型，来解决复杂系统中的公平性问题。

本机暂存

IT 2012-07-19 13:27:13 / 累计浏览 3,243

sku组合查询算法探索

这篇讲的是电商或库存管理中一个常见但棘手的问题：如何高效查询满足多个属性条件的SKU组合。当商品属性（如颜色、尺码、版本）增多时，传统数据库的`IN`或`JOIN`查询会面临组合爆炸，性能急剧下降。作者从这一背景问题出发，探索并设计了一种名为“位向量+分层索引”的查询算法。核心思路是为每个属性值分配一个独立的位（bit），并将一个SKU的多属性组合编码为一个整数（位向量）。查询时，通过位运算（AND）能极快地判断一个SKU是否满足所有条件，从而将复杂的条件匹配转化为高效的位操作。文章详细对比了遍历、传统数据库查询以及位向量算法的性能差异。在线上实际数据测试中，位向量算法在查询速度上实现了近400倍的提升，同时内存占用也大幅降低。这种方法的本质是将“查询”问题转化为“计算”问题，为处理海量SKU组合查询提供了新思路，尤其适用于对实时性要求高的场景。

本机暂存

IT 2012-07-12 23:05:46 / 累计浏览 4,546

卖家问卷调研有效响应的影响因素研究

在“谁在开网店”这个淘宝与北京大学社会学系的联合研究中，作者把焦点放在了调研执行层面的数据回收上，专门探讨卖家网络问卷调研有效响应率的影响因素。研究基于Q2季度的真实项目背景，采用了科学严谨的抽样方法来确保样本的代表性，作者从整体样本回收情况入手，通过深入分析揭示了几个关键变量：比如问卷设计的简洁度、受访卖家的在线活跃度、以及激励机制的针对性。核心发现指出，降低问卷复杂度、结合电商运营周期选择调研时机，并辅以适度奖励，能显著提升响应率和数据质量。这项研究不仅为电商平台的用户洞察提供了实证基础，也启发了其他领域的调研实践——在追求数据深度的同时，执行细节的优化往往是获取可靠反馈的关键。

本机暂存

IT 2012-07-12 23:03:42 / 累计浏览 5,950

数学之美：Reddit评论排名算法

这篇讲的是 Reddit 评论排名算法如何对社区讨论质量进行排序。作者指出，与之前探讨的文章/新闻排名算法不同，评论排序在逻辑上有着关键差异：一篇帖子的热度可能随时间衰减，但评论区的“最佳”答案，其价值评估往往与发布时间关系不大。核心在于，评论排名算法更侧重内容的持久质量与社区即时反馈的结合。它不像文章榜单那样单纯依赖时间衰减函数，而是综合考量用户投票（赞成与反对）、评论发布时间、以及可能的子版块特定规则。这意味着，一条高质量的评论即使发布稍晚，也有机会通过快速获得的正向投票而被顶到前列，反之，早期但质量不佳的评论则会逐渐下沉。这种机制旨在让最有见地、最受认可的讨论内容脱颖而出，从而优化阅读体验，鼓励深度交流而非简单的抢先回复。理解这一点，对于任何希望构建或运营在线社区的产品经理和技术开发者来说，都具有直接的参考价值。

本机暂存

IT 2012-07-12 23:02:51 / 累计浏览 5,447

数学之美：Hacker News的热门排名算法

这篇解析了Hacker News如何用一套简洁的算法，将用户投票转化为热门排名。作者从HN独特的“无反对票”机制出发，拆解了其背后隐藏的数学公式——一个基于时间衰减和投票权重的平衡模型。文章详细说明了算法如何让一篇新闻在发布后，通过早期的少量高质量投票快速获得曝光，又如何随着时间推移和热度饱和而自然下沉。特别指出了算法设计中对“新鲜度”与“讨论度”的精妙权衡，解释了为什么一些深度技术讨论能在榜单上保持数日。这种设计避免了简单排序可能导致的“爆款垄断”，为长尾优质内容创造了持续可见的空间。

本机暂存

IT 2012-07-12 22:50:16 / 累计浏览 1,881

基于hash计算的多层实验流量切分的实现

这篇讲的是大型互联网平台实验系统中，一个关键但容易被忽略的技术点：如何让多个AB实验在同一用户身上互不干扰地并行运行。作者从实验平台的实际挑战出发：当公司内同时进行数十个甚至上百个实验时，不同实验层之间的流量如何划分才能保证数据的纯净与正交？文章没有停留在简单的“按比例随机”这种初级方案上，而是详细拆解了基于hash计算的多层切分实现。核心思路是对用户ID等唯一标识进行多次hash运算，生成不同的伪随机值，分别用于决定该用户是否进入某个实验层、具体落在哪个流量桶。这样，理论上任何两个不同实验层的流量分配都是相互独立的。文章不仅给出了算法原理，还结合具体业务场景（比如不同实验层可能有着不等比例的流量需求）进行了说明。这种设计确保了实验结果的可对比性和统计显著性，是构建可靠、可扩展实验平台的基础设施。对于需要处理复杂实验矩阵的工程师来说，其中关于hash函数选择与流量正交性的讨论，提供了直接的工程参考。

本机暂存

IT 2012-07-12 22:49:20 / 累计浏览 7,082

数学之美：《社交网络》中Facemash算法分析

这篇讲的是电影《社交网络》开场那个著名的Facemash原型。扎克伯格为展示编程能力与社交洞察，写出了这个极其简单的排序系统：随机展示两张女生照片，让用户投票选出更“美”的一方。技术逻辑本身并无复杂之处，但文章抓住了一个关键点——算法的“美”在于其低门槛与强传播性的结合。即便在凌晨上线，这个基于简单点击率统计的网站，在2小时内就触发了22,000次访问，直接导致哈佛校园网瘫痪。这背后其实是社交网络早期最朴素的病毒式传播模型：内容具有高度情绪参与感（容貌评判），操作成本极低（仅需一次点击），并且自带排行榜反馈。作者正是通过拆解这个经典案例，揭示了数学与算法如何悄无声息地驱动着在线社交行为的底层逻辑。文章将电影场景与现实中华中科技大学发生的类似事件并置，也让这个技术分析有了更现实的触角。它不只在讨论一个算法，更是在展示简单的数学逻辑一旦嵌入合适的社交场景，能释放出多大的能量——这或许是每个技术人都值得琢磨的一课。

本机暂存

IT 2012-07-12 22:48:27 / 累计浏览 11,347

数学之美：StackOverflow问答排名算法

这篇讲的是StackOverflow如何用数学为海量问答建立排序秩序。作者从网站实际面临的排序难题出发——如何让优质、相关的答案脱颖而出，而不仅仅是时间最新的内容。文章没有停留在对简单投票数的讨论，而是深入剖析了其背后一整套加权评分系统。核心在于它综合了多个维度：每个用户的投票权重不同（基于其声望），回答的“新鲜度”会随时间衰减，同时还要考虑用户的参与行为（如点赞、采纳）对排名的动态影响。算法通过精巧的数学公式，将这些因素融合成一个随时间变化的综合分数。这种设计非常巧妙，它平衡了新内容的曝光与经典回答的沉淀，也抑制了简单的“刷分”行为，最终让排序结果持续趋近于社区共识中的“最佳答案”。理解了这套算法，也就明白了如何用量化模型来引导社区的优质内容生产与消费。

本机暂存

IT 2012-07-07 23:06:46 / 累计浏览 5,286

浅析PageRank算法

这篇讲的是作者如何将个人对Google PageRank算法的兴趣，转化为一次系统性的知识梳理。文章从搜索引擎排名的背景引入，逐步拆解PageRank的核心思想——如何通过网页间的链接关系来衡量其重要性，并模拟“随机冲浪”过程来量化权重。作者在动车上整理了相关资料，并在文中分享了算法的数学直觉与迭代实现逻辑。没有堆砌复杂的公式，而是着重解释其背后的图论思想和概率模型，比如“阻尼因子”如何模拟用户耐心。这种从轮廓概念到细节推敲的梳理过程，恰好能让对PageRank只有模糊认识的读者，快速建立起清晰的理解框架。

本机暂存

IT 2012-07-07 22:50:49 / 累计浏览 2,822

线性同余发生器的参数如何选取？（以JDK和leveldb的代码为例）

这篇讲的是如何为线性同余发生器（LCG）这种随机数生成算法选择参数。作者以 JDK 和 LevelDB 这两个广泛使用的项目为实例，深入剖析了其中的真实代码实现。文章首先厘清了 LCG 参数（乘数、增量、模数）的基本约束。核心对比在于 JDK 的两种不同实现风格：`java.util.Random` 采用了乘数与模数位数相等的经典设计，而 `java.util.concurrent.ThreadLocalRandom` 则为了极致的性能，使用了一个具有特殊二进制形式（仅低几位非零）的乘数，以利用位运算加速。另一边，LevelDB 的 C++ 实现则选择了更偏向质量而非速度的参数组合，其乘数是精心选取的大型素数。作者通过这些具体案例指出，参数选取并没有放之四海而皆准的“最优解”。它的权衡焦点在于性能与统计质量之间：追求极致速度时，可以接受参数形式上的一些妥协；而对质量要求苛刻时，则需采用更传统的、经过数学验证的参数。这篇文章通过代码实例，清晰揭示了理论选择背后的工程逻辑。

本机暂存

IT 2012-07-05 13:38:10 / 累计浏览 2,703

同义词反馈机制

这篇讲的是搜索引擎里一个看似不起眼、但对体验影响很大的细节：如何让“同义词”变得更聪明。作者从用户的真实查询日志出发，指出了一个普遍问题——很多本该等价的词汇（比如“手机”和“移动电话”），系统却没能识别，导致结果不准。文章提出的解决方案核心是“反馈闭环”：不依赖人工维护的静态词典，而是利用用户的点击行为、停留时长等数据作为信号，自动挖掘和更新词汇间的关联。比如，当用户搜索A词后，频繁点击了包含B词的结果，系统就将两者视为强相关，并将其作为同义词候选。这个机制的关键在于如何过滤噪声、设定有效阈值，让反馈数据真正转化为可用的知识。最终，这种动态调整让搜索结果的匹配度和用户满意度得到了实测提升，其思路对于需要处理海量非结构化文本的系统都有参考价值。

本机暂存

IT 2012-06-20 22:52:15 / 累计浏览 3,741

编写安全代码：小心使用浮点数

这篇讲的是浮点数在实际编码中潜藏的风险，以及如何写出更安全的代码。作者从浮点数的二进制表示原理出发，解释了为什么像0.1这样的简单小数在计算机里无法被精确存储，进而可能引发比较判断失效、累加误差扩大等隐蔽问题。文章重点对比了浮点数与整数（或高精度库）在财务计算等场景下的差异，指出在需要精确值的领域（如金额处理、循环计数）盲目使用浮点数是常见错误根源。同时，它也分析了浮点数在科学计算等可接受误差范围的场景下仍然适用，但必须理解其误差传播机制。作者最终给出了一系列实用建议：比如避免用==直接比较浮点数，改用范围判断；在关键业务中考虑使用定点数或Decimal类型；以及如何通过单元测试捕捉由浮点运算引发的边界问题。整篇文章将底层原理与编码实践紧密结合，为开发者提供了一份规避常见陷阱的清晰指南。

本机暂存

IT 2012-06-19 23:55:50 / 累计浏览 3,804

闭包漫谈（从抽象代数及函数式编程角度）

这篇讲的是闭包这个经典概念，但作者没有停留在语法或常见用法的层面，而是把视野拉高，从抽象代数和函数式编程两个看似不同的源头来重新审视它。文章首先回溯了抽象代数中的“闭包”：指一个集合在某种运算下保持封闭的特性，比如整数集在加法运算下永远得到整数。这种结构性的“封闭”是代数体系的基石。接着，作者将视角转向函数式编程，这里的闭包指的是函数与其词法环境的结合体，核心在于函数能够“捕获”并携带其定义时的自由变量。作者巧妙地建立了两者的联系：它们都关乎“边界”与“携带”。代数的闭包是运算边界的稳定性，编程的闭包是作用域边界的延伸与记忆。通过这种对比，读者能更深刻地理解，为什么函数式编程中的闭包能实现状态的封装与函数的“记忆”——它本质上是在运行时动态维持了一个属于该函数的、受保护的“小环境”，这与代数系统追求运算封闭的哲学异曲同工。这种跨学科的视角不仅厘清了概念，也揭示了计算机科学中许多设计背后的数理逻辑。理解这一点，或许能让我们在利用闭包编写回调、实现模块化或进行函数式编程时，对其力量与边界有更自觉的把握。

本机暂存

IT 2012-06-14 13:55:21 / 累计浏览 1,320

Diffie-Hellman算法的效率

这篇讲的是Diffie-Hellman（DH）算法中一个容易混淆但至关重要的细节：私钥的生成策略。作者从一个常见的误解出发——他原先认为DH私钥的长度必须与公钥参数一致。文章澄清了这个点，指出私钥的长度选择其实是一个独立于公钥参数的安全设计。具体来说，公钥是由大素数模数和生成元决定的，其强度主要取决于模数位数。而私钥是一个随机选取的指数，它的长度（即比特数）直接决定了暴力破解的难度。作者指出，一个典型的2048位DH交换，其私钥可以选得更短，例如256位，这已能提供足够的安全强度，同时能显著提升计算效率。关键在于，私钥长度的选择需要平衡安全性与性能，过短会降低安全性，而过长则无谓增加计算开销。通过纠正这一误解，文章实际上对比了DH算法中公钥参数与私钥指数的不同设计目标：前者构建一个坚不可摧的“数学问题”，后者则是在此框架内选择一个既安全又高效的“解”。这帮助读者在实现或评估DH时，能更精准地把握安全与效率的权衡点。

本机暂存

IT 2012-06-14 13:49:03 / 累计浏览 1,442

PMP沙龙第一期——RTB和跨渠道营销分析

这篇讲的是数字广告领域一次关于效果营销与品牌营销融合趋势的深度讨论。沙龙从当前程序化广告的两大模式——公开竞价（RTB）与私有市场（PMP）的由来和区别说起，核心聚焦在它们如何服务于复杂的跨渠道营销目标。作者指出，随着流量红利见顶，单一的RTB竞价虽然灵活高效，但难以满足品牌对媒体环境可控性和数据安全性的需求。因此，私有市场PMP（尤其是优先交易和非公开竞价）逐渐兴起，它通过邀请制为广告主提供了更优质、更安全的库存。文章深入剖析了这一演变背后的逻辑：营销不再是简单的“买量”，而是需要在精准触达（RTB的长处）与品牌安全、第一方数据运用（PMP的长处）之间寻找平衡点。沙龙最终得出的核心观点是，成功的跨渠道营销并非在RTB和PMP之间二选一，而是构建一个混合程序化策略，根据不同的营销目标（如效果转化或品牌建设）和渠道阶段，灵活配置资源。这次讨论清晰地展现了行业从“流量思维”向“运营思维”转变的关键节点，对从业者规划整合营销方案具有直接的参考价值。

本机暂存

IT 2012-06-14 13:47:24 / 累计浏览 2,623

几个精彩的数论问题

这篇讲的是，作者从同事那里借来一本单墫教授主编的《初等数论》奥数书后，被其中一系列设计精巧的问题所吸引，于是整理了笔记，分享几个他认为最精彩的片段。这些题目虽然基于初等数论，但解题思路往往不落俗套。比如有的问题围绕完全平方数的构造展开，需要敏锐地找到满足条件的特例；有的则深入探讨了整除与同余关系中的微妙性质，其论证过程常常包含着对数字特性的巧妙利用。每一个问题都像一个小型的逻辑谜题，答案的得出并非依靠繁琐的计算，而是依赖于对数学结构的深刻洞察和一点创造性的“巧思”。文章的价值不止于列出题目。作者在重述和改编问题的过程中，实际上是在带领读者品味经典奥数题的思维内核。这些问题展示了如何用最基础的工具，去触碰数论中那些深刻而优美的结论，非常适合对数学推理感兴趣的读者，从中既能获得挑战的乐趣，也能欣赏到初等方法所能达到的精妙高度。

本机暂存