算法

共 590 篇文章

IT 2013-10-29 23:00:59 / 累计浏览 14,173

二维码的生成细节和原理

这篇讲的是二维码背后的生成细节和原理，带读者像解密一样，拆解这个日常生活中处处可见的“黑方块”。作者从QR Code能存储字符、数字、中日文等丰富信息的特点入手，指出其生成过程犹如一套精密的编码与纠错算法。文章系统梳理了二维码从结构到编码的完整流程。它首先解释了二维码的40个版本尺寸及其矩阵构成，然后详细剖析了用于定位的图案、存放格式信息的区域，以及核心的数据码与纠错码区域。重点在于数据编码部分，文章对比了数字、字母数字、字节、日文（Kanji）等不同模式的编码规则与转换过程，并用“HELLO WORLD”等实例具体演示了如何从文本一步步转换为二进制序列。此外，文章还揭示了二维码能够部分破损仍可识别的关键——纠错码机制，介绍了L、M、Q、H四种纠错级别的不同容错能力。整体而言，这是一篇深入底层原理的技术解读，将二维码的生成拆解为清晰的步骤，适合希望理解“扫一扫”背后发生了什么的读者。

本机暂存

IT 2013-10-29 12:24:22 / 累计浏览 2,456

怎样把一个钝角三角形分成若干个锐角三角形

这篇讲的是一个经典的几何谜题：能否把一个钝角三角形分割成若干个锐角三角形？文章从这个引人入胜的问题出发，带读者经历了一场从直觉尝试到严谨证明的思维旅程。作者首先指出，单纯尝试划分很难成功，关键在于必须从钝角内部引线，并且这条线在中途分岔。他以一个顶角108°的等腰三角形（由正五边形构造）为例，给出了一个确切可验证的分割方案。但这仅解决了“某一个”钝角三角形的问题。更关键的是，任意钝角三角形是否都能如此分割？文章接着介绍了1960年Wallace Manheimer提出的通用解法：利用内心和内切圆，可以将任意钝角三角形稳定地分为7个锐角三角形。有趣的故事还未结束。1961年，Verner Hoggatt Jr. 提出了一个更强的结论：不仅能分成锐角三角形，还能分成全是等腰的锐角三角形！他利用以内心和顶点距离为半径的圆进行构造，并巧妙地处理了初始条件不满足的情况，最终证明总能将任意钝角三角形分为不超过8个等腰锐角三角形。文章最后还延伸讨论了“一个正方形最少能分成多少个锐角三角形”这个问题，提到了马丁·加德纳的思考以及它作为国际数学奥林匹克候选题的历史，展现了数学趣题背后严谨而迷人的推导逻辑。

本机暂存

IT 2013-10-16 22:37:43 / 累计浏览 4,572

正则表达式简要入门

这篇讲的是正则表达式的基础入门。作者从一道腾讯笔试中判断QQ号码的选择题出发，分享了从“蒙答案”到主动学习并整理笔记的过程，希望能帮到同样在准备校招或平时用得不多的开发者。文章核心是用实例拆解正则表达式的关键概念。从 `rm *.png` 这样的通配符讲起，逐步引入了反斜杠转义、元字符（如 `\d` 匹配数字、`^$` 锚定首尾）、字符组（如用 `[^4]` 排除特定数字）以及分组与分支（如 `(QQ|qq)` 匹配大小写）。所有知识点都紧密围绕“查找与替换”这一实际需求展开。最精彩的部分是实战演练。作者用一段包含干扰信息的“妹纸联系方式”文本，演示了如何编写正则 `QQ:\d{5,12}$` 精准提取5到12位的QQ号，又如何通过 `\(0(\d{2}|\d{3})[)-]?(\d{7}|\d{8})$` 这种组合拳，灵活匹配区号格式各异的固定电话号码。文末还贴心地整理了多份学习资源，从中文入门教程到英文付费课程均有涵盖。

本机暂存

IT 2013-10-15 13:48:34 / 累计浏览 3,414

C++11的Lambda使用一例：华容道求解

这篇文章展示了一个用广度优先搜索求解华容道的经典算法实现，并聚焦于如何运用 C++11 的 Lambda 表达式来优化关键函数调用。作者从基本的搜索步骤出发，演示了如何将“考虑所有可能移动”这一逻辑转换为 `curr.moves()` 函数，并指出了该函数返回 `std::vector` 临时对象可能带来的性能开销。文章的核心巧妙之处在于，通过将处理每个新局面的逻辑封装为一个 Lambda 表达式，并直接作为参数传递给 `curr.move()` 函数，从而避免了额外的容器分配与复制。这种实现方式不仅使主循环的代码结构保持清晰，也显著降低了不必要的开销。作者还分享了一个实用经验：将 `curr.move()` 实现为函数模板，能够直接接受 Lambda（通常是一个具体的 struct），比使用 `std::function` 包装器更高效，后者每次构造都可能涉及内存分配。最终，通过 Lambda 的这一应用，算法实现得以在保持代码可读性的同时，追求更高的运行时性能。文章附有完整的 GitHub 代码链接，并指出该程序能在几十毫秒内求解典型的华容道开局。

本机暂存

IT 2013-10-15 13:47:47 / 累计浏览 1,585

伙伴分配器的一个极简实现

这篇讲的是内存分配算法“伙伴分配器”的一个极简实现。文章从Linux内核经典的伙伴系统出发，将其核心思想抽象出来，并聚焦于GitHub上wuwenbin的一个极简版本，详细拆解了它的设计与实现。作者将复杂的内存分配问题，巧妙转化为对一棵完全二叉树的管理。每个节点用一个数字（`longest`）标记，直接表示其对应内存块中最大连续空闲单元的大小。分配时，深度优先搜索找到合适节点并将其标记为0；释放时，则回溯并检查相邻节点，通过简单相加判断能否合并。整个过程在O(logN)时间内完成。文章的精妙之处在于对比了另一种用四个状态（UNUSED/USED/SPLIT/FULL）管理节点的实现。极简版通过“`longest`”这一个数值，同时承载了状态和权重信息，避免了复杂的状态机和额外的条件判断，让分配、释放的逻辑变得异常清晰和优雅。这种“少即是多”的突破常规思维，正是其被称道的原因。

本机暂存

IT 2013-10-15 13:42:14 / 累计浏览 3,515

广度优先搜索解决“营救公主”问题

作者重新审视了“营救公主”这个经典迷宫搜索问题，指出之前采用深度优先搜索的方案存在缺陷，且未正确处理节点重复访问。这次他选择用广度优先搜索（BFS）重新实现，核心在于借助一个队列来逐层探索迷宫。实现的关键有两点：一是用一个二维数组 `step` 记录从起点到每个节点的最小步数，每次从当前节点扩展邻居时累加距离；二是用 `'#'` 标记已访问过的节点，彻底避免了“回头路”和重复遍历。伪代码清晰地展示了状态转移逻辑——遇到墙则跳过，遇到通道则入队并更新距离，一旦遇到公主便结束搜索。文章附带了完整的Java实现，通过 `Queue` 管理待探索节点，并在处理每个节点时计算步数。最终判断逻辑很直接：如果搜索到的公主所在位置距离小于给定时间 `T`，则营救成功。这种BFS解法自然保证了在网格中寻路的最短路径特性，对于此类问题比DFS更为直观和可靠。

本机暂存

IT 2013-10-08 12:34:49 / 累计浏览 1,420

微博的核心用户群：中V和小V

作者从“大V不活跃，微博是否在衰退”的普遍质疑出发，对微博用户进行了一次核心分类梳理。他依据粉丝量，将认证用户划分为超V（千万以上）、大V（百万至千万）、中V（十万至百万）和小V（万至十万），并指出超V与大V总数不到2500人，而中小V在数量与原创内容产出上都占据绝对多数。文章的核心论点在于，真正支撑微博“社会化”生态、实现内容百花齐放的，正是这些数量庞大、话题垂直的中小V，而非聚焦于有限公共议题的头部大V。作者以微博产品设计为例，指出私信功能改版更偏向服务于头部大V，却无形中增加了中小V的信息管理负担，这反映了平台运营思路的偏差。他认为，一个健康的平台生态应如菱形社会，应当更加重视并服务于中V和小V群体的需求，而非沿袭传统媒体“捧红少数人”的逻辑。大V声量的相对衰减，从商业生态角度看反而是积极信号。

本机暂存

IT 2013-10-08 12:32:26 / 累计浏览 1,964

C++模板”>>”编译问题与词法消歧设计

这篇讲的是C++中模板尖括号引起的经典编译难题及其在编译器设计中的巧妙化解。作者从编译原理的词法与语法分析管道出发，点明了C++98中`map>`为何必须写成`map >`——因为词法分析器会将`>>`识别为一个右移运算符，导致后续语法分析失败。文章核心对比了两种消歧思路：一是采用“无扫描器解析”，即跳过独立的词法分析，直接在语法层面处理字符流，但这破坏了经典编译器结构；二是C++11的务实方案——让词法分析器遇到难以判定的序列（如`>>`）时，直接拆分为两个基础token（即两个`>`）交给语法分析器，再由语法分析器根据上下文（如是否在模板参数列表中）决定其正确含义。作者通过具体代码示例展现了这一改变带来的兼容性变化，并引用了C++11规范的相关定义。文章清晰揭示了工程实践中为解决理论模型与具体语法冲突所做的权衡：既保留了清晰的模块化结构，又通过层次间的协作化解了歧义，这种设计思路对理解复杂语言的编译器实现很有启发。

本机暂存

IT 2013-09-23 23:30:17 / 累计浏览 1,630

电子商务互联网营销：ROI的罪与罚（下）

这篇讲的是电商流量评估中一个常见困境：那些ROI表现很差的门户流量，真的就一无是处吗？作者从一个萦绕多年的“模糊性”问题出发，回顾了流量评估方法的演进。传统只看ROI或CPA的单一维度评估，常常让我们陷入两难——比如“新浪”频道的ROI很差，但你又无法彻底砍掉它。文章的核心洞察在于，流量的价值应放在整个营销漏斗中去衡量。作者提出，除了ROI，还必须引入“Engagement（参与度）”这个维度，比如页面浏览量、停留时间、跳出率等。通过一个将ROI与Engagement结合的气泡图，可以清晰看到：有些流量虽然直接转化差（ROI低），但Engagement很高（如天涯社区、新浪汽车频道），这说明它们可能在营销流程的早期阶段（如品牌认知）发挥了重要价值。新老访客比例的数据也印证了这一点。然而，单纯知道它“有价值”还不够。文章进一步探讨了流量渠道间的相互作用，试图揭示“助攻流量”与“得分流量”之间的关系，并引入了归因模型（Attribution Modeling）来深挖这些相互影响。这实际上是在推动我们从孤立地评判单个渠道，转向理解整个渠道生态系统是如何协同工作的。对电商营销者而言，这意味着需要一套更复杂、更多维的评估体系，来真正看清每个流量的真实贡献。

本机暂存

IT 2013-09-23 23:26:11 / 累计浏览 1,585

电子商务互联网营销：ROI的罪与罚（上）

这篇讲的是电商营销中ROI（投资回报率）这个KPI背后的复杂性与常见误区。作者从自身在行业演讲中遇到的从业者困惑出发，指出一个核心矛盾：老板或市场普遍追求高ROI，但这可能反而限制了业务增长，因为越追求精准流量，规模就越难放大。文章通过微观经济学中的成本-收入曲线模型，清晰拆解了ROI的“安全线”如何动态变化。它指出，ROI的底线并非固定数值，而是取决于生意的成本结构——例如，当产品与运营成本占比高达90%时，即便ROI达到2.3:1也仍需外部输血才能存活。而如果有外部投资支持，企业可以承受更低的ROI来换取规模。最终，作者提出了超越单纯ROI考核的三种增长途径：降低流量成本（难度最大）、提高转化率（直接影响ROI）和提升客单价（相对容易但需权衡）。文章引导读者回归商业本质，思考不同发展阶段下，到底应该看重销售额、毛利还是ROI，而非盲目追逐数字本身。

本机暂存

IT 2013-09-23 23:08:03 / 累计浏览 2,533

大整数乘法

这篇讲的是大整数乘法的经典实现思路与代码实践。作者用一个整形链表来存储大整数的每一位，核心计算部分通过两层循环遍历乘数与被乘数，将每对数字的乘积累加到结果链表的对应位置上，并通过一个递归辅助函数处理进位。实现的亮点在于对基本数据结构的运用：自定义的BigInt结构体包含了数值、指针和符号位，通过重载运算符（如乘法、输入输出流）让操作更直观。不过作者也坦诚地指出了代码的几处“非典型”设计：乘法运算返回指针而非对象，递归计算存在栈溢出风险，以及指针管理上不够严谨。这些反思本身也是很有价值的经验点。从代码片段可以看到具体的实现细节，比如如何构建数字链表、处理进位和负号。整体上，这是一次从零开始构建大整数运算的扎实尝试，既展示了基本算法，也揭示了手动管理内存时需要面对的复杂性。

本机暂存

IT 2013-09-15 22:40:29 / 累计浏览 4,272

Spark：一个高效的分布式计算系统

这篇讲的是Spark这个基于内存的分布式计算框架，作者从Spark与Hadoop的对比出发，深入介绍了其核心优势和关键特性。文章指出，Spark通过将中间结果保存在内存中，避免了Hadoop MapReduce频繁读写HDFS的瓶颈，从而在迭代运算密集的数据挖掘与机器学习任务中效率显著提升。其核心创新在于RDD（弹性分布式数据集）的抽象，它使得开发者能以操作本地集合的方式来处理分布式数据，支持丰富多样的转换和行动操作，编程模型比Hadoop的Map和Reduce更加灵活。文章还剖析了RDD的存储、分区、容错机制（通过血缘信息和检查点）及其11种存储级别，这些共同构成了Spark高效、可靠的基础。此外，文章梳理了Spark的生态系统，包括兼容Hive的Shark、用于流处理的Spark Streaming以及图计算框架Bagel，并列举了其多种运行模式与在业界的早期应用。总体而言，Spark并非Hadoop的替代品，而是一个更通用、更适合迭代计算的补充，它直接读写HDFS并支持在YARN上运行，为处理海量数据提供了新的高效选择。

本机暂存

IT 2013-09-07 15:27:39 / 累计浏览 2,819

正态分布的前世今生(五)

这篇讲的是正态分布在19世纪如何从崭露头角到成为统计学基石的关键发展历程。作者从拉普拉斯和高斯两位巨人的工作切入，清晰地勾勒出正态分布在两大支柱学科中的奠基过程。文章首先追溯到1776年，拉普拉斯为解决天文学中的彗星轨道问题，开始研究多个独立随机变量之和的概率计算。这一实践问题最终推动了中心极限定理的诞生，为正态分布在概率论中的核心地位打下了理论基础，使其成为描述“随机之和”的通用模型。与此同时，在数理统计领域，高斯基于对天文观测误差的细致分析，大力提倡并推广正态分布，使其在误差理论与数据分析中畅行天下。文章特别提到高斯在处理测量误差时，如何将正态分布（即高斯分布）作为分析工具。通过回顾这段历史，文章揭示了正态分布之所以能成为近代统计学“开疆扩土”的主角，正是因为它同时被概率论的理论框架（中心极限定理）和数理统计的实践需求（误差分析）所双重赋能，从而奠定了其在科学与工程领域无处不在的坚实地位。

本机暂存

IT 2013-09-06 13:06:04 / 累计浏览 2,477

细说促销（一）：促销的本质

这篇文章属于“事件复盘与观点”类，作者通过剖析具体案例，深入探讨了电商促销的本质与常见误区。核心观点是，促销绝非“照猫画虎”那么简单，它是一门“招式简单、内功复杂”的学问。文章以运动品牌经销商“古星”的实战为例：从“两件更便宜”成功清夏装库存，到“满99加5元送袜子”巧妙提升客单价，再到“满139加29元送宜家毯子”因价格门槛和物流问题遭遇滑铁卢。这些起伏揭示了促销成败的关键——时机、商品特性、价格心理和执行细节。作者犀利地指出了几个常见陷阱：将促销变常态（如常年2折的“华伦天奴”，会彻底摧毁品牌价值）、盲目模仿（卖沙发学卖首饰搞“两件更便宜”）、以及手段单调（只会打折）。促销的本质是通过提供额外价值，在产品生命周期的特定阶段（如上市推广、销量瓶颈期）来短期、有效地提升销售额，其公式无外乎提升客单价或销售量。文章最后强调，每一次促销都需要一个合理的“借口”，这如同古代的檄文，能给消费者一个消费的理由和名正言顺的心理暗示。理解“凭什么做”和“什么时候做”，远比学会“满减、秒杀”这些招式本身更重要。对于电商运营者而言，这篇文章提醒大家，促销前多问一句“为什么”，或许比直接套用模板更有效。

本机暂存

IT 2013-09-05 23:17:25 / 累计浏览 2,157

更极致的搜索推荐——“去哪儿酒店”搜索体验【2013年9月版】

作者从2013年去哪儿网的酒店搜索功能出发，深入剖析了平台如何针对两类用户——目标明确型与无明确目标型——设计差异化的服务路径。对于前者，去哪儿提供了“距离筛选”等高效工具，搜索体验流畅；但针对后者，尽管设有价格、档次等个性化搜索入口，用户在结果页仍常陷入筛选的困惑。文章的核心观察在于，去哪儿虽在入口做了区分，但在搜索结果呈现上，对无目标用户的支持仍显不足。作者进而提出，应引入智能推荐机制，例如基于“去中关村的用户大多住此类酒店”的群体偏好数据进行引导，甚至将推荐延伸至搜索起点，增加“游玩”、“散心”等情景化入口。这篇分析不仅点明了当时产品设计的亮点与缺口，其关于“用推荐服务缓解用户决策焦虑”的思考，在今天看来仍具启发意义。

本机暂存

IT 2013-09-04 23:01:25 / 累计浏览 2,808

数学之美：Marden定理

这篇讲的是Marden定理，一个将多项

本机暂存

IT 2013-09-04 22:58:58 / 累计浏览 2,196

字体勾边渲染的简单方法

这篇讲的是游戏开发中字体勾边渲染的优化方案。作者从手游和端游的大量实际需求出发，希望能直接利用系统字体动态生成勾边，而避免耗时的离线预处理打包。文章先梳理了传统“多遍绘制”方法效率低，以及流行的SDF方法需要离线生成字模数据的局限，也提到了苹果平台API生成的带勾边字模信息存储困难——轮廓与字体主体信息混合，难以用单通道记录。作者的核心创新在于，提出了一种巧妙的单通道编码方案来解决这个存储矛盾。他观察到，勾黑边后的白字，其alpha值小于1.0的像素必然都是纯黑色的。利用这一特性，他将alpha通道信息与灰度信息映射到同一个通道的不同数值区间：将alpha为1.0的像素的灰度值映射到0.5至1.0区间，而将alpha小于1.0部分的像素值映射到0至0.5区间。这样仅损失1bit精度，就在一张单通道贴图中完整保存了轮廓和填充信息。最终还原时，通过一个极其简单的shader（Alpha := clamp(G * 2.0, 0, 1.0); Color := clamp((G-0.5) * 2.0, 0, 1.0)）即可从灰度图G中解码出原始的颜色与透明度。这个方案规避了双通道贴图的硬件兼容性问题，在保证渲染效果均匀平滑的同时，显著降低了实现复杂度和资源占用，为动态字体勾边提供了一个轻量级的实用解法。

本机暂存

IT 2013-09-04 22:57:02 / 累计浏览 3,610

趣题：把比萨分成若干等份使得至少有一份不含边

这篇文章讲的是一个看似简单的比萨分割挑战：如何把一个圆形比萨分成若干全等的部分，同时确保至少有一块完全不包含披萨的“边儿”（即圆周）。问题本身很有画面感，立刻能引发读者的动手兴趣。作者从问题出发，展示了两种巧妙的几何解法。第一种方案通过弧线将圆分割成12个全等的“鱼尾形”小块，其中有6块完全不含圆周。不过，这种方案有个特点：某些部分需要经过翻折才能与其他部分完全重合。紧接着，文章提出了一个更苛刻的递进问题：是否存在一种方案，让所有小块不仅能全等，而且仅通过旋转和平移（无需翻折）就能彼此重合？作者给出了肯定的答案，通过更复杂的弧线切割与排列，实现了这一目标。两种方案的对比，清晰地揭示了问题中“全等”在不同操作限制下的实现难度差异。这篇文章通过一个趣味盎然的几何谜题，巧妙地展示了对称、旋转与平移在分割问题中的应用。它让读者看到，即使是“分比萨”这样的生活场景，也能引出严谨而有趣的数学思考。

本机暂存

IT 2013-09-02 13:33:02 / 累计浏览 2,805

数据映射–有序数组

这篇讲的是有序数组作为一种基础数据结构，在实现快速映射查找时的基本原理与技术特性。作者从二分查找需要的两个核心前提——数据有序和可快速取中值——切入，通过一个具体例子（如从有序集中查找4对应的数据），演示了如何通过折半排除逐步定位目标，并解释了其对数级时间复杂度 O(log2N) 的惊人效率。但文章并未止步于算法演示，而是深入分析了这种简单结构在实际作为存储映射方案时的各项表现。它支持高效的范围查找，但在处理动态插入时会遇到巨大瓶颈，因为保持有序性意味着每次插入可能需要移动大量数据，写入代价极高。同时，纯粹的数组结构并不面向磁盘优化，其二分查找过程依赖的随机读取对磁盘性能是严峻挑战。作者最后总结道，选择数据结构需基于具体场景，没有绝对的好坏，只有是否合适。这种从基础算法延伸到系统设计考量的分析，为理解存储产品的内部取舍提供了一个清晰的起点。

本机暂存

IT 2013-09-02 13:32:31 / 累计浏览 2,237

数据映射–映射概述

作者从“映射”这一计算机基础数据结构出发，梳理了从CPU到文件系统无处不在的映射关系。文章首先明确了映射的数学定义，并列举了它在查找文件、网络数据、数据库记录等场景中的关键作用。接着，作者用一组简单对应（如2->4, 1->2）作为示例，对比了三种实现映射的方式：使用集合（如数组）存储键值对、定义一个数学函数、以及编写穷举算法。文章指出，后两种方式因需理解数据规律或硬编码而适用性有限，从而将讨论聚焦于更通用的集合类数据结构。为了优化最基础的数组线性遍历效率低下的问题，文章深入介绍了两种核心的查找算法：要求数据有序的二分查找（时间复杂度O(log₂N)），以及利用哈希函数实现近乎O(1)效率的哈希查找。作者以哈希查找为例，解释了如何通过键值计算快速定位，并详细说明了“哈希碰撞”问题及使用链表解决的常见方法。最后，文章总结道，不同的应用场景（如是否需要范围查询、自动扩展、磁盘存储或并行处理）将决定对映射集合的具体技术选择，而这些底层选择正是各类数据库性能差异的根源。

本机暂存