标签：Algorithm

共 34 篇相关文章

IT 累计浏览 5,177

geohash：用字符串实现附近地点搜索

这篇文章从实际应用中的性能瓶颈出发，探讨了如何用 geohash 这一精巧的数据结构，来解决传统经纬度范围搜索在大型系统中遇到的难题。文章开头就点明了旧有方案的痛点：直接用经纬度范围查询，在数据量大时速度慢、索引效率低，并且生成的 SQL 语句高度动态，几乎无法被数据库有效缓存。针对这些问题，作者引入了 geohash 这一方案。它的核心思想是将二维的经纬度坐标，通过一种空间填充曲线算法，映射为一维的、具有空间邻近特性的字符串。这串字符本身就可以直接用来建索引、做前缀匹配，从而将“附近的点在哪”这个二维空间搜索问题，巧妙地转化为一次高效的字符串范围查询。通过这种方式，geohash 不仅提升了查询速度，更重要的是让查询条件变得稳定可控，使得查询计划的缓存成为可能，这对高并发、大数据量的应用架构意义重大。文章还隐含地指出了技术选型中的权衡：geohash 通过牺牲一点精度（将点映射到网格内）来换取巨大的性能收益，并且在处理网格边界附近的“邻居”时需要进行额外处理。这种从实际问题出发，逐步推导解决方案，并揭示其工程权衡的叙述方式，为面临类似挑战的开发者提供了清晰的思路。

IT 累计浏览 5,027

漫话中文分词算法

这篇讲的是作者如何被中文分词这个“看似不可能完成的任务”所吸引。他最初在Google黑板报上看到一个巧妙算法时倍感震撼，而最近在詹卫东老师的《中文信息处理导论》课程中，才真正了解到分词研究的全貌远不止于此。文章将视角拉长，不仅介绍了现代的统计语言模型方法，更回溯了在统计模型出现之前，研究者们是如何从纯语言学的角度对自动分词进行探索的。其间诞生的各种理论和思路，本身就是一个充满智慧与趣味的故事序列。它揭示了一个技术点的演进脉络：从基于规则和知识的早期尝试，到后来数据驱动的统计建模。对于想理解中文自然语言处理发展轨迹的读者来说，这提供了一个生动而具体的入口。

IT 累计浏览 2,678

UyHiP趣题：拉灯游戏总有解吗？

这篇讲的是一个有趣的数学谜题，它被包装成了一个公司拉灯游戏的场景。作者从一个看似简单的开关操作入手：当你拉动某一间办公室的开关，不仅它自己的灯会变，所有与它“业务相关”的办公室的灯也会跟着翻转状态。目标是证明，从全关的初始状态出发，无论办公室和“相关”关系如何构成，我们总能找到一种操作顺序，在有限步骤后让所有灯亮起。文章的核心在于将这个现实问题转化为一个优雅的数学模型。作者引导读者使用模2运算（也就是异或操作）来描述每一次开关操作的效果，从而将整个系统抽象为一个线性方程组。关键在于，这个方程组的系数矩阵是对称的，且对角线上元素全为1，这种特殊的结构保证了其行列式在模2意义下不等于0，从而方程组必然有唯一解。这意味着，对于任何一种初始的“相关”关系网络，都恰好存在一套固定的开关操作方案，执行它就能达成目标。文章通过清晰的代数推导，把一个直觉上觉得“可能无解”的问题，变成了一个必然成立的确定性结论，展示了数学建模在简化和解决复杂逻辑问题上的力量。

IT 累计浏览 2,921

锈规作图续篇：单用一个只能画单位圆的圆规如何作线段中点

这篇文章接着一篇更早的博文，探讨了一个经典的几何谜题：如何只用一个被卡住的、只能画单位圆的“生锈”圆规，作出给定线段的中点。作者从1983年D. Pedoe教授最初提出的“锈规作图”问题讲起——即如何用这种受限工具构造等边三角形。这不仅仅是趣味数学，其背后是严谨的理论挑战。文章重点介绍了我国学者侯晓荣等人在1987年取得的突破：他们运用复平面理论，不仅解决了这一问题，还得到一系列一般性的结论，并将成果《锈规作图论》发表在《中国科学技术大学学报》上。续篇的焦点转向另一个经典任务：作线段中点。这看起来比构造等边三角形更基础，但在“只能画单位圆”的严格限制下，其构造步骤却可能蕴含着不同的巧妙思路与理论工具。文章将带你回顾那段研究历程，并展示如何用这个看似“功能残缺”的工具，完成一个基本的几何操作。

IT 累计浏览 3,386

m进制转换为n进制-任意进制转换算法

这篇文章聚焦于编程面试中频繁出现的任意进制转换问题，即如何将m进制数高效转换为n进制数。作者没有停留在简单的十进制转换案例上，而是直击核心：提出一套通用的算法思路，能处理从二进制到三十六进制等任意基数间的转换。算法的核心在于将问题拆解为两个可复用的步骤。首先，将输入的m进制字符串按照“权值叠加”的原理，逐位计算并累加，转化为一个中间十进制数值。紧接着，再将这个十进制数通过经典的“除基取余”法，不断对目标基数n取模并逆向拼接，得到最终的n进制字符串。巧妙之处在于，这套两步走的流程将一个复杂问题标准化，无论基数如何变化，底层逻辑都保持一致。这种实现不仅思路清晰，也极大地提升了代码的通用性和可维护性。文章通过这道经典的面试题，实际上深入浅出地讲解了数制本质与编码思维，对巩固算法基础很有帮助。

IT 累计浏览 4,124

C语言函数实现的另类方法

这篇讲的是C语言中一种颠覆常规的函数实现思路。作者从“函数必须通过函数名调用”这一固有认知出发，展示了一个用函数指针和递归技巧“伪造”出多函数效果的代码示例。核心巧妙之处在于，它利用指针的灵活性，让同一个函数体根据不同的指针地址表现出截然不同的行为，仿佛定义了多个函数。这种实现方式绕过了传统的函数调用栈机制，代码本身像一个精巧的谜题，挑战着我们对C语言基础概念的理解。文章没有停留在技巧展示，而是将其放在CoolShell一贯的“变态代码”谱系中——从输出1到1000，到各种“变态”Hello World。它更像一次思维体操，让读者在惊叹之余，重新思考语言特性与编程范式的边界。

IT 累计浏览 7,907

你是那10%可以实现二分查找算法的程序员吗？

这篇讲的是，一个看似简单到不能再简单的经典算法——二分查找，为什么绝大多数程序员都写不对。作者从一篇关于“10%的程序员”测试结果的博文出发，揭示了一个令人沮丧的事实：即使对于计算机科学专业的学生和资深工程师，要写出一个完全正确、没有边界错误的二分查找依然极具挑战性。文章深入剖析了失败的原因，核心问题往往出在循环不变式和边界条件的处理上。比如，计算中间值时整数溢出的风险，以及`low`和`high`指针该使用`<`还是`<=`、该赋值为`mid`还是`mid+1`这类微小抉择，每一步的偏差都可能导致算法在特定输入下失败。作者通过剖析这些看似微不足道却致命的细节，点出了许多程序员在编写代码时缺乏严格逻辑推演的通病。它不仅仅是对一个算法的复盘，更是一次对编程严谨性的警醒。它告诉我们，即使是教科书上的“简单”问题，也值得用最审慎的态度去对待，因为真正的功力就体现在处理这些边缘情况上。

IT 累计浏览 6,600

神秘常量复出！用0x077CB531计算末尾0的个数

这篇讲的是如何用一个看似天书的十六进制常量 `0x077CB531`，高效计算一个整数二进制表示末尾连续0的个数。作者从大家熟知的 Quake III 引擎中那个用于快速平方根倒数的神秘常量 `0x5F3759DF` 出发，引出了这段同样充满“魔法”气息的代码。核心在于那个精心选择的“魔数”与一个乘法操作。它巧妙地将最低有效位孤立出来，使得后续的位运算能直接定位到第一个 `1` 的位置。本质上，这是一种极富创造性的位掩码技巧，用数学的精巧规避了循环或条件判断，在极少数的几个操作内就完成了传统上需要循环计数才能完成的工作。文章拆解了每一步运算的意图，揭示了其背后的数学原理，展现了如何将二进制结构特性转化为极致的执行效率。这种将算法思维与硬件特性紧密结合的实现，正是它读起来令人拍案叫绝的地方。

IT 累计浏览 2,271

Treelink算法介绍

这篇讲的是淘宝算法工程师如何从“黑盒”使用机器学习，到主动钻研并理解Treelink模型原理的过程。作者坦言，初期接触机器学习时只会调用工具，对模型内部机制一无所知，甚至被晦涩的英文文献劝退。直到再次接手相关项目，才决心搞懂它。经过一个多月的学习实践，作者以自己的理解，对Treelink模型做了“通俗版”的原理介绍。文章不仅分享了算法的核心思路，更记录了一个技术人员从被动使用到主动探求的完整心路历程，对于同样在模型“黑盒”前徘徊的读者来说，这份经验或许能带来一些破除迷雾的启发。

IT 累计浏览 3,391

PHP伪随机发生器

这篇讲的是PHP中两种看似都能生成随机数的函数，背后机制和适用场景却大不相同。作者从游戏开发中常见的“随机掉落”需求出发，深入剖析了`rand()`这类伪随机函数与`random_int()`真随机发生器的核心差异。关键区别在于可预测性。伪随机函数基于确定的种子算法，相同种子必然产生相同序列，在需要不可预测性的安全场景（如生成密钥、验证码）下就存在隐患。而真随机发生器从操作系统收集熵（如硬件噪声），输出不可预测。文章指出，在非安全敏感的业务逻辑、测试或模拟中，伪随机函数因其速度优势仍有一席之地。但只要涉及安全、加密或任何需要不可复现随机性的场合，就必须选择真随机发生器。理解这一根本差异，才能避免在项目中埋下安全隐患。

IT 累计浏览 3,417

事关“工程师思维”

刘鑫老师在金山内部邮件中的一次讨论，引出了对“工程师思维”的重新审视。他认为，这种思维的核心并非单纯的编码能力，而是一种将抽象想法一步步转化为现实的系统化思维与实践训练。文章从这个定义出发，探讨了工程师思维在日常工作中的具体体现。它不仅仅是解决眼前问题的技术能力，更包含了一种结构化的拆解力、对实现路径的规划力，以及将概念落地的执行力。作者强调，这种思维模式能让工程师跳出单纯的“代码实现者”角色，成长为能驱动复杂项目落地的“问题解决者”。对许多技术人员而言，这个视角提供了宝贵的反思：我们是在机械地完成任务，还是在主动地构建现实？培养工程师思维，意味着主动训练如何将模糊的目标分解为清晰的路径，并为每一步负责。这或许是从“写好代码”到“做好工程”最关键的一跃。

IT 累计浏览 4,368

递归并不一定非得是“自己调用自己的function”

这篇讲的是作者在开发面包屑导航功能时，差点钻进递归思维的牛角尖。问题背景很常见：面对一个树形或列表结构，总想“高级”地用递归来解决。但在这个具体场景中，过度依赖递归反而让代码和逻辑变得复杂纠结。作者后来顿悟，解法其实非常朴素：完全可以用 while 或 for 循环这种更“接地气”的方式来迭代处理导航层级。递归的本质是一种解决问题的思想，而函数自调用只是实现它的一种经典手段。当意识到循环同样能清晰、直观地表达逻辑时，问题便迎刃而解。这个小教训提醒我们，在技术选型时不必被某种模式束缚。递归虽优雅，但在很多场景下，一个简单的循环可能才是更直接、更高效的选择。关键是根据实际问题，选择最合适的工具。

IT 累计浏览 4,257

php数组排序

作者从一次临时被问到的PHP数组排序问题出发，发现这个看似基础的操作，实际涉及多个函数和场景的选择，自己一时竟未能给出完整答案。这让他意识到，数组排序不仅是语法问题，更关乎对性能、排序方向和数据结构的理解。文章梳理了PHP内置的多个数组排序函数，比如最常用的 `sort()` 和 `rsort()`，它们分别实现升序和降序，但会改变原数组的键名。如果需要保留键值关联，则应选择 `asort()` 和 `arsort()`。对于更复杂的自定义排序规则，`usort()` 和 `uasort()` 提供了通过回调函数定义比较逻辑的灵活性。作者指出，选择哪种排序方式取决于具体需求：是简单的值排序还是需要保持键关联，是常规的正逆序还是需要自定义规则。了解这些函数的区别和适用场景，能帮助开发者写出更高效、意图更明确的代码。文章提醒我们，即使是基础知识点，也值得在实际场景中反复审视和辨析。

IT 累计浏览 3,474

十年记忆

这篇讲的是作者从一九九八年的个人接触计算机说起，回顾了自己横跨二十多年的技术历程与思考。文章没有宏大的技术架构分析，而是将“十年”作为一个心理刻度，串联起从DOS时代启蒙、经历互联网泡沫、投身开源浪潮，到面对新技术更迭时的实践与迷思。作者坦诚地分享了在技术选型上的试错、对“酷技术”与“实用主义”的反复权衡，以及在技术影响力与代码优雅性之间寻找平衡点的心路。核心观点在于，技术生涯并非线性上升，而是一次次的认知重塑。作者发现，驱动技术选择的，往往不止于技术本身，还有当时的市场环境、团队状态和个人心境。文章最触动人的部分，是作者对“时间”的感悟——许多当年认为“落后”的方案在特定语境下却是最佳解，而追逐“前沿”也未必能避免未来的重构。这为读者提供了一种更宽容的视角：看待技术演进时，理解上下文比评判对错更重要，而持续学习与适应的能力，远比掌握某一具体技术栈更为关键。