数据库

共 1083 篇文章

IT 2011-07-18 12:16:41 / 累计浏览 2,281

关于tokyocabinet的list操作

这篇讲的是Tokyo Cabinet数据库在多进程并发场景下的一个潜在陷阱。作者从一个直觉性的问题出发：如果多个进程同时对同一个MDB数据库文件执行list操作，会发生什么？大多数人可能下意识觉得相安无事，但作者在深入阅读`tcutil.c`源码后，发现了情况并非如此简单。文章的核心价值在于，它通过源码分析，揭示了在并发读取list时可能存在的内部状态竞争或数据不一致风险。作者没有停留在理论推测，而是直接指向了底层的实现细节，让读者能跟随他的视角，看到“理所当然”操作背后的隐患。这对于正在构建多进程服务、需要处理共享数据存储的工程师而言，是一个非常实际的提醒。对任何使用Tokyo Cabinet构建多进程应用的开发者来说，在动手之前了解这些内部机制，能帮助避免一些难以排查的隐蔽问题。

本机暂存

IT 2011-07-16 21:15:40 / 累计浏览 3,340

探索MySQL源代码-客户端连接过程和用户认证体系

这篇讲的是MySQL如何一步步建立起与客户端的连接，并完成身份验证的。作者没有停留在概念讲解，而是直接从源码层面切入，把从TCP三次握手后开始的MySQL协议握手、到客户端发送用户名密码、再到服务端验证的全过程，像拆解机器一样展现了出来。文章的核心思路是把整个过程分为两个清晰的阶段：首先是基于协议的连接建立与协商，这部分涉及协议版本、字符集等基础信息的交换；其次是更为关键的身份验证阶段。作者着重分析了MySQL的验证插件架构，尤其是经典的`mysql_native_password`插件如何工作——它不是简单传输明文密码，而是采用了一套“挑战-响应”机制，客户端用密码和服务器发来的随机数运算出一个结果再发回去，服务器用同样的算法验算，从而避免了密码在网络上的直接暴露。最巧妙的一点在于其插件化设计。认证并非写死在服务器核心代码里，而是通过插件动态加载。这意味着你可以轻松替换或增强验证方式（比如实现更复杂的策略），而无需修改服务器主体。作者通过源码细节，让我们看到这种设计带来的灵活性与可扩展性。理解这套机制，是深入掌握MySQL安全管理与扩展开发的重要一步。

本机暂存

IT 2011-07-16 21:14:37 / 累计浏览 2,263

探索MySQL源代码-在show processlist里添加字段

这篇讲的是一次从THD结构体入手的源码实践——如何给`show processlist`命令增加自定义字段。文章从`show processlist`作为MySQL诊断利器的日常使用场景出发，引出一个实际需求：当默认的显示信息不足以快速定位特定线程问题时，能否在源码层面做点什么？作者的思路很清晰，目标是增加一个字段，用于展示线程的某个扩展状态。作者深入服务器源码，完整地走了一遍从客户端发起SQL到服务端响应结果的全链路。核心实现思路是围绕`THD`这个代表线程上下文的“大管家”结构体展开：首先需要在其中定义新字段的存储位置，接着找到`show processlist`处理逻辑的核心位置——`Protocol`类中的相关方法，在那里添加字段的编码逻辑。最后，别忘了在客户端的`mysql`命令行工具中，也需要增加对这个新字段的解析和显示，整个链路才算打通。整个过程中，作者展示了如何定位关键代码、理解数据流向，以及一些巧妙的设计选择，比如利用位掩码来复用字段信息，以及如何确保修改后对原有逻辑无侵入。这不仅仅是一次“打补丁”式的修改，更是一次理解MySQL服务器如何组织线程信息、如何响应管理命令的深度探索。

本机暂存

IT 2011-07-16 20:49:07 / 累计浏览 4,401

redis源代码分析 - replication

这篇讲的是Redis主从复制（Replication）机制在源码层面的完整实现。作者从slaveof命令切入，详细拆解了从建立连接到数据同步的全流程。核心实现思路围绕一系列状态机变迁展开。当slave端收到slaveof命令后，会通过主线程的时间事件发起与master的连接。master收到SYNC指令后，会通过fork子进程进行全量RDB持久化，完成后再将文件发送给slave。slave接收并加载完RDB后，双方便进入基于命令传播的增量同步阶段。整个过程由一系列状态（如REDIS_REPL_CONNECT、REDIS_REPL_TRANSFER、REDIS_REPL_ONLINE等）驱动流转，对应的函数逻辑集中在replication.c中。文章的巧妙之处在于，作者用流程图和状态图将这个涉及父子进程、多线程事件、文件IO的复杂过程梳理得非常清晰。特别是对master端处理多个slave请求时，如何调度或共享bgsave持久化的几种情况，以及slave端在初始化同步时会暂时阻塞服务这一重要细节，都做了明确说明。这帮助读者快速抓住了Redis复制设计中“先全量、后增量”的核心，以及为保证一致性所付出的代价。

本机暂存

IT 2011-07-16 20:47:57 / 累计浏览 32,161

redis源代码分析 - persistence

这篇讲的是Redis如何通过持久化机制确保数据安全。作者深入源码，拆解了全量持久化与增量持久化两大核心路径的实现细节。全量持久化（save/bgsave）的关键在于利用操作系统的fork机制创建子进程，通过写时复制（Copy-on-Write）来实现后台快照，避免了阻塞主进程。而增量持久化（AOF）则通过追加写命令日志，并依赖定期的重写（rewrite）机制来压缩文件体积，两者在数据恢复时协同工作。文章分析了Redis在实现这些机制时所做的巧妙权衡：比如bgsave如何最小化内存峰值，AOF重写如何生成紧凑的新日志，以及fsync策略在性能与可靠性之间的不同选择。这种对底层实现的剖析，能让读者理解Redis为何能在高性能与数据持久性之间取得平衡。

本机暂存

IT 2011-07-16 20:44:48 / 累计浏览 4,503

redis源代码分析 - hash table

这篇深入剖析了Redis核心数据结构之一——哈希表（dict）的实现。作者从`dict.c`源码出发，揭示了Redis如何用一个结构同时管理两张哈希表（`ht[0]`和`ht[1]`），并在`rehash`过程中巧妙地通过“渐进式迁移”来避免阻塞。文章的关键在于讲清楚了“渐进式rehash”的运作机制：当需要扩容或收缩时，Redis并不会一次性完成迁移，而是将rehash过程分散到后续的每一次增删改查操作中，每次只迁移一小部分。同时，它详细说明了触发rehash的负载因子阈值，以及在rehash期间如何通过一个标志位确保操作的正确性。这种设计使得即使在处理百万级键值的大型哈希表时，Redis也能保持极低的延迟。文章将这个精巧的工程实现拆解得清晰易懂，展现了Redis为追求高性能而做出的底层权衡与智慧。

本机暂存

IT 2011-07-15 00:03:13 / 累计浏览 4,684

分布式事务性能分析

这篇讲的是分布式系统中一个经典争论：到底该选强一致性还是弱一致性？作者从NoSQL兴起和CAP理论引发的讨论切入，指出双方各执一词——前者担心功能不满足需求，后者顾虑性能与伸缩性难以承受。文章的重点并非重复这场争论，而是尝试对强一致性在性能、可伸缩性和可用性上带来的实际影响，进行一次系统性的技术分析。作者观察到，关于弱一致性能否满足需求往往因应用而异，很难有定论；但强一致性的代价却是可以量化评估的。遗憾的是，这类深入分析在过往的讨论中似乎有所缺失。因此，这篇文章可以看作是一次填补空白的尝试：它试图在情绪化和立场化的争论之外，提供一份基于技术视角的理性评估，帮助开发者根据自身业务场景，在一致性与性能之间做出更清晰的权衡。

本机暂存

IT 2011-07-14 23:49:52 / 累计浏览 3,621

Innodb Crash Recovery恢复时间的飞跃

这篇讲的是Innodb Crash Recovery从“漫长等待”到“快速完成”的转变。作者从自身经历出发——库数据量小、参数设置保守，对恢复过程的耗时曾没有切身感受。直到他回顾了技术社区早期讨论，才意识到在InnoDB优化前，漫长的恢复曾是普遍痛点，大家不得不通过繁琐的参数调优来缓解。文章由此切入，解释了Crash Recovery究竟是何过程：它不仅是事务回滚，更涉及数据一致性校验与重做，其耗时直接关系到服务的可恢复性。核心转折在于，作者对比了改进前后的体验差异。InnoDB通过优化恢复算法、改进日志处理机制等，显著缩短了停机窗口，使得曾经需要数十分钟甚至更久的恢复过程得以大幅压缩。这并非单纯的参数调整指南，而是从开发者视角观察到的底层改进如何实实在在地改变了运维日常。对于需要设计高可用MySQL服务的团队而言，了解这些历史演进与当前机制，对配置优化和故障预案制定都有切实参考。

本机暂存

IT 2011-07-09 22:43:51 / 累计浏览 4,222

SSD的随机写一定很慢吗？

这篇讲的是SSD性能中一个广为人知却少有深究的现象：为什么大家总说SSD的随机写性能远低于随机读？作者从业界常见的认知和产品测试数据出发，指出了一个具体差距——当前主流SSD的4K随机读性能普遍能达到数万乃至超过十万IOPS，但同等条件下的随机写性能却往往徘徊在3000-5000 IOPS，两者存在一个数量级的鸿沟。文章旨在挑战“随机写必然很慢”这一固定印象，引导读者思考这种现象背后的深层原因，例如闪存颗粒的写入机制、缓存策略以及磨损均衡算法等因素是如何共同作用的。通过剖析这一关键差异，文章能帮助读者更理性地看待SSD的性能标称值，在实际选型和应用设计时（比如数据库日志写入、虚拟机快照等场景）做出更精准的判断。

本机暂存

IT 2011-07-05 23:17:45 / 累计浏览 3,403

MySQL数据库优化实践

这篇讲的是MySQL数据库优化实践，作者从实际项目经验出发，分享了如何结合Percona工具、Linux系统、Flashcache和硬件设备来提升数据库性能。背景是随着业务数据量增长，数据库常遇到响应延迟和吞吐瓶颈，需要系统性的优化方案。核心方案围绕四个关键领域展开：使用Percona工具进行监控和慢查询分析，通过调整Linux内核参数、文件系统配置来适配数据库负载，应用Flashcache作为缓存层加速I/O操作，以及在硬件方面优化存储设备（如SSD选型、RAID配置）和网络设置。文章不仅列出了具体操作步骤，还提供了优化前后的性能数据对比，例如查询响应时间减少了约40%，整体吞吐量提高了60%，这些结论基于真实生产环境的测试。整个实践涵盖了从软件

本机暂存

IT 2011-07-05 23:13:44 / 累计浏览 6,846

在百度的第一年

这篇讲的是作者在百度工作第一年的心路历程。文章从一个很真实的细节切入：某个亢奋的夜晚，作者忽然想梳理这一年，并给出了一个高度概括的结论——前半年拼命给自己揽事儿，后半年尽量往外推事儿。这并非简单的工作量增减，背后是职场认知的深刻转变。前半段的“揽”，是新人急于证明自己、渴望学习成长的典型心态，主动承接任务以快速融入和积累。而后半段的“推”，则更值得玩味：它可能意味着对职责边界的清晰认知、对工作优先级的重新判断，或是从“执行者”向“规划者”思维演进的开端。文章坦诚地展现了这种从热情迸发到理性收敛的轨迹，没有停留在表面抱怨或炫耀，而是提供了关于职业初期如何平衡“广度”与“深度”、如何界定个人责任的朴素思考。对于许多技术新人而言，这篇更像一面镜子，映照出相似的心路阶段，而作者的直白复盘，则为如何平稳度过这一阶段提供了参照。

本机暂存

IT 2011-06-30 23:55:00 / 累计浏览 7,604

Redis作者谈Redis应用场景

这篇来自Redis作者的技术分享，没有停留在Redis的通用介绍，而是直接从实践出发，细数了那些真正“用对了”的场景。作者指出，Redis并非万能钥匙，它的高性能源于内存操作和单线程模型，因此最适合解决那些“读写极快、数据结构匹配”的特定问题。文中列举了几个典型用例：作为高速缓存加速数据库查询；利用Sorted Set实现实时排行榜；借助Pub/Sub构建轻量级消息系统；以及使用HyperLogLog进行基数统计。这些都是Redis“数据结构即服务”理念的完美体现。但更关键的是，作者强调了“避坑”指南。例如，当数据量远超内存、需要复杂查询或强事务保证时，关系型数据库仍是更稳妥的选择。这种对适用边界的清醒认知，恰恰是许多技术团队在选型时最需要的视角。文章帮助读者建立了一个清晰的心智模型：不是Redis能做什么，而是在什么场景下，它才是那个最优解。

本机暂存

IT 2011-06-30 13:51:31 / 累计浏览 5,265

mysql索引浅析

这篇从MySQL存储引擎的底层差异讲起，清晰地梳理了索引这一核心概念。作者没有一上来就堆砌定义，而是先带你理解不同存储引擎（如InnoDB与MyISAM）在数据存储上的根本区别——行数据与索引的组织方式截然不同，这直接决定了索引的具体实现与效率。文章的重点放在了B+树索引的结构解析上，用形象的比喻说明了其非叶子节点仅存储键值如何提升查询效率。更关键的是，它对比了聚簇索引与二级索引的数据分布，点明了在InnoDB中主键索引即数据本身的独特设计，以及二级索引需要回表查询的开销来源。文中还提到了覆盖索引这一优化技巧，解释了当查询字段完全被索引覆盖时，如何避免回表，显著提升性能。通过具体的查询场景（如范围查询与等值查询），作者最终给出了一些实践建议：索引并非越多越好，选择区分度高的列建立索引、注意最左前缀原则才是关键。整篇内容抽丝剥茧，将索引从理论到实践的要点讲得透彻且实用。

本机暂存

IT 2011-06-24 13:59:29 / 累计浏览 2,542

Mysql 安全

这篇讲的是如何为MySQL数据库系统构建一套基础但关键的安全防线。作者指出，MySQL的多平台特性使其默认配置难以兼顾所有场景，因此用户必须在自定义环境中主动加固。文章从源码编译安装开始，系统梳理了从安装到配置的11个核心安全要点，操作性很强。作者强调，安全的首要原则是控制权限。这包括必须修改root空密码并使用强密码、删除默认的test库和匿名用户、以及将默认管理员名root改为不易猜测的用户名。配置层面，核心思路是“最小化”：使用非root的独立mysql用户运行服务，禁止远程连接（或至少修改默认端口），限制单个用户的连接数。同时，通过严格控制文件系统目录权限、清理命令历史记录、并在配置文件中禁用`LOAD DATA LOCAL INFILE`等危险功能，来堵住潜在的信息泄露和数据窃取漏洞。这些措施环环相扣，共同目标是收缩攻击面，确保数据库服务仅在受控的必要范围内运行。

本机暂存

IT 2011-06-24 13:58:41 / 累计浏览 2,844

每天MySQL自动优化

这篇文章分享了使用 MySQL 自带工具 mysqlcheck 实现每日自动维护的实用方法。作者从数据库长期运行后可能出现表碎片、索引失效等常见痛点出发，直接给出了一行可落地执行的运维命令。核心方案是通过 cron 定时任务，调用 mysqlcheck 工具并结合 `-Aao` 和 `-auto-repair` 参数，实现对所有数据库的自动化检查与修复。文中详细解释了关键参数的含义：`-A` 表示处理所有数据库，`-a` 等同于 `--analyze`，用于分析表以优化查询性能，`-o` 代表 `--optimize`，用于优化表结构。最重要的是 `-auto-repair`，它能在发现损坏的表时自动尝试修复。这个脚本一旦部署，就能在后台静默运行，将日常的数据库健康检查与维护工作自动化，极大减轻了DBA或开发人员的重复性负担。这对于保障中小型数据库的稳定运行和性能保持，提供了一个轻量且高效的解决方案。

本机暂存

IT 2011-06-23 13:52:05 / 累计浏览 2,761

Mysql+sphinx+中文分词简介(ubuntu)

这篇指南聚焦于在Ubuntu系统上搭建一套基于MySQL和Sphinx的高效中文搜索方案。作者从实际项目需求出发，指出原生MySQL在面对中文全文搜索时存在的性能与精度瓶颈，而Sphinx正是解决这一问题的利器。文章的核心方案是将Sphinx作为独立的搜索引擎，与MySQL数据库进行集成，从而对外提供快速、准确的中文检索服务。关键的技术点在于如何正确编译Sphinx并为其配置适合的中文分词插件，以克服中文语义的复杂性。文章会逐步引导读者从配置编译环境开始，完成Sphinx的构建与基础优化，并重点探讨分词工具的选择与集成细节。最终，读者可以掌握搭建这套组合拳的完整流程，理解各组件如何协同工作来满足中文搜索场景下的特定需求。

本机暂存

IT 2011-06-23 13:47:13 / 累计浏览 2,801

PHP操作MongoDB时的整数问题及对策

这篇讲的是PHP驱动处理MongoDB整数时一个被广泛遇到但非驱动本身BUG的“坑”。作者从一个Jira问题切入，指出核心矛盾在于：MongoDB本身支持32位和64位整数，但旧版PHP驱动“一刀切”地将它们全部映射为32位整数处理。这意味着，当你在64位操作系统下向MongoDB写入一个大于2^31-1的整数值时，它会被静默截断，导致数据损坏或查询结果错误，且这个问题在开发环境和生产环境间可能表现不一，极具隐蔽性。文章给出的解决方案并非修改数据，而是利用新版PHP驱动引入的`mongo.native-long`配置选项。在64位系统上启用此选项后，驱动便能正确识别和处理64位整数，从而根治截断问题。作者引用的详细技术分析也表明，这是一个基于兼容性考量的设计选择，而非缺陷。因此，如果你的项目依赖PHP与MongoDB交互，并且数据中涉及较大整数（如时间戳、大ID），那么在升级或配置环境时，务必检查此选项的设置。

本机暂存

IT 2011-06-23 13:43:08 / 累计浏览 2,825

从Megastore看RDBMS和NOSQL系统结合

这篇文章从Google Megastore的实践出发，探讨了如何在数据库系统设计中兼得RDBMS的功能完整性与NOSQL的扩展性。作者开篇就点明了RDBMS和NOSQL各自的核心优势：前者强在事务支持、强一致性、灵活的查询（随机读与顺序扫描）和索引；后者则在扩展性与性能上更胜一筹。文章指出，Google的经验表明，在构建大规模系统时，可扩展性往往是更底层、更关键的设计约束。 Megastore的解决方案颇具启发性。它没有试图在单一层面上融合两者，而是巧妙地利用了已有的基础设施：底层依赖GFS与Bigtable提供的海量可扩展存储能力，而在这个坚实的基础上，Megastore在上层精心实现了包括ACID事务、SQL-like查询在内的丰富功能。这种分层的设计思路，使得系统既获得了云时代必需的弹性扩展能力，又没有牺牲开发者所需的高级数据库特性。归根结底，这篇文章阐述了一种务实的架构哲学：在可扩展的基础设施之上构建丰富的功能层，或许是应对数据复杂性与规模挑战的有效路径。

本机暂存

IT 2011-06-23 13:30:01 / 累计浏览 2,925

10个PHP开发者常犯的MySQL错误

这篇讲的是PHP开发者在连接MySQL数据库时容易踩的十个典型坑。作者从PHP与MySQL组合（即LAMP架构）的普遍性切入，指出PHP上手虽快，但写出稳定可靠的数据库代码却需要时间积累——许多错误恰恰源于对细节的忽视或错误习惯。文章具体剖析了诸如：使用`mysql_*`函数（已废弃）而非更现代的PDO或mysqli；在SQL查询中拼接用户输入导致SQL注入风险；忽略字符集设置引发乱码；以及错误处理不完善、连接管理不当、查询性能优化缺失等问题。每个错误点都说明了其潜在危害（如安全漏洞、数据错误或性能瓶颈），并给出了推荐的最佳实践或修复方案。这些经验不仅适用于MySQL，在其他数据库开发中同样具有参考价值。对于正在或即将使用PHP+MySQL进行开发的程序员来说，这篇文章能帮助他们提前规避常见陷阱，建立起更规范、安全的数据库操作习惯。

本机暂存

IT 2011-06-23 00:18:08 / 累计浏览 2,543

mysql的一个拒绝访问错误的解决

这篇讲的是MySQL安装后常见的“Host is not allowed to connect”连接失败问题。作者从朋友们反复咨询的同一个案例出发：在服务器上安装好MySQL后，尝试通过telnet命令远程连接3306端口时，总会被拒绝并提示连接被关闭。这通常不是MySQL服务本身未启动，而是其用户权限配置导致的典型“坑”。默认情况下，MySQL只允许来自“localhost”的连接，任何外部IP尝试访问都会被拒绝。文章点出了这个问题的普遍性——很多人初次配置远程访问时都会卡在这里。虽然提供的文本片段没有展开具体的解决步骤（通常涉及修改mysql库中user表的host字段，为特定用户授权允许从指定IP或任何主机连接），但作者将这个反复被问到的“经典故障”梳理出来，本身就为后来者提供了一个清晰的排查方向：遇到连接被拒，首先应该检查MySQL的远程访问权限设置。

本机暂存