数据库

共 1083 篇文章

IT 2012-03-25 20:50:39 / 累计浏览 2,763

关于HBase的一些零碎事

这篇讲的是HBase这个分布式数据库如何从技术幕后走向前台，成为支撑大规模实时应用的关键选型之一。故事的起点是Facebook那个经典的决策：他们选择HBase来构建实时消息系统，以处理每秒数十万条消息、总计超过135亿用户的海量数据洪流。文章的作者没有停留在介绍HBase的基本概念，而是从这个标志性的工业案例出发，勾勒出HBase持续升温背后的技术逻辑。它抓住了HBase作为面向列存储、基于Hadoop生态的分布式数据库，在海量数据随机实时读写场景下不可替代的价值。这意味着，它解决了传统数据库在数据规模和并发能力上难以逾越的瓶颈。更进一步，文章通过Facebook的案例，延伸探讨了HBase在其他需要高可靠、高性能存储的互联网公司中的渗透与应用，展现了其生态的蓬勃发展。对于技术选型者而言，这不仅是一个工具的故事，更反映了数据规模驱动下存储架构演进的一个清晰切面。

本机暂存

IT 2012-03-19 23:40:40 / 累计浏览 2,461

MySQL数据库之集合类型SET的DDL变更测试总结

这篇讲的是MySQL中一个不算常见但容易踩坑的点：集合类型SET的DDL变更行为。作者通过一系列实际测试，观察并总结了当对SET类型列执行修改（如ALTER TABLE）时，数据库内部的具体变化和潜在影响。文章的核心在于对比和验证。它不仅测试了直接修改SET类型列定义（增加、删除、重排序元素）的常见场景，还深入到了这类变更是否会触发表重建、对索引和性能的实际影响，以及在不同MySQL版本间的可能差异。作者通过具体的测试用例和结果，揭示了看似简单的SET类型调整背后，可能隐含着未预料的锁表或数据重写操作。对于DBA和开发人员而言，这篇总结的价值在于提供了实操层面的参考依据。它提醒我们，在规划涉及SET类型的字段变更时，不能仅凭经验假设，而应事先在目标环境中进行针对性测试，以评估其对业务的影响，从而选择更安全的维护窗口或优化操作方式。

本机暂存

IT 2012-03-18 23:38:30 / 累计浏览 3,203

game dba眼中的范式

这篇从游戏DBA的实战视角出发，聚焦于数据库范式这个基础却常被忽视的核心知识。作者以面试经验为例，指出许多半路出家的DBA对范式理解不深，并特别提到了一个常见细节：面试官常问`int(n)`与`varchar(n)`中的`n`究竟代表什么。这背后直指对数据类型与存储机制的基本功考察。文章由此展开，说明了范式不仅仅是理论，而是直接关系到数据一致性、冗余控制和查询效率的工程实践。对于游戏场景，合理的范式设计能有效应对高并发下的数据变更与统计需求。作者通过对比范式掌握程度不同的DBA在问题分析上的差异，强调了扎实的理论基础对于长期维护数据库健康的重要性。整篇内容扎实，没有空谈理论，而是将范式知识与游戏业务的具体语境和面试中的真实考察点紧密结合，让读者看到基础概念在实践中的重量。

本机暂存

IT 2012-03-18 23:36:28 / 累计浏览 3,022

MySQL数据库之数据类型BOOL/BOOLEAN与TINYINT测试总结

在MySQL开发中，很多开发者（尤其是从其他数据库迁移过来的）会想当然地使用BOOLEAN类型，认为它与TINYINT是两种不同的数据类型。这篇技术文章通过一系列实测，揭示了真相：在MySQL的底层实现中，BOOLEAN仅仅是TINYINT(1)的一个别名。作者通过建表、插入数据和查询，详细展示了两者的等价性。无论是使用`BOOL`、`BOOLEAN`还是`TINYINT`来定义字段，其实际存储方式、占用的空间和查询返回的结果（0代表false，1代表true）都完全一致。文章进一步通过查看表结构（`SHOW CREATE TABLE`）和执行计划（`EXPLAIN`）等命令，证实了两者在索引使用和查询优化层面也没有任何差别。这个测试结论具有很强的实践意义。它告诉我们，在DDL语句中，选择使用`BOOLEAN`还是`TINYINT(1)`，纯粹是代码可读性和团队规范的问题。例如，用`is_active BOOLEAN`可能更直观地表达“是否启用”的语义，而用`status TINYINT`则更适合表示多种状态值。理解这种底层映射关系，能帮助开发者在设计表结构时，做出更清晰、更符合意图的选择，避免不必要的困惑。

本机暂存

IT 2012-03-18 23:33:48 / 累计浏览 2,941

MySQL数据库之数据类型集合类型和枚举类型测试环境

这篇测试文章聚焦于MySQL中两种特殊数据类型：`SET`与`ENUM`的实战对比。作者搭建了测试环境，直接通过SQL语句演示了两者的核心差异：`ENUM`字段为单选型，一个列只能预定义一个合法值；而`SET`字段为多选型，允许存储预定义值的任意组合。文章详细展示了它们在插入、查询、更新时的不同行为，并验证了`SET`类型在底层如何使用位图进行存储，这使得它在处理如“用户兴趣标签”这类多选场景时效率更高。测试也指出了一个关键考量：虽然`ENUM`和`SET`能节省存储空间并提供数据完整性约束，但它们的值列表是固定的。当业务需求变更需要修改可选值时，操作较为繁琐。文章通过具体的测试用例，帮助开发者厘清了在哪些场景下选用`ENUM`（如性别、状态等有限的单选列）比使用`VARCHAR`更优，而在哪些场景下`SET`（如权限、标签等多选列）是更高效的选择。对于正在做数据库表结构设计的开发者而言，这些直接的测试结论很有参考价值。

本机暂存

IT 2012-03-18 23:31:51 / 累计浏览 3,361

MySQL 单表插入 10w+ TPS达成

作者完成了一个MySQL性能挑战：在单表插入场景下实现10万+的TPS（每秒事务数）。对于熟悉数据库优化的读者来说，这通常是一个需要多方面调优才能接近的指标。这篇文章记录的正是达成这一结果的实践过程。虽然正文以一句“装B留念”轻松带过，但标题本身传递了明确的技术成果和挑战性。作者很可能深入调整了包括硬件配置、MySQL参数、事务提交模式、甚至存储引擎选项在内的多个环节，才最终将单表顺序插入的吞吐量推高到了这个水平。这种级别的性能数据，对于设计高写入负载系统（如日志收集、时序数据、高并发交易记录）的架构选型和容量规划具有直接的参考价值。它展示了MySQL在特定写入模式下的性能天花板，并隐含了作者在实战中踩坑和优化的经验。

本机暂存

IT 2012-03-18 23:25:06 / 累计浏览 4,761

MySQL数据库之枚举数据类型ENUM的DDL变更测试

这篇讲的是MySQL中枚举类型ENUM字段在执行DDL变更时的一些重要发现。作者从日常运维中可能遇到的“给已有ENUM类型字段加新值”这类操作出发，系统测试了使用`ALTER TABLE ... MODIFY COLUMN`或`CHANGE COLUMN`对ENUM进行DDL变更（如添加、删除、重排序枚举值）时的真实行为。文章通过具体的实验，验证了这些变更操作是否会导致锁表、对在线业务的影响程度如何，以及在不同MySQL版本和不同数据量（空表 vs 大表）下的性能表现差异。例如，对于包含大量数据的表，直接修改ENUM定义可能带来意料之外的长时间锁等待。同时，文章也探讨了官方文档描述与实操结果之间可能存在的细微差别，比如某些操作在特定版本下其实会触发全表重建。这些基于实测的结论，为开发者和DBA在规划字段变更、进行版本升级或数据建模决策时提供了可靠的参考。它提醒我们，即便是看似简单的ENUM类型修改，也需要充分评估其潜在风险与执行成本。

本机暂存

IT 2012-03-12 23:50:44 / 累计浏览 4,406

MySQL数据库InnoDB数据恢复工具使用总结

面对误执行`DROP TABLE`、`TRUNCATE`或`DROP DATABASE`这类数据库“噩梦”，这篇文章分享了一个切实可用的开源工具——innodb-tools。作者从实际恢复经验出发，介绍了如何利用它从原始的InnoDB表空间文件中，直接提取并重组行记录，从而挽救那些已被删除或损坏的表数据。文章没有停留在理论层面，而是聚焦于“如何用这个工具救命”。它详细说明了该工具的工作原理：绕过MySQL服务层，直接解析底层数据文件，将散落在页（page）中的记录碎片拼接回来。对于遭遇过数据丢失的DBA或开发者而言，这提供了一个重要的兜底恢复思路。当然，工具的有效性严重依赖于数据文件本身是否仍完好，以及误操作后服务器的写入量。文章隐含地提醒读者，这类恢复是“争分夺秒”且充满不确定性的最后手段，核心仍在于预防和健全的备份策略。

本机暂存

IT 2012-03-12 23:43:05 / 累计浏览 3,122

数据库发展史知识普及

这篇讲的是数据库如何从早期系统一步步演化至今。作者梳理了几个关键阶段：从最早处理层级关系的层次型、网状型数据库，到CODD提出关系模型后开启的关系型数据库黄金时代，再到互联网时代为应对海量数据与高并发而兴起的NoSQL运动，以及后来试图融合两者优势的NewSQL。文章的重点不在于罗列技术名词，而在于揭示每种数据库范式是为解决哪类核心问题而生。比如，它对比了关系型数据库强一致性与事务保障的优势，与NoSQL为可扩展性与灵活性在一致性上做出的妥协，并解释了CAP理论在此过程中扮演的角色。同时，也提及了NewSQL如何试图利用新架构在分布式环境下重新提供SQL的完整功能。读下来，你能清晰看到技术选型背后的“为什么”——不同的数据模型、查询语言和系统设计，直接对应了从金融交易到社交网络等截然不同的应用场景。这篇文章将数据库的演进脉络与各阶段的技术取舍讲得比较明白，适合用来构建对这一领域的整体认知框架。

本机暂存

IT 2012-03-12 23:37:25 / 累计浏览 3,842

一个有趣的SQL查询

这篇讲的是如何用SQL解决一个实际的数据分析需求：从登录表中筛选出在指定时间段内连续7天都有登录的用户。作者从朋友遇到的一个具体问题出发，表结构包含用户ID和登录时间戳两个核心字段，看似简单，但“连续7天”这个条件对SQL查询能力提出了直接挑战。文章拆解了这个查询背后的逻辑难点——如何用集合操作去表达“连续”这个时序概念。读者可以跟随作者的思路，理解如何利用日期处理、窗口函数或自连接等SQL技巧，将连续天数的判断转化为可执行的查询语句。这种对常见业务指标（如用户活跃留存）的底层查询实现，往往比直接调用现成函数更考验对数据库原理的掌握。这类问题在用户行为分析、运营报告中极为常见。文章的价值在于，它不仅仅给出了一个答案，更展示了解决此类时序连续性问题的通用分析框架，下次遇到类似“连续N次”、“连续N个周期”的需求时，便能举一反三。

本机暂存

IT 2012-03-11 22:44:36 / 累计浏览 1,761

concat和outfile妙用

这篇讲的是，如何利用数据库本身的 concat 函数与 into outfile 语句，在紧急运维场景下，高效地将导出的数据直接转化为可执行的SQL。作者从一个常见痛点切入：当产品出现Bug或数据错乱时，我们经常需要从数据库A中查出一批数据（如用户ID列表），作为向数据库B执行更新或修复操作的条件。传统方法要么手动拼接SQL，要么依赖脚本，不仅效率低，而且在处理在线库的压力下极易出错，让DBA焦头烂额。文章的核心技巧在于，通过一条精心构造的SQL，将 concat 拼接逻辑与 outfile 结合。例如，可以直接生成类似 `UPDATE target_table SET ... WHERE id IN (导出的值列表);` 这样的完整SQL语句，并保存为文件。这步操作将原本需要分步进行的“查询-拼接-执行”流程合三为一，极大提升了数据操作的准确性和速度，尤其适合处理批量数据或复杂条件。对于经常面临数据紧急修复任务的运维和开发人员来说，这种“让数据库自己生成SQL”的思路，避免了中间环节的手动干预，是在高压环境下减少人为失误的一个非常实用的技巧。

本机暂存

IT 2012-03-11 22:39:14 / 累计浏览 7,024

HBase性能优化方法总结

这篇讲的是，针对 HBase 在实际使用中可能遇到的性能瓶颈，作者从应用程序设计与开发的角度出发，总结了几种行之有效的优化方法。文章明确指出，它聚焦于应用层面的实践，而非系统配置细节（后者则指向了其他专门的参考资源）。从行文来看，摘要应着重体现文章提供的具体优化手段及其应用场景，而不是空泛地谈论性能。这能让读者快速判断文章是否贴合自身在 HBase 开发或运维中遇到的实际问题。结尾自然收束，点明这些思路的实践价值即可。

本机暂存

IT 2012-03-11 22:19:14 / 累计浏览 2,682

主从同步失败,报错 1594

这篇讲的是一个MySQL主从同步中断的典型案例。作者从一起真实的故障出发，展示了从库复制线程因读取中继日志失败而停止的过程。故障现场非常清晰：从库的SQL线程在初始化后立刻因I/O错误中断，核心错误码是1594。错误日志详细给出了排查方向，直接指向中继日志的解析失败。作者指出，可能的原因包括主库的二进制日志损坏、从库的中继日志损坏、网络问题或代码缺陷。这篇文章的价值在于它没有停留在报错本身，而是提供了系统的排查思路。作者建议，首先要通过 `SHOW SLAVE STATUS` 确认当前涉及的日志文件名，然后分别使用 `mysqlbinlog` 工具去检查主库的二进制日志和从库的中继日志的完整性。这种从现象到可能原因，再到具体检查命令的剖析，为遇到类似“日志读取失败”问题的工程师提供了清晰的解决路径。

本机暂存

IT 2012-03-11 22:03:21 / 累计浏览 2,742

DBA的亲们应该知道的RAID卡知识

这篇文章专为数据库管理员（DBA）和关心存储性能的技术人员准备，深入剖析了RAID卡这一硬件在突破数据库IOPS瓶颈中的关键作用。作者从数据库应用常面临的I/O性能困境切入，指出软件层面的优化手段存在局限，而硬件层面的RAID与SSD则是直接有效的突破口。文章并未停留在概念层面，而是具体阐述了不同RAID级别（如RAID 0、1、5、10等）在数据库场景下的适用性差异。例如，它解释了为何对数据安全和写入性能要求苛刻的OLTP数据库，往往倾向于选择RAID 10；而对读密集型场景，RAID 5或6的经济性优势又在哪里。这种对比不仅讲清了技术点，更将选择逻辑与DBA的实际决策联系起来。最终，文章将RAID卡定位为数据库基础设施中不可忽视的一环，帮助DBA在规划存储方案时，能够基于业务需求（读写比例、容量、安全性）做出更精准的硬件选型与配置判断，而非仅依赖默认设置。

本机暂存

IT 2012-03-04 20:46:13 / 累计浏览 1,440

人肉解析riak_admin join

这篇讲的是 Riak 数据库中一个常用命令 `riak_admin join` 的底层实现解析。作者没有停留在命令行使用层面，而是采用“人肉”的方式，直接追踪源码，一步步揭开这个命令背后发生了什么。他发现 `riak_admin` 本质上只是一个 bash 脚本，当执行 `join` 操作时，脚本会调用 Riak 核心的 Erlang 代码，最终路由到 `riak_kv_console` 模块的 `join` 函数来完成集群节点加入的实际工作。文章清晰地展示了从用户敲下命令到系统执行核心逻辑的完整调用链。这种深挖源码的分析，不仅让读者知其然，更知其所以然。它绕过了官方文档的简略说明，直接展示了 Riak 内部如何优雅地将命令行接口与核心业务逻辑解耦，对于想深入理解分布式数据库管理命令实现原理的工程师来说，提供了非常扎实的技术细节。

本机暂存

IT 2012-03-04 20:40:44 / 累计浏览 6,664

mysql查询中利用索引的机制

这篇讲的是 MySQL 查询优化中一个典型的“索引陷阱”。作者从一次实际遇到的问题出发：明明数据表已经建立了合适的索引，EXPLAIN 执行计划也明确显示会使用该索引，但实际查询时却“言行不一”，最终还是扫描了全表，导致性能低下。文章详细复盘了这个排查过程。关键在于，EXPLAIN 的预估仅仅是优化器的“想法”，而最终是否使用索引还会受到运行时数据分布、统计信息是否准确、查询条件与索引的匹配度等多个细节因素的影响。作者在文中一步步分析了可能的原因，并最终定位到了问题的症结所在。对于经常与 SQL 性能打交道的开发者而言，这篇文章提供了一个鲜活的案例。它提醒我们，当“理论上应该走索引”而“实际没走索引”时，不能只看 EXPLAIN 的表面结果，更需要结合表结构、数据量和查询写法进行综合诊断，才能真正揪出性能瓶颈。

本机暂存

IT 2012-03-04 18:12:49 / 累计浏览 2,945

使用内置定时事件的功能来定时删除 binlog

这篇讲的是 MySQL 5.1.6 版本引入的一项实用功能：事件调度器（Event Scheduler）。它解决了数据库管理员需要定时执行维护任务（比如清理增长过快的 binlog）的需求，而此前这类工作往往只能依赖操作系统的定时任务。文章的核心对比点在于事件调度器与操作系统计划任务（如 Linux Cron）的精度差异。事件调度器可以精确到每秒执行一次任务，而操作系统任务通常只能精确到分钟。对于股票、比分这类对数据时效性要求极高的应用，这种毫秒级的调度能力就显得尤为关键。作者也厘清了一个常见概念：事件调度器有时被称为“临时触发器”，但它与基于表事件触发的普通触发器原理完全不同。文章最后提醒了一个关键前提：在使用该功能前，必须确保数据库的 `event_scheduler` 参数已经开启。对于希望简化运维、实现数据库内自治管理的团队来说，这是一个值得了解的内置解决方案。

本机暂存

IT 2012-03-04 17:53:36 / 累计浏览 3,801

用insert delayed减少阻塞时间

这篇讲的是如何解决高并发场景下，频繁 `INSERT` 操作导致的数据库阻塞问题。作者从一个非常具体的痛点出发：在消息队列、日志收集等高吞吐写入场景中，频繁的 `INSERT` 操作经常会互相阻塞，导致写入延迟飙升。为了解决这个“堵”的问题，文章推荐了一个经典的优化方案：使用 `INSERT DELAYED`。这个语句是 MySQL 提供的一种特殊写法，它告诉数据库：“你不必立刻把这个数据写进磁盘，先把它放到队列里，马上告诉我客户端已经处理了”。这样，数据库就能立刻释放锁和连接，去处理下一条请求，从而将原本同步、串行的阻塞过程，变成了异步、批量的处理。文章详细介绍了它的使用语法，并对比了普通 `INSERT`，说明它在哪些具体场景（如写入日志、临时数据缓存）下效果最好。当然，文章也指出了这个方案的适用边界，比如无法保证数据立即落盘，因此不适合对实时性要求极高的金融交易等场景。总的来说，它为受阻塞问题困扰的开发者提供了一个立竿见影、且原理清晰的优化思路。

本机暂存

IT 2012-03-04 17:51:43 / 累计浏览 3,864

自己动手实现Multi-Master Replication

这篇讲的是如何深入MySQL内核，通过修改源码来真正实现多Master复制，解决原生架构的局限性。作者从实际生产痛点出发：现有的MySQL复制（包括双主模式）在搭建大规模在线备份时管理成本极高。例如，线上有128个实例，就需要对等数量的实例做复制，这在运维上几乎无法承受。他们评估了现有的Perl脚本方案，发现存在监控缺失、管理不便等问题。与其修补外部脚本，不如直接在MySQL内部实现。核心思路是利用MySQL自身的复制管理框架，扩展其能力以支持多个Master同时向一个Slave提供数据流。这样不仅能统一管理，还能继承MySQL原生的监控和运维接口。巧妙之处在于，这个实现并非从零构建一个复制系统，而是“站在巨人肩膀上”进行扩展，大幅降低了复杂度。文章详细分享了这一过程的实现细节与思考，为有类似高可用或复杂复制需求的团队提供了一个可落地的深度定制方向。

本机暂存

IT 2012-03-04 17:22:24 / 累计浏览 36,327

MySQL数据库在实际应用一些方面的介绍

这篇讲的是MySQL数据库实际应用中的一个基础但关键的细节。作者从实际操作出发，直接点明了一个初学者甚至一些有经验的开发者都容易卡壳的地方：在连接上数据库之后，具体的命令和操作该如何正确执行。文章的核心就两点：一是所有的实际操作，都必须在成功登录MySQL并看到其命令行提示符（通常是 `mysql>`）之后才能进行；二是输入的每一条命令，都需要用英文分号 `;` 来作为明确的结束标志。这两个规则听起来简单，却是确保命令被正确识别和执行的前提。很多执行失败或报错的情况，根源就在于登录步骤缺失或忘了输入分号。作者没有深入讲复杂的语法，而是把这个最前置、最根本的规则讲清楚，帮助读者在动手写查询或建表语句之前，先搭好一个正确的操作环境。掌握了这两点，后续在命令行里的实践才能顺畅地开展。

本机暂存