数据库

共 1083 篇文章

IT 2011-12-18 22:04:35 / 累计浏览 4,263

MySQL高可用性大杀器之MHA

这篇讲的是MySQL高可用方案的选择难题。作者从常见的MySQL Cluster、Heartbeat+DRBD等复杂方案入手，指出它们实施门槛较高，转而聚焦于基于MySQL复制的简化高可用方案。文章对比了MMM、PRM和MHA三种主流选项。它犀利地指出MMM“带来的问题往往比解决的问题还多”，而PRM作为Percona的新项目虽值得期待，但尚未成熟到可用于生产环境。相比之下，MHA凭借其在DeNA等公司大规模生产环境中的长期稳定运行，被证明是一个靠谱且经过实战检验的工具。作者通过这一系列梳理和对比，清晰地为读者指明：在追求MySQL高可用性的路上，MHA是当前平衡了易用性与可靠性的务实之选。

本机暂存

IT 2011-12-18 21:55:57 / 累计浏览 2,023

BITMAP CONVERSION 执行计划导致CPU 100%

这篇讲的是Oracle 9i中一个容易被忽视的性能陷阱：查询优化器有时会错误地将B-Tree索引隐式转换为BITMAP CONVERSION来执行SQL。这种转换本身可能发生在看似合理的查询写法下，但其生成的执行计划往往非常低效，在数据量较大时会直接打满CPU，造成严重的生产事故。文章深入剖析了这一现象的触发条件——通常与优化器对索引结构、数据分布或特定查询模式的误判有关。它不仅解释了“为什么会出现这种糟糕的执行计划”，更关键的是给出了实际的规避与解决路径，例如调整统计信息、修正SQL写法或使用优化器提示（hint）。对于仍在维护老系统或遇到类似离奇性能问题的DBA与开发者来说，这篇内容直指痛点，提供了清晰的排查思路和解决依据。

本机暂存

IT 2011-12-14 13:40:19 / 累计浏览 3,366

Raid1+0 stripe size for MySQL InnoDB

这篇讲的是如何为运行MySQL InnoDB的服务器配置Raid1+0阵列时，一个常被忽略却至关重要的参数——stripe size（条带大小）。作者指出，stripe size直接决定了数据在多块磁盘间的分布粒度，进而影响数据库的读写I/O模式与整体性能，是一个需要根据实际负载精心调优的设置。为了找到最佳实践，作者进行了一系列针对性测试，对比了不同的stripe size（如64KB、256KB等）在典型OLTP负载下的表现。测试数据表明，较小的stripe size可能因过于频繁地跨盘寻址而增加延迟，而过大的stripe size则可能无法有效利用阵列的并行读写能力，导致单盘成为瓶颈。文章具体分析了这些设置对随机读写和顺序吞吐量的不同影响。最终结论并非给出一个“万能值”，而是强调必须结合实际的应用负载特征来选择。例如，对于以大量小随机写入为主的InnoDB场景，一个中等偏小的stripe size往往表现更优。这篇文章为数据库管理员提供了一个清晰的调优思路和具体的参考数据，帮助他们在部署或优化存储层时做出更科学的决策。

本机暂存

IT 2011-12-11 15:36:05 / 累计浏览 2,040

oracle字符集理解

这篇讲的是Oracle数据库中字符集的概念与选择。作者从字符集如何影响数据存储和处理的基本原理出发，深入剖析了不同字符集，比如AL32UTF8与ZHS16GBK，在存储效率、字符支持范围以及兼容性上的关键差异。文章具体阐释了Unicode字符集（如AL32UTF8）如何统一支持多语言，并在国际化场景中避免乱码问题；同时也对比了传统本地字符集（如ZHS16GBK）在特定环境下的存储空间优势。通过实例说明了字符集转换可能带来的数据截断风险，以及数据库迁移或开发时选错字符集导致的实际故障。最终，文章给出了明确的选型建议：新系统应优先考虑UTF-8以保障通用性，而对已有中文专用的旧系统，则需谨慎评估迁移成本与收益。这对于正在规划数据库架构或处理遗留系统数据的工程师来说，提供了清晰的技术决策依据。

本机暂存

IT 2011-11-24 00:06:27 / 累计浏览 3,664

Oracle Database Appliance

这篇讲的是Oracle Database Appliance——一款主打“软硬件协同设计”的数据库一体机。它直指传统数据库部署中的一个核心痛点：管理员需要花费大量精力在硬件选型、操作系统与数据库的兼容性调试、以及后续的补丁与性能优化上。而OBA方案的核心，正是将经过严格测试和优化的Oracle数据库软件，与定制化的服务器、存储硬件深度集成，形成一个预配置、预调优的“黑盒子”。这意味着从物理层到数据库层的堆栈都作为一个整体来管理和更新，从而省去了繁琐的前期准备和复杂的故障排查环节。文章深入探讨了这种一体化设计带来的具体收益，包括开箱即用的快速部署、通过内置高可用架构简化运维、以及因软硬件协同而实现的稳定性能。对于那些追求业务连续性、希望降低数据库基础设施管理复杂度的企业而言，这提供了一种高度整合、旨在减少人为配置错误的明确选择。其价值不仅在于节省时间，更在于将技术复杂性封装在产品内部，让团队能更专注于应用层本身。

本机暂存

IT 2011-11-24 00:05:25 / 累计浏览 4,747

MTU值的调整导致MySQL复制异常

这篇讲的是一个看似简单却相当隐蔽的运维案例：当管理员将网卡MTU值从默认的1500调整至3000、6000甚至9000后，本应正常的MySQL主从复制突然变得异常。文中描述，复制过程出现了难以理解的卡顿或延迟，现象十分“诡异”，让排查者一时摸不着头脑。作者从这一意外状况出发，抽丝剥茧。问题根源往往藏在协议栈的深层交互里：调整MTU（最大传输单元）会改变网络层处理数据包的方式，可能引发TCP层的分片与重组行为变化，或是与MySQL复制所依赖的特定网络设置产生微妙冲突。文章记录了从现象到定位的过程，最终将问题直接锚定在“MTU值调整”这一操作上，并可能涉及到如何通过配置回退或更精细的参数调整来解决。这个案例的价值在于，它生动地揭示了底层网络配置对上层数据库应用的直接影响。一个通常被认为是“性能优化项”的设置，却可能在特定场景下触发难以预料的故障，提醒我们在进行任何系统级变更时，都需要考虑其连锁反应。

本机暂存

IT 2011-11-24 00:03:13 / 累计浏览 2,961

Infobright 数据仓库心得总结

这篇讲的是作者在实际项目中使用 Infobright 数据仓库的经验总结。Infobright 是一个基于 MySQL 的列式存储引擎，作者从自己的使用场景出发，梳理了它与传统行式数据库的关键差异。核心在于，Infobright 采用“粗粒度索引”和高性能数据压缩技术，这使得它在海量数据的分析查询场景下，尤其是数据仓库和报表类应用中，查询速度和数据压缩率远超常规的 MyISAM 或 InnoDB 引擎。文章指出，这种架构的优势在面对只读或极少更新的大型数据集时尤为明显，但同时它的写入和更新性能相对较弱，因此更适合用于ETL处理后的结果存储与查询。作者通过具体的应用体会，点明了 Infobright “以空间换时间”、专注于加速分析型查询的设计哲学。对于正在评估开源数据仓库方案，或者需要优化现有数据分析平台性能的技术团队来说，这篇基于实战的总结，清晰地划定了 Infobright 的能力边界与最佳适用场景。

本机暂存

IT 2011-11-23 23:49:15 / 累计浏览 3,623

MySQL 数据库性能优化之索引优化

这篇讲的是 MySQL 索引优化，作为性能优化专题的第三篇，它接续了表结构优化的讨论。作者首先点明索引的核心价值——它像一本书的目录，能让数据库快速定位数据，避免全表扫描这种“逐页翻书”的低效操作。接着，文章深入剖析了不同索引类型（如 B+ 树、哈希索引）的底层差异与适用场景，强调了联合索引中“最左前缀”原则的重要性。更实用的是，文章列举了多种导致索引“失效”的常见陷阱，例如在索引列上使用函数、隐式类型转换或进行前导模糊查询（like '%keyword'），并通过具体示例展示了这些写法如何让精心设计的索引形同虚设。最后，它落脚于实践，给出了建立高效索引的通用策略，比如对区分度高的列建索引、利用覆盖索引减少回表，以及定期用 EXPLAIN 分析查询计划。整篇文章从原理到陷阱再到最佳实践，为开发者提供了一份清晰的索引调优路线图。

本机暂存

IT 2011-11-23 23:44:39 / 累计浏览 3,246

Oracle数据恢复:格式化,Raid损坏,文件覆盖恢复

这篇讲的是Oracle数据库在遇到极端故障后的实战恢复案例集合。作者从三个真实客户场景出发，记录了格式化、RAID损坏以及文件覆盖这三种棘手情况下，数据是如何被成功挽救的。对于“格式化”场景，文章深入到了存储底层，介绍了如何通过特殊的扫描与重组技术，在文件系统元数据已破坏的情况下，找回关键的数据库文件。而在“RAID损坏”的案例里，焦点则转移到了存储阵列层面，剖析了在RAID卡或成员盘故障后，如何结合存储日志与Oracle自身的容灾机制进行一致性重建。最令人印象深刻的是“文件覆盖”的恢复，这通常是最危险的情况，作者详细说明了利用Oracle的闪回技术与时间点恢复，如何将数据库精准回滚到误操作前的状态，最大程度减少了业务损失。这些案例不仅展示了各种高难度恢复手段的原理，更重要的是复盘了从故障发生到方案制定的完整思考路径。对于从事数据库运维或架构的团队来说，这些踩坑记录和应对策略，提供了非常具体且可参考的应急处理蓝本。

本机暂存

IT 2011-11-21 00:18:34 / 累计浏览 2,782

Amazon SimpleDB

作者从四年前对Amazon SimpleDB的批评出发，回顾了该服务的演进。当初SimpleDB刚推出时，因不支持排序而被形容为“一条腿的路”，功能严重残缺，作者在当时的日志中直接指出了这一缺陷。如今，SimpleDB早已补齐了排序能力，并在此基础上增添了多项新功能，让它的实用性和灵活性大大提升。最近在浏览AWS生态时，作者决定重新审视这个老牌服务，记录下它的变化。 SimpleDB作为AWS早期的NoSQL数据库，曾因功能局限饱受诟病，但现在它不仅支持排序查询，还扩展了更多操作和管理特性，反映出AWS在云数据库领域的持续优化。通过这次复盘，读者可以看到一个云服务从初出茅庐到成熟稳定的过程，也提醒我们技术评估需要与时俱进——过去的短板未必是现在的局限。对于考虑使用AWS服务的开发者来说，这提供了重新认识SimpleDB的机会，思考如何在现有架构中利用其改进。

本机暂存

IT 2011-11-21 00:17:40 / 累计浏览 3,044

Oracle NoSQL Database

这篇讲的是Oracle新发布的NoSQL数据库。作者从Oracle近日提供该数据库企业版下载切入，快速梳理了文档透露出的关键信息。文章明确指出了当前版本的一个核心事实：目前下载只包含企业版，开源的社区版尚未提供，因此暂时无法查看源码。不过，即便基于现有文档，也能初步勾勒出这款数据库的特点。作者的快速总结，为读者提供了一个了解Oracle这项新产品技术轮廓的快捷入口。虽然缺乏源码级的剖析，但文章聚焦于产品发布的现状和获取途径，这对评估该数据库是否符合自身技术选型需求，提供了直接、必要的基础信息。如果对Oracle在NoSQL领域的布局感兴趣，这是一个值得持续关注的起点。

本机暂存

IT 2011-11-21 00:03:16 / 累计浏览 3,342

Tokyo Tyrant 与 Redis 的一些简单比较

这篇博客文章对Tokyo Tyrant和Redis这两款知名的键值存储系统进行了实用对比。作者从实际应用场景出发，剖析了两者在架构设计、性能特点和功能支持上的核心差异。文章指出，Tokyo Tyrant基于磁盘存储引擎Tokyo Cabinet，强调数据的持久化和可靠性，适合需要大容量存储且对写入速度要求不极端的场景；而Redis以内存为基础，支持丰富的数据结构（如字符串、哈希、列表），在读写速度和实时性上优势明显，常用于缓存和消息队列。作者还提及了各自的网络协议和集群能力差异，例如Redis的发布/订阅功能和Tokyo Tyrant的简单键值操作。通过这些对比，文章帮助读者理清选择思路：如果应用需要高速缓存或复杂数据操作，Redis更为合适；若更看重持久化和成本控制，Tokyo Tyrant则是值得考虑的选项。整体上，文章以清晰的框架呈现了技术选型的关键考量点。

本机暂存

IT 2011-11-16 23:43:06 / 累计浏览 3,782

redis内存容量的预估和优化

这篇讲的是Redis内存管理中一个很实际的问题：如何在数据写入前就预估并控制内存占用。作者从Redis全内存存储的特性出发，聚焦于最常用的string和zipmap（即压缩列表）两种数据结构，深入分析了它们在jemalloc内存分配器下的实际内存开销计算方法。文章没有泛泛而谈理论，而是提供了具体的计算公式和考量因素。例如，对于string类型，除了数据本身，还详细拆解了jemalloc的内存分配策略（如16字节的chunk和size class）如何影响最终占用；对于zipmap，则解析了其内部结构的字节级开销，让读者能像拼图一样算出真实内存。在此基础上，作者分享了针对性的优化技巧，比如控制键值长度、利用ziplist编码阈值等，都是能直接落地操作的建议。对于正在面对Redis内存压力或想精细化运维的工程师来说，这篇文章提供了一套从预估到优化的完整思路，帮助你在资源规划时做到心中有数，避免线上突发内存不足的窘境。

本机暂存

IT 2011-11-14 00:02:01 / 累计浏览 3,021

千万别用MongoDB？真的吗？！

这篇讲的是围绕“千万别用MongoDB”这一激进观点的多角度技术辩论。作者首先呈现了一位开发者发布的血泪控诉长文翻译，其中详细列举了使用MongoDB时遭遇的数据丢失、异常行为等问题。然而，文章并未止步于单方面的批评，作者紧接着引用了MongoDB官方公司10gen CTO的正式回应，并追踪了Reddit以及Hacker News上社区的广泛讨论，其中甚至出现了程序员深入阅读MongoDB源码以验证问题的行动。通过梳理这场争论的全过程，文章最终得出结论：那些被控诉的严重问题，在综合官方解释和社区验证后，可能并不如最初所宣称的那样确凿。这提醒我们，在技术选型中面对极端论断时，追溯多方信源、理解技术实现的上下文至关重要。

本机暂存

IT 2011-11-06 22:55:23 / 累计浏览 2,241

MySQL 数据库性能优化之缓存参数优化

这篇讲的是MySQL性能优化系列的第一篇，专门从最基础的缓存参数入手。作者从日常被问得最多的性能问题出发，没有泛泛而谈，而是直接聚焦于缓存——这个对查询速度影响极大的环节。文章详细拆解了几个关键缓存参数，比如innodb_buffer_pool_size和key_buffer_size，解释了它们各自负责缓存什么数据，以及设置不当会导致的性能瓶颈。通过具体的配置示例和对比，文章清晰地展示了不同参数组合在读写密集型场景下带来的性能差异，比如将innodb_buffer_pool设置为物理内存的50%-75%后，重复查询的响应时间能缩短多少。对于初中级DBA来说，这篇文章提供了一份实用的参数调优清单，让你明白在资源有限时，应该优先保障哪个缓存的分配，以及如何根据应用的特点（是偏读还是偏写）来做精细化的调整。

本机暂存

IT 2011-11-06 22:48:23 / 累计浏览 4,486

MySQL 数据库性能优化之表结构

这篇是MySQL性能优化系列的第二篇，紧接在缓存参数优化之后，把焦点从运行时配置转向了数据库的地基——表结构设计。作者从实际开发中常见的低效查询入手，指出很多时候性能瓶颈的根源并非代码或配置，而是不合理的表结构。文章系统梳理了几个核心优化方向：如何为字段选择最合适的类型以节省存储与I/O，怎样建立高效的索引策略来加速查询，以及在何种场景下打破范式、进行合理的反规范化设计。通过对比不同设计方案的优劣和适用场景，文章强调了良好的表结构不仅能显著提升查询速度，还能降低后期维护的复杂度。这是一篇对数据库设计基本功的扎实回顾。

本机暂存

IT 2011-11-06 22:35:35 / 累计浏览 4,682

MySQL为什么要引入Thread Pool的线程处理模式

这篇讲的是 MySQL 线程处理模式的一次重要演进。作者从 MySQL 5.5.16 版本将 Thread Pool 作为官方插件支持切入，梳理了此前两种常见的线程处理模式：一种是主要用于调试的 `no-threads` 单线程模式，另一种是默认的 `one-thread-per-connection` 模式——即为每一个客户端连接分配一个独立线程。文章核心对比了这几种模式的关键差异。老模式在连接数剧增时，会因创建和销毁大量线程而产生显著的性能开销与资源消耗，成为高并发场景下的瓶颈。而官方引入的 Thread Pool 模式，本质上是通过一个线程池来集中管理和复用线程，用有限的线程处理大量的并发请求，从而降低系统开销，提升服务器的资源利用效率和稳定性。作者通过这段演变说明，Thread Pool 的引入正是为了解决 `one-thread-per-connection` 在大规模并发下力不从心的背景问题。其核心方案是将线程处理模式设置为 `dynamically-loaded`，以插件形式加载线程池功能，为应对高负载生产环境提供了一种更优的架构选择。

本机暂存

IT 2011-11-06 22:28:32 / 累计浏览 3,102

Memcached的LRU算法

这篇讲的是 Memcached 如何通过精巧的 LRU（最近最少使用）算法来高效管理缓存内存。作者从 Memcached 面对海量短周期数据时需要的淘汰机制入手，深入分析了其实现的“分段 LRU”与“惰性删除”机制。核心在于，它并非简单的链表操作，而是结合了哈希表实现 O(1) 的快速访问，并通过多个独立子链表来应对不同 TTL（存活时间）的数据流，避免了新旧数据的互相驱逐。文章特别指出了其中的巧妙之处：通过后台线程定期“爬取”链表尾部的数据进行清理，既减轻了主线程的实时压力，又能平滑处理内存波动。作者结合源码和模拟场景，展示了这套算法如何在保持高性能的同时，有效防止缓存雪崩，确保热点数据不被意外剔除。对于理解高并发缓存系统的内存设计，这提供了非常具体的实现参考。

本机暂存

IT 2011-11-04 22:24:17 / 累计浏览 3,123

一种以ID特征为依据的数据分片（Sharding）策略

这篇讲的是在分布式系统中如何给数据做分片。作者从一个具体痛点出发：用雪花算法生成的ID虽然全局唯一，但它们自带时间属性。如果简单地按ID范围或时间范围做分库分表，很容易导致数据分布不均，最新的请求和数据会集中打在同一个分片上，形成热点。文章提出的核心策略是“以ID特征为依据”。它深入分析了雪花ID的二进制结构——其中包含了时间位、自增位和机器位。方案的关键思路不是直接利用时间位，而是巧妙地利用了每台机器在毫秒内生成的自增序列位。通过对ID进行位运算或取模，将数据相对均匀地分散到各个分片中。这样即使ID有时间趋势，实际的写入压力也能被有效打散。这种策略的结论很直接：它在不引入复杂路由算法的前提下，实现了数据的均匀分布，有效避免了热点问题，同时保留了ID本身的有序性。对于使用雪花ID且面临分片压力的系统，这提供了一种直接、高效的优化思路。

本机暂存

IT 2011-11-04 21:53:57 / 累计浏览 2,263

关于自动分裂的思考

这篇讲的是分布式系统中自动分裂技术的实践思考。作者从自动分裂、自动迁移和负载均衡这三个常被一起讨论的技术点出发，指出它们共同支撑着系统的可扩展性与性能。文章特别提到，像 Google 的 BigTable 和 Yahoo 的 PNUTS 这类知名系统都实现了自动分裂功能，这也曾让作者认为它应是优秀分布式系统的“标配”。不过，文章并未止步于介绍概念。作者结合自身经验，分享了对自动分裂实际价值的反思：它虽能带来扩展性，但其复杂性和潜在的运维成本是否始终值得？在何种场景下，它才是真正的必需品而非“过度设计”？这种从“理所当然”到“审慎评估”的视角转变，为技术选型提供了更务实的参考。

本机暂存