Alibaba DBA Team -- IT技术博客大学习 -- 共学习共进步！

首页 / Alibaba DBA Team

IT 2012-06-03 14:10:01 / 累计浏览 3,700

一个DBA眼中的HBase

这是一位一线DBA对流行技术的冷静思考。当HBase与NoSQL的光环铺天盖地时，作者从日常运维的视角，剖析了那些光鲜宣传背后的实际挑战。文章没有复述官方特性，而是直指几个核心痛点：比如高并发写入下的性能瓶颈、复杂查询的局限性，以及运维管理的复杂度。作者结合自身经验，点明了在特定业务场景下可能出现的“水土不服”，例如强一致性要求或复杂Join查询时的尴尬。其价值不在于否定技术，而是提供了一份来自“用户现场”的平衡报告。它提醒技术决策者，选型不能只看热度，必须紧扣业务特性与团队运维能力。对于正在评估或已深陷HBase运维的团队来说，这篇来自DBA的真诚复盘，或许能帮你避开一些理想的陷阱。

本机暂存

IT 2010-11-28 18:56:00 / 累计浏览 4,220

Oracle hash join

这篇讲的是Oracle中hash join的运作原理，它被作者称为一个“非常强悍的功能”。文章没有停留在理论，而是直白地剖析了其核心流程：Oracle首先会选择一个表作为驱动表，根据过滤条件进行筛选，然后将结果集构建成一个哈希表存放在进程的PGA内存（hash area）中。接着，它再去扫描第二张表，对每一行的键值进行哈希运算，并到内存的哈希表中去“探测”，命中则返回数据，否则丢弃。但文章的重点不止于此。作者紧接着点出了关键现实约束：考虑到单个进程PGA内存的大小，Oracle并不会允许无限制地消耗系统内存。因此，这个看似直接的过程在Oracle内部实际上被细化为三种不同的执行模式。这恰恰解释了在不同数据规模或内存条件下，查询计划为什么会发生差异。文章从原理讲到内存限制的现实考量，为读者勾勒出一个更立体的hash join图景，其细节对于理解数据库性能和配置背后的逻辑很有启发。

本机暂存

IT 2010-11-07 22:42:09 / 累计浏览 3,760

oracle数据库的CPU/IO信息采集

这篇讲的是如何在Oracle数据库中系统化地采集CPU与IO性能指标。作者从实际运维需求出发，详细拆解了通过V$SYSSTAT、V$SYSTEM_EVENT等动态性能视图获取关键数据的方法，并给出了具体的SQL查询示例。文章不仅说明了如何抓取CPUTime、User IO Wait Time等核心时间统计，还深入解析了逻辑读、物理读等IO指标的采集逻辑。特别值得注意的是，作者将操作系统级监控与数据库内部视图相结合，形成了完整的监控闭环，为性能瓶颈定位提供了清晰的量化依据。整篇内容扎实，可操作性强，对于需要构建Oracle监控体系的DBA而言，是一份能直接落地参考的技术指南。

本机暂存

IT 2010-06-03 13:30:06 / 累计浏览 2,000

Linux一些页的东西

这篇从Linux内存管理中一个常见却容易混淆的概念切入：Page cache与Buffer cache的关系。作者开篇即点明，许多开发者习惯将两者并列讨论，但实际上它们存在明确的包含与交互层次——Page cache是更上层的抽象，它完全涵盖了Buffer cache；在现代Linux内核的实现中，所有的磁盘I/O操作在内存层面都统一经由Page cache进行管理，内存子系统不再直接与Buffer cache对话。这种设计巧妙地将文件系统缓存与块设备缓存进行了整合，简化了内存管理的复杂度。文章用清晰的逻辑梳理了这一演变，帮助读者理解为何我们在查看系统内存使用时，Buffer cache的数值会包含在Page cache之内。理解这一点，对于准确分析系统性能、解读`free`命令输出等日常运维场景，能提供一个更坚实的底层认知基础。

本机暂存

IT 2010-05-25 13:31:12 / 累计浏览 3,640

ORACLE BITMAP INDEX

这篇从我们对Oracle Bitmap索引的常见误解出发，讲的是它远不止适用于“性别”这类低基数字段。作者澄清了一个关键点：虽然它在数据仓库和复杂查询中优势明显，但在高并发、多更新的OLTP系统中，其锁机制可能带来性能问题。文章的核心在于对比 Bitmap 索引与 B 树索引的适用场景差异。它详细剖析了 Bitmap 索引的存储结构——通过位图（Bit Set）来快速标识行的存在，这使得它在进行多条件AND/OR查询时，能通过极其高效的位运算（Bitwise Operations）快速得出结果集，性能远超传统的B树索引组合。然而，这种结构的写入锁定机制（一个会话锁定一个位图段会阻塞其他会话）也决定了它不适合频繁更新的表。作者的结论很明确：选择索引类型必须基于数据分布、查询模式与事务特性的综合评估。这篇文章为我们厘清了Bitmap索引的真实面貌，避免了在OLTP系统中误用的风险，也为数据分析场景提供了更优的索引思路。

本机暂存

IT 2010-03-29 08:58:20 / 累计浏览 3,060

Oracle高可用架构

这篇讲的是Oracle MAA（最大可用性架构）的全景式解读。作者从一个核心问题出发：如何设计数据库系统，才能在硬件故障、数据中心灾难等各种场景下，依然保持服务可用甚至不中断？文章没有堆砌枯燥的理论，而是将MAA架构拆解为几个关键维度来剖析——从本地高可用的RAC，到数据保护的Data Guard，再到云环境下的综合方案。它把Oracle多年来围绕高可用、容灾和性能优化推出的一系列“武器”清晰地串联了起来，点明了每个组件适合解决什么问题，以及它们如何协同工作形成完整的防护网。对于正在规划数据库架构或评估容灾方案的工程师来说，这种结构化的梳理非常实用。它帮你快速建立起从单机到集群、从本地到异地的完整认知框架，理解各种技术选择背后的权衡与定位。

本机暂存

IT 2010-03-03 09:08:49 / 累计浏览 2,760

不平衡的索引?

这篇讲的是数据库索引中一个容易被忽视但影响巨大的问题——“数据分布不均衡”。作者从一个实际场景出发，探讨了当索引列的值分布极不平衡（例如，某个值占据了99%的数据）时，常规的查询优化策略为何会失效，甚至导致性能骤降。文章深入分析了这种“不平衡索引”带来的负面影响：基于代价的优化器可能会错误地选择全表扫描而非索引扫描，使得精心设计的索引形同虚设。作者不仅指出了问题，更给出了实用的诊断方法，比如如何通过`ANALYZE`查看统计信息，以及观察`EXPLAIN`输出中的关键指标。针对这一困境，文章对比了几种可行的解决方案。例如，可以考虑使用函数索引对数据进行转换以实现平衡，或者在业务允许的情况下，直接使用常量索引来处理这种极端偏斜的查询。最后，作者提醒大家，在设计表结构和索引时，预先考察数据分布的特征至关重要。这篇文章为开发者理解和解决索引性能的“隐性陷阱”提供了清晰的思路。

本机暂存

IT 2010-03-03 09:08:17 / 累计浏览 2,520

为什么Oracle不使用我的索引?!

这篇讲的是一个典型的 Oracle 索引失效问题，但根因却藏在统计信息里。作者在分析一个真实案例时发现，开发者明明在查询条件中使用了索引列，且 `SELECT` 了需要的字段，Oracle 却总是顽固地选择全表扫描。深入诊断后发现问题出在 CBO（基于成本的优化器）所依赖的统计信息上。由于表上的列分布发生了剧烈变化（例如一个10G的表上跑了半年的DDL），旧的统计信息与现实严重不符，导致优化器对索引选择性的估算出现了致命偏差。更有趣的是，文中还提到了 `cardinality feedback` 这个机制，它在首次硬解析时选择了全表扫描，并在软解析时“锁死”了这个错误的执行计划，让问题变得更加隐蔽。解决方法看似简单却容易被忽视：及时使用 `DBMS_STATS` 包刷新相关对象的统计信息，让优化器能基于准确的“地图”来规划路径。这个案例提醒我们，当索引“不工作”时，除了检查查询写法和索引本身，数据库的统计信息健康状态是必须排查的关键环节。

本机暂存

IT 2010-02-09 09:03:50 / 累计浏览 1,620

在Oracle 9中伪造存储概要

这篇讲的是作者在Oracle 9这个相对老旧的数据库环境中，如何另辟蹊径来“伪造”存储概要功能。众所周知，Oracle自带的存储概要（Stored Outline）可以用来固化SQL的执行计划，防止因统计信息变更或环境差异导致性能波动。但在Oracle 9中，原生功能的管理和灵活性都比较有限。作者的出发点很明确：在生产环境中，需要一种更轻量、更可控的方式来稳定关键SQL的执行路径，而不必完全受限于原生存储概要的僵化管理流程。他所采用的核心方案，是巧妙利用Oracle的计划稳定特性与SQL Profile等机制的结合点，通过一系列步骤“模拟”出等效于存储概要的计划绑定效果。文章的价值在于，它并非纸上谈兵，而是从实际的运维痛点切入，详细拆解了从问题定位、方案设计到具体实施的关键步骤。对于需要在老版本Oracle上进行深度性能优化的DBA或开发者来说，这种“伪造”思路提供了一种实用且灵活的工程化解决方案，展示了如何通过技术组合来弥补平台功能的不足。

本机暂存

IT 2010-01-14 09:29:11 / 累计浏览 1,920

化整为零访问大表的三种方式

这篇讲的是在数据库场景下，面对数据量庞大的大表时，如何避免全表扫描和性能瓶颈的几种经典思路。作者从“分而治之”这个基本思想出发，具体介绍了三种常见的技术手段：一是通过分页查询或游标，将一次性请求拆解为多次小批量读取，以控制单次资源消耗；二是借助数据库的分区或分表功能，从物理存储层面将大表逻辑化小，提升查询定位效率；三是利用覆盖索引等优化手段，让查询只命中索引而不回表，从而极大减少数据访问量。文章不仅解释了每种方式的原理，还结合实际场景分析了它们各自的优劣与适用边界，比如第一种方式对应用层改造较小，但可能增加网络交互；第二种方式查询性能最好，但需要前期规划；第三种方式能快速提升读性能，但会带来写开销。这种将复杂问题拆解为不同技术路径进行对比的写法，能帮助读者根据自身业务数据量、查询模式和团队维护成本，做出更贴合实际的技术选型。

本机暂存

IT 2009-11-18 09:19:36 / 累计浏览 2,980

一个使用PC服务器的高可用性方案介绍

传统小型机加存储的架构成本高且扩展性有限，作者从硬件性能飞跃的角度提出了一种替代方案。他指出，凭借英特尔Nehalem处理器的强大性能和SSD硬盘的高IOPS，使用高性能PC服务器完全具备取代传统小型机的实力——以2009年发布的Nehalem为例，两颗四核CPU的性能已可媲美甚至超越同期中型小型机。存储方面，单块SLC SSD即可达到上万IOPS，通过多块SSD组成的阵列，其随机读写性能足以匹敌高端磁盘存储。该方案的核心逻辑在于利用标准化、易扩展的PC硬件构建高可用集群，从而摆脱专用硬件的锁定。这不仅显著降低了硬件采购与维护成本，其横向扩展能力也更适合应对业务增长。作者用具体数据证明了PC服务器在计算与I/O两个关键维度上都已具备可行性，为追求性价比和弹性的企业提供了一条新的架构思路。

本机暂存

IT 2009-11-06 09:15:46 / 累计浏览 2,560

11G数据库进程介绍

这篇讲的是作者将数据库升级到11G后，面对突然增多的后台进程所做的梳理与总结。它从一次实际的版本升级体验出发，直接切入正题——这些11G新增的进程究竟是做什么用的。文章的核心内容，就是对这些进程的作用进行逐一解码。作者没有停留在简单罗列，而是结合自己的观察和理解，试图说清楚每一个新进程在11G架构中的角色和职能。对于DBA或运维人员来说，理解这些进程是日常监控、性能诊断的基础，它们的出现往往意味着内核行为、资源管理或新功能模块的变化。这种从实际变更出发、逐个剖析的写法，让抽象的内核组件变得具体可感。文章相当于提供了一份针对11G环境的“进程说明书”，帮助读者快速建立对新版本运行状态的认知地图。作者对每个进程的梳理，为后续更深入的性能分析或问题排查打下了基础。

本机暂存

IT 2009-11-06 09:15:12 / 累计浏览 3,500

应用DBA的价值

这篇整理自一场小范围讨论，深入探讨了应用DBA的价值及其对团队的贡献。作者引用了多位资深专家的见解（70%引自大师），剖析了DBA在现代技术团队中的关键角色，背景源于对数据库管理实践的反思。核心观点在于，DBA不仅是数据库的守护者，更是团队效率的加速器。具体来说，DBA通过优化查询性能、预防故障和确保数据一致性，直接提升了应用的稳定性和响应速度。文章指出，在快速迭代的开发环境中，DBA的价值常被低估，但其贡献如减少宕机时间、优化资源利用，对业务连续性至关重要。讨论还强调了DBA在团队协作中的桥梁作用，能连接开发、运维和业务部门，帮助早期识别数据层风险。对读者而言，这篇文章提供了重新审视DBA角色的视角，启发团队在架构设计中更早地纳入DBA的专业知识，以避免潜在问题并提升整体协作效率。通过实际讨论的梳理，它让抽象的技术价值变得具象

本机暂存

IT 2009-10-10 23:58:30 / 累计浏览 2,780

11G real time query,BUG不是一般的多

这篇讲的是 Oracle 11G 数据库一个相当隐蔽的坑。作者在实际运维中发现，当主库对一张表执行了 truncate 操作后，去物理备库上查询这张表，有时会令人困惑地抛出 `ORA-08103: object no longer exists` 错误。明明对象还在数据字典里，查询却报不存在，这让日常的数据核对和报表生成工作很头疼。问题的根源被定位到 Oracle 11G 版本中，与实时查询（Active Data Guard）功能相关的一个已知 bug。在特定的操作序列下，备库未能正确同步主库的元数据变更，导致查询时内部检查失败。解决这个问题主要有两条路：要么为数据库打上官方提供的补丁，要么退而求其次，暂时将 standby 数据库激活为独立库再进行查询。文章点明了这个 bug 的具体表现和应对之策，对于还在维护 11G 系统、并使用 Data Guard 架构的 DBA 来说，是一个需要提前规避的雷区。

本机暂存

IT 2009-10-10 18:26:48 / 累计浏览 4,880

ASM使用AIX raw disk的问题

这篇讲的是在AIX环境下使用ASM时一个容易被忽略的致命陷阱。不少管理员为了追求性能，会选择绕过逻辑卷管理器，直接将裸盘设备分配给ASM使用。然而，这种配置在特定条件下会引发严重故障。问题根因在于，当存储侧发生变更（例如更换了HBA卡或存储阵列进行了微码升级），导致设备的物理卷标识符（PVID）发生变化后，ASM磁盘组会突然无法识别这些“换了身份证”的磁盘，从而可能造成磁盘组数据丢失。Oracle文档明确指出，ASM在AIX上是通过设备PVID来生成内部磁盘名称的，PVID变动直接破坏了ASM的标识机制。因此，对于生产环境，强烈建议遵循官方最佳实践：要么使用逻辑卷（LV）作为ASM的存储单元，要么在必须使用裸盘时，确保底层设备的PVID在任何情况下都保持绝对稳定。搞清楚这个机制，才能避免线上环境出现无法挽回的数据灾难。

本机暂存

IT 2009-10-10 18:25:59 / 累计浏览 2,760

oracle asm lib中使用multipath的陷井

这篇讲的是一个在Oracle数据库存储配置中容易被忽视的典型问题。作者在例行检查中发现，一个本应通过PowerPath实现多路径高可用的ASM库，实际上并未走多路径通道，这意味着数据链路存在单点故障风险。深入排查后，问题的根源在于系统层面的multipath配置与Oracle ASM的识别机制出现了不匹配。具体来说，即便PowerPath或多路径驱动已正确安装，但如果ASM在启动时未能正确关联到多路径设备名（例如，未能识别/dev/mapper/mpathx这样的设备），它可能会直接使用底层的单个路径盘（如/dev/sdc），从而绕过冗余设计。这通常涉及udev规则、multipath.conf配置文件以及ASM的ASM_DISKSTRING初始化参数是否协同正确。文章的价值在于点明了一个运维中的关键检查点：配置完成后，务必验证ASM磁盘组中的磁盘路径是否确为多路径设备。作者通过这个实际案例提醒我们，存储层面的高可用设计，需要与数据库存储软件的识别逻辑紧密配合，否则冗余配置可能形同虚设。

本机暂存

IT 2009-10-10 18:25:05 / 累计浏览 3,300

ASM的争论

这是一篇事件复盘/观点类的技术讨论记录。文章还原了作者所在团队围绕ASM（可能指应用安全管理或特定技术模块）展开的一场内部技术辩论。争论的焦点并非宏大的方向之争，而是集中在几位技术骨干对ASM具体实现细节与应用边界的不同理解上，例如其在性能与安全之间的权衡、模块的适用场景等。观点本质上大同小异，但源于各自的经验和视角，在表述和侧重上产生了微妙的差异，进而引发了激烈讨论。这类内部争论的价值，恰恰在于它揭示了技术方案从理论到实践时必然面临的复杂性——即使是对同一技术，不同工程师基于不同的约束条件（如项目性能要求、维护成本、团队技能栈）也会形成各有所长的解读。文章没有给出一个非黑即白的结论，而是展现了技术决策过程中真实存在的灰度。它提醒我们，在评估一项技术时，理解争论背后的语境和约束条件，往往比争论结果本身更重要。对于读者而言，这或许是一个重新审视自身团队中类似技术讨论的契机。

本机暂存

IT 2009-10-10 18:23:09 / 累计浏览 4,780

NFS随机IOPS性能不高的分析

作者在部署与优化 FS3 系统时，遇到了 NFS 随机 IOPS 性能始终无法达到预期的棘手问题。这篇内容详细拆解了从现象到根因的整个分析过程。问题的根源被追溯到 NFS 协议自身的运行机制上。文章深入剖析了 NFS 客户端与服务端在处理小块随机读写时的交互逻辑，指出协议设计中对元数据访问的开销、客户端与服务端缓存策略的差异，以及网络往返延迟的累积效应，共同导致了随机 IOPS 的瓶颈。尤其是在高并发、小文件随机访问的场景下，这些机制性限制变得尤为明显。通过这次细致的“解剖”，作者不仅定位了性能瓶颈的深层原因，也为后续的性能调优工作（例如，评估不同 NFS 版本的特性、调整挂载参数或考虑替代方案）提供了扎实的诊断依据。对于同样在存储网络性能上遇到困惑的工程师，这篇复盘提供了一个清晰的排查思路和有力的分析视角。

本机暂存

IT 2009-10-10 18:21:55 / 累计浏览 4,120

Oracle11g Direct NFS 测试

这篇讲的是作者对Oracle 11g Direct NFS功能的一次实测。他发现，传统NFS客户端与服务器之间通常只建立一个TCP连接，所有请求都是串行处理的，必须等前一个完成，后一个才能开始，这使得随机读写IO性能很难提升。而Oracle Direct NFS的关键优化，就在于它会与NFS服务器建立多个TCP连接。这样，IO请求就可以被分发到这些连接上并发处理，从架构上突破了传统串行模式的瓶颈。作者通过测试确认了这一机制，指出其理论上能够显著提升NFS存储的IO性能。这个发现对于使用NFS作为数据库存储的环境尤其有价值，它点明了通过改变连接模型来优化性能的一个可行方向。

本机暂存

IT 2009-10-10 18:19:36 / 累计浏览 2,820

11G real time query

这篇讲的是如何利用 Oracle 11G 的 Real Time Query 功能，实现备用数据库的实时查询，为读写分离架构提供新思路。文章从传统 Data Guard 备库查询存在延迟的痛点出发，指出 11G 版本引入的这个特性，允许在备库以实时方式查询主库的数据变更。作者团队并没有停留在理论层面，而是结合 `lgwr+async` 的具体配置，实际搭建并测试了该功能。他们重点验证了从主库事务提交到备库可见这个链路的实时性究竟如何，通过测试数据直观地展示了延迟水平。对于考虑读写分离但又对数据延迟敏感的系统来说，这个功能提供了一个无需复杂中间件的原生解决方案。文章最终的测试结论，也为评估该方案在具体业务场景中的适用性提供了直接的参考依据。

本机暂存