数据库

共 1083 篇文章

IT 2011-03-27 23:33:11 / 累计浏览 3,824

删除查看二进制日志

这篇介绍的是 MySQL 中管理二进制日志的一个实用操作：如何安全、精准地删除指定的日志文件。文章从清理磁盘空间的常见需求出发，具体演示了 `PURGE BINARY LOGS TO` 命令的使用方法——只需提供要保留的起始日志文件名，系统就会自动清除该文件之前的所有历史日志。对于维护数据库的 DBA 或开发者来说，二进制日志会随时间不断增长并占用存储空间。作者没有泛泛而谈，而是直接给出了关键语法和操作逻辑，让读者能立刻理解如何执行这一操作。文中的示例简洁明了，点明了命令执行后实际生效的范围（即“指定名称之前的所有日志”），避免了因误解而导致的误删风险。这种对具体命令和生效边界的明确说明，帮助读者在需要清理日志时，既能达到释放空间的目的，又能准确控制删除范围，确保不会影响到当前所需的复制或恢复点。

本机暂存

IT 2011-03-22 23:34:02 / 累计浏览 5,623

Amazon分布式系统Dynamo

这篇讲的是作者对Amazon Dynamo这一经典分布式系统的重新审视。从2009年首次阅读论文时“眼前一亮”，到如今结合S3专利有了更深认识，其心得凝练为“纠结”二字。作者指出，Dynamo巧妙地组合P2P技术，通过可调的NWR策略试图在CAP间取得平衡，一度让相关概念成为行业热词。其获得OSDI最佳论文奖，并应用于购物车等核心场景，看似是卓越设计。然而，随着实践深入，作者发现Dynamo的设计本身存在矛盾，适用场景比较有限，其中一些设计思路甚至可能产生误导。文章从一位技术人长期跟进的视角出发，为我们提供了一个重新评估“教科书级”系统的样本，提醒我们关注经典方案背后的真实权衡与时代局限性。

本机暂存

IT 2011-03-07 22:57:44 / 累计浏览 3,850

Grid Control监控-进程累积导致的宕机

这篇讲的是一个真实的生产环境故障案例。某用户的Oracle 10g（10.2.0.4）数据库运行在HP平台上，突然遭遇大量系统进程累积，最终导致数据库完全挂起，业务中断。文章详细追溯了这一严重故障的排查与解决过程。核心问题被定位到Grid Control监控代理（agent）上。在特定条件下，代理进程会发生异常堆积，消耗掉系统资源，直至拖垮整个数据库实例。作者不仅清晰地剖析了故障现象与直接原因，还给出了具体的处置步骤和后续的预防措施，比如监控脚本的优化与进程的定期清理。对于维护老旧Oracle环境的工程师来说，这是一个极具参考价值的“坑”。它提醒我们，监控工具本身也可能成为风险的源头，定期的健康检查与资源监控至关重要，能有效避免这类由周边组件引发的宕机事故。

本机暂存

IT 2011-03-07 22:50:26 / 累计浏览 3,385

社会化媒体：监听和衡量

作者从“人人都爱八卦”这一人性洞察出发，探讨了社交媒体监听与衡量的底层逻辑。文章指出，有效的监听并非只抓取关键词，而是要深入用户讨论的情感倾向、行为意图以及话题的传播路径。例如，一次产品升级引发的抱怨，其价值远高于一条孤立的正面评论，因为它可能揭示了某个未被满足的用户需求或潜在的产品缺陷。衡量方面，文章超越了单纯的粉丝数和转发量，引导读者思考如何建立更立体的评估体系。作者或许会建议将定量数据（如曝光、互动）与定性洞察（如用户评论的深层情绪）结合，甚至引入“对话影响力”或“社区渗透率”等更精细的维度。对于想要真正理解用户、塑造品牌的团队来说，这提供了从数据噪声中提炼商业信号的具体思路。文中可能还涉及了不同监听工具或平台的对比分析，帮助读者根据自身阶段和目标，选择最适合的切入角度。这不仅仅是技术操作指南，更是一次关于如何倾听网络社会脉搏的思考。

本机暂存

IT 2011-03-07 22:40:04 / 累计浏览 1,961

Linux下新系统调用sync_file_range

这篇讨论的是数据库或IO密集型程序中的一个经典矛盾：数据持久性的保证与写入性能之间的权衡。作者从常见的数据库更新操作切入，指出频繁调用fsync/fdatasync虽然安全，但会带来显著的性能开销。文章的核心是引出并剖析了sync_file_range这一系统调用。它的关键优势在于灵活性和效率：允许程序只将文件特定范围的脏页刷入磁盘，无需像传统方式那样以固定块为单位全量同步，也规避了不必要的元数据更新。这正好契合了那些“只关心特定数据页持久化，不涉及元数据变更”的高频更新场景。文章通过对比传统方法与sync_file_range的机制差异，清晰地阐述了后者为何能在保证必要持久性的同时，有效缓解频繁同步带来的IO压力。最后，文章探讨了在何种具体的开发模式下，这一新系统调用能带来最直接的性能收益。

本机暂存

IT 2011-03-07 22:37:11 / 累计浏览 3,882

参数_smon_internal_errlimit与数据库恢复

这篇讲的是一个棘手的数据库恢复案例。客户数据库因存储损坏导致数据文件遍布坏块，常规手段已无法正常打开。作者团队采取了“强制打开”数据库的非常规操作，但随之而来的是在恢复过程中可能遇到的、因坏块导致的无限重试或进程挂起风险。文章的核心就围绕着如何应对这一困境展开。解决方法是利用一个名为`_smon_internal_errlimit`的关键隐含参数。这个参数可以控制Smon后台进程在遇到不可恢复错误时的重试次数和行为。作者具体描述了，在强制打开后，当遇到类似“ORA-00600”这类内部错误时，通过合理设置此参数，能够避免恢复进程陷入死循环，从而让数据库恢复过程得以继续推进，最终成功完成数据抢救。这个案例的价值在于，它揭示了一个在极端故障场景下，一个鲜为人知的参数如何成为“救命稻草”。它提醒DBA，在应对存储级损坏时，除了常规备份恢复，理解这些底层参数的应急作用至关重要。当然，作者也指出，此参数属于双刃剑，使用前必须充分评估风险，并建议在测试环境先行验证。

本机暂存

IT 2011-03-02 23:05:23 / 累计浏览 1,764

Cache-Low RBA与On-Disk RBA的恢复

这篇讲的是如何验证一个特定且关键的Oracle恢复阶段。作者从一次培训中的实际提问出发，聚焦于数据库崩溃恢复时，介于“Cache-Low RBA”（内存中的最低重做日志地址）与“On-Disk RBA”（磁盘上的最高重做日志地址）之间的数据块，是如何被读取并应用的。文章没有停留在理论阐述，而是通过模拟故障和具体操作步骤来“证明”这一过程。核心方法是通过分析日志文件内容，并结合测试环境，观察当实例恢复时，系统确实会从这个特定的区间内读取日志来前滚数据。作者演示了如何设置初始条件、触发检查点，以及最终通过日志序列号的变化来确认恢复行为。其关键价值在于将抽象的恢复机制，转化为可观察、可复现的实践验证。对于DBA或数据库开发者而言，这种从现象倒推原理的思路，能帮助更深刻地理解Oracle宕机恢复的内部逻辑与数据一致性保障。

本机暂存

IT 2011-03-02 22:54:34 / 累计浏览 1,722

SQL_TRACE跟踪与诊断案例

这篇讲的是作者在2004年处理的一则真实案例，展示了如何用SQL_TRACE这个经典工具来诊断棘手的性能问题。案例里，客户的系统出现了性能下降，常规排查一时难以定位根因。作者没有停留在表面指标，而是果断启用SQL_TRACE，对可疑SQL语句进行跟踪。通过深入分析生成的跟踪文件，最终揪出了问题的核心——一个看似简单的查询背后，隐藏着出乎意料的执行计划和资源消耗路径。文章细致地还原了从问题发现、工具启用、数据获取到根源锁定的全过程。这对于需要处理遗留系统或学习底层诊断方法的DBA和开发来说，提供了一个非常具体的思路：当优化器行为成谜时，SQL_TRACE依然是那把能照进阴影的手术刀。

本机暂存

IT 2011-03-01 22:39:53 / 累计浏览 3,441

RAC环境下Memory System Deconfigured

这篇讲的是一个经典的“节点越多，跑得越慢”的反例。作者从一个真实的Oracle 9i RAC环境出发，记录了一次令人困惑的性能衰退：当一台故障主机维修完毕重新加入集群后，整个系统的性能不升反降，前端业务甚至比单节点运行时还要缓慢。文章的核心直指这种违背直觉的现象。它描述了具体环境（IBM小型机，Oracle 9.2.0.8）和性能恶化的确切表现——收费系统响应迟滞。虽然给出的信息片段没有直接点明最终的“病根”，但标题“Memory System Deconfigured”已经强烈暗示，问题与集群恢复后内存子系统的配置或状态有关。这很可能涉及RAC架构中一个关键但容易被忽视的环节：集群节点间的共享内存管理或SGA配置在故障切换与恢复过程中出现了不一致或未被正确重置。对于维护高可用数据库系统的工程师来说，这篇文章的价值在于它提供了一个完整的排查案例框架。它提醒我们，硬件或网络故障的恢复并不意味着一切自动回归正常，集群内部资源的重新协商与分配可能引入新的、更隐蔽的瓶颈。作者对故障前后对比的详细记录，为诊断类似“集群反而累赘”的问题提供了宝贵的参考路径。

本机暂存

IT 2011-02-28 23:15:03 / 累计浏览 15,887

HFile存储格式

这篇讲的是HBase底层核心数据格式——HFile的存储机制。它首先点明，HBase所有数据最终都以文件形式落在HDFS上，而HFile正是其中负责承载用户数据和元数据的关键格式。文章深入解释了HFile的设计如何天然适配HDFS的分布式特性。它并非简单的键值存储，而是一个精心组织的、不可变的有序持久化文件，内部通过分块（Block）和索引来加速读取。这种结构既保证了数据写入时的顺序IO效率，也使得按RowKey范围查询能快速定位数据块。理解HFile的内部构造，是优化HBase读写性能、排查存储瓶颈的关键起点。

本机暂存

IT 2011-02-28 23:13:12 / 累计浏览 2,564

DBA手记:共享内存无法正常释放的处理

这篇DBA手记聚焦一个典型而棘手的数据库运维问题：当数据库进程异常关闭后，操作系统分配的共享内存段与信号量资源可能成为“僵尸”残留，无法自动释放。这会导致数据库在后续启动时因资源冲突而失败。作者从实际遇到的启动错误出发，深入分析了问题的根源——数据库异常终止时，进程未能执行正常的资源清理流程，使得内核中的这些资源处于“已占用”但“已失效”的状态。文章随后提供了一套清晰的处置流程：如何快速定位残留资源（例如通过`ipcs`命令），并安全地将其清除（如`ipcrm`命令），从而为数据库的再次启动扫清障碍。这篇手记的价值在于将操作系统层面的资源管理与数据库服务的可靠性紧密联系起来，对于处理同类启动故障，提供了直接可操作的排查与解决思路。

本机暂存

IT 2011-02-28 23:12:23 / 累计浏览 3,041

Library cache内部机制详解II

这篇讲的是Oracle数据库在11g中引入的mutex机制如何优化了library cache的内部并发管理。作者从之前遗留的一个问题出发：在10g中，高并发下library cache pin竞争曾是性能瓶颈，而11g用mutex对其进行了改进。文章深入分析了mutex作为轻量级同步原语，相比传统的latch，如何在library cache的各个对象访问路径上提供更细粒度的保护。它解释了在11g中，为什么很多原来的pin操作被mutex取代，以及这带来的效率提升。不过，作者也指出了硬币的另一面——在11g中，频繁的硬解析或特定的cursor版本问题，会引发新的mutex相关等待事件，这正是他近期遇到的实际故障场景。核心内容在于剖析了mutex争用的几种典型模式及其触发条件，比如cursor header的mutex竞争。作者通过探讨这些内部细节，实际上是在指导我们如何诊断和缓解11g环境下可能出现的这类新型性能问题，为遇到类似瓶颈的DBA提供了一条清晰的分析思路。

本机暂存

IT 2011-02-27 22:47:12 / 累计浏览 2,461

DBA手记:共享池的改进与ORA-04031的变化

这篇讲的是DBA在维护中遇到的ORA-04031错误，并由此切入Oracle共享池机制的演进。作者从一次线上数据库反复报出ORA-04031（共享池内存不足）的排查经历出发，记录了从依赖老经验（如调整`shared_pool_size`或使用绑定变量）到发现Oracle新版本中根本原因已变化的过程。通过对比传统解读与实际诊断，文章揭示了从10g到12c版本中，共享池管理机制（如“子池”和“请求队列”）的改进，如何改变了内存竞争的表现形式。核心发现是，许多过去针对10g的通用解决方案，在12c+环境中可能不再有效，甚至需要反向操作。作者用具体的AWR报告片段和事件跟踪，展示了新版本中“cursor: mutex S”等新等待事件如何取代了经典的“library cache lock”成为主要瓶颈。文章最终指向一个实用结论：DBA不能仅凭历史经验处理共享池问题，而需理解版本间的实现差异，并结合新的诊断视图（如`v$shared_pool_advice`）进行精准调优。这种从具体故障入手，层层剥离出技术演进逻辑的写法，为面临相似问题的DBA提供了一份清晰的升级参考。

本机暂存

IT 2011-02-23 22:16:58 / 累计浏览 5,001

PHP查询MySQL大量数据的内存占用分析

作者从PHP查询MySQL返回大量结果时常见的内存占用问题出发，深入到了语言实现、协议与底层内存分配的交叉层面。他剖析了PHP查询机制、MySQL协议以及PHP底层内存管理等多个环节，揭示了结果集在内存中是如何从一行行数据逐步累积膨胀的。文章的核心在于解释“内存为什么会‘爆’掉”的原理，并进一步探讨了从PHP和MySQL两端入手的几个可能解决方向，比如利用迭代器模式或流式处理。对于关心性能优化和底层实现细节的开发者而言，这篇从源码层面的剖析会带来不少启发。

本机暂存

IT 2011-02-22 23:22:24 / 累计浏览 2,902

DBA诊断利器 - Event 10046和 10053

这篇讲的是 Oracle DBA 最常备的两个诊断事件：10046 与 10053。作者 eygle 从实际经验出发，指出在面对慢 SQL 或性能调优时，这两个事件就像 DBA 工具箱里的“透视镜”和“内窥镜”，各有其不可替代的作用。简单来说，10046 事件主要用来捕获 SQL 的详细执行过程信息，比如执行计划、绑定变量值、等待事件等。它回答的是“这条 SQL 实际是怎么跑的”，常用于定位已知的性能问题。而 10053 事件则更为深入，它记录了 Oracle 优化器（CBO）的内部决策过程，解释了为什么优化器选择了某个执行计划而不是其他。它回答的是“优化器为什么这么想”，对于理解复杂的执行计划选择、进行深度调优至关重要。文章的核心价值在于清晰地对比了这两者的适用场景。当你需要诊断一条 SQL 的运行时行为时，用 10046；而当你需要弄明白优化器为何做出一个“令人费解”的计划时，就必须请出 10053。作者强调，理解它们的差异并按需使用，能极大地提升诊断效率。掌握了这两个事件的使用，DBA 在分析性能瓶颈时就能从“现象观察”深入到“决策还原”，使调优工作更有针对性。

本机暂存

IT 2011-02-20 23:35:40 / 累计浏览 2,341

ERWin教程（包括如何注册）

这篇讲的是专业数据库设计工具ERWin与更通用的Visio之间的对比选择。作者从实际设计场景出发，指出虽然ERWin的学习曲线比Visio更陡峭，界面选项也更复杂，但在应对模型层次深、数据对象关系繁杂的大型项目时，ERWin的优势就显现出来了。它专注于ER模型设计，并提供了强大的数据库正向与逆向工程能力，能直接将设计转化为实际数据库或反向读取现有库结构，还能自动定义格式生成设计文档。这些功能是通用工具Visio难以企及的。对于追求设计严谨性和工程化落地的数据库开发者而言，ERWin显然是更趁手的利器。文章最后也附带了ERWin的具体注册步骤，为有需要的读者提供了入门指引。

本机暂存

IT 2011-02-17 23:17:22 / 累计浏览 4,123

MySQL 应用小笔记

这篇笔记聚焦于 MySQL 在实际应用中可能出现的挂起现象。作者从一次具体的线上问题切入，探讨了当查询缓慢甚至无响应时，如何进行系统性的排查。文章梳理了几个常见的“病灶”：比如未提交的事务长期持有行锁导致后续操作排队，或是慢查询累积占满连接池。针对每种情况，作者都给出了对应的诊断命令和排查路径，例如通过 `SHOW PROCESSLIST` 观察线程状态，以及利用 `information_schema` 来分析锁冲突。核心的调试思路在于，从现象反推到资源竞争与状态异常。文章不仅说明了问题是什么，更强调了如何一步步定位到根因——是代码逻辑缺陷、索引缺失，还是服务器配置不当。对于开发者而言，这套从“卡住”到“疏通”的分析方法，比单纯记住某个命令更有价值。

本机暂存

IT 2011-02-17 23:11:23 / 累计浏览 1,822

DBA手记:Failed Login Count带来的性能问题

这篇讲的是《Oracle DBA手记II》中一个真实踩坑案例：一个看似无害的数据库参数 `Failed Login Count`，在高并发登录场景下，竟然导致了性能显著下降。作者从一个生产环境性能突降的排查出发，锁定了异常的数据库等待事件。追踪发现，罪魁祸首是用于记录登录失败次数的统计功能。每当有用户（尤其是程序客户端）因密码错误等原因登录失败时，Oracle 会频繁更新这个统计信息，产生了大量行级锁竞争。在批量、并发的连接尝试下，这成了严重的性能瓶颈。文章详细剖析了该问题的触发条件与根因，并给出了具体的解决方案——通过调整 `SEC_CASE_SENSITIVE_LOGON` 等参数或在特定时段调整统计策略，从而规避锁争用。这个案例生动地提醒 DBA 们，一些默认开启的、用于审计与监控的功能，在特定业务模式下可能悄然变为性能负担，需要结合实际负载仔细权衡其开关与粒度。

本机暂存

IT 2011-02-16 22:17:22 / 累计浏览 4,765

关于NoSQL的思考：为什么我们要优化存储的写性能

作者从NoSQL产品的benchmark数据出发，聚焦于一个常见现象：像Cassandra、MongoDB这类主流NoSQL数据库，其写性能往往获得极大提升，而读性能增长有限，甚至可能不及传统关系型数据库。这篇文章探讨的正是这一现象背后的深层原因。作者指出，这并非偶然的设计选择，而是对当前互联网应用场景变迁的深刻回应。随着UGC（用户生成内容）模式的白热化，应用的读写比已悄然发生变化，甚至趋向于1:1。当写操作的比重和压力急剧增加时，数据库的存储引擎就必须优先为高吞吐、低延迟的写入进行优化。因此，NoSQL在架构上倾向于牺牲部分读取特性，来换取极致的写入效率，以应对海量数据写入的挑战。这篇思考帮助读者理解，数据库的技术选型不能脱离业务演进。理解“为何要优化写性能”这一设计哲学，有助于我们根据应用的读写模式，更理性地选择数据存储方案。

本机暂存

IT 2011-02-15 22:59:12 / 累计浏览 2,881

Oracle数据库恢复：归档日志损坏案例一则

这篇讲的是一个相当棘手的Oracle归档日志损坏案例。作者在协助用户恢复数据库时遇到了这个罕见问题，直接影响了数据库的正常恢复流程。文章详细剖析了故障的现场表象：在尝试应用归档日志进行介质恢复时，RMAN报告日志校验失败，常规的重放操作无法继续。通过逐层排查，作者最终锁定了问题的根源——并非存储介质损坏，而是特定版本的Oracle在某种并发操作下，可能导致归档日志内部结构出现逻辑损坏，这在官方文档中鲜有记载。解决的关键在于绕过损坏的日志块，利用基于时间点的不完全恢复结合日志序列分析，巧妙地构建了恢复路径，最终成功保住了大部分数据。这个案例的价值在于，它揭示了一个隐蔽的软件缺陷风险点，并为DBA在面对类似“日志损坏”报错时，提供了超越常规手册的诊断思路和应急恢复策略。

本机暂存