老熊 -- IT技术博客大学习 -- 共学习共进步！

首页 / 老熊

IT 2016-02-21 22:46:50 / 累计浏览 3,180

一次临时表空间大量占用问题的处理

这篇讲的是如何诊断和解决一个核心交易系统临时表空间暴涨至600GB的问题。作者从实际案例出发，发现占用临时空间的大量排序段，并非由当前执行的SQL产生，而是源于大量会话打开了需要复杂排序的查询游标后，一直没有关闭，导致Oracle必须维持这些游标的状态和已排序的数据，从而长期占用临时段。文章详细展示了排查过程：通过v$sort_usage定位到大量会话关联同一个SQL_ID，但发现该SQL本身并不需要排序。真正的“元凶”是这些会话中打开的另一个游标——一条对千万级数据进行排序的业务查询。由于应用在取数后未正确关闭游标，使得排序段无法释放。作者甚至用PL/SQL代码复现了这一过程，清晰演示了临时空间是如何被一个未关闭的游标“泄漏”出去的。这篇案例的精彩之处在于，它纠正了一个常见误区，并提供了一套实用的诊断思路：当遇到临时表空间异常时，应重点检查会话的打开游标，特别是那些有大量排序操作且未完成处理的SQL，而不仅仅是看当前正在执行的语句。

本机暂存

IT 2014-11-25 23:00:40 / 累计浏览 2,180

Oracle数据库升级迁移、SPA及统计信息

作者从一次真实的升级迁移讲起：某省级电信运营商将核心CRM系统的Oracle数据库，从IBM小型机上的10g RAC迁移至x86+VMware平台的11g RAC，成本降至十分之一。这引出了一个关键的后续问题：新系统上线后，应采用何种统计信息收集策略？文章对比了两种方案：迁移旧库统计信息或在新库自动收集。作者团队最终选择了后者，原因是11gR2的自动收集机制已相对完善，且能为后续运维降低风险。但如何确保这一策略在上线时就安全可用？答案在于利用SPA（SQL性能分析器）。团队使用了生产库三个时段及一个月AWR中的全部SQL，在新库上跑SPA测试。在测试前，先用`dbms_stats.gather_database_stats(options=>'gather auto')`执行一次增量收集。然而，直接这样做会导致新库的直方图信息严重缺失，因为自动收集依赖`col_usage$`表，而新库此表为空。解决方法是在SPA测试过程中，通过执行足够多的SQL来“喂饱”`col_usage$`，让系统“记住”哪些列需要被关注。最终，基于SPA的测试结果，用数十个SQL Profile固化了风险计划，保障了系统平稳上线。这篇分享的价值在于，它清晰地展示了在大型跨版本迁移中，如何通过组合使用SPA和自动统计信息收集策略，来系统性规避性能风险，而不仅仅是凭经验手工调优。

本机暂存

IT 2013-09-15 22:26:43 / 累计浏览 2,420

Oracle JDBC中的语句缓存

这篇讲的是如何在Java应用中，利用Oracle JDBC驱动提供的语句缓存机制，来优化数据库访问性能，核心目标是实现“一次解析，多次执行”的高效模式。文章首先清晰梳理了Oracle数据库中硬解析、软解析等不同SQL解析方式的特点与潜在性能瓶颈，指出过多解析会导致latch争用等问题。随后，作者通过一个对比实验，直观展示了开启JDBC语句缓存前后的巨大差异：未缓存时，一条SQL语句执行200次就产生了200次解析；而开启缓存后，同样执行200次，解析次数仅为1次，显著降低了数据库负载。实现的关键在于通过OracleConnection对象设置`setStatementCacheSize`和`setImplicitCachingEnabled`，这能为每个连接自动缓存使用过的PreparedStatement。文章还深入一层，介绍了如何通过`setExplicitCachingEnabled`及手工指定Key的方式，进行更精细的缓存控制，以避免缓存不常用语句造成的内存浪费。通过具体的代码示例与数据库监控结果验证，文章为Java开发者提供了一个实用且效果明确的Oracle性能优化方案。

本机暂存

IT 2012-10-22 21:54:58 / 累计浏览 5,820

仅仅只备份是不够的

作者从一个常见的技术误区切入：是不是只要部署了数据库、搭配成熟的备份软件（比如NBU、DP、TSM等），再购置大容量磁带库，就能高枕无忧了？文章通过一个真实案例，揭示了单纯备份策略的局限性——即使硬件和软件齐全，若忽略备份后的验证与恢复流程，在实际灾难场景中仍可能面临数据丢失风险。案例中详细描述了企业虽然拥有完整的备份基础设施，却在恢复阶段遭遇挑战：备份数据无法顺利还原、恢复时间远超预期，导致业务中断。作者指出，根因往往在于备份后缺乏定期测试、未制定清晰的灾难恢复计划，以及对恢复点目标（RPO）和恢复时间目标（RTO）的考量不足。这篇文章强调，备份只是数据保护链条中的一环，完整的策略还需涵盖数据验证、恢复演练和自动化监控。通过这个案例，作者启发读者重新审视自身的数据保护体系：技术投入固然重要，但流程和制度的完善才是确保数据安全的关键。文章结尾自然引导读者思考如何构建从备份到恢复的闭环方案，避免让备份沦为“摆设”。

本机暂存

IT 2012-06-07 00:25:04 / 累计浏览 1,400

REPL_AUX链上会不会有脏块？

这篇讲的是Oracle数据库缓冲区管理中的一个具体机制细节。作者从《Oracle Core》一书中关于缓冲区查找的描述出发，聚焦于一个容易让人产生疑惑的点：REPL_AUX链（辅助LRU链）上到底会不会有脏块（dirty buffer）？文章首先交代了背景，REPL_AUX链设计的初衷是用于链接那些“能马上复用”的缓冲区，比如一致性读块或很少访问的块，目的是为了让进程能快速找到可用空间。但书中也提到，在扫描此链查找空闲缓冲区时，如果发现脏块，会将其移走。于是作者抛出了核心问题：既然设计如此，那这条链在运行时，是否真的可能存在脏块呢？答案是肯定的。文章解释了在特定场景下，例如当一个缓冲区从主LRU链被淘汰后，即使其内容被修改变“脏”，它也可能被暂时放置在REPL_AUX链上，等待后台进程将其内容写出到磁盘。这个看似矛盾的细节，恰恰揭示了Oracle缓冲区管理的动态性——链表不是静态分类，而是随着缓冲区状态和访问模式在不断流转。理解这一点，能帮助我们更深入地认识数据库如何在保证性能的同时，协调内存的读写与复用。

本机暂存

IT 2012-05-28 13:30:22 / 累计浏览 3,140

全表扫描却产生大量db file sequential read一例

这篇文章讲的是开发团队在新系统上线前的数据校验阶段，遇到的一条SQL执行超过一小时仍未结束的典型故障。SQL本身语法很简单，看似只是对一张表进行全表扫描，但实际执行时却产生了大量“db file sequential read”等待事件，这显然与通常全表扫描对应“db file scattered read”的预期相悖，性能问题便由此而来。作者深入剖析了这一现象。根因在于，表上的索引结构或统计信息存在问题，导致优化器错误地为这条全表扫描SQL选择了通过索引来读取数据的执行计划（Index Full Scan）。每一次通过索引回表读取数据行，都触发了一次“db file sequential read”，数据量一大，I/O开销和响应时间便急剧飙升。文章不仅揭示了问题本质，还给出了具体的排查步骤与解决方案，例如检查执行计划、更新统计信息或重建索引。对于常与数据库性能问题打交道的开发者和DBA来说，这个案例提醒我们：执行计划的选择有时会很“意外”，全表扫描的性能瓶颈背后，可能隐藏着索引的异常使用。

本机暂存

IT 2012-04-09 13:45:55 / 累计浏览 3,280

防火墙、DCD与TCP Keep alive

这篇讲的是网络连接管理中的一个经典陷阱：为什么长连接会莫名断开？作者从自己早年处理Oracle连接超时的经验切入，指出许多应用在复杂网络环境下频繁掉线，背后往往是防火墙或负载均衡器在静默“清理”空闲TCP连接。文章核心对比了三种应对机制：一是调整防火墙策略（允许更长的空闲超时），但往往受限于网络安全策略；二是数据库层的DCD（Dead Connection Detection），它依赖数据库自身的探测与超时设置；三是TCP Keep Alive，通过操作系统内核的探活包来维持连接。作者细致分析了它们在检测时机、配置灵活性以及资源消耗上的关键差异。尤其值得注意的是，文中强调了在实际调优时需要根据业务特性做权衡：对延迟敏感的应用可能需要更短的探测间隔，而高并发场景则需考虑探活带来的额外开销。文章不仅解释了问题根因，也给出了清晰的选型思路，对于运维、DBA和后端开发在设计高可用服务时，提供了非常具体的参考。

本机暂存

IT 2012-04-09 13:42:45 / 累计浏览 2,320

DRM引起的问题解决一例

这篇讲的是Oracle RAC环境中一类隐蔽的性能故障。客户系统平时运行平稳，但会周期性地“闹脾气”：前台操作明显变卡，后台监控显示CPU使用率和系统负载突然飙升，几分钟后又自行恢复，像是系统在短暂“发烧”后自动退烧。问题根源指向了Oracle RAC的分布式资源管理组件（DRM）。当RAC集群进行实例间资源协调时，DRM的相关操作（如数据块主节点的重新映射）在特定条件下会引发额外的、不必要的内部开销，从而导致可感知的性能波动。文章详细记录了从现象观察、日志分析到最终定位DRM为“元凶”的全过程。作者不仅解释了问题的技术机理，更分享了实际的解决方案——如何通过调整相关参数来规避DRM的激进行为，在保障集群功能的同时，平息这种间歇性的性能起伏。对于管理Oracle RAC、尤其是遭遇类似“阵发性”性能问题的DBA和系统工程师来说，这次故障排查的思路与处置措施，提供了一次很有价值的实战参考。

本机暂存

IT 2012-04-09 13:42:24 / 累计浏览 2,340

Hint的常见错误使用方式

这篇讲的是Oracle数据库中Hint工具的常见错误使用方式。作者从实际运维经验出发，指出许多DBA在追求快速解决问题时，容易陷入过度依赖Hint的陷阱。例如，通过Hint强制指定执行计划可能短期内见效，但当数据分布或索引结构变化后，固定的计划反而会成为性能瓶颈。文章分析了几个典型场景：比如用/*+ INDEX */ Hint覆盖优化器选择，却忽略了全表扫描可能更高效的时机；或者在Outline中错误绑定Hint，导致后续SQL无法适应硬件升级。作者强调，Hint本是精细调控的工具，滥用会破坏优化器的自主决策能力。对于如何正确使用，文中建议将Hint作为最后手段，并配合Outline、Profile等工具进行计划管理。最终目的是让DBA理解优化器的工作逻辑，而非用Hint掩盖设计缺陷。

本机暂存

IT 2012-04-09 12:25:19 / 累计浏览 1,520

ORA-1555错误解决一例

这篇文章从一个实际案例出发，探讨了如何解决 Oracle 数据库中经典的 ORA-01555 快照太旧错误。作者首先解释了这一问题的根源：它本质上是一个读一致性问题，通常发生在长查询尝试读取已经被其他事务修改并提交的数据时，而原数据所在的回滚段（undo segment）信息因空间压力或自动管理策略被覆盖。虽然从 Oracle 9i 引入自动 undo 管理后该错误已大幅减少，但在特定场景下仍会重现。文章没有停留在理论分析，而是详细记录了定位问题的排查过程——从分析报错时间点的系统负载、SQL 执行计划，到追溯特定长事务的 undo 生成量，并最终通过调整 undo 保留时间参数与优化特定批量作业的提交频率，给出了一个兼顾系统性能与稳定性的综合解决方案，对 DBA 日常维护具有直接的参考价值。

本机暂存

IT 2012-04-09 12:24:59 / 累计浏览 2,040

ORA-04031案例一则

这篇讲的是一个令DBA头疼的经典错误：ORA-04031。文章从几乎每位专业DBA都可能遭遇的这个现象切入，剖析了当Oracle进程向系统全局区（SGA）申请内存失败时触发该错误的机制，并指出绝大多数情况发生在共享池内存分配环节。文章并未停留在理论，而是直接展示了一个真实的报错现场，包括精确到字节的申请失败记录、特定的对象与堆信息。这种从具体案例出发的叙事，为理解问题成因提供了清晰的锚点。作者通过这个实例，很可能深入探讨了导致共享池内存不足的常见原因，例如SQL解析负载、未绑定的游标或是池配置不当，并分享了相应的排查思路与优化方案。对于需要维护Oracle数据库稳定性的读者来说，这篇文章的价值在于它从一个具体的“坑”出发，将抽象的错误代码转化为可观测、可分析的实际问题。

本机暂存