惜分飞 -- IT技术博客大学习 -- 共学习共进步！

首页 / 惜分飞

IT 2026-06-22 12:41:00 / 累计浏览 40

使用deepseek进行Oracle恢复,引起重大故障

本文记录了一次Oracle数据库恢复的故障案例。数据库处于open状态，但一个数据文件offline，尝试删除表空间时失败，错误提示文件无法读写。根据经验，初步判断可能是undo表空间文件offline导致，计划通过屏蔽异常回滚段或强制online文件解决。查询异常回滚段未果，进一步核查字典表发现异常：v$tablespace中存在两个undotbs1表空间记录，而ts$和file$信息不匹配，表明字典被篡改。现场确认有技术员根据deepseek AI的建议，直接执行了删除ts$和seg$记录的操作，但未处理file$，导致字典不一致，数据库因检查异常事务而停滞。通过修复字典、清理异常事务，数据库恢复正常，数据成功导出。案例警示，在数据库非常规恢复等高风险操作中，依赖AI建议需谨慎判断，避免不可逆错误，并务必制定回退方案。

本机暂存

IT 2026-06-18 01:10:54 / 累计浏览 140

接手一个只差临门一脚的数据库恢复

本案例记录了Oracle数据库因虚拟机复制引发的恢复故障。在没有停机的情况下复制虚拟机后，数据库启动失败，alert日志显示ORA-00314和ORA-00312错误，指示在线重做日志序列号与预期严重不符，序列号差距较大，可能由数据不一致导致。客户尝试使用隐含参数强制打开数据库，但在open过程中遭遇ORA-01555快照过旧错误，对应bootstrap表访问失败，表明undo段空间不足。多次重启后，进一步出现ORA-600 2662内部错误，提示SCN不一致，客户重建控制文件和强制拉库均无效，陷入错误循环，最终出现ORA-600 4193/4194错误。接手处理时，通过将undo_management参数设置为手动模式，绕过自动undo管理，成功启动数据库实例，随后使用expdp工具导出用户数据，完成恢复。此案例强调了虚拟机操作需在数据库停机状态下进行，以确保数据一致性，同时展示了undo参数调整在故障恢复中的实用价值。文章为故障排查类型，提供了详细的错误日志分析和解决方案步骤。

本机暂存

IT 2026-06-14 05:11:01 / 累计浏览 60

硬件故障后数据文件大小不对故障处理—Oracle碎片扫描恢复

本文记录了一次硬件故障后Oracle数据库数据文件大小异常的故障处理案例。硬件恢复后，dbv工具报DBV-00102错误，检查v$datafile_header发现USERS02-USERS05表空间文件头记录大小约8GB，但实际恢复文件仅4GB。初步排查RAID5配置正常，判断为文件系统层面损坏。采用自研OraScan碎片扫描工具从磁盘提取数据块，重建数据文件并通过dbv验证。替换原文件后执行recover database成功，但alter database open时因redo日志序列冲突报错ORA-03113。分析alert日志发现ora-00314错误，显示redo组不一致；鉴于recover已完成，清除异常redo组后数据库正常打开，最终导出数据。此过程突出了Oracle数据文件头检查、碎片扫描技术及redo日志管理在灾难恢复中的关键作用，为硬件故障后数据文件修复提供了实用方案。

本机暂存

IT 2026-06-14 04:10:49 / 累计浏览 60

oracleasm createdisk破坏的acfs文件系统恢复

该案例涉及Oracle 12.2.0.1环境中，因误执行oracleasm createdisk命令导致ASM磁盘头被重置，进而使ASM磁盘组无法挂载，依赖ACFS的MySQL数据库服务中断。恢复过程首先使用kfed工具读取磁盘头信息，发现asmlib标记ORCLDISKDATA3，确认磁盘头破坏但未重建新磁盘组。通过分析alert日志，确认磁盘组配置为AU size 4M，并利用winhex验证了磁盘头备份和AU备份仍完好。直接还原AU备份后，CRS启动失败，进一步分析发现CRS磁盘的分区偏移量错误，源于磁盘分区问题。修复分区表后，重启CRS，所有服务自动恢复，数据零丢失。案例展示了在ASM环境中诊断磁盘头破坏、利用备份恢复以及处理分区错误的完整流程，强调了谨慎操作和备份验证的重要性。

本机暂存

IT 2026-06-14 04:10:49 / 累计浏览 40

.[xueyuanjie@onionmail.org].AIR勒索加密数据库恢复

文章记录了Oracle数据库遭遇.[xueyuanjie@onionmail.org].AIR勒索加密后的恢复过程。数据库运行在Windows系统上，被加密破坏了前32个数据块，包括文件头和位图信息，但业务数据从block 128开始存储，未受影响。恢复开始时使用obet工具检测坏块，确认损坏范围。接着应用OraFHR工具快速重构文件头，该工具能一键生成恢复脚本。执行SQL命令启动数据库实例、重建控制文件，并通过alter database open resetlogs打开数据库。随后创建新表空间expdptbs，使用expdp导出数据完成恢复。案例展示了在数据未被完全加密的情况下，利用专业工具和标准SQL操作恢复数据库的关键步骤，对类似勒索软件攻击下的应急响应具有重要参考价值。

本机暂存

IT 2026-06-14 04:10:49 / 累计浏览 40

OraScan(Oracle 碎片扫描工具) 使用说明

OraScan是由惜分飞自主研发的专业Oracle数据库碎片恢复工具，核心功能是扫描磁盘上未被覆盖的Oracle数据块，解决数据文件无法正常恢复的问题。该工具适用于多种紧急场景，包括文件系统损坏无法访问数据文件、误删除数据文件且操作系统工具无法恢复、断电或文件系统故障导致文件大小异常、小文件覆盖大数据文件，以及需要扫描磁盘上所有未被覆盖的数据块。环境适配方面，OraScan提供两个版本：OraScan_Net2.exe适用于.NET Framework 2.0/3.0/3.5，兼容Windows Server 2008及更早系统；OraScan_Net4.exe适用于.NET Framework 4.0及以上，兼容Windows Server 2012及更新系统。支持Oracle 9i及以后所有版本，数据块大小可选4k、8k、16k、32k，需与数据库实际块大小一致。使用流程分为多个步骤：首先选择扫描对象，可以是磁盘设备或镜像文件，注意扫描镜像时不要勾选“设备”选项；然后执行碎片扫描，设置块大小、偏移量等参数，扫描完成后自动生成scandata文件夹和Oracle_Block.map文件；接着加载并解析扫描结果，显示数据文件列表；最后可提取数据文件或碎片，提取前可能需要授权。工具还提供筛选功能，允许用户按文件号和block范围精准查找碎片。注意事项包括确保环境版本匹配、保留扫描生成文件、及时联系技术支持解决授权或操作问题。OraScan作为一款针对性强的恢复工具，在数据库故障恢复中具有实用价值，但使用需遵循步骤以确保恢复成功率。

本机暂存

IT 2026-06-14 04:10:49 / 累计浏览 40

一次断电引起的Oracle故障恢复-ora-600 2662故障

本文详细记录了一次因断电引发的Oracle数据库故障恢复全过程。数据库在断电后异常，现场恢复未能成功打开库。作者接手后，尝试recover操作报ORA-16433错误，分析alert日志发现此前有强制OPEN RESETLOGS操作，但导致redo日志缺失并触发ORA-600 2662内部错误，该错误与系统变更号（SCN）不一致相关。恢复步骤包括：首先重建控制文件，但再次recover时遇到redo日志损坏（ORA-00353），媒体恢复失败。鉴于正常恢复路径受阻，决定强制打开数据库，并使用Patch_SCN工具调整SCN值至特定数值以解决ORA-600 2662问题。调整后数据库成功打开。随后在数据导出阶段，expdp命令遇到硬件错误，为安全起见切换至只读模式下使用exp工具，最终成功导出所有数据，完成恢复任务。此案例展示了处理断电导致的Oracle复杂故障的关键技术，包括日志分析、控制文件重建、SCN调整和数据导出等步骤。

本机暂存

IT 2026-06-14 04:10:49 / 累计浏览 40

impdp报ORA-39083 ORA-14102错误处理

在Oracle数据库管理中，使用Data Pump的impdp工具导入数据时，可能遇到ORA-39083和ORA-14102错误。本文以实际案例为例，错误发生在将分区表从Oracle 11.2.0.4导出并导入到11.2.0.1版本时。导入过程中，表创建语句失败，提示“Object type TABLE failed to create”，原因是ORA-14102错误，即指定多个LOGGING或NOLOGGING子句。通过检查导出日志和使用DBMS_METADATA.GET_DDL获取DDL语句，发现源表的分区定义中每个分区都包含了NOLOGGING属性，而目标数据库版本不支持这种语法。具体来说，在11.2.0.1中，表级别和分区级别不能同时指定物理属性如NOLOGGING。为解决此问题，提供了两种方法：一是在导出时使用expdp的version参数指定目标版本为11.2.0.1，以生成兼容的DDL；二是在导入时使用impdp的TRANSFORM参数，设置segment_attributes:n来忽略段属性。文章还提到了其他相关错误和解决方案，如impdp创建索引时的ORA-00942错误和Oracle 12c中Data Pump的增强。此案例突出了数据库版本差异对导入导出操作的影响，并给出了具体的排查和修复步骤，对数据库管理员具有实用参考价值。

本机暂存

IT 2026-06-14 04:10:49 / 累计浏览 60

Oracle故障第一现场被恢复混乱的数据库恢复

本文记录了Oracle数据库断电后因第三方恢复操作导致现场混乱的实战恢复过程。通过Oracle Database Recovery Check工具初步分析，发现数据库被强制resetlogs，三个数据文件丢失，数据文件头SCN不一致且在非归档模式下。恢复团队使用obet工具的get_dbinfo功能解析磁盘上所有.dbf文件头，识别出文件号重复，结合文件大小和SCN信息判断正确文件，确认两个丢失文件为undotbs1表空间文件，另一个为112k的小文件。文章通过SQL实验验证Oracle数据文件最小为16个block。恢复步骤包括：修改正常文件SCN，重建控制文件（丢弃损坏的undo文件），设置undo为manual管理并屏蔽回滚段，强制打开数据库时遇到ORA-600 2662错误，使用Patch_SCN工具调整SCN后成功打开数据库。最后，新建undo表空间、添加temp文件、删除旧undo对象，并导出数据完成恢复。案例突出了工具辅助、文件头分析和错误处理在复杂数据库恢复中的关键作用。

本机暂存

IT 2026-06-14 04:10:49 / 累计浏览 40

asm dd 10M导致system文件部分坏块修复

本文记录了Oracle数据库ASM磁盘头损坏的修复案例。客户因误用dd命令覆盖磁盘前10M数据，破坏了ASM元数据，导致DATA磁盘组无法挂载并报ORA-15042错误。通过19c版本的备份AU还原，磁盘组成功挂载，但ASM持续报ORA-15196块头校验错误，指示磁盘14存在损坏块。客户尝试添加磁盘触发Rebalance操作，但错误阻止了Rebalance执行，避免了磁盘组卸载。随后启动数据库时，system文件出现多个完全为零的坏块，涉及I_OBJ2索引和DEPENDENCY$表，报ORA-01578错误，导致启动失败。该案例展示了ASM存储故障的连锁反应，从磁盘头损坏到数据库文件损坏，突出了操作谨慎性和备份的重要性，并体现了Oracle 19c在错误处理上的改进。

本机暂存

IT 2026-06-03 09:03:24 / 累计浏览 40

WARNING: detected duplicate paths to the same disk导致crs无法正常启动故障解决

该文章是一篇Oracle RAC集群故障排查案例，详细分析了因错误配置ASM磁盘发现字符串导致的集群无法启动问题。故障根源是管理员将asm_diskstring参数设置为包含系统设备映射符号链接的路径（如/dev/dm*和/dev/mapper/*），导致ASM在发现磁盘时检测到同一物理磁盘的重复路径（如/dev/mapper/mpathi与/dev/dm-3），进而无法挂载投票磁盘组（CRS），致使集群资源管理器（CRS）启动失败。解决该故障的核心步骤包括：首先，通过创建一个仅包含正确磁盘路径（如/dev/mapper/*）的临时pfile，然后基于此pfile重新创建ASM SPFILE，以自动更新GPnP配置文件中的DiscoveryString和SPFile路径。此操作会清除原有的投票磁盘信息，因此修复后需使用kfed工具验证磁盘头信息，并通过crsctl replace votedisk命令重新配置投票磁盘。最终，集群得以正常启动。文章强调了正确配置asm_diskstring的重要性，并提供了通过重建SPFILE来修正配置错误的完整技术方案。

本机暂存

IT 2016-02-10 23:11:17 / 累计浏览 2,520

MySQL drop database恢复(恢复方法同样适用MySQL drop table,delete,truncate table)

这篇讲的是一个真实的数据库灾难恢复案例。作者从一起线上事故切入：有人误点了产品软件的“清空数据”功能，导致一个MySQL数据库被直接执行了drop database操作，且事前没有任何备份。情况很紧急，但处理思路很清晰——立刻封存现场，将核心的InnoDB表空间文件ibdata1备份了出来。接下来，作者借助专业的MySQL recovery工具，对这个18MB的ibdata1文件进行了深度解析。文章中展示了使用stream_parser工具扫描和提取数据的命令行过程，这是恢复的关键第一步。经过6个小时的分析和处理，最终的核心成果是：实现了核心数据的零丢失。这个案例的价值不仅在于给出了drop database后的具体恢复路径，也印证了这类误操作在数据库管理中并非个例。它提醒我们，即便在高度自动化的系统中，对“清空数据”这类高危功能的设计和权限控制需要格外谨慎，而及时、有效的应急响应和文件级备份（而非仅依赖逻辑备份）在极端情况下可能是最后的救命稻草。

本机暂存

IT 2016-02-10 22:48:58 / 累计浏览 2,400

MySQL异常恢复之恢复数据字典表讲解

当InnoDB存储引擎崩溃或系统表空间损坏后，要从底层恢复用户数据，理解核心的数据字典表是关键的第一步。这篇文章深入剖析了MySQL（特指早期版本）InnoDB内部四个用于记录表与索引元信息的系统表：SYS_TABLES、SYS_INDEXES、SYS_COLUMNS和SYS_FIELDS。作者从数据恢复的实际需求出发，没有停留在表面定义，而是清晰地拆解了每个表的核心字段及其在恢复流程中的具体作用。例如，指出了恢复时最依赖的是记录表信息的SYS_TABLES和记录索引B+树根页位置的SYS_INDEXES，而列信息表（SYS_COLUMNS）与索引列分布表（SYS_FIELDS）则在需要精确还原表结构时提供支持。文章还解释了这些表各自默认存储在哪个系统索引ID中（如SYS_TABLES在index_id 1，根页为8号页），这对于手工定位和抽取字典至关重要。作者对每个表的核心字段都做了拆解，比如强调SYS_INDEXES中的PAGE_NO字段直接指向索引的根页，这是恢复数据的入口。通过理解这些底层元数据，DBA在面对无法正常启动的MySQL实例时，就能理清恢复思路，利用工具定向提取关键信息，为抢救数据奠定基础。

本机暂存

IT 2015-09-04 22:45:06 / 累计浏览 1,320

[MySQL异常恢复]无主键情况下innodb数据恢复

这篇讲的是，当MySQL InnoDB数据库发生异常需要恢复时，一个常见的“坑”：通常恢复工具都假定表必须有主键或唯一索引，否则就无从下手。文章指出这其实不是绝对的死路。核心在于，即便没有用户定义的索引，InnoDB也为每个表维护了一个内部的`index_id`。这个ID贯穿数据文件，是定位数据页的线索。作者从这个突破点出发，详细演示了如何在无主键的场景下进行数据恢复。他通过创建一个真实的无主键表，并插入了32万余行数据来模拟故障现场。随后，文章逐步展示了使用工具解析ibdata1系统表空间文件的过程。关键步骤在于，如何从解析结果中筛选出对应表的`index_id`，并以此为线索重组数据。这种方法为那些因设计疏忽或特殊原因未设主键的数据库，在遭遇崩溃时提供了一条可行的抢救路径，避免了数据彻底丢失的风险。

本机暂存

IT 2015-05-29 20:03:57 / 累计浏览 3,380

在ORACLE 12C RAC中使用in memory特性请注意parallel_degree_policy和parallel_force_local参数

这是一篇典型的故障排查文章。作者在对Oracle 12C RAC的In-Memory特性进行测试时，遇到了一个棘手的问题：在清空缓冲区缓存后，测试总是意外触发大量并行操作，导致结果不准确。经过与Oracle官方协作排查，最终定位到问题的根源在于两个关键参数的默认设置不匹配In-Memory的最佳实践。具体来说，参数`parallel_degree_policy`被设为了`AUTO`，而`parallel_force_local`则是默认的`false`。在RAC环境下，这种组合会导致并行执行计划不符合预期。文章通过具体的SQL操作和执行计划对比，清晰地展示了问题表现：从执行计划中可以看到“automatic DOP: Computed Degree of Parallelism is 2”的提示，并且明确标注了“parallel scans affinitized for inmemory”，这证实了In-Memory特性已被触发。解决方法就是根据RAC环境的需要，正确调整这两个参数的值。对于计划在RAC集群中使用In-Memory功能的DBA来说，这篇文章提供了一个非常实用的避坑指南。它提醒我们，在启用强大的新特性时，往往需要仔细检查并调整相关的并行处理参数，才能确保其发挥出应有的性能优势。

本机暂存

IT 2015-02-03 21:54:38 / 累计浏览 2,580

给你的rman备份集加上密码锁

备份是数据保护的最后一道防线，但如果备份集本身没有防护，泄露的风险同样存在。这篇文章从这个角度出发，讲解了如何为Oracle RMAN备份集加上密码锁，实现加密存储。作者从数据安全的现实威胁切入，指出RMAN备份集若被窃取，其数据风险等同于生产库被入侵。解决方案是利用RMAN在10.2及以上企业版中提供的`set encryption`命令，在备份过程中直接设置加密密码。文章详细演示了从配置加密算法（支持AES128/AES256等）到执行加密备份的完整步骤，并特别提醒：加密仅对`backupset`有效，`copy`方式不支持；若需备份到带库，则必须使用Oracle Secure Backup。最具说服力的部分是实操验证。作者创建了测试表空间和数据，进行了加密备份，随后模拟数据文件丢失并尝试恢复。结果显示，在不知道密码的情况下恢复会报错；即使设置错误密码也无法成功。只有使用正确的密码才能顺利完成恢复，这直观地证明了加密机制的有效性。整篇文章实操性强，不仅提供了命令行的具体操作，更通过正反验证让读者清晰看到加密带来的保护效果，对于关注数据库备份安全性的DBA来说，是一个直接可落地的加固方案。

本机暂存

IT 2014-03-19 22:47:55 / 累计浏览 4,580

undo异常总结和恢复思路

这篇讲的是Oracle数据库UNDO表空间故障的实战总结。作者从一线工作出发，集中汇总了如ORA-00704（bootstrap process failure）、ORA-00600[4194]、ORA-00600[kcfrbd_3]等一系列让很多DBA头疼的UNDO相关报错。文章的核心价值在于其系统性。它不仅罗列了千奇百怪的错误现象，更关键的是揭示了背后的常见根源：大多数UNDO异常并非文件本身损坏，而是因为Redo日志未被正常前滚，导致回滚段状态异常，最终阻碍数据库打开。针对这类问题，作者提供了一套清晰的渐进式恢复思路：从尝试修改UNDO管理方式（M MANUAL）、设置特定事件（10513），到逐步使用参数屏蔽问题回滚段，最后才考虑使用bbed或dul等底层工具。这个思路为遇到类似困境的DBA指明了从软到硬、风险递增的排查路径。当然，作者也坦诚地指出数据库恢复千变万化，无法照搬，并提供了进一步获取专业技术支持的途径。

本机暂存

IT 2013-03-11 13:21:48 / 累计浏览 4,560

undo异常事务回滚规则分析

这篇讲的是Oracle数据库在异常情况下（如非正常关闭或事务未提交会话终止）undo事务回滚的具体机制。文章没有停留在理论描述，而是通过一系列实际的测试和dump操作，清晰地展示了这一回滚过程是如何发生的。核心流程是，数据库启动后会扫描回滚段，识别出未提交的事务。它通过事务的xid（回滚段号.槽号.序列号）定位到具体的undo block，再通过undo记录中的信息找到对应的数据块（data block）。回滚的关键在于undo记录之间通过rdba字段形成了一个链表结构。文章通过dump回滚段头（v$transaction视图）和具体的undo block（datafile 2 block 3627）证实了这一点：一个undo block处理完成后，其内部的undo记录（rci字段）指向前一个undo block的rdba地址，从而实现连续回滚。整个过程遵循“先进后出”原则，即最后修改的数据块最先被回滚。作者通过从创建测试表、查询事务信息到最终dump出undo block内部结构的完整步骤，直观地揭示了Oracle底层利用undo链表保证事务原子性和数据一致性的精巧设计。

本机暂存

IT 2013-03-04 14:12:15 / 累计浏览 3,040

关于blockrecover 解决坏块相关测试与总结

这篇文章讲的是，当线上数据库因硬件故障（如小机意外掉电）出现大量坏块，甚至坏块中包含未提交事务时，如何使用Oracle的blockrecover命令进行恢复。作者从一个真实的故障场景出发，客户在IBM p系列小机更换电源后，数据库（9.2.0.8 RAC）出现了大量坏块和smon回滚报错。为了在减少业务影响的前提下解决问题，团队决定采用blockrecover方案。为了验证该方案在复杂情况下的有效性，作者在10g环境下进行了完整的模拟测试。实验详细重现了从创建测试表、使用RMAN备份数据文件、切换归档日志，到人为模拟产生包含未提交事务的坏块的全过程。测试的关键在于，它不仅模拟了坏块，还通过后续的业务操作模拟，验证了blockrecover能否在不影响其他正常数据块的情况下，精准修复目标坏块并正确处理其中的事务。最终的测试结果证实，blockrecover命令能够有效处理这类棘手的坏块问题。整个复现过程步骤清晰，对于遇到类似“坏块+事务回滚”故障的DBA来说，提供了一个极具参考价值的实战解决方案。

本机暂存

IT 2013-01-17 13:20:50 / 累计浏览 2,840

aix使用太多内存导致shared pool 相关latch异常

这篇讲的是AIX系统因内存耗尽引发Oracle数据库性能问题的真实案例。某客户服务器上出现shared pool相关latch的异常等待，系统响应变慢。作者通过nmon和topas工具抓取现场数据，发现物理内存使用率高达99.8%，空闲内存仅剩51MB，同时Paging Space使用了近35%，表明系统正在大量依赖交换空间，这正是导致数据库共享池锁竞争加剧的直接原因。进一步查看vmo内核参数配置，其值遵循了Oracle官方建议，但根本问题在于物理内存总量（21.5GB）已无法承载数据库SGA、PGA及操作系统进程的消耗。文章分析了特定Oracle进程的内存映射，显示单个进程的SGA占用就非常高。最终指出的解决路径非常清晰：要么为服务器扩容内存，要么在业务允许的前提下，主动调小数据库SGA等内存相关参数，从源头降低内存压力。整个排查过程结合了监控命令与参数分析，是AIX+Oracle环境下一个典型的内存型性能故障样本。

本机暂存