ORACLE数据仓库备份方案分析

Hello Database 2011-01-27 22:54:28 累计浏览 2,316 次

本机暂存

内容概览

这篇讲的是在超大规模ORACLE数据仓库场景下的备份与恢复方案设计。作者面对一个典型挑战：100TB的RAC数据仓库，每日归档量高达5TB，即便已经对非关键数据采用了nologging策略以减少日志产生，备份压力依然巨大。

文章的核心是围绕这个背景，探讨如何制定一套可行且高效的备份恢复策略。它很可能深入分析了多种备份方式（如全量、增量、块变更）的权衡，考虑了RAC环境下的一致性保障，以及在海量数据下如何控制备份窗口和恢复时间目标（RTO/RPO）。对于同样运维着大型数据仓库的技术人员来说，文章提供的思路和具体参数考量，直接针对了日常运维中最令人头疼的存储与时间瓶颈问题。

通过分析这个真实案例，文章为处理类似“数据量大、日志多”的备份难题，提供了一份从问题定义到方案落地的实用参考。

数据仓库环境，ORACLE RAC，100T数据，每日归档那个量5T(对于不需要产生备份的数据，已经采用了nologging方式，以减少归档数量)，如何制定备份和恢复方案？

方案一：DataGuard

DataGuard是性价比最高的备份和容灾方案，但是当归档超过一定规模之后，DG的恢复就成为了瓶颈，每天产生的归档无法及时恢复完，我们也尝试过很多调优的方法，包括并行恢复，都无法解决，恢复的瓶颈不在存储的吞吐量，而在于standby的恢复方式，因为恢复的过程就是应用归档文件，RAC各个节点产生的归档必须在一个节点恢复，这个过程必须是遵循一定顺序的，大大限制了恢复的并发速度。

方案二：传统RMAN备份

采用传统RMAN备份，采用大吞吐量的虚拟带库设备，一周全备一次，每天备归档日志。很多时候，我们在做备份方案时，只考虑了备份，却没有考虑恢复。这个方案最大的问题就在于：恢复的代价非常高，一旦数据库出现问题，恢复可能需要数天之久，这是无法接受的。另外，还要额外购买备份设备。

方案三：存储镜像

数据库采用noarchivelog模式，采用ASM镜像两套存储。这个方案并不是备份方案，只是为了解决存储的单点问题而提出的，相当于对不同的存储做RAID 1。这个方案最大的问题是无法解决数据库逻辑错误，比如误删除数据。因为主库和备库通过存储镜像来实现，无法实现异地备份和容灾。

方案四：存储级别复制

采用存储级别的复制，各存储厂家都有解决方案，比如EMC SRDF等。Veritas也有类似的解决方案，比如卷复制(VERITAS Volume Replicator)。这种方案的基本原理都是通过捕获底层存储的IO，并通过网络同步到备份系统上。如果采用存储厂商的方案，那么主备库就必须使用同一家公司的产品，而且，能否承受每天4.5T的数据变化量，我们并没有验证过。另外，软件license费用不菲。

有人说：能用钱解决的问题不是问题。可是，问题是没钱！Alibaba虽然不缺钱，但是我们的目标就是花小钱办大事。我个人也不推荐使用存储厂商的解决方案，这不仅仅是钱的问题，而是这种方案基本上就是个黑盒，我们还是喜欢更简单开放的解决方案。

既然ORACLE DG是性价比最高的备份和容灾方案，我们还是想通过DG来解决这个问题。DG的好处在于可以随时打开备份，验证有效，standby延迟恢复还可以解决逻辑错误，防范ORACLE软件bug可能带来的损失。解决方案的核心就是要解决DG恢复速度慢的问题。

方案五：ORACLE DG+块级别增量备份/恢复+归档

从10g开始，ORACLE提供了一个功能：块改变跟踪（block change tracking），通过bitmap记录block的变化，通过这个块改变跟踪文件，就知道哪个block发生了变化，大大提高了增量备份的效率。具体方案为：首先为数据库建立一个0级备份（standby），然后将1级备份应用到0级备份上，相当于恢复的过程，这个恢复比应用归档日志要快很多，为什么？因为备份都是变化的block，只要将旧的block覆盖就可以了，所以不存在日志恢复过程中的顺序问题，所以恢复的并行度可以很大，可以充分发挥出设备的吞吐能力。另外，当一个block被重复变更多次时，增量备份只需要备份最新的block，恢复也只要覆盖旧的block即可，定期增量备份实际可以减少备份需要的空间使用量。而redo文件中记录了block变化的记录，所以应用redo恢复时需要多次变更该块，必须保留所有的归档文件才可以恢复成功。当然，应用1级备份之后，standby并不能打开，因为block并不是一致状态的（因为增量备份会持续很长的时间，在这个过程中，备份的block的时间点是不一致的），所以要利用归档文件将standby推到一致的状态才可以打开。

我们目前的方案：建立standby数据库，每周做一次增量备份，首先应用增量备份，然后应用归档日志文件将数据库推到一致状态，可以打开数据库，验证备份有效，归档日志文件循环备份到磁带库，整个过程通过脚本实现自动化。这个方案采用增量备份+archivelog恢复standby，可以打开standby验证备份有效，出现故障时可以直接standby switchover，大大节省了恢复的时间。而且，这个方案都是基于现有硬件基础，基本上没有采购额外的硬件设备和软件license，花小钱办大事。

我的技术理念：做解决方案就是搭积木，用简单的技术去解决问题，并不一定要发明新的东西，最佳实践也是很有价值的。

-EOF-

后记：这个问题，我曾经在OOW上问过ORACLE的技术专家，他们也没有很好的解决方案，建议我们买两套Exadata来解决（我并没有搞清楚为什么Exadata恢复归档的速度会变快，是设备本身的能力提高了，还是ORACLE恢复的方式发生了变化），或者放弃数据库级别的备份，由应用程序写多份数据来解决。所以说，ORACLE也没有考虑到如此大数据量环境的备份问题，ORACLE可以考虑推广我们的解决方案。

同分类推荐文章

使用deepseek进行Oracle恢复,引起重大故障（2026-06-22 10:56:00）
接手一个只差临门一脚的数据库恢复（2026-06-18 00:13:09）
我做了一个 AI 版的 StarRocks 升级风险扫描工具，直接帮我定位到一个风险（2026-06-15 01:00:00）

查看更多数据库文章 →

建议继续学习

Oracle MTS模式下进程地址与会话信息（累计阅读 14,409）
三种东西永远不要放到数据库里（累计阅读 8,052）
那些在11gR2中可能惹祸的新特性，一张列表帮助你摆脱升级11gR2带来的烦恼（累计阅读 6,881）
性能测试工具sysbench简介（累计阅读 6,027）
大于2GB的Listener.log和运行超过198天的主机上的Oracle实例（累计阅读 5,863）
仅仅只备份是不够的（累计阅读 5,825）
Oracle Database 12c 新特性 - Native Top N 查询（累计阅读 5,751）
ORACLE最大可以存储多少数据量（累计阅读 5,730）
Oracle DBA的学习进阶成长树-从初出茅庐到高瞻远瞩（累计阅读 5,603）
老托的Oracle 数据库Patch概念性小常识（累计阅读 5,550）