容灾(Disaster Tolerance 或 Disaster Recovery,简称DR)是指在 灾难发生时保持业务连续运行的技术。它涉及在相隔较远的异地建立两套或多套功能相同的系统,这些系统之间可以进行健康状态监视和功能切换。当一处系统因意外(如火灾、洪水、地震、人为蓄意破坏等)停止工作时,整个应用系统可以切换到另一处,使得该系统功能可以继续正常工作。容灾的主要目的是在灾难发生时,尽量减少生产系统的数据丢失,并保持生存系统的业务不间断地运行。
容灾系统通常包括以下几个方面:
系统冗余:
在相隔较远的异地建立两套或多套功能相同的系统,以确保在一处系统故障时,其他系统能够接管其功能。
数据备份和恢复:
通过备份技术,确保在灾难发生时,数据不会丢失,并且能够快速恢复到正常运行状态。
灾难检测和切换:
系统之间可以进行健康状态监视,一旦检测到一处系统故障,可以迅速切换到另一处系统,保证业务的连续性。
业务连续性计划:
制定详细的业务连续性计划,确保在灾难发生时,能够迅速启动应急机制,保持业务的正常运行。
容灾和容错(Fault Tolerance)是两个相关但不同的概念。容错侧重于通过硬件冗余、错误检查和热交换等技术手段,使系统在出现故障时仍能继续运行。而容灾则更强调在灾难发生时的系统恢复和数据保护,通常涉及系统冗余、灾难检测和系统迁移等技术。
总的来说,容灾是一种全面的技术和策略,旨在确保在面临各种灾难性事件时,业务能够持续运行,并最大限度地减少数据丢失。