[AWS] 재해 복구(DR) 전략 정리

재해가 발생하면 서비스 중단 가능성이 있기 때문에 재해 복구 목표는 서비스를 원활하게 복구하거나 다운타임이 발생하지 않도록 완전히 방지하는 것

RTO (Recovery Time Objective) : 목표 복구 시간 - 장애 발생 후 시스템을 복원하는데 소요되는 시간

- 허용 가능한 서비스 다운타임을 기반으로 설정

RPO (Recovery Point Objective) : 목표 복구 시점 - 장애 발생 시 데이터 손실을 허용할 수 있는 최대 시간

- 백업 정책 수립 시 기준

다중 AZ 전략 : AWS 리전 내 여러 가용 영역(AZ)을 이용해서 일부 AZ에 재해가 발생해도 서비스 가용성 확보 가능

다중 리전 전략 : AWS 리전 전체에 영향을 줄만한 재해가 발생해도 서비스 가용성 확보 가능(다중 AZ, 하이브리드 전략 포함 가능)

1. Backup & Restore

- 데이터를 소스와 동일한 리전에 주기적으로 백업하고 다른 리전으로도 일정 간격마다 복사

- 리전 전체에 재해 발생해 복구가 불가능하면 다른 리전에 백업해둔 데이터로 인프라, 서비스를 복원

- 가장 비용 효율적인 전략이지만 서비스 복원에 많은 시간 소요

2. Pilot Light

- 데이터를 소스와 동일한 리전에 주기적으로 백업하고 실시간으로 다른 리전에 복사

- DR 리전에 기본 인프라 요소(ELB, EC2 Auto Scaling)는 준비해두지만 컴퓨팅 서비스는 비활성화

- Backup & Restore 보다는 빠른 복구가 가능하지만 여전히 서비스 복원될 때까지는 요청 처리가 불가능

3. Warm Stanby

- 데이터를 소스와 동일한 리전에 주기적으로 백업하고 실시간으로 다른 리전에 복사

- DR 리전에 기본 인프라 요소와 일부 컴퓨팅 서비스를 활성화해두며 재해 발생 전에는 DR 리전으로 트래픽이 가지 않도록 설정

- 재해로 인한 장애 발생 시에도 일부 트래픽을 처리 가능하며 프로덕션 수준 트래픽을 처리할 수 있도록 인프라를 확장

4. Multi-Site Active/Active

- 데이터가 1초 내에 다른 AZ, 리전으로 복제되도록 구성

- 프로덕션 수준의 트래픽을 둘 이상의 AZ, 리전에서 나눠서 처리할 수 있도록 인프라, 서비스를 구성

서비스 용도와 중요도, 사용 가능한 요금에 따라 어느정도의 재해 복구 전략을 취할지 선택하는 것이 중요하다.

*참고자료

[AWS] Systems Manager (0)	2024.11.10
[AWS] ACM SSL 인증서 적용(CloudFront, ELB) (1)	2024.09.29
[AWS] DataTransfer 요금 증가 원인 찾기 (0)	2024.09.12

yandhi Engineering Blog