본문 바로가기

Cloud/AWS

[AWS] 재해 복구(DR) 전략 정리

재해 복구(DR) 목표

재해가 발생하면 서비스 중단 가능성이 있기 때문에 재해 복구 목표는 서비스를 원활하게 복구하거나 다운타임이 발생하지 않도록 완전히 방지하는 것

 

RTO / RPO

RTO (Recovery Time Objective) : 목표 복구 시간 - 장애 발생 후 시스템을 복원하는데 소요되는 시간

 - 허용 가능한 서비스 다운타임을 기반으로 설정

RPO (Recovery Point Objective) : 목표 복구 시점 - 장애 발생 시 데이터 손실을 허용할 수 있는 최대 시간

 - 백업 정책 수립 시 기준

 

재해 영향 범위에 따른 대응 전략

다중 AZ 전략 : AWS 리전 내 여러 가용 영역(AZ)을 이용해서 일부 AZ에 재해가 발생해도 서비스 가용성 확보 가능

다중 리전 전략 : AWS 리전 전체에 영향을 줄만한 재해가 발생해도 서비스 가용성 확보 가능(다중 AZ, 하이브리드 전략 포함 가능)

 

재해 복구 전략

RTO/RPO 비용 균형

 

 

1. Backup & Restore

 - 데이터를 소스와 동일한 리전에 주기적으로 백업하고 다른 리전으로도 일정 간격마다 복사

 - 리전 전체에 재해 발생해 복구가 불가능하면 다른 리전에 백업해둔 데이터로 인프라, 서비스를 복원

 - 가장 비용 효율적인 전략이지만 서비스 복원에 많은 시간 소요

 

2. Pilot Light

 - 데이터를 소스와 동일한 리전에 주기적으로 백업하고 실시간으로 다른 리전에 복사

 - DR 리전에 기본 인프라 요소(ELB, EC2 Auto Scaling)는 준비해두지만 컴퓨팅 서비스는 비활성화

 - Backup & Restore 보다는 빠른 복구가 가능하지만 여전히 서비스 복원될 때까지는 요청 처리가 불가능

 

3. Warm Stanby

 - 데이터를 소스와 동일한 리전에 주기적으로 백업하고 실시간으로 다른 리전에 복사

 - DR 리전에 기본 인프라 요소와 일부 컴퓨팅 서비스를 활성화해두며 재해 발생 전에는 DR 리전으로 트래픽이 가지 않도록 설정

 - 재해로 인한 장애 발생 시에도 일부 트래픽을 처리 가능하며 프로덕션 수준 트래픽을 처리할 수 있도록 인프라를 확장

 

4. Multi-Site Active/Active

 - 데이터가 1초 내에 다른 AZ, 리전으로 복제되도록 구성

 - 프로덕션 수준의 트래픽을 둘 이상의 AZ, 리전에서 나눠서 처리할 수 있도록 인프라, 서비스를 구성

 

서비스 용도와 중요도, 사용 가능한 요금에 따라 어느정도의 재해 복구 전략을 취할지 선택하는 것이 중요하다.

 

*참고자료

https://aws.amazon.com/ko/blogs/tech/disaster-recovery-dr-architecture-on-aws-part-i-strategies-for-recovery-in-the-cloud-1/

'Cloud > AWS' 카테고리의 다른 글

[AWS] Systems Manager  (0) 2024.11.10
[AWS] ACM SSL 인증서 적용(CloudFront, ELB)  (1) 2024.09.29
[AWS] DataTransfer 요금 증가 원인 찾기  (0) 2024.09.12