k8s (16) 썸네일형 리스트형 [AWS] ML Infra(GPU) on EKS AI 워크로드에 대한 컨테이너 사용머신러닝과 딥러닝이 기업의 핵심 경쟁력으로 부상하면서, 데이터 과학자들은 점점 더 복잡하고 계산 집약적인 모델을 개발하고 있다. 이러한 모델을 효율적으로 학습하고 배포하기 위해서는 강력한 컴퓨팅 인프라가 필수적이다. 특히 GPU를 사용하는 것은 병렬 처리 능력으로 딥러닝 워크로드를 가속화하는 데 있어 중요한 역할을 한다.전통적으로 ML 엔지니어들은 베어메탈 서버에 직접 GPU 드라이버와 라이브러리를 설치하여 작업하였다. 이 접근 방식은 몇 가지 심각한 문제점을 가지고 있었다:환경 구성의 복잡성: CUDA, cuDNN 등 복잡한 드라이버 스택 설치 및 관리가 필요. 특히 버전 호환성 문제로 인해 특정 프레임워크(TensorFlow, PyTorch)가 특정 CUDA/cuDN.. K8S Secret 관리 실습 환경 구성(WSL2 + Docker + kind)WSL + Ubuntu 24.04더보기Powershell 관리자 권한으로 실행# DISM(배포 이미지 서비스 및 관리) 명령어로 Microsoft-Windows-Subsystem-Linux 기능을 활성화dism.exe /online /enable-feature /featurename:Microsoft-Windows-Subsystem-Linux /all /norestart# DISM 명령어로 VirtualMachinePlatform 기능을 활성화dism.exe /online /enable-feature /featurename:VirtualMachinePlatform /all /norestart# wsl 설치wsl --install# 기본값 WSL 2 버.. [AWS] EKS Upgrade Amazon EKS Upgrades: Strategies and Best Practices 워크샵 내용을 기반으로 작성된 글입니다.Amazon EKS 클러스터 업그레이드 워크숍의 목적은 고객에게 Amazon EKS 클러스터 업그레이드를 계획하고 실행할 수 있는 모범 사례를 제공하는 일련의 실험실을 소개하는 것입니다.우리는 In-Place, Blue/Green 등 다양한 클러스터 업그레이드 전략을 탐구하고 각 전략의 실행 세부 사항을 자세히 살펴볼 것입니다.이 워크숍에서는 EKS 테라폼 청사진, ArgoCD 등을 활용하여 전체 EKS 클러스터 업그레이드 프로세스를 안내합니다. K8S Release쿠버네티스는 1년에 3개의 마이너 버전 출시하며 가장 최근 3개 버전에 대해 release branches(패.. K8S CI/CD 더보기실습 환경 구성(WSL2 + Docker + kind)WSL + Ubuntu 24.04 Powershell 관리자 권한으로 실행# DISM(배포 이미지 서비스 및 관리) 명령어로 Microsoft-Windows-Subsystem-Linux 기능을 활성화dism.exe /online /enable-feature /featurename:Microsoft-Windows-Subsystem-Linux /all /norestart# DISM 명령어로 VirtualMachinePlatform 기능을 활성화dism.exe /online /enable-feature /featurename:VirtualMachinePlatform /all /norestart# wsl 설치wsl --install# 기본값 WSL 2 .. [AWS] EKS Mode/Nodes K8S SchedulerScheduler가 노드를 선택하는 방식필터링필터 플러그인에 파드와 노드를 입력해 조건을 만족하는지 검사예) NodeResourcesFit 플러그인에서 파드의 리소스 요청을 충족하는지 확인모든 필터 플러그인을 통과한 노드 목록 생성만약 배포에 적합한 노드 목록이 비어 있다면 스케줄링 불가배포할 수 있는 노드 수가 1인 경우에는 해당 노드에 바로 할당필터링 - 클러스터 크기가 큰 경우(1000대 이상)모든 노드를 검색하지 않도록 검색할 노드의 최대 크기 제한1000 x PercentageOfNodesToScores (50%)500 노드를 배포 가능 노드로 찾으면 검색 중지최소 100 노드 혹은 전체 노드의 최소 5% 비율은 무조건 사용 스코어링필터링을 통한 모든 노드를 대상으로 점수.. [AWS] EKS Security 기초 이론암호화정의: 암호화는 평문 원본 데이터를 특정 키를 써서 알아볼 수 없는 암호문으로 바꾸는 과정임. 목적: 데이터를 보호해서 비인가된 사용자가 접근 못 하게 하고 통신 중 데이터가 노출돼도 해독 못 하게 함. 복호화정의: 복호화는 암호문을 원래 평문으로 되돌리는 과정임.목적: 복호화는 암호화된 데이터를 인가된 사용자만 읽을 수 있게 해줌. 암호화 방식암호화 과정에서 필요한 키를 쌍방이 확보할 수 있는 방법에서 공유 비밀키 방식(shared secret key)과 공개키 방식(public key)이 있음.공유 비밀키 암호화 방식 (shared secret key) : DES, 3DES, RC4/5공개키 암호화 방식 (public key) : RSA 공유 비밀키 암호화 방식암호화랑 복호화에 똑같은 .. [AWS] EKS AutoScaling 리소스 부족 대응 기술Application Tuning: 애플리케이션 코드, 설정 변경을 통해 튜닝Vertical Pod Autoscaler: Pod 스펙을 Scale Up해서 확장Horizontal Pod Autoscaler: Pod를 Scale Out해서 확장Cluster Autoscaler: Node 추가를 통해서 확장 수평 확장 Horizontal Scaling운영 환경에 더 많은 워크로드(VM, Task, Pod)를 추가하는 방식트래픽을 여러 워크로드에 분산시키는 방법확장성이 높고 유연한 방법비용 효율적Stateless 워크로드에 적합 (데이터 일관성 유지 필요) 수직 확장 Vertical Scaling운영 환경의 기존 워크로드의 성능(CPU, Memory)을 향상하는 방법하드웨어는 확장에 한계.. [AWS] EKS Observability 실습 환경 배포# YAML 파일 다운로드curl -O https://s3.ap-northeast-2.amazonaws.com/cloudformation.cloudneta.net/K8S/myeks-4week.yaml# 변수 지정CLUSTER_NAME=myeksSSHKEYNAME=MYACCESSKEY=MYSECRETKEY=WorkerNodeInstanceType=t3.medium# CloudFormation 스택 배포aws cloudformation deploy --template-file myeks-4week.yaml --stack-name $CLUSTER_NAME --parameter-overrides KeyName=$SSHKEYNAME SgIngressSshCidr=$(curl -s ipinfo.io/.. 이전 1 2 다음