안녕하세요, AI 영상 분석 전문 씨이랩입니다😊
오늘은 공공기관부터 엔터프라이즈사까지
AI 비즈니스 파트너로서 많은 관심을 받고 있는
GPU 인프라 관리 솔루션 ‘AstraGo’와 관련하여
사용자 별 주요 장점과 실제 고객 사례를
들려주는 시간을 가지겠습니다 :)
✅ AstraGo, 왜 필요할까요?
현재 빠른 속도로 발전하고 있는 AI 산업에서 GPU 입지와 수요는 나날이 증가하고 있어요. 심지어 수요 만큼 GPU 개수를 구하는 것도 적정 예산에 맞는 GPU를 찾는 것도 어려워지고 있죠.
이러한 배경 덕분에 기업이나 조직에서는 최소한의 GPU를 구매하여 최대의 효율을 내기를 원하고 있어요. 그러기 위해서는 먼저, GPU를 실제 업무에 사용하는 ML 엔지니어들의 하루 업무 일과를 파악하는 것이 중요해요.
📌ML 엔지니어 업무 프로세스의 이해
ML 엔지니어는 AI 프로젝트를 진행하면서 어떤 업무를 수행할까요?글로벌 컴퓨팅 기업 N사에서 발표한 통계 자료에 따르면, ML 엔지니어는 AI 학습 및 추론 작업보다는 코드를 분석하고 작성하는 데 가장 많은 시간을 할애한다고 밝혔어요.
💡여기서 주목할 점은, '업무 별로 컴퓨팅 자원 사용량이 상이'하기 때문에 GPU의 활용량을 극대화하여 사용하기 어려운게 현실입니다. 이 문제를 해결하기 위해서는 GPU 자원이 자동으로 학습, 추론, 코드 분석 및 작성 업무 사용량에 맞게 조정되어 사용자들에게 배정돼야 하는데요. 씨이랩에서는 이러한 문제점을 개선하고자, 많아지는 사용자와 비례하게 복잡해지는 자원 할당 과정을 최적으로 운영할 수 있도록 ‘AstraGo’ 솔루션을 출시하였어요.
☑️ AstraGo 시스템 구성도
AstraGo의 세부 기능 설명에 들어가기 앞서, 시스템 구성도에 대해 먼저 간략하게 설명해드리고자 합니다.😊
(1) AstraGo는 크게 관리자와 사용자 권한을 지원하고 있어요.
인프라 관리자의 경우, 수동으로 관리하던 업무들이 자동화될 수 있도록 대시보드, 모니터링, 노드 관리 등의 기능을 제공하고 있어요. 따라서 GPU 클러스터 서버의 현재 상태와 GPU, CPU, Memory 등 여러 리소스들을 모니터링 할 수 있어 관리의 용이함이 특징이에요.
사용자의 경우, 개발 환경에 있어 필수적으로 활용되는 PyTorch, TensorFlow, Jupyter 등의 프레임워크를 제공함으로써 개발자가 개발 과정에서 필요한 라이브러리나 프레임워크를 별도로 찾아서 다운 받을 필요 없이 즉시 사용할 수 있는 편리함을 제공하고 있어요.
(2) AstraGo는 Kubernetes를 기반으로 한 AI 인프라를 갖추고 있어요.
K8s를 기반으로 하고 있기에 워크로드를 유연하고 안정적으로 관리 및 운영할 수 있어요. 그 외 3개의 Worker Node와 예비 서버 3개로 구성되어 있어요. * 예비 서버란? 1개의 마스터 노드에 문제가 생길 때는 대비해 관리 역할을 할 수 있는 서버입니다.
☑️ 관리자 권한 별 AstraGo 주요 기능
1️⃣ 인프라 관리: 모니터링 및 최적화 기능
관리자는 메인화면에서 노드, 워크로드, GPU 등 클러스터 전체에 대한 개괄적인 현황을 직관적으로 확인할 수 있어요.
아스트라고는 각 조직 상황에 맞춤형으로 자원 관리를 할 수 있도록 '자원 최적화' 기능을 제공해요. 관리자는 일정 운영 시간 내의 GPU, CPU, MEM에 대한 사용량을 설정할 수 있어요. 만약, 설정한 사용량이 미달될 경우 자원은 자동으로 회수되기 때문에 효율적인 자원 사용이 가능해요.
그 외에도 월간, 주간 단위의 리포트를 조회하거나 설정에 따라 이메일 수신이 가능해요. 이를 통해 주기적인 시스템 사용 현황에 대한 트래킹을 자동화하실 수 있습니다 :) 😎👍
2️⃣ GPU 활용 극대화 : 스케줄러 및 분할 기능
AstraGo는 잡 배정 시 가용 자원이 적은 노드부터 배정하여 효율을 높이는 잡 스케줄러, 멀티 노드 학습을 지원하는 분산학습 기능을 지원해요.
또한 GPU 분할 기술인 MIG와 MPS를 아스트라고에서 워크로드 생성 시에 편리하게 일원화하여 활용할 수 있도록 탑재 했습니다. 별도의 코드 작성 및 설정 없이 AstraGo에서 제공하는 UI를 통해 GPU를 최대 48개까지 쪼개 사용할 수 있어요.
* MIG(Multi Instance GPU란, 단일 GPU를 최대 7개의 독립된 GPU 인스턴스로 분할 할 수 있어, 여러 워크로드를 동시에 실행할 수 있는 기능
* MPS(Multi Processor Sceduling)란, 여러 CUDA 프로세스가 단일 GPU 컨텍스트를 공유할 수 있게 하여 GPU 리소스를 효과적으로 분할 사용하도록 하는 기능
☑️사용자 권한 별 AstraGo 주요 기능
1️⃣ 모델 허브 & 빌트인 이미지 제공
사용자 측면에서는 개발자들의 편리한 개발 환경 구축 및 워크로드 생성을 위해 빌트인 이미지와 모델 허브를 제공하고 있어요. 해당 경로를 통하여 별도의 개발 환경 세팅 없이 빠르게 업무를 진행할 수 있다는 장점이 있어요.
개인 이미지를 사용하고 싶은 사용자는 Custom 이미지 기능을 사용할 수 있는데요. Hub, 빌트인 이미지, 커스텀 순으로 사용자의 자유도가 높아지며, 모델 Hub의 경우 소스 코드 및 컨테이너 이미지, 사용법을 모두 사전에 탑재하여 제공합니다.
고객 도입 사례 : 서울소재 A대학교
☑️ 최적의 GPU 인프라 관리 솔루션 AstraGo! 실제로 기업 내 조직에 도입했을 때는 어떤 비즈니스 효과를 기대할 수 있을까요? AstraGo를 도입하여 사용한 유저들의 실제 사용 사례를 기반으로 장점과 효과를 설명해드리겠습니다.🤗
📌 서울소재 A대학교 인프라 구축 필요성
|
||
AI 모델 개발 환경 필요
|
||
자원 실시간 모니터링 및 사용자 간 자원 공유 필요
|
||
버전 별 AI 라이브러리 및 프레임워크 필요
|
상기의 고객사의 경우, 손쉬운 AI 개발 환경 구성과 사용법으로 누구나 쉽게 활용할 수 있는 머신러닝 인프라를 구축하길 원했어요. 실시간 모니터링과 워크스페이스 관리로 체계적인 운영이 가능하며, 다양한 기능과 도구 제공을 통해 머신러닝에 최적화된 연구 환경을 조성하는 것이 가장 큰 목표였답니다.
씨이랩에서는 고객 니즈를 충족하고 최적의 AI 인프라를 갖출 수 있도록 AstraGo를 통해 아래와 같은 솔루션을 제시했어요.
🌟 AstraGo 솔루션
|
✅ AstraGo 도입 효과
|
||
편리한 워크로드 생성 단계 제공
( AI 라이브러리 / 빌트인 이미지 / 모델 허브 / 학습 예상 종료 시간 ) |
✔️ 월 평균 워크로드 생성 횟수 2배 증가
|
||
모니터링 기능으로 관리 편리성 제공
( 노드 / 시스템 / 클러스터 단위의 세부 수치 및 CPU GPU / Memory / Disk 별 사용 현황 ) |
✔️ 연구 진행 및 관리 효율 개선
|
||
조직 맞춤형 자원 최적화 정책 제공
( 일정 수준 사용 미달 시 자원 자동 회수 및 자원 프리셋 Small / Medium / Large 단위 커스텀 설정 ) |
✔️ 유휴 자원 절약 및 일정 기간 내
GPU 자원 분배로 생산성 향상 |
||
스케줄러 및 GPU 분할 기술을 통한 자원 분배 자동화
잡 배정 시 가용 자원이 적은 노드부터 배정 |
✔️ 다수의 사용자 동시 접속 및
작업 가능한 최적의 환경 구축 |
이 외에도 아스트라고는 꾸준히 다양한 산업군의 고객을 대상으로 유의미한 Use Case 및 도입효과를 만들어가고 있어요😊 오늘은 GPU 인프라를 가장 효율적이고 쉽게 운영할 수 있는 Kubernetes 기반 솔루션 AstraGo에 대해 설명해드렸는데요.
현재 AI 및 ML 프로젝트를 수행하는 데 인프라 관리가 어려우시다면, 성공적인 업무 파트너 AstraGo를 도입해보시는 걸 추천드려요🤗 추가적으로 궁금하시거나 문의 사항이 있으시다면 아래의 배너를 클릭하여 문의해주시기 바랍니다. 👇👇
'AstraGo' 카테고리의 다른 글
AI 워크로드 내 추론 과정을 간소화시켜줄 최적의 솔루션 NVIDIA TRITON (5) | 2024.09.02 |
---|---|
딥러닝 모델을 최적화하는 방법 'AI 모델 경량화' (1) | 2024.08.29 |
AI 알고리즘의 기본 개념과 학습 알고리즘의 작동 원리 (1) | 2024.08.16 |
머신러닝 딥러닝 모델의 성능 향상을 위한 파인 튜닝 전략 (0) | 2024.08.09 |
LLM 개발을 더 간편하게! LangChain 랭체인 개념과 작동원리 (3) | 2024.08.08 |