GPU 효율을 높이는 가장 편리한 Kubernetes 솔루션 astrago[아스트라고]

Aastrago

GPU 효율을 높이는 가장 편리한 Kubernetes 솔루션 astrago[아스트라고]

XIIIab 2024. 6. 27. 09:47

안녕하세요. AI 영상 전문 기업 씨이랩입니다.

오늘은 최고 수준의 인프라 활용 효율과

사용자 편의성을 결합한 머닝러신 솔루션

astrago(아스트라고)를

소개해 드리려고 합니다.

astrago는 어떤 서비스인가요? 🔎

astrago는 클러스터 형태의 인프라가 증가하는

현대 IT 인프라 환경의 니즈에서 시작되었습니다.

자원은 한정되어 있기 때문에

다수의 인원 또는 프로젝트가 자원을

유동적으로 사용하며, 빠르고 안정적인

환경을 요구합니다.

astrago는 클러스터 관리의 필요성을 해결해 주는

가장 편리한 Kubernetes 솔루션입니다!

Kubernetes란 무엇인가요?

Kubernetes는 컨테이너 기술 기반으로

유연한 워크로드 관리를 빠르고 안정적으로 제공하는

오픈 소스 플랫폼으로 한정된 인프라를

다수의 이용자가 탄력적으로 사용하는

현대의 IT 인프라에 적합합니다.

Kubernetes의 장점
1. 유동적인 수요에 빠르게 대응 가능한스케일링, 로드밸런싱
2. 컨테이너와 멀티테넌시 격리기술로장애 발생 시 전체 시스템 영향 최소화
3. 모니터링, 스케줄링 등 다양한 기능의연동 및 튜닝을 제공하는 확장성

한정된 자원의 유동적인 분배는 기존과 유사하지만

AI 환경의 변화로 활용률에 대한 관심도가 증가해

기존의 빠르고 유연하게 배포하는 안정성에

자원 활용을 극대화하는 효율성까지 갖춘

AI를 위한 Kubernetes 솔루션,

astrago가 탄생했습니다 :)

astrago의 차별점은 무엇인가요?

1️⃣

GPU 단가상승🔺

2️⃣

AI모델/분산학습 특성상

빈번한 유휴 자원(GPU)발생💦

3️⃣

기업 사용자 증가로 활용률,

계획성에 대한 관심 상승 🔺

AI 모델이나 분산학습의 특성상

빈번하게 유휴 자원(GPU)이 발생합니다.

원래도 비싸지만 계속해서 치솟는 GPU의 단가로 인해

기업에서는 GPU 활용률과 계획성을 높이기 위한

고민들을 많이 가지고 계실 텐데 그런 고민들을

바로 astrago가 해결해 드릴 수 있습니다.

astrago는 다음과 같은 특장점을 가지고 있는데

항목별로 더 자세히 소개해 드리겠습니다.

1. 모니터링 및 리포트

🔷 모니터링 및 최적화 기능

astrago 메인화면에서

노드, 워크로드, GPU 등 클러스터 전체에

대한 개괄적인 현황을 확인하실 수 있습니다.

모니터링 메뉴에서는 Node 단위로

GPU 사용률 및 메모리 용량과

GPU 온도, 전력 사용량 등을

실시간으로 모니터링이 가능합니다.

월간 또는 사용자가 지정한 기간 단위로

리포트 조회도 가능하며,

설정에 따라 이메일 수신이 가능합니다.

또한, 관리자의 설정에 따라 장시간 활용하지 않은

유휴 자원을 자동으로 회수하는

자원 최적화 기능을 제공합니다.

마지막으로 하드웨어 리스크 관리를 위해

GPU / CPU, 메모리 사용량등의 임계치

설정값에 따라 알람 기능을 제공합니다.

2. GPU 활용 극대화로 비용 절감

🔷 효율 중심 잡스케쥴러

astrago는 조직과 프로젝트의 목적에 맞는

3가지의 스케줄러 선택 기능을 제공합니다.

분산 학습
: 멀티 노드를 사용하는학습 진행 시 네트워크 대역폭과 리소스를고려한 스케줄링으로 분산 학습의 효율

향상효율성
: 잡 배정 시 가용 자원이 적은노드부터, 가능한 단일 노드에 배정하여전체 GPU 사용률을 높여주는 방식

안정성
: 잡 배정 시 가용 자원이 많은노드부터 배정하여 작업의 안정성을높이는 방식

효율성 중심 스케줄러는

GPU 사용률을 최대 200%까지 향상해서

더 많은 워크로드를 실행할 수 있는 방식으로

astrago가 추천드리는 방식입니다.

🔷 GPU 분할 기술

학습과 추론 공통으로

GPU를 최대 7개 Instance로 분할하여

다양한 Workload를 위한 유연성과 확장성을 제공하는

NVIDIA MIG(Multi-Instance GPU)

기술을 지원합니다.

NVIDIA MIG 미지원 GPU에 대해서는

GPU 분할 기술을 적용해 소형 워크로드를

단일 GPU 상에 여러 개 배정하여

GPU 자원 활용을 극대화합니다.

3. 편리하고 계획적인 사용

🔷학습시간 예측

astrago는 동종솔루션 중

유일하게 학습시간을 예측해서

사용자의 편의성을 강화하고

프로젝트 계획성을 향상시킵니다.

최초 워크로드 생성 시 완료 예상시간을

제공하고, 진행 과정 중에는 바(bar) 형태로

한눈에 보기 쉽게 정보를 제공합니다.

🔷 모델 Hub & 빌트인 이미지

astrago에서 워크로드를 생성할 때

모델 Hub와 빌트인 이미지, 커스텀 이미지 중

선택하실 수 있습니다.

모델 Hub는 SOTA 오픈소스 모델을

GUI 파라미터 조작만으로 학습이 가능해서

ML 입문자 또는 교육용으로 이용하기에 좋습니다.

빌트인 이미지는 특정 모델에 대해

최적화된 프레임워크 라이브러리를

컨테이너 이미지로 제공해 편의성을 강화합니다.

Hub, 빌트인 이미지, 커스텀 순으로

사용자의 자유도가 높아지며, Hub의 경우

소스코드 및 모델 컨테이너 이미지, 사용법을

모두 사전에 탑재하여 제공합니다.

이상으로 GPU 효율을 높이는 가장 편리한

Kubernetes 솔루션 astrago를 소개해 드렸습니다.

추가적으로 astrago에 대해 궁금하시거나

비즈니스 문의가 있으시면

아래로 편하게 문의 바랍니다.😊

E-mail : astrago@xiilab.com

Tel : 02-6914-9369