KT 클라우드 GPU 서비스

자원 사용 정책

  • 모든 사용자가 배정받은 GPU를 100% 사용하는 상황에서는 세션을 생성할 때 바로 생성되지 않고 Pending 상태에 머무르게 됩니다.
  • 8시간 동안 GPU 사용이 없으면 세션이 종료되며, 마운트된 폴더 외부의 코드 및 데이터는 저장되지 않습니다. 마운트된 폴더에 코드와 환경을 저장하거나 컨테이너 커밋 기능으로 환경을 관리하는 것이 권장됩니다.
  • 자원 회수 정책은 로그아웃과 관계없이 GPU 사용량에 따라 동작합니다. 학습 코드가 GPU를 계속 사용하고 있다면 세션은 종료되지 않습니다.
  • GPU 사용량 100%를 유지한다면, 하드웨어적으로 GPU fault가 발생하지 않는 이상 세션이 지속적으로 유지됩니다. 평균 GPU util이 1% 이하로 떨어진 시간이 일정 기간 지속되면 세션을 회수하는 정책이 적용됩니다.
  • GPU를 사용하지 않는 컨테이너는 CPU를 기반으로 자원 회수 정책이 동작합니다.

하드웨어 사양

  • H100 GPU 메모리는 80GB입니다.

개발 환경 관련

  • 스테이블 디퓨전 모델 사용이 가능합니다.
  • 컨테이너 내부 루트 볼륨의 여유 공간 부족 문제에 대해서는 환경 관리 방법, huggingface cache 경로 설정 방법 등의 가이드가 제공될 예정입니다.
  • 지원하는 이미지 버전이 없는 경우, 기술지원 게시판을 통해 요청하면 1주일 간격으로 업로드해주고 있습니다.
  • AWS ECR 등에 등록된 도커 이미지를 자동으로 가져와서 사용하는 기능은 현재 개발 중입니다. 현재는 기술 지원 게시판을 통해 요청해야 합니다.
  • 매뉴얼은 현재 국문으로만 제공될 예정이지만, 영문 가이드도 준비 중입니다.
  • 여러 실행환경이 필요한 경우 콘다(Conda)를 사용하는 것도 좋은 방법입니다.

기타 정보

  • 파이프라인 태스크도 자원 회수 정책이 적용됩니다.
  • 교육 녹화본과 발표자료는 추후 공유될 예정입니다.

이 정보들을 기반으로 KT 클라우드 GPU 서비스를 효율적으로 활용하실 수 있을 것입니다.

코멘트

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다