KT 클라우드 GPU 서비스

모든 사용자가 배정받은 GPU를 100% 사용하는 상황에서는 세션을 생성할 때 바로 생성되지 않고 Pending 상태에 머무르게 됩니다.
8시간 동안 GPU 사용이 없으면 세션이 종료되며, 마운트된 폴더 외부의 코드 및 데이터는 저장되지 않습니다. 마운트된 폴더에 코드와 환경을 저장하거나 컨테이너 커밋 기능으로 환경을 관리하는 것이 권장됩니다.
자원 회수 정책은 로그아웃과 관계없이 GPU 사용량에 따라 동작합니다. 학습 코드가 GPU를 계속 사용하고 있다면 세션은 종료되지 않습니다.
GPU 사용량 100%를 유지한다면, 하드웨어적으로 GPU fault가 발생하지 않는 이상 세션이 지속적으로 유지됩니다. 평균 GPU util이 1% 이하로 떨어진 시간이 일정 기간 지속되면 세션을 회수하는 정책이 적용됩니다.
GPU를 사용하지 않는 컨테이너는 CPU를 기반으로 자원 회수 정책이 동작합니다.

스테이블 디퓨전 모델 사용이 가능합니다.
컨테이너 내부 루트 볼륨의 여유 공간 부족 문제에 대해서는 환경 관리 방법, huggingface cache 경로 설정 방법 등의 가이드가 제공될 예정입니다.
지원하는 이미지 버전이 없는 경우, 기술지원 게시판을 통해 요청하면 1주일 간격으로 업로드해주고 있습니다.
AWS ECR 등에 등록된 도커 이미지를 자동으로 가져와서 사용하는 기능은 현재 개발 중입니다. 현재는 기술 지원 게시판을 통해 요청해야 합니다.
매뉴얼은 현재 국문으로만 제공될 예정이지만, 영문 가이드도 준비 중입니다.
여러 실행환경이 필요한 경우 콘다(Conda)를 사용하는 것도 좋은 방법입니다.

이 정보들을 기반으로 KT 클라우드 GPU 서비스를 효율적으로 활용하실 수 있을 것입니다.

코멘트