MobileNetV2 사전 학습 데이터셋(ImageNet) 위치와 다운로드 가이드

결론
MobileNetV2는 1,000 종(사실상1,001 종*)으로 구성된 ImageNet-1k(ILSVRC 2012) 이미지 140 만여 장을 이용해 사전-학습됐다123.
이 이미지들은 공식 ImageNet 사이트, Kaggle 미러, 학술 토렌트 등에서 내려받을 수 있으며, 전체 용량은 대략 **145 GB(학습 138 GB + 검증 6.3 GB)**다45.

*TensorFlow·Hugging Face 모델은 추가 “background” 클래스를 포함해 1,001 출력 노드를 사용한다23.

1. ImageNet-1k 개요

항목내용
클래스 수1,000 (일부 구현 1,001)23
학습 이미지1,281,167 장1
검증 이미지50,000 장1
테스트 이미지100,000 장(라벨 미공개)1
총 용량약 145 GB (train 138 GB, val 6.3 GB)4
라이선스연구·교육 목적 비상업적 사용만 허용, 회원가입 필요5

2. 이미지 다운로드 경로

경로특징인증/로그인비고
공식 ImageNet
(image-net.org)
원본 tar 파일 제공, 최신5필요회원 승인까지 1 ~ 2일
Google Cloud TPU 가이드GCP VM에서 자동 스크립트 제공, 원본 구조 유지1GCP 계정빠른 다운로드
Kaggle
“imagenet-1k”
“ImageNet 256×256” 전처리 버전6
Kaggle CLI로 바로 다운로드, 일부는 해상도 256×256로 리사이즈Kaggle 계정손쉬운 사용, 원본 대비 가벼움
Academic Torrents / GitHub 스크립트47토렌트·스크립트로 병렬 압축 해제불필요속도 빠름, 완전 공개

예시: Linux/WSL에서 공식 파일 받기

bash# 학습·검증 세트 다운로드
wget http://www.image-net.org/.../ILSVRC2012_img_train.tar
wget http://www.image-net.org/.../ILSVRC2012_img_val.tar

# 학습 세트 압축 해제 후 클래스별 폴더 정리
mkdir train && mv ILSVRC2012_img_train.tar train/ && cd train
tar -xf ILSVRC2012_img_train.tar
find . -name '*.tar' -exec sh -c 'mkdir -p "${1%.tar}" && tar -xf "$1" -C "${1%.tar}" && rm "$1"' _ {} \;

3. 이미지만 필요한가? 빠른 대안

  1. 사전 학습 가중치만 활용
    이미지를 직접 받지 않아도 torchvision.models.mobilenet_v2(weights="IMAGENET1K_V1") 또는 Hugging Face의 google/mobilenet_v2_* 체크포인트로 바로 추론·전이학습이 가능하다839.
  2. 경량 샘플 또는 부분 데이터
    • Kaggle 256×256 전처리본(540k 장)6
    • Fake ImageNet(Cloud TPU 가이드에 포함)으로 코드 테스트만 수행1

4. 다운로드 후 폴더 구조

textimagenet/
 ├── train/
 │   ├── n01440764/ ... (1,000개 클래스 폴더)
 └── val/
     ├── n01440764/

검증 세트는 스크립트 valprep.sh를 실행해 클래스별로 재정렬해야 Loader가 인식한다4.

5. 주의 사항 및 팁

  • 저장 공간 — 압축 해제 시 300 GB 이상 여유 필요1.
  • SSD 권장 — I/O 병목을 줄여 학습 속도 개선7.
  • 라이선스 준수 — 상업적 사용 금지, 연구·교육 목적만 허용5.
  • 이미지 해상도 — MobileNetV2는 32×32 이상이면 동작하지만, 224×224 이미지로 사전 학습되었으므로 동일 해상도 입력이 가장 안정적9.

요약 체크리스트

  1. 사전 학습 이미지: ImageNet-1k (1,000 클래스, 1.2 M 장)1.
  2. 다운로드 위치: 공식 사이트·Kaggle·토렌트 등 다양456.
  3. 필수 준비: 회원가입·공간 300 GB·SSD·스크립트로 압축 해제.
  4. 빠른 시작: 이미지는 생략하고 공개 가중치로 즉시 전이학습도 가능39.

MobileNetV2의 성능·전이학습 실험을 위해서는 공개 가중치 → 소규모 커스텀 데이터 → 단계적 fine-tuning 순으로 접근하면 데이터 준비 시간을 크게 줄일 수 있다.

  1. https://cloud.google.com/tpu/docs/imagenet-setup
  2. https://huggingface.co/docs/transformers/en/model_doc/mobilenet_v2
  3. https://huggingface.co/google/mobilenet_v2_1.4_224
  4. https://seongkyun.github.io/others/2019/03/06/imagenet_dn/
  5. https://www.image-net.org/download.php
  6. https://www.kaggle.com/datasets/dimensi0n/imagenet-256
  7. https://on-ai.tistory.com/8
  8. https://github.com/d-li14/mobilenetv2.pytorch
  9. https://keras.io/api/applications/mobilenet/
  10. https://github.com/JonathanCMitchell/mobilenet_v2_keras/blob/master/mobilenetv2.py
  11. https://ech97.tistory.com/entry/MobileNetV2
  12. https://www.kaggle.com/code/mgiraygokirmak/mobilenetv2
  13. https://paperswithcode.com/sota/image-classification-on-imagenet
  14. https://kau-deeperent.tistory.com/59
  15. https://github.com/developer0hye/Setup-for-Imagenet
  16. https://github.com/EhabR98/Transfer-Learning-with-MobileNetV2
  17. https://way24.tistory.com/31
  18. https://littlefoxdiary.tistory.com/86
  19. https://blog.roboflow.com/how-to-train-mobilenetv2-on-a-custom-dataset/
  20. https://image-net.org/download-images

코멘트

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다