AI Learning Roadmap — One-Page Brochure (KR)

구역핵심 키워드(검색용)실전 마일스톤(프로젝트 체크)
기초Linear Algebra, Calc for DL, Probability, AdamW, Init, ReproducibilityMNIST/CIFAR 분류기 + 문자 RNN 토이, 로깅/체크포인트
구조/MLPMLP, Residual MLP, MLP-Mixer, gMLP, KANCIFAR에서 Mixer 재현 → 소형 CNN과 정확도/파라미터 비교
CNNResNet, DenseNet, Inception, MobileNet, EfficientNet, ConvNeXt, RegNet, NFNet, CoAtNet; 모듈: Dilated/Deformable/Depthwise/Grouped, SENet, CBAM, ECA; 경량: ShuffleNet, GhostNet자체 데이터로 소형 CNN 학습, Depthwise vs Standard Ablation
RNN/TCNVanilla RNN(Elman/Jordan), LSTM, GRU, Peephole, Bi-/Stacked, TCN패딩/마스킹 포함 시퀀스 분류기(LSTM/GRU vs TCN)
TransformerEncoder(BERT), Decoder(GPT), Enc-Dec(T5/BART); 비전: ViT/DeiT/Swin, PVT, MaxViT; 검출: DETR/Deformable DETR, Mask2Former; 효율: Transformer-XL, Longformer, BigBird, Reformer, Performer, Linformer, FlashAttention; 디코더 모델: Llama/Mistral/Gemma/Phi; 희소/조건부: MoE(GShard/Switch/Mixtral), Mixture-of-Depths, Adaptive Computation Time; 검색: RAG/REALM/RETRO/kNN-LM소형 인코더 분류/디코더 생성 파인튜닝 + 사내 코퍼스 RAG
SSM/장거리S4/S5/DSS, Mamba, Retentive Network, Hyena/H3, RWKV장시퀀스 태스크에서 Transformer ↔ Mamba/RWKV 처리량·정확도 비교
GNNGCN, GAT, GraphSAGE, GIN, MPNN, Graph Transformer, 등변성: EGNN, SE(3)-Transformer, 시간: TGN, 생성: GAE/VGAECora 노드 분류 → TGN으로 시간 변화 그래프 실험
INR/3DSIREN, NeRF(Mip-NeRF, Instant-NGP, DVGO, Plenoxels), DeepSDF, Occupancy Nets; 3D: PointNet/PointNet++, DGCNN, Point Transformer, MinkowskiNet소형 NeRF로 몇 장면 재구성(카메라 정합 포함)
Hopfield/기타Modern Hopfield Networks, Hopfield-Transformer, CapsNet, Neural ODE/Latent ODE/ODE-RNN토이 동역학에 Neural ODE 적용 → GRU와 성능/해석 비교
생성(AR)RNN-LM, GPT, PixelRNN/PixelCNN, WaveNet, ImageGPT, AudioLM/MusicLM텍스트/오디오 소형 AR 모델 학습·샘플링
생성(VAE/Flow/EBM)VAE/β-VAE, VQ-VAE/VQ-VAE-2, NVAE; NICE/RealNVP/Glow, Flow Matching/Rectified Flow; EBM/Score Matching/NCEVQ-VAE 학습 → 코드북 시각화, Recon vs Sample 비교
생성(Diffusion)DDPM/Improved DDPM, DDIM, Score-SDE(VE/VP), Latent Diffusion(Stable Diffusion), EDM, Consistency Models; Transformer 기반: DiT, U-ViT소형 이미지 DDPM 학습, FID/Precision-Recall 측정
NLPTokenizer, BERT/T5/GPT FT, Instruction Tuning, LoRA, Long-Context(ROPE/ALiBi, Longformer/BigBird), RAG도메인 Q&A에 RAG 적용, 환각/근거 평가
비전백본(ResNet/ConvNeXtViT/Swin), 검출(YOLO/RetinaNet/Faster R-CNNDETR), 분할(U-Net/DeepLab ↔ Mask2Former)멀티객체 검출 파이프라인 구축, 지연시간 vs mAP
음성/오디오ASR: Conformer, RNN-T/CTC, Whisper; TTS: WaveNet, HiFi-GAN, VITS; 생성: AudioLM/MusicLM사내 억양 Whisper FT, 스트리밍 ASR 서빙
시계열TCN, Informer/Autoformer, S4/Mamba, RWKV외생 변수 포함 다중 수평 예측, MSE/지연 비교
멀티모달CLIP, BLIP/BLIP-2, Flamingo, LLaVA, GPT-4V, Gemini; 정렬: ITC/ITM; 평가: VQA/VLEP이미지-텍스트 검색 + VQA, 캡션/메타에 RAG 결합
강화학습DQN/Double/Rainbow, A2C/A3C, PPO, SAC/TD3, Decision Transformer; RLHF: SFT→RM→PPO/DPO연속 제어에 PPO, 보상 셰이핑·커리큘럼
단백질/생물AlphaFold(Evoformer), ESM, RFdiffusion, ProtGPTESM 임베딩으로 성질 예측, RFdiffusion 결과 해석(개념)
시스템/서빙AdamW+스케줄러, Grad Clip, WD/EMA; 정규화: Dropout/Label Smoothing/Stochastic Depth/Mixup-CutMix; 스케일링: DP/ZeRO, 텐서·모델·파이프 병렬, MoE, Checkpointing, LoRA/QLoRA; 서빙: Quant(INT8/FP8), Distillation, Triton/FastAPI, KV 재사용도메인 프로젝트 1개를 프로덕션 유사 서빙 + 대시보드 + A/B 테스트

캡스톤 예시(택1)

  • 멀티모달 스튜디오 어시스턴트: RAG + LLaVA/CLIP로 컷/에셋 검색·태깅·노트 (온프레미스)
  • 장시퀀스 예측: Mamba/RWKV vs Transformer, 운영 알림 배포
  • 실시간 ASR→자막: Whisper/Conformer, 지연 예산 & 도메인 용어 사전
  • NeRF 기반 VP 백드롭: 캡처 → Instant-NGP → 키잉·트래킹 합성
  • Bio-임베딩 특성화: ESM 임베딩으로 성질 예측, 해석성 중심

코멘트

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다