| 기초 | Linear Algebra, Calc for DL, Probability, AdamW, Init, Reproducibility | MNIST/CIFAR 분류기 + 문자 RNN 토이, 로깅/체크포인트 |
| 구조/MLP | MLP, Residual MLP, MLP-Mixer, gMLP, KAN | CIFAR에서 Mixer 재현 → 소형 CNN과 정확도/파라미터 비교 |
| CNN | ResNet, DenseNet, Inception, MobileNet, EfficientNet, ConvNeXt, RegNet, NFNet, CoAtNet; 모듈: Dilated/Deformable/Depthwise/Grouped, SENet, CBAM, ECA; 경량: ShuffleNet, GhostNet | 자체 데이터로 소형 CNN 학습, Depthwise vs Standard Ablation |
| RNN/TCN | Vanilla RNN(Elman/Jordan), LSTM, GRU, Peephole, Bi-/Stacked, TCN | 패딩/마스킹 포함 시퀀스 분류기(LSTM/GRU vs TCN) |
| Transformer | Encoder(BERT), Decoder(GPT), Enc-Dec(T5/BART); 비전: ViT/DeiT/Swin, PVT, MaxViT; 검출: DETR/Deformable DETR, Mask2Former; 효율: Transformer-XL, Longformer, BigBird, Reformer, Performer, Linformer, FlashAttention; 디코더 모델: Llama/Mistral/Gemma/Phi; 희소/조건부: MoE(GShard/Switch/Mixtral), Mixture-of-Depths, Adaptive Computation Time; 검색: RAG/REALM/RETRO/kNN-LM | 소형 인코더 분류/디코더 생성 파인튜닝 + 사내 코퍼스 RAG |
| SSM/장거리 | S4/S5/DSS, Mamba, Retentive Network, Hyena/H3, RWKV | 장시퀀스 태스크에서 Transformer ↔ Mamba/RWKV 처리량·정확도 비교 |
| GNN | GCN, GAT, GraphSAGE, GIN, MPNN, Graph Transformer, 등변성: EGNN, SE(3)-Transformer, 시간: TGN, 생성: GAE/VGAE | Cora 노드 분류 → TGN으로 시간 변화 그래프 실험 |
| INR/3D | SIREN, NeRF(Mip-NeRF, Instant-NGP, DVGO, Plenoxels), DeepSDF, Occupancy Nets; 3D: PointNet/PointNet++, DGCNN, Point Transformer, MinkowskiNet | 소형 NeRF로 몇 장면 재구성(카메라 정합 포함) |
| Hopfield/기타 | Modern Hopfield Networks, Hopfield-Transformer, CapsNet, Neural ODE/Latent ODE/ODE-RNN | 토이 동역학에 Neural ODE 적용 → GRU와 성능/해석 비교 |
| 생성(AR) | RNN-LM, GPT, PixelRNN/PixelCNN, WaveNet, ImageGPT, AudioLM/MusicLM | 텍스트/오디오 소형 AR 모델 학습·샘플링 |
| 생성(VAE/Flow/EBM) | VAE/β-VAE, VQ-VAE/VQ-VAE-2, NVAE; NICE/RealNVP/Glow, Flow Matching/Rectified Flow; EBM/Score Matching/NCE | VQ-VAE 학습 → 코드북 시각화, Recon vs Sample 비교 |
| 생성(Diffusion) | DDPM/Improved DDPM, DDIM, Score-SDE(VE/VP), Latent Diffusion(Stable Diffusion), EDM, Consistency Models; Transformer 기반: DiT, U-ViT | 소형 이미지 DDPM 학습, FID/Precision-Recall 측정 |
| NLP | Tokenizer, BERT/T5/GPT FT, Instruction Tuning, LoRA, Long-Context(ROPE/ALiBi, Longformer/BigBird), RAG | 도메인 Q&A에 RAG 적용, 환각/근거 평가 |
| 비전 | 백본(ResNet/ConvNeXt ↔ ViT/Swin), 검출(YOLO/RetinaNet/Faster R-CNN ↔ DETR), 분할(U-Net/DeepLab ↔ Mask2Former) | 멀티객체 검출 파이프라인 구축, 지연시간 vs mAP |
| 음성/오디오 | ASR: Conformer, RNN-T/CTC, Whisper; TTS: WaveNet, HiFi-GAN, VITS; 생성: AudioLM/MusicLM | 사내 억양 Whisper FT, 스트리밍 ASR 서빙 |
| 시계열 | TCN, Informer/Autoformer, S4/Mamba, RWKV | 외생 변수 포함 다중 수평 예측, MSE/지연 비교 |
| 멀티모달 | CLIP, BLIP/BLIP-2, Flamingo, LLaVA, GPT-4V, Gemini; 정렬: ITC/ITM; 평가: VQA/VLEP | 이미지-텍스트 검색 + VQA, 캡션/메타에 RAG 결합 |
| 강화학습 | DQN/Double/Rainbow, A2C/A3C, PPO, SAC/TD3, Decision Transformer; RLHF: SFT→RM→PPO/DPO | 연속 제어에 PPO, 보상 셰이핑·커리큘럼 |
| 단백질/생물 | AlphaFold(Evoformer), ESM, RFdiffusion, ProtGPT | ESM 임베딩으로 성질 예측, RFdiffusion 결과 해석(개념) |
| 시스템/서빙 | AdamW+스케줄러, Grad Clip, WD/EMA; 정규화: Dropout/Label Smoothing/Stochastic Depth/Mixup-CutMix; 스케일링: DP/ZeRO, 텐서·모델·파이프 병렬, MoE, Checkpointing, LoRA/QLoRA; 서빙: Quant(INT8/FP8), Distillation, Triton/FastAPI, KV 재사용 | 도메인 프로젝트 1개를 프로덕션 유사 서빙 + 대시보드 + A/B 테스트 |
답글 남기기