[카테고리:] 미분류

  • AI Learning Roadmap — One-Page Brochure (KR)

    구역핵심 키워드(검색용)실전 마일스톤(프로젝트 체크)
    기초Linear Algebra, Calc for DL, Probability, AdamW, Init, ReproducibilityMNIST/CIFAR 분류기 + 문자 RNN 토이, 로깅/체크포인트
    구조/MLPMLP, Residual MLP, MLP-Mixer, gMLP, KANCIFAR에서 Mixer 재현 → 소형 CNN과 정확도/파라미터 비교
    CNNResNet, DenseNet, Inception, MobileNet, EfficientNet, ConvNeXt, RegNet, NFNet, CoAtNet; 모듈: Dilated/Deformable/Depthwise/Grouped, SENet, CBAM, ECA; 경량: ShuffleNet, GhostNet자체 데이터로 소형 CNN 학습, Depthwise vs Standard Ablation
    RNN/TCNVanilla RNN(Elman/Jordan), LSTM, GRU, Peephole, Bi-/Stacked, TCN패딩/마스킹 포함 시퀀스 분류기(LSTM/GRU vs TCN)
    TransformerEncoder(BERT), Decoder(GPT), Enc-Dec(T5/BART); 비전: ViT/DeiT/Swin, PVT, MaxViT; 검출: DETR/Deformable DETR, Mask2Former; 효율: Transformer-XL, Longformer, BigBird, Reformer, Performer, Linformer, FlashAttention; 디코더 모델: Llama/Mistral/Gemma/Phi; 희소/조건부: MoE(GShard/Switch/Mixtral), Mixture-of-Depths, Adaptive Computation Time; 검색: RAG/REALM/RETRO/kNN-LM소형 인코더 분류/디코더 생성 파인튜닝 + 사내 코퍼스 RAG
    SSM/장거리S4/S5/DSS, Mamba, Retentive Network, Hyena/H3, RWKV장시퀀스 태스크에서 Transformer ↔ Mamba/RWKV 처리량·정확도 비교
    GNNGCN, GAT, GraphSAGE, GIN, MPNN, Graph Transformer, 등변성: EGNN, SE(3)-Transformer, 시간: TGN, 생성: GAE/VGAECora 노드 분류 → TGN으로 시간 변화 그래프 실험
    INR/3DSIREN, NeRF(Mip-NeRF, Instant-NGP, DVGO, Plenoxels), DeepSDF, Occupancy Nets; 3D: PointNet/PointNet++, DGCNN, Point Transformer, MinkowskiNet소형 NeRF로 몇 장면 재구성(카메라 정합 포함)
    Hopfield/기타Modern Hopfield Networks, Hopfield-Transformer, CapsNet, Neural ODE/Latent ODE/ODE-RNN토이 동역학에 Neural ODE 적용 → GRU와 성능/해석 비교
    생성(AR)RNN-LM, GPT, PixelRNN/PixelCNN, WaveNet, ImageGPT, AudioLM/MusicLM텍스트/오디오 소형 AR 모델 학습·샘플링
    생성(VAE/Flow/EBM)VAE/β-VAE, VQ-VAE/VQ-VAE-2, NVAE; NICE/RealNVP/Glow, Flow Matching/Rectified Flow; EBM/Score Matching/NCEVQ-VAE 학습 → 코드북 시각화, Recon vs Sample 비교
    생성(Diffusion)DDPM/Improved DDPM, DDIM, Score-SDE(VE/VP), Latent Diffusion(Stable Diffusion), EDM, Consistency Models; Transformer 기반: DiT, U-ViT소형 이미지 DDPM 학습, FID/Precision-Recall 측정
    NLPTokenizer, BERT/T5/GPT FT, Instruction Tuning, LoRA, Long-Context(ROPE/ALiBi, Longformer/BigBird), RAG도메인 Q&A에 RAG 적용, 환각/근거 평가
    비전백본(ResNet/ConvNeXtViT/Swin), 검출(YOLO/RetinaNet/Faster R-CNNDETR), 분할(U-Net/DeepLab ↔ Mask2Former)멀티객체 검출 파이프라인 구축, 지연시간 vs mAP
    음성/오디오ASR: Conformer, RNN-T/CTC, Whisper; TTS: WaveNet, HiFi-GAN, VITS; 생성: AudioLM/MusicLM사내 억양 Whisper FT, 스트리밍 ASR 서빙
    시계열TCN, Informer/Autoformer, S4/Mamba, RWKV외생 변수 포함 다중 수평 예측, MSE/지연 비교
    멀티모달CLIP, BLIP/BLIP-2, Flamingo, LLaVA, GPT-4V, Gemini; 정렬: ITC/ITM; 평가: VQA/VLEP이미지-텍스트 검색 + VQA, 캡션/메타에 RAG 결합
    강화학습DQN/Double/Rainbow, A2C/A3C, PPO, SAC/TD3, Decision Transformer; RLHF: SFT→RM→PPO/DPO연속 제어에 PPO, 보상 셰이핑·커리큘럼
    단백질/생물AlphaFold(Evoformer), ESM, RFdiffusion, ProtGPTESM 임베딩으로 성질 예측, RFdiffusion 결과 해석(개념)
    시스템/서빙AdamW+스케줄러, Grad Clip, WD/EMA; 정규화: Dropout/Label Smoothing/Stochastic Depth/Mixup-CutMix; 스케일링: DP/ZeRO, 텐서·모델·파이프 병렬, MoE, Checkpointing, LoRA/QLoRA; 서빙: Quant(INT8/FP8), Distillation, Triton/FastAPI, KV 재사용도메인 프로젝트 1개를 프로덕션 유사 서빙 + 대시보드 + A/B 테스트

    캡스톤 예시(택1)

    • 멀티모달 스튜디오 어시스턴트: RAG + LLaVA/CLIP로 컷/에셋 검색·태깅·노트 (온프레미스)
    • 장시퀀스 예측: Mamba/RWKV vs Transformer, 운영 알림 배포
    • 실시간 ASR→자막: Whisper/Conformer, 지연 예산 & 도메인 용어 사전
    • NeRF 기반 VP 백드롭: 캡처 → Instant-NGP → 키잉·트래킹 합성
    • Bio-임베딩 특성화: ESM 임베딩으로 성질 예측, 해석성 중심