Stable Diffusion


๐Ÿ”น Stable Diffusion ๊ธฐ๋ณธ ํ•™์Šต ๊ณผ์ •

Stable Diffusion์€ ๊ธฐ๋ณธ์ ์œผ๋กœ **๋…ธ์ด์ฆˆ ์ถ”๊ฐ€-์ œ๊ฑฐ(์—ญ๋ฐฉํ–ฅ ๊ณผ์ •)**๋กœ ํ•™์Šต๋œ ๊ฑด ๋งž์Šต๋‹ˆ๋‹ค.
์ด๋•Œ, ๊ทธ๋ƒฅ ์ด๋ฏธ์ง€์— ๋…ธ์ด์ฆˆ๋ฅผ ์ œ๊ฑฐํ•˜๋Š” ๊ฒŒ ์•„๋‹ˆ๋ผ, **ํ…์ŠคํŠธ ํ”„๋กฌํ”„ํŠธ(๋ฌธ์žฅ)**๋ฅผ ์กฐ๊ฑด์œผ๋กœ ๊ฐ™์ด ์ค๋‹ˆ๋‹ค.

1. ํ…์ŠคํŠธ ์ž„๋ฒ ๋”ฉ ์ค€๋น„

  • ๋จผ์ €, ์ด๋ฏธ์ง€์— ๋Œ€ํ•œ ์„ค๋ช…(์บก์…˜) ๋ฌธ์žฅ์„ ์ค€๋น„ํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ: “a cat sitting on a chair”
  • ์ด ๋ฌธ์žฅ์„ ํ…์ŠคํŠธ ์ธ์ฝ”๋”(์ฃผ๋กœ CLIP์˜ ํ…์ŠคํŠธ ์ธ์ฝ”๋”)๋ฅผ ์ด์šฉํ•ด **๋ฒกํ„ฐ(์ž„๋ฒ ๋”ฉ)**๋กœ ๋ณ€ํ™˜ํ•ฉ๋‹ˆ๋‹ค.
  • ์ด ๋ฒกํ„ฐ๊ฐ€ ๊ทธ๋ฆผ์„ ๊ทธ๋ฆด ๋•Œ ๊ฐ€์ด๋“œ ์—ญํ• ์„ ํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

2. ์ด๋ฏธ์ง€์— ์ ์  ๋…ธ์ด์ฆˆ ์ถ”๊ฐ€ (forward process)

  • ๊ณ ์–‘์ด ์‚ฌ์ง„์— ์ ์ง„์ ์œผ๋กœ ๋…ธ์ด์ฆˆ๋ฅผ ์ถ”๊ฐ€ํ•ด, ์ ์  ์•Œ์•„๋ณผ ์ˆ˜ ์—†๋Š” ์ด๋ฏธ์ง€๋กœ ๋งŒ๋“ญ๋‹ˆ๋‹ค.
  • ๊ฐ ๋‹จ๊ณ„์—์„œ “์ด ์ •๋„ ๋…ธ์ด์ฆˆ๊ฐ€ ์ถ”๊ฐ€๋์„ ๋•Œ, ์›๋ž˜ ์ด๋ฏธ์ง€๋กœ ๋ณต์›ํ•˜๋ ค๋ฉด ์–ด๋–ป๊ฒŒ ํ•ด์•ผ ํ• ๊นŒ?”๋ฅผ ํ•™์Šตํ•˜๋„๋ก ๋งŒ๋“ญ๋‹ˆ๋‹ค.

3. ํ…์ŠคํŠธ-์ด๋ฏธ์ง€ ์—ฐ๊ฒฐ ํ•™์Šต (conditioning)

  • ์—ฌ๊ธฐ์„œ ์ค‘์š”ํ•œ ํฌ์ธํŠธ๋Š”:
    • ๋‹จ์ˆœํžˆ ๋…ธ์ด์ฆˆ๋ฅผ ์ œ๊ฑฐํ•˜๋Š” ๊ฑธ ํ•™์Šตํ•˜๋Š” ๊ฒŒ ์•„๋‹ˆ๋ผ, “ํ…์ŠคํŠธ ์„ค๋ช…์— ๋งž๊ฒŒ” ๋…ธ์ด์ฆˆ๋ฅผ ์ œ๊ฑฐํ•˜๋„๋ก ํ•™์Šตํ•œ๋‹ค๋Š” ๊ฑฐ์˜ˆ์š”.
    • ์ฆ‰, ๋…ธ์ด์ฆˆ ์ œ๊ฑฐ ๋„คํŠธ์›Œํฌ๊ฐ€ ์ด๋ฏธ์ง€์˜ ํŠน์ง•๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ํ…์ŠคํŠธ ์ž„๋ฒ ๋”ฉ๋„ ์ž…๋ ฅ์œผ๋กœ ๋ฐ›๋„๋ก ์„ค๊ณ„๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค.
    • “๊ณ ์–‘์ด”๋ผ๋Š” ํ…์ŠคํŠธ๊ฐ€ ์ฃผ์–ด์กŒ์„ ๋•Œ, ๊ณ ์–‘์ด์— ์–ด์šธ๋ฆฌ๋Š” ๋ชจ์–‘๊ณผ ์งˆ๊ฐ์„ ์ฐพ๋Š” ๋ฐฉ์‹์œผ๋กœ ํ›ˆ๋ จ๋ฉ๋‹ˆ๋‹ค.

๐Ÿ”น Text-to-image ํ•™์Šต ์š”์•ฝ

๊ณผ์ •์„ค๋ช…
1. ํ…์ŠคํŠธ ์ค€๋น„์ด๋ฏธ์ง€์— ๋งž๋Š” ์บก์…˜ ์ค€๋น„ (“a cat on a chair”)
2. ํ…์ŠคํŠธ ์ž„๋ฒ ๋”ฉCLIP ๋“ฑ์œผ๋กœ ํ…์ŠคํŠธ๋ฅผ ๋ฒกํ„ฐ๋กœ ๋ณ€ํ™˜
3. ์ด๋ฏธ์ง€ ๋…ธ์ด์ฆˆํ™”๊นจ๋—ํ•œ ์ด๋ฏธ์ง€์— ์ ์ง„์ ์œผ๋กœ ๋…ธ์ด์ฆˆ ์ถ”๊ฐ€
4. ๋…ธ์ด์ฆˆ ์ œ๊ฑฐ ํ•™์Šต๋…ธ์ด์ฆˆ ์ œ๊ฑฐํ•  ๋•Œ, ํ…์ŠคํŠธ ์ž„๋ฒ ๋”ฉ์„ ์ฐธ๊ณ ํ•˜๋„๋ก ํ•™์Šต
5. ํ…์ŠคํŠธ-์ด๋ฏธ์ง€ ๋งคํ•‘ ๊ฐ•ํ™”“์ด ํ…์ŠคํŠธ๋ฉด ์ด๋Ÿฐ ์ด๋ฏธ์ง€”๋ผ๋Š” ์—ฐ๊ด€์„ฑ ํ•™์Šต

๐Ÿ”น ํ•ต์‹ฌ ํฌ์ธํŠธ

โ“ ๊ธฐ์กด ๋””ํ“จ์ „ ๋ชจ๋ธ๊ณผ ์ฐจ์ด

  • ์›๋ž˜ ๋””ํ“จ์ „ ๋ชจ๋ธ์€ ๊ทธ๋ƒฅ ์ด๋ฏธ์ง€๋งŒ ๋ณด๊ณ  ๋…ธ์ด์ฆˆ๋ฅผ ์ œ๊ฑฐํ•˜๋Š” ๋ชจ๋ธ์ด์—ˆ์–ด์š”.
  • Stable Diffusion์€ ๊ฑฐ๊ธฐ์— “ํ…์ŠคํŠธ ์„ค๋ช…”์ด๋ผ๋Š” ์กฐ๊ฑด์„ ์ถ”๊ฐ€ํ•ด์„œ, ์›ํ•˜๋Š” ์ด๋ฏธ์ง€๋กœ ์œ ๋„ํ•˜๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค.

โ“ ๊ฒฐ๊ตญ Text-to-Image๋Š”?

  • ํ…์ŠคํŠธ์™€ ์ด๋ฏธ์ง€์˜ ๊ด€๊ณ„๋ฅผ ๋ฐฐ์šฐ๋Š” ๊ณผ์ • +
  • ๋…ธ์ด์ฆˆ ์ œ๊ฑฐ๋ฅผ ๋ฐฐ์šฐ๋Š” ๊ณผ์ •์ด ๋™์‹œ์— ์ผ์–ด๋‚œ ๊ฑฐ์˜ˆ์š”.

๐Ÿ”น ์ฐธ๊ณ 

์ด ๊ณผ์ •์€ ํ”ํžˆ **์กฐ๊ฑด๋ถ€ ํ™•๋ฅ  ๋ชจ๋ธ(Conditional Diffusion Process)**๋กœ ๋ถˆ๋ฆฝ๋‹ˆ๋‹ค.
Stable Diffusion์€ CLIP ํ…์ŠคํŠธ ์ธ์ฝ”๋” + U-Net ๋…ธ์ด์ฆˆ ์ œ๊ฑฐ ๋„คํŠธ์›Œํฌ๋ฅผ ๊ฒฐํ•ฉํ•ด ์ด๊ฑธ ๊ตฌํ˜„ํ•œ ๊ฑฐ๊ณ ์š”.

์š”์•ฝํ•˜์ž๋ฉด:

“ํ…์ŠคํŠธ์— ๋งž๋Š” ์ด๋ฏธ์ง€๋ฅผ ๋งŒ๋“œ๋Š” ๋ฒ•”์„ ๋ฐฐ์šฐ๋Š” ๊ฒƒ๊ณผ
“๋…ธ์ด์ฆˆ์—์„œ ํ…์ŠคํŠธ์— ๋งž๋Š” ์ด๋ฏธ์ง€๋ฅผ ๋ณต์›ํ•˜๋Š” ๋ฒ•”์„ ๋™์‹œ์— ํ›ˆ๋ จํ•œ ๊ฒƒ!

์ข‹์Šต๋‹ˆ๋‹ค! ๊ทธ๋Ÿผ Stable Diffusion ๋ฐ Text-to-Image ๋””ํ“จ์ „ ๋ชจ๋ธ์ด ๋…ผ๋ฌธ ๋ ˆ๋ฒจ์—์„œ ์–ด๋–ป๊ฒŒ ํ•™์Šต๋˜๋Š”์ง€, ํ•ต์‹ฌ ์ˆ˜์‹์„ ํฌํ•จํ•ด ๋””ํ…Œ์ผํ•˜๊ฒŒ ์„ค๋ช…ํ•ด๋“œ๋ฆด๊ฒŒ์š”. ๐Ÿš€


๐Ÿ“š 1. ๊ธฐ๋ณธ ๊ฐœ๋…: ํ™•์‚ฐ ํ™•๋ฅ  ๋ชจ๋ธ (Diffusion Probabilistic Models)

์ •๋ฐฉํ–ฅ ๊ณผ์ • (Forward Process)

์ด๋ฏธ์ง€ x0x_0์— ์ ์ง„์ ์œผ๋กœ ๋…ธ์ด์ฆˆ๋ฅผ ์ถ”๊ฐ€ํ•˜๋Š” ๊ณผ์ •์ž…๋‹ˆ๋‹ค.
์‹œ๊ฐ„ tt์— ๋”ฐ๋ฅธ ๋…ธ์ด์ฆˆํ™”๋Š” ์•„๋ž˜์ฒ˜๋Ÿผ ์ •์˜๋ฉ๋‹ˆ๋‹ค. q(xtโˆฃxtโˆ’1)=N(xt;1โˆ’ฮฒtโ‹…xtโˆ’1,ฮฒtโ‹…I)q(x_t \mid x_{t-1}) = \mathcal{N}(x_t ; \sqrt{1 – \beta_t} \cdot x_{t-1}, \beta_t \cdot I)

  • ฮฒt\beta_t: ์‹œ๊ฐ„ tt์— ๋”ฐ๋ฅธ ๋…ธ์ด์ฆˆ ์Šค์ผ€์ค„ (์ž‘์€ ๊ฐ’๋ถ€ํ„ฐ ์‹œ์ž‘ํ•ด ์ ์  ์ปค์ง)
  • ์ด ๊ณผ์ •์€ ์ฃผ์–ด์ง„ ๊นจ๋—ํ•œ ์ด๋ฏธ์ง€ x0x_0์—์„œ ์ ์ง„์ ์œผ๋กœ ๋…ธ์ด์ฆˆ๋ฅผ ์ถ”๊ฐ€ํ•ด xTx_T์— ๋„๋‹ฌํ•˜๋Š” ๋งˆ๋ฅด์ฝ”ํ”„ ์ฒด์ธ.

์—ญ๋ฐฉํ–ฅ ๊ณผ์ • (Reverse Process)

๋ชฉํ‘œ๋Š” ๋…ธ์ด์ฆˆ xTx_T์—์„œ ์ ์ง„์ ์œผ๋กœ ๋…ธ์ด์ฆˆ๋ฅผ ์ œ๊ฑฐํ•ด ์›๋ณธ ์ด๋ฏธ์ง€๋กœ ๋ณต์›ํ•˜๋Š” ๊ฒƒ.
์—ญ๋ฐฉํ–ฅ ํ™•๋ฅ ์€ ๋‹ค์Œ์ฒ˜๋Ÿผ ์ •์˜: pฮธ(xtโˆ’1โˆฃxt)p_\theta(x_{t-1} \mid x_t)

์ด pฮธp_\theta๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ๋ชจ๋ธ์ด ๋ฐ”๋กœ U-Net ๊ฐ™์€ ๋””ํ“จ์ „ ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜์ž…๋‹ˆ๋‹ค.
(๋…ธ์ด์ฆˆ๋ฅผ ์ œ๊ฑฐํ•˜๋Š” ๋„คํŠธ์›Œํฌ)


๐Ÿ“š 2. Text-to-Image: ์กฐ๊ฑด๋ถ€ ๋””ํ“จ์ „ (Conditional Diffusion)

์กฐ๊ฑด ์ถ”๊ฐ€ํ•˜๊ธฐ

์œ„์˜ ๋…ธ์ด์ฆˆ ์ œ๊ฑฐ ๋ชจ๋ธ pฮธp_\theta๋Š” ๋‹จ์ˆœํžˆ ์ด๋ฏธ์ง€๋งŒ ๋ณด๋Š” ๊ฒŒ ์•„๋‹ˆ๋ผ, “ํ…์ŠคํŠธ ์„ค๋ช…”์ด๋ผ๋Š” ์กฐ๊ฑด yy๋„ ํ•จ๊ป˜ ๋ฐ›๋„๋ก ํ•™์Šต๋ฉ๋‹ˆ๋‹ค. pฮธ(xtโˆ’1โˆฃxt,y)p_\theta(x_{t-1} \mid x_t, y)

  • yy๋Š” ํ…์ŠคํŠธ ํ”„๋กฌํ”„ํŠธ (์˜ˆ: “a cat on a chair”)
  • ์ด ์กฐ๊ฑด yy๋Š” ๋ณดํ†ต CLIP ํ…์ŠคํŠธ ์ธ์ฝ”๋”๋ฅผ ํ†ตํ•ด ์ž„๋ฒ ๋”ฉ ๋ฒกํ„ฐ๋กœ ๋ณ€ํ™˜
  • ์ฆ‰, ๋…ธ์ด์ฆˆ๋ฅผ ์ œ๊ฑฐํ•  ๋•Œ, ํ…์ŠคํŠธ ์ •๋ณด๊ฐ€ “์ด ์ด๋ฏธ์ง€์— ๊ณ ์–‘์ด๋ฅผ ๊ทธ๋ ค์•ผ ํ•ด”๋ผ๋Š” ์‹ ํ˜ธ๋ฅผ ์ฃผ๋Š” ์—ญํ• 

ํ•™์Šต ์†์‹ค ํ•จ์ˆ˜ (ELBO ๊ธฐ๋ฐ˜)

Stable Diffusion ๋ฐ ๋Œ€๋ถ€๋ถ„์˜ ๋””ํ“จ์ „ ๋ชจ๋ธ์€ ๋ณ€๋ถ„ ์ถ”๋ก  ๊ธฐ๋ฐ˜ ํ•™์Šต์„ ํ•ฉ๋‹ˆ๋‹ค. ๋ชฉํ‘œ๋Š” ์‹ค์ œ ์—ญ๋ฐฉํ–ฅ ๋ถ„ํฌ qq์™€ ๋ชจ๋ธ ๋ถ„ํฌ pฮธp_\theta์˜ Kullback-Leibler ๋ฐœ์‚ฐ์„ ์ตœ์†Œํ™”ํ•˜๋Š” ๊ฒƒ. L=Eq[โˆ‘t=1TDKL(q(xtโˆ’1โˆฃxt,x0)โˆฅpฮธ(xtโˆ’1โˆฃxt,y))]L = \mathbb{E}_q \left[ \sum_{t=1}^T D_{KL}(q(x_{t-1} \mid x_t, x_0) \| p_\theta(x_{t-1} \mid x_t, y)) \right]

  • ๊ฐ ์‹œ๊ฐ„ ์Šคํ… tt๋งˆ๋‹ค KL ๋ฐœ์‚ฐ์œผ๋กœ ์ •๊ทœํ™”๋œ ๋…ธ์ด์ฆˆ ์ œ๊ฑฐ ๊ณผ์ •๊ณผ ๋ชจ๋ธ์˜ ์˜ˆ์ธก์„ ๋น„๊ต
  • ์‹ค์ œ ํ›ˆ๋ จ์—์„œ๋Š” ์œ„ ์ „์ฒด ELBO ๋Œ€์‹ , ๋…ธ์ด์ฆˆ ์˜ˆ์ธก ์†์‹ค์„ ์”๋‹ˆ๋‹ค.

๋…ธ์ด์ฆˆ ์˜ˆ์ธก ๋ชฉํ‘œ๋กœ ๋‹จ์ˆœํ™” (Noise Prediction Objective)

๋””ํ“จ์ „ ํ•™์Šต์˜ ํ•ต์‹ฌ์€ “๋…ธ์ด์ฆˆ ์ž์ฒด๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ๊ฒƒ”์œผ๋กœ ๋‹จ์ˆœํ™”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฏธ์ง€ x0x_0์—์„œ ๋…ธ์ด์ฆˆํ™”๋œ ์ด๋ฏธ์ง€ xtx_t๋ฅผ ๋งŒ๋“  ํ›„, ๋ชจ๋ธ์€ ๋‹ค์Œ์„ ์˜ˆ์ธก: ฯตฮธ(xt,t,y)\epsilon_\theta(x_t, t, y)

  • xtx_t: ์‹œ๊ฐ„ tt์—์„œ์˜ ๋…ธ์ด์ฆˆ ์ด๋ฏธ์ง€
  • yy: ํ…์ŠคํŠธ ์กฐ๊ฑด
  • ฯตฮธ\epsilon_\theta: ํ˜„์žฌ ๋…ธ์ด์ฆˆ์˜ ํฌ๊ธฐ์™€ ๋ฐฉํ–ฅ์„ ์˜ˆ์ธกํ•˜๋Š” ๋ชจ๋ธ (U-Net)

ํ•™์Šต ์†์‹ค (์‹ค์ œ ํ•™์Šต ์‹œ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ)

L=Ex0,t,ฯต[โˆฅฯตโˆ’ฯตฮธ(xt,t,y)โˆฅ2]L = \mathbb{E}_{x_0, t, \epsilon} \left[ \|\epsilon – \epsilon_\theta(x_t, t, y)\|^2 \right]

  • ์‹ค์ œ ๋…ธ์ด์ฆˆ ฯต\epsilon๊ณผ ๋ชจ๋ธ์ด ์˜ˆ์ธกํ•œ ๋…ธ์ด์ฆˆ ฯตฮธ\epsilon_\theta์˜ MSE ์†์‹ค
  • ํ…์ŠคํŠธ yy๊ฐ€ ๋“ค์–ด๊ฐ€๋Š” ๊ฒŒ ํ•ต์‹ฌ
  • ๋ชจ๋ธ์€ ์ด ์†์‹ค์„ ์ตœ์†Œํ™”ํ•˜๋ฉด์„œ, ํ…์ŠคํŠธ์— ๋งž๋Š” ๋…ธ์ด์ฆˆ ์ œ๊ฑฐ ๋ฐฉํ–ฅ์„ ๋ฐฐ์šฐ๊ฒŒ ๋จ

๐Ÿ“š 3. Text Conditioning ๊ตฌ์ฒด ๋ฉ”์ปค๋‹ˆ์ฆ˜

ํ…์ŠคํŠธ ์ž„๋ฒ ๋”ฉ

  • ํ…์ŠคํŠธ ํ”„๋กฌํ”„ํŠธ yy๋Š” ๋ณดํ†ต CLIP ํ…์ŠคํŠธ ์ธ์ฝ”๋”๋ฅผ ํ†ตํ•ด ๋ฒกํ„ฐ E(y)E(y)๋กœ ๋ณ€ํ™˜
  • ์ด ์ž„๋ฒ ๋”ฉ์€ ๋””ํ“จ์ „ ๋ชจ๋ธ์˜ ๋ชจ๋“  U-Net ๋ธ”๋ก์— Cross-Attention ํ˜•ํƒœ๋กœ ๋“ค์–ด๊ฐ

Cross-Attention

๊ฐ ๋””ํ“จ์ „ ๋ธ”๋ก์—์„œ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ํ…์ŠคํŠธ ์ •๋ณด๋ฅผ ์ด๋ฏธ์ง€์— ์ฃผ์ž…: Attention(Q,K,V)=softmax(QKTd)V\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d}}\right)V

  • QQ: ์ด๋ฏธ์ง€์˜ ์ค‘๊ฐ„ ํ‘œํ˜„
  • KK, VV: ํ…์ŠคํŠธ ์ž„๋ฒ ๋”ฉ์—์„œ ์˜จ ํ† ํฐ ํ‘œํ˜„
  • ํ…์ŠคํŠธ๊ฐ€ ์ด๋ฏธ์ง€์˜ ์–ด๋–ค ์˜์—ญ์— ์˜ํ–ฅ์„ ์ค„์ง€๋ฅผ ํ•™์Šตํ•˜๋Š” ๊ตฌ์กฐ

๐Ÿ“š 4. Stable Diffusion์˜ Latent Diffusion Trick

Latent ๊ณต๊ฐ„์—์„œ ๋””ํ“จ์ „ ์ˆ˜ํ–‰

  • Stable Diffusion์€ ํ”ฝ์…€ ๊ณต๊ฐ„์—์„œ ์ง์ ‘ ๋…ธ์ด์ฆˆ ์ฒ˜๋ฆฌ๊ฐ€ ์•„๋‹ˆ๋ผ, VAE๋กœ ์ธ์ฝ”๋”ฉํ•œ latent ๊ณต๊ฐ„์—์„œ ๋””ํ“จ์ „ ์ง„ํ–‰
  • ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ๋Š” (์ด๋ฏธ์ง€, ์บก์…˜) ์Œ์ด์ง€๋งŒ, ์ด๋ฏธ์ง€ ๋Œ€์‹  ์••์ถ•๋œ latent zz๋ฅผ ์‚ฌ์šฉ

z=Encoder(x)z = \text{Encoder}(x) pฮธ(ztโˆ’1โˆฃzt,y)p_\theta(z_{t-1} \mid z_t, y)

  • ๋ฉ”๋ชจ๋ฆฌ ์ ˆ์•ฝ ๋ฐ ํ›ˆ๋ จ ์†๋„ ํ–ฅ์ƒ ํšจ๊ณผ

๐Ÿ“š 5. ์ •๋ฆฌ: ์ „์ฒด ํ•™์Šต ํŒŒ์ดํ”„๋ผ์ธ

  1. (์ด๋ฏธ์ง€, ํ…์ŠคํŠธ ์บก์…˜) ์Œ ์ˆ˜์ง‘
  2. ์ด๋ฏธ์ง€ โ†’ VAE Encoder โ†’ latent ๋ฒกํ„ฐ zz
  3. ํ…์ŠคํŠธ โ†’ CLIP โ†’ ํ…์ŠคํŠธ ์ž„๋ฒ ๋”ฉ E(y)E(y)
  4. zz์— forward process๋กœ ๋…ธ์ด์ฆˆ ์ถ”๊ฐ€
  5. U-Net์ด ztz_t์—์„œ ๋…ธ์ด์ฆˆ ฯต\epsilon ์˜ˆ์ธก, ํ…์ŠคํŠธ ์ž„๋ฒ ๋”ฉ์œผ๋กœ ์กฐ๊ฑด๋ถ€ ์ œ์–ด
  6. ๋…ธ์ด์ฆˆ ์˜ˆ์ธก ์†์‹ค๋กœ ํ•™์Šต

๐Ÿ“š 6. ์ฐธ๊ณ  ๋…ผ๋ฌธ

  • DDPM: Denoising Diffusion Probabilistic Models (Ho et al., 2020)
  • GLIDE: Guided Language to Image Diffusion (Nichol et al., 2021)
  • Latent Diffusion Models (LDM) (Rombach et al., 2022) – Stable Diffusion์˜ ๊ธฐ๋ฐ˜ ๋…ผ๋ฌธ
  • https://arxiv.org/abs/2112.10752 (LDM ๊ณต์‹ ๋…ผ๋ฌธ)

๐Ÿ“š 7. ์š”์•ฝ ํ•œ ์ค„

Stable Diffusion์€ ๋…ธ์ด์ฆˆ ์ œ๊ฑฐ ๋ชจ๋ธ์„ ํ…์ŠคํŠธ ์กฐ๊ฑด๊ณผ ํ•จ๊ป˜ ํ•™์Šตํ•˜์—ฌ, “ํ…์ŠคํŠธ์— ๋งž๋Š” ์ด๋ฏธ์ง€๋ฅผ ๋…ธ์ด์ฆˆ์—์„œ ๋ณต์›ํ•˜๋Š” ๋ฒ•”์„ ๋ฐฐ์šฐ๋Š” ๊ตฌ์กฐ


์ฝ”๋ฉ˜ํŠธ

๋‹ต๊ธ€ ๋‚จ๊ธฐ๊ธฐ

์ด๋ฉ”์ผ ์ฃผ์†Œ๋Š” ๊ณต๊ฐœ๋˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค. ํ•„์ˆ˜ ํ•„๋“œ๋Š” *๋กœ ํ‘œ์‹œ๋ฉ๋‹ˆ๋‹ค