Full Citation: โDai, Xiaoliang, et al. โEmu: Enhancing image generation models using photogenic needles in a haystack.โ arXiv preprint arXiv:2309.15807 (2023).โ
Link to Paper: https://arxiv.org/abs/2309.15807
Conference Details: Meta 2023
์์์ ์ผ๋ก ์ ํ ๋ high quality ์ด๋ฏธ์ง(highly aesthetically-pleasing)๋ text-to-image ์์ฑ ๋ชจ๋ธ์์ ์ด๋ฏธ์ง์ ๋ฏธ์ ์ฑ(aesthetics)์ ํฅ์์ํฌ ์ ์๋ค.
๋จ์ง ์๋ฐฑ์์ ์์ฒ ๊ฐ์ high quality ์ด๋ฏธ์ง๋ฅผ fine-tuningํ๋ฉด ์์ฑ๋ ์ด๋ฏธ์ง์ ์๊ฐ์ ๋งค๋ ฅ์ด ํฅ์๋๋ค.
์ด๋ฌํ quality-tuning์ Latent Diffusion Model(LDM)๋ฟ๋ง ์๋๋ผ Pixel Diffusion ๋ฐ masked generative transformer models์๋ ํจ๊ณผ๊ฐ ์๋ค.
Full Citation: โMukhopadhyay, Soumik, et al. โDiff2Lip: Audio Conditioned Diffusion Models for Lip-Synchronization.โ arXiv preprint arXiv:2308.09716 (2023).โ
Link to Paper: https://arxiv.org/pdf/2308.09716.pdf
Conference Details: arXiv 2023
Project Page: Link
Lip synchronization task
Audio์ ๋ง๊ฒ ์ฌ๋์ ์ ์ ์์ง์์ ํฉ์ฑํ๋ task.
์ํ ์ฐ์ (๋๋น), ๊ฐ์ ์๋ฐํ ๋ฑ์์ ๋ค์ํ ์์ฉ์ด ๊ฐ๋ฅํ๋ค.
๋์ ๊ณผ์
๋ํ ์ผํ ์ ์ ์์ง์ ๊ตฌํ
identity, pose, emotions ๋ฑ source์ ํน์ง์ ๋ณด์กดํด์ผํจ
Full Citation: โMeng, Chenlin, et al. โOn distillation of guided diffusion models.โ Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023.โ
Link to Paper: https://arxiv.org/pdf/2210.03142.pdf
Conference Details: CVPR 2023 (์ฐ์๋
ผ๋ฌธ)
๋๋ฆฐ ์ํ๋ง์ด๋ผ๋ ๊ธฐ์กด diffusion ๋ชจ๋ธ์ ํ๊ณ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํด๊ฒฐํ ์ฐ๊ตฌ๋ ์์ผ๋, ์ด๋ unconditional diffusion model์ ํ์ ๋๋ค.
High-Resolution conditional image generation ์ ์ํด์๋ Classifier-free guidance๊ฐ ํ์ํ์ง๋ง, ์ด ๋ฐฉ๋ฒ์ ๋ง์ ์ฐ์ฐ์ ํ์๋ก ํ๋ฉฐ ์ํ๋ง ์๋๊ฐ ๋๋ฆฌ๋ค.
์ด ๋ ผ๋ฌธ์ Classifier-free guidance๋ฅผ ์ฌ์ฉํ๋ฉด์๋ ๋น ๋ฅธ ์ํ๋ง์ ๊ฐ๋ฅํ๊ฒ ํ๋ ์๋ก์ด ํ์ต ๊ธฐ๋ฒ์ ์ ์ํ๋ฉฐ, ์ด ๊ธฐ๋ฒ์ ๋จ 1~4 ๋จ๊ณ๋ง์ผ๋ก๋ ๊ธฐ์กด ๋ชจ๋ธ๋ค๊ณผ ๋น๊ตํ ์ ์๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค.
Pixel-space diffusion: ImageNet 64x64, CIFAR-10 ๋ฐ์ดํฐ์ ์์ ๋จ 4 denoising step๋ง์ ๊ธฐ์กด ๋ชจ๋ธ๊ณผ ๋น์ทํ ์ฑ๋ฅ.
Latent-space diffusion: LAION ๋ฐ์ดํฐ์ ์์ 1~4 denoising step๋ง์ ๊ธฐ์กด ๋ชจ๋ธ๊ณผ ๋น์ทํ ์ฑ๋ฅ.
Text-to-Image diffusion: 2~4 denoising step๋ง์ ๊ธฐ์กด ๋ชจ๋ธ๊ณผ ๋น์ทํ ์ฑ๋ฅ
Full Citation: โPan, Xingang, et al. โDrag your gan: Interactive point-based manipulation on the generative image manifold.โ ACM SIGGRAPH 2023 Conference Proceedings. 2023.โ
Link to Paper: https://arxiv.org/abs/2305.10973
Conference Details: ACM SIGGRAPH 2023
- ์๋ก์ด GAN ๋ชจ๋ธ์ ๋ง๋๋ ๊ฒ์ด ์๋ ๊ธฐ์กด์ GAN (StyleGAN2)์ ์ปจํธ๋กค ํ๋ ์ฐ๊ตฌ.
- Src, Tgt ๋ ์ข ๋ฅ์ ํฌ์ธํฐ๋ก ์์ฑ ๋ ์ด๋ฏธ์ง์ pose, shape, expression ๋ฑ๋ฑ์ ๋ณํ.
- GAN์ ์ปจํธ๋กค ํ๋๋ฐ์ ์์ด ์ถ๊ฐ์ ์ธ ์ธ๊ณต์ง๋ฅ ๋ชจ๋ธ ํ์ต์ด๋ ํ์ฉ ํ์์์ด ๋ด๋ถ featuremap domain์์ ์ฐ์ฐ์ด ์งํ๋จ.
- GAN์ ์ ์ฌ๋ฅ๋ ฅ์ ๊ทนํ์ผ๋ก ํ์ฉํ๋ ๋๋.
Web Demos
Full Citation: โSinger, Uriel, et al. โMake-a-video: Text-to-video generation without text-video data.โ arXiv preprint arXiv:2209.14792 (2022).โ
Link to Paper: https://arxiv.org/abs/2209.14792
Conference Details: ICLR 2023
Project Page: Link
- ์ ํ Text-to-Video ์ฐ๊ตฌ๋ค์ ๋ค์์ video-text pair ๋ฐ์ดํฐ์ ์ด ํ์ํ์ผ๋, ์ฌ์ ํ์ต ๋ Diffusion ๋ชจ๋ธ์ ๋ฅ๋ ฅ์ ํ์ฉํด video-text ๋ฐ์ดํฐ์ ์์ด video ๋ฐ์ดํฐ์ ๋ง์ ํ์ฉํด ๊ณ ํ๋ฆฌํฐ text-to-video ์์ฑ๋ชจ๋ธ ํ์ต ๋ฐฉ์์ ์ ๋ณด์.
- 4D ์ ๋ ฅ์ธ video ์ฒ๋ฆฌ๋ฅผ ์ํด Spatial/Temporal Convolution + Attention ์ฐ์ฐ์ ํ์ฉ.
Full Citation: โKingma, Diederik P., and Max Welling. โAuto-encoding variational bayes.โ arXiv preprint arXiv:1312.6114 (2013).โ
Link to Paper: https://arxiv.org/abs/1312.6114
Conference Details: arXiv 2013 \
Full Citation: โRombach, Robin, et al. โHigh-resolution image synthesis with latent diffusion models.โ Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022.โ
Link to Paper: https://arxiv.org/abs/2112.10752
Conference Details: CVPR 2022 \
- Inference, Training์ ๋งค์ฐ ํฐ ์์๊ณผ ์๊ฐ์ด ์๋ชจ๋๋ ๊ธฐ์กด์ Diffusion ๋ชจ๋ธ์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ณ ์์ ๋ ๊ณต๊ฐ์์ diffusion process๋ฅผ ํ์ต์ํค๊ธฐ ๋๋ฌธ์ ๋ค์ํ conditional์ ๋ํด prior๋ฅผ ํ์ตํ ์ ์๊ฒํจ.
- ์คํ์ ์ธ ํด์์ด ๋งค์ฐ ํ์ํจ. ์ง์ ์ ์ธ ์ฝ๋ ํด์์ด ํ์ํจ.
Full Citation: โSong, Jiaming, Chenlin Meng, and Stefano Ermon. โDenoising diffusion implicit models.โ arXiv preprint arXiv:2010.02502 (2020).โ
Link to Paper: https://arxiv.org/abs/2010.02502
Conference Details: arXiv 2020 \