[20260121 통합세미나] Efficient High-Resolution Image Generation via Latent…
페이지 정보

본문
[일시] 2026.01.21.
[세미나 주제]
Efficient High-Resolution Image Generation via Latent Diffusion and Consistency
[발표자]
김희지
[요약]
본 발표에서는 고해상도 이미지 생성을 위한 확산 모델의 한계를 정리하고, 이를 해결하기 위해 제안된 Latent Diffusion Model(LDM)과 Latent Consistency Model(LCM)을 발표하였다. 기존 픽셀 공간 기반 diffusion 모델은 우수한 생성 품질을 보이지만, 해상도 증가에 따라 계산 비용과 샘플링 시간이 급격히 증가하는 문제가 있다.
LDM은 이러한 한계를 극복하기 위해 forward 과정을 픽셀 공간이 아닌 Autoencoder로 학습된 잠재 공간(latent space)에서 수행함으로써, 계산 효율을 크게 향상시키면서도 생성 품질을 유지하는 모델이다. 특히 perceptual compression과 semantic generation을 분리하여, autoencoder는 시각적 디테일을 보존하고 diffusion 모델은 의미 구조를 학습하도록 역할을 분담하는 구조를 통해 시각적인 자연스러움을 유지하는 데에 기여하였다. 이를 통해 LDM은 unconditional generation, text-to-image, super-resolution, inpainting 등 다양한 생성 과제에서 경쟁력 있는 성능을 보이며, cross-attention 구조를 통해 조건 정보를 유연하게 통합한다. 그러나 LDM은 잠재 공간에서 수행되더라도 역확산 과정이 본질적으로 순차적이기 때문에 수백 단계의 샘플링이 필요하며, 이로 인해 추론 속도가 느리다는 한계를 가진다. 이러한 샘플링 병목을 해결하기 위해 제안된 LCM은 확산 분포 전반에 걸친 일관성(consistency)을 학습함으로써, 다단계 reverse process를 수행하지 않고도 고품질 이미지를 few step 또는 one step으로 생성할 수 있도록 확장한 모델이다. LCM은 teacher 모델(LDM 또는 기존 확산 모델)의 생성 궤적을 기반으로 student 모델을 학습시켜, 서로 다른 시간 단계의 출력이 동일한 결과로 수렴하도록 유도한다. 이를 통해 생성 품질을 유지하면서도 샘플링 속도를 획기적으로 개선한다.
결론적으로, LDM은 고해상도 확산 모델을 실용적인 계산 비용으로 가능하게 만든 핵심 모델이며, LCM은 LDM의 샘플링 스텝 효율 문제를 해결한 모델이다. 두 모델은 확산 기반 이미지 생성의 효율성과 확장성을 단계적으로 개선하며, 향후 다양한 생성과제로의 확장 가능성을 제시한다.
Q. LDM에서 autoencoder로 feature 수를 줄이면 얼마나 줄어드는지 궁금합니다.
A. LDM에서는 오토인코더를 사용해서 입력 이미지의 공간 해상도를 보통 8배 정도 줄이며, 전체 latent의 차원 수는 약 50배 정도 감소합니다. 예를 들어 256×256 크기의 RGB 이미지는 오토인코더를 거치면 32×32 크기의 latent 표현으로 압축됩니다. 가로와 세로가 각각 8배씩 줄어들기 때문에, 전체 공간 위치 수로 보면 64배 감소했다고도 볼 수 있습니다. 또한 채널 수는 3에서 4로 조금 늘어나지만, 전체 차원 수로 계산해 보면 256×256×3, 즉 약 20만 차원이 32×32×4, 약 4천 차원으로 줄어들어 결과적으로 전체 latent 차원 수는 약 50배 가까이 감소합니다. 이러한 차원 축소 덕분에 diffusion을 latent 공간에서 훨씬 효율적으로 수행할 수 있습니다.
[관련 논문]
- High-Resolution Image Synthesis with Latent Diffusion Models
- Latent Consistency Models: Synthesizing High-Resolution Images with Few-Step Inference
[녹화 영상]
https://us06web.zoom.us/rec/share/Sinm0qDouJQLyibHymjQutA4W1JtFuT-PfRLA3IkcG_WLSZbiX8GD6J8syx_99aK.jrsNDJTqTC65_187
[세미나 주제]
Efficient High-Resolution Image Generation via Latent Diffusion and Consistency
[발표자]
김희지
[요약]
본 발표에서는 고해상도 이미지 생성을 위한 확산 모델의 한계를 정리하고, 이를 해결하기 위해 제안된 Latent Diffusion Model(LDM)과 Latent Consistency Model(LCM)을 발표하였다. 기존 픽셀 공간 기반 diffusion 모델은 우수한 생성 품질을 보이지만, 해상도 증가에 따라 계산 비용과 샘플링 시간이 급격히 증가하는 문제가 있다.
LDM은 이러한 한계를 극복하기 위해 forward 과정을 픽셀 공간이 아닌 Autoencoder로 학습된 잠재 공간(latent space)에서 수행함으로써, 계산 효율을 크게 향상시키면서도 생성 품질을 유지하는 모델이다. 특히 perceptual compression과 semantic generation을 분리하여, autoencoder는 시각적 디테일을 보존하고 diffusion 모델은 의미 구조를 학습하도록 역할을 분담하는 구조를 통해 시각적인 자연스러움을 유지하는 데에 기여하였다. 이를 통해 LDM은 unconditional generation, text-to-image, super-resolution, inpainting 등 다양한 생성 과제에서 경쟁력 있는 성능을 보이며, cross-attention 구조를 통해 조건 정보를 유연하게 통합한다. 그러나 LDM은 잠재 공간에서 수행되더라도 역확산 과정이 본질적으로 순차적이기 때문에 수백 단계의 샘플링이 필요하며, 이로 인해 추론 속도가 느리다는 한계를 가진다. 이러한 샘플링 병목을 해결하기 위해 제안된 LCM은 확산 분포 전반에 걸친 일관성(consistency)을 학습함으로써, 다단계 reverse process를 수행하지 않고도 고품질 이미지를 few step 또는 one step으로 생성할 수 있도록 확장한 모델이다. LCM은 teacher 모델(LDM 또는 기존 확산 모델)의 생성 궤적을 기반으로 student 모델을 학습시켜, 서로 다른 시간 단계의 출력이 동일한 결과로 수렴하도록 유도한다. 이를 통해 생성 품질을 유지하면서도 샘플링 속도를 획기적으로 개선한다.
결론적으로, LDM은 고해상도 확산 모델을 실용적인 계산 비용으로 가능하게 만든 핵심 모델이며, LCM은 LDM의 샘플링 스텝 효율 문제를 해결한 모델이다. 두 모델은 확산 기반 이미지 생성의 효율성과 확장성을 단계적으로 개선하며, 향후 다양한 생성과제로의 확장 가능성을 제시한다.
Q. LDM에서 autoencoder로 feature 수를 줄이면 얼마나 줄어드는지 궁금합니다.
A. LDM에서는 오토인코더를 사용해서 입력 이미지의 공간 해상도를 보통 8배 정도 줄이며, 전체 latent의 차원 수는 약 50배 정도 감소합니다. 예를 들어 256×256 크기의 RGB 이미지는 오토인코더를 거치면 32×32 크기의 latent 표현으로 압축됩니다. 가로와 세로가 각각 8배씩 줄어들기 때문에, 전체 공간 위치 수로 보면 64배 감소했다고도 볼 수 있습니다. 또한 채널 수는 3에서 4로 조금 늘어나지만, 전체 차원 수로 계산해 보면 256×256×3, 즉 약 20만 차원이 32×32×4, 약 4천 차원으로 줄어들어 결과적으로 전체 latent 차원 수는 약 50배 가까이 감소합니다. 이러한 차원 축소 덕분에 diffusion을 latent 공간에서 훨씬 효율적으로 수행할 수 있습니다.
[관련 논문]
- High-Resolution Image Synthesis with Latent Diffusion Models
- Latent Consistency Models: Synthesizing High-Resolution Images with Few-Step Inference
[녹화 영상]
https://us06web.zoom.us/rec/share/Sinm0qDouJQLyibHymjQutA4W1JtFuT-PfRLA3IkcG_WLSZbiX8GD6J8syx_99aK.jrsNDJTqTC65_187
첨부파일
-
20260121_김희지_Efficient High-Resolution Image Generation .pdf (2.0M)
DATE : 2026-01-26 18:32:04
- 이전글[20260128 통합세미나] Deep Learning for Survival Analysis from Statistical Models to Vision-Language Frameworks 26.01.29
- 다음글[20260121 통합 세미나] Self Supervised Learning for Stain Variations in Pathology 26.01.23
댓글목록
등록된 댓글이 없습니다.