[20250409 통합세미나] Lip-Sync Supervision for TalkingHead Generation
페이지 정보

본문
[일시]
2025.04.09
[세미나 주제]
Lip-Sync Supervision for TalkingHead Generation
[발표자]
고예진
[요약]
본 세미나에서는 TalkingHead Generation 분야에서 SyncNet을 기반으로 립싱크의 정확성을 개선하기 위한 기법들을 소개한다.
먼저 SyncNet은 음성과 입술의 움직임이 얼마나 잘 동기화되었는지를 정량적으로 평가할 수 있는 방법을 제안한다. two-stream ConvNet을 기반으로 입 이미지와 음성의 feature를 추출하고 Contrastive Loss를 활용하여 같은 공간에 embedding될 수 있도록 하여 입과 오디오의 정합성을 학습한다. 이후 소개되는 StyleSync는 StyleGAN2 기반의 고화질 생성 능력과 SyncNet 기반의 Lip-Sync Loss를 결합하여 고품질의 말하는 영상을 생성하였으며 StyleGAN2의 W space를 W+ space로 확장함으로써 개인화된 말하는 영상을 생성하였다. 마지막으로 소개된 LatentSync는 Latent Diffusion Model을 사용하여 고품질의 프레임을 생성하면서도 시간에 따라 자연스럽게 말하는 영상을 생성하기 위해 제안된 논문으로, SyncNet에서 추출한 립싱크 정보를 Lip-Sync Loss로 활용하고 이미지 시퀀스와 시간적 표현을 정렬하도록 하는 TREPA Loss를 사용하여 시간에 따라 자연스럽게 말하는 영상을 생성한다.
[Q&A]
Q) LatentSync에서 decoded pixel space supervision의 SyncNet loss 계산 방식이 궁금합니다.
A) 디코딩된 이미지와 오디오 클립을 학습된 SyncNet에 입력한 뒤, 그 결과로 얻은 Sync 확률을 기반으로 loss를 계산하는 방식입니다.
여기서 loss는 픽셀 단위(pixel-wise)로 계산되는 것이 아니라, SyncNet에 임베딩된 이미지와 오디오의 두 feature 간 cosine similarity기반의 binary cross-entropy loss (SyncLoss)를 사용하여 계산됩니다.
[관련 논문]
- Out of time: automated lip sync in the wild
- StyleSync: High-Fidelity Generalized and Personalized Lip Sync in Style-based Generator
- LatentSync: Audio Conditioned Latent Diffusion Models for Lip Sync
[녹화 영상 링크]
https://us02web.zoom.us/rec/share/y1Oq2mFTfUo7wrQmmIJVbWUUUk8oSyV_qfbCIoDrm_rF-rW3oJTdOX6m2HoUDZXw.fS1zfx8qKNZ0HVN4
2025.04.09
[세미나 주제]
Lip-Sync Supervision for TalkingHead Generation
[발표자]
고예진
[요약]
본 세미나에서는 TalkingHead Generation 분야에서 SyncNet을 기반으로 립싱크의 정확성을 개선하기 위한 기법들을 소개한다.
먼저 SyncNet은 음성과 입술의 움직임이 얼마나 잘 동기화되었는지를 정량적으로 평가할 수 있는 방법을 제안한다. two-stream ConvNet을 기반으로 입 이미지와 음성의 feature를 추출하고 Contrastive Loss를 활용하여 같은 공간에 embedding될 수 있도록 하여 입과 오디오의 정합성을 학습한다. 이후 소개되는 StyleSync는 StyleGAN2 기반의 고화질 생성 능력과 SyncNet 기반의 Lip-Sync Loss를 결합하여 고품질의 말하는 영상을 생성하였으며 StyleGAN2의 W space를 W+ space로 확장함으로써 개인화된 말하는 영상을 생성하였다. 마지막으로 소개된 LatentSync는 Latent Diffusion Model을 사용하여 고품질의 프레임을 생성하면서도 시간에 따라 자연스럽게 말하는 영상을 생성하기 위해 제안된 논문으로, SyncNet에서 추출한 립싱크 정보를 Lip-Sync Loss로 활용하고 이미지 시퀀스와 시간적 표현을 정렬하도록 하는 TREPA Loss를 사용하여 시간에 따라 자연스럽게 말하는 영상을 생성한다.
[Q&A]
Q) LatentSync에서 decoded pixel space supervision의 SyncNet loss 계산 방식이 궁금합니다.
A) 디코딩된 이미지와 오디오 클립을 학습된 SyncNet에 입력한 뒤, 그 결과로 얻은 Sync 확률을 기반으로 loss를 계산하는 방식입니다.
여기서 loss는 픽셀 단위(pixel-wise)로 계산되는 것이 아니라, SyncNet에 임베딩된 이미지와 오디오의 두 feature 간 cosine similarity기반의 binary cross-entropy loss (SyncLoss)를 사용하여 계산됩니다.
[관련 논문]
- Out of time: automated lip sync in the wild
- StyleSync: High-Fidelity Generalized and Personalized Lip Sync in Style-based Generator
- LatentSync: Audio Conditioned Latent Diffusion Models for Lip Sync
[녹화 영상 링크]
https://us02web.zoom.us/rec/share/y1Oq2mFTfUo7wrQmmIJVbWUUUk8oSyV_qfbCIoDrm_rF-rW3oJTdOX6m2HoUDZXw.fS1zfx8qKNZ0HVN4
첨부파일
-
[250409]고예진_Lip-Sync Supervision for TalkingHead Generation.pdf (2.9M)
DATE : 2025-04-10 16:26:25
- 이전글[20250416 통합세미나] Solving inverse problems using diffusion models 25.04.17
- 다음글[20250402 통합세미나] GPU Virtualization and scheduling methods 25.04.03
댓글목록
등록된 댓글이 없습니다.