[20260204 통합세미나] Regularizing Prompt Learning for Robust Vision-Langua…

페이지 정보

profile_image
작성자 고예진
댓글 0건 조회 34회 작성일 26-02-09 10:57

본문

[일시] 2026.02.04.

[세미나 주제]
Regularizing Prompt Learning for Robust Vision-Language Model Adaptation

[발표자]
고예진

[요약]
본 발표에서는 Vision-Language Model(VLM)의 foundation model 중 하나인 CLIP을 다운스트림 태스크에 적응시킬 때 발생하는 일반화 성능 저하 문제와 기존 프롬프트 학습의 한계를 정리하고, 이를 Regularization 기법으로 해결한 최근 연구 흐름을 소개하였다. 기존의 미세 조정 방식은 학습된 태스크의 성능은 높이지만 새로운 클래스나 도메인 변화에 대한 견고성(Robustness)이 저하되는 trade-off가 발생하며, 단순한 프롬프트 학습 또한 학습 데이터에 과적합되어 사전 학습된 모델의 일반화 능력을 저해한다는 문제가 있다. 이를 해결하기 위해 제안된 PromptSRC 연구는 'Frozen CLIP'과의 일관성을 유지하는 상호 합의 최대화(Mutual Agreement Maximization)와 가우시안 가중 앙상블, 텍스트 다양성 확보 전략을 도입하여 프롬프트가 원본 표현 공간에서 이탈하지 않도록 스스로 규제하였다. 그러나 이는 개별 데이터 포인트 간의 1:1 매칭에 기반한 점(Point-wise) 단위 규제로, 파라미터 탐색 공간을 지나치게 제한한다는 한계를 보였다. 이후 논문에서는 데이터 분포 자체의 구조적 정렬을 유도하는 Prompt-OT를 소개하였다. Prompt-OT는 최적 수송(Optimal Transport) 이론을 적용하여 비전-텍스트 결합 분포를 원본 모델의 분포와 정렬시킴으로써, 샘플 간의 구조적 관계를 보존하면서도 더 유연한 최적화를 가능하게 한다. 이를 통해 Base-to-Novel 일반화 및 도메인 일반화 성능을 동시에 향상시킬 수 있음을 보였다. 결론적으로 본 발표는 효과적인 프롬프트 학습을 위해서는 단순한 파라미터 효율성을 넘어, 사전 학습된 모델의 구조적 지식(Structural Knowledge)을 보존하는 적절한 설계가 필수적임을 강조하였다.

Q. 지도 학습은 손실을 줄이는 게 목표인데, 다운스트림 태스크에서도 과적합을 통해 성능을 극대화하는 게 오히려 좋은 방향 아닌가요?
A. 특정 태스크의 데이터에만 지나치게 맞춰 모델을 미세 조정하면, 해당 데이터에 대한 정확도는 높아질지 몰라도 모델이 원래 가지고 있던 범용적인 특징 공간이 왜곡됩니다. 이로 인해 학습 데이터에 포함되지 않은 새로운 클래스를 인식하는 능력이 급격히 떨어지는 지식 망각 현상이 일어나며 같은 객체라도 분포가 바뀌는 경우 이에 대한 적응력이 약화되는 문제가 발생합니다.

[관련 논문]
- Self-regulating Prompts: Foundational Model Adaptation without Forgetting
- Prompt-OT: An Optimal Transport Regularization Paradigm for Knowledge Preservation in Vision-Language Model Adaptation

[녹화 영상]
https://us06web.zoom.us/rec/share/eEwUMtSzNvNsf6AkdOdWWpevVsAwqz7r_fADsw6EHOwU_HcJL3ldlJIGtQbCclPn.Gj273bGrGL3zpuGi

첨부파일

댓글목록

등록된 댓글이 없습니다.