[20250305 특별 세미나] Efficient Test-Time Adaptation of Vision-Language Mo…
페이지 정보

본문
[일시] 2025.03.05
[리뷰 논문] Efficient Test-Time Adaptation of Vision-Language Models
[요약]
본 논문은 테스트 시점에서 비전-언어 모델을 효율적으로 적응시키는 방법인 TDA(Training-free Dynamic Adapter)를 제안한다. 기존 Test-Time Prompt Tuning(TPT) 계열 기법들은 매 테스트 샘플마다 역전파를 수행해 막대한 계산량이 필요했다. TDA는 경량의 키-값 캐시 구조를 도입하여, 별도의 학습 없이도 테스트 단계에서 점진적으로 모델 예측을 보정한다. 캐시는 각 테스트 샘플의 이미지 특징을 키로, 그에 대응하는 추정 레이블을 값으로 저장하며, 신뢰도가 높은 샘플 위주로 업데이트된다. 특히 Negative Cache가 도입되어, 모델이 확신하지 못하는 부분은 “이 클래스가 아님”이라는 음성(negative) 레이블로 보정하여 노이즈를 줄인다. 이렇게 Positive Cache와 Negative Cache를 결합함으로써, 모델이 이미 본 데이터와의 유사도, 그리고 오답 가능성까지 함께 고려한다. 다양한 OOD 및 크로스 도메인 벤치마크 실험 결과, TDA는 기존 방법 대비 계산량이 크게 줄어들면서도 더 높은 정확도를 보인다. 결론적으로, 본 연구는 역전파 없이도 효과적인 테스트 시점 적응을 달성하는 새로운 접근을 제시해 실용성을 높였다.
[녹화 영상 링크]
https://us02web.zoom.us/rec/share/9_Vw-DpmqM4NfmMG4PenKOaOF9obpEluNgvfzW-oYl1atTrs6hBsDxHLmkVA-gs.0HjQFckIPmGTJRLu
[리뷰 논문] Efficient Test-Time Adaptation of Vision-Language Models
[요약]
본 논문은 테스트 시점에서 비전-언어 모델을 효율적으로 적응시키는 방법인 TDA(Training-free Dynamic Adapter)를 제안한다. 기존 Test-Time Prompt Tuning(TPT) 계열 기법들은 매 테스트 샘플마다 역전파를 수행해 막대한 계산량이 필요했다. TDA는 경량의 키-값 캐시 구조를 도입하여, 별도의 학습 없이도 테스트 단계에서 점진적으로 모델 예측을 보정한다. 캐시는 각 테스트 샘플의 이미지 특징을 키로, 그에 대응하는 추정 레이블을 값으로 저장하며, 신뢰도가 높은 샘플 위주로 업데이트된다. 특히 Negative Cache가 도입되어, 모델이 확신하지 못하는 부분은 “이 클래스가 아님”이라는 음성(negative) 레이블로 보정하여 노이즈를 줄인다. 이렇게 Positive Cache와 Negative Cache를 결합함으로써, 모델이 이미 본 데이터와의 유사도, 그리고 오답 가능성까지 함께 고려한다. 다양한 OOD 및 크로스 도메인 벤치마크 실험 결과, TDA는 기존 방법 대비 계산량이 크게 줄어들면서도 더 높은 정확도를 보인다. 결론적으로, 본 연구는 역전파 없이도 효과적인 테스트 시점 적응을 달성하는 새로운 접근을 제시해 실용성을 높였다.
[녹화 영상 링크]
https://us02web.zoom.us/rec/share/9_Vw-DpmqM4NfmMG4PenKOaOF9obpEluNgvfzW-oYl1atTrs6hBsDxHLmkVA-gs.0HjQFckIPmGTJRLu
첨부파일
-
20250225_오수진_Efficient Test-Time Adaptation of Vision-Language Models.pdf (745.2K)
DATE : 2025-03-06 11:49:43
- 이전글[20250312 특별 세미나] DELTA DEGRADATION-FREE FULLY TEST-TIME ADAPTATION 25.03.13
- 다음글[20250218 특별 세미나] Robust Test-Time Adaptation in Dynamic Scenarios 25.03.05
댓글목록
등록된 댓글이 없습니다.