[20250319 통합세미나] Distillation from Foundation Model

페이지 정보

profile_image
작성자 장유나
댓글 0건 조회 27회 작성일 25-03-19 17:09

본문

[일시]
2025.03.19

[세미나 주제]
Distillation from Foundation Model

[발표자]
장유나

[요약]
본 발표에서는 거대 Foundation model로부터 specific한 task를 수행할 수 있는 student 를 학습시키기 위한 distillation 방법론에 대한 연구를 소개한다. Foundation model은 그 자체로 많은 지식을 갖고 있어 효율적이라고 알려져있지만, 모델의 크기나 연산량 때문에 실제 상황에서 적용되기에는 한계가 있다. 이러한 foundation model의 특징을 활용하면서 specialized application model을 학습시키기 위해서 knowledge distillation을 적용하였으며, 본 세미나에서는 그러한 방법론을 소개하는 두가지 연구를 다루고 있다. 첫번째 논문에서는 vision foundation model에 대해서 적은 양의 label 데이터를 활용해서 pretrain을 진행한 다음 target encoder를 학습시키는 방식을 소개하여 vision foundation model의 encoder를 사용한 knowledge transfer의 방식론을 제안한다. 두번째 논문에서는 foundation model과 specialized student 사이에 이를 중재할 수 있는 지식을 포함하는 complementary teacher를 추가한 teacher committee를 구성하여, multi-teacher distillation의 방식론을 제안하고 있다. 이때에는 특히 teacher와 student의 model capacity가 크게 차이나는 상황에서 효과적으로 distillation하기 위한 question augmenter, answer augmenter를 제안하여 서로 다른 모델간의 효과적인 distillation 구조를 제안하고 있다. 본 세미나에서는 이렇게 foundation model의 지식을 활용하여 task-specific architecture를 훈련시킬 수 있는 방법론을 소개하고 있으며, 앞으로 foundation model을 활용한 distillation based NAS의 탐색 방식을 소개한다.

[Q&A]
- 두번째 연구에서 소개된 question augmenter에서 teacher의 embedding은 어떻게 적용되는지 궁금합니다.
: teacher embedding 자체는 student의 hidden state에 대해서 teacher 가 이해할 수 있는 내용으로 변환하기 위한 dot product 연산으로 사용되게 되는데, 논문 상에서 이 teacher embedding의 특징 및 적용 방식에 대해서 구체적으로 언급되는 바가 없어, 그 이상의 정보를 확인하기 어렵습니다.

[관련 논문]
- Wisdom of Committee: Distilling from Foundation Model to Specialized Application Model
- Knowledge Transfer from Vision Foundation Models for Efficient Training of Small-Task specific Models

[녹화 영상 링크]
https://us02web.zoom.us/rec/share/0y2zmrmcZmnQSu3tGguRFi5lB4WRr-Q2VBp3AfhTM31AeOGHdDJISnYstHe1eJXB.QZ7AV6X3Hohom4ds

첨부파일

댓글목록

등록된 댓글이 없습니다.