[20250214 특별 세미나] DisWOT: Student Architecture Search for Distillation…

페이지 정보

profile_image
작성자 장유나
댓글 0건 조회 20회 작성일 25-02-14 17:28

본문

[일시]
2025.02.14

[세미나 주제]
DisWOT: Student Architecture Search for Distillation WithOut Training

[발표자]
장유나

[요약]
본 발표에서는 knowledge distillation 과정에서 teacher로부터 잘 지식을 전달받을 수 있는 student를 탐색하는 zero cost proxy기반의 탐색 방식을 제안한다. knowledge distillation은 일반적으로 거대한 teacher model로부터 작은 student model에게 지식을 전달하여 student model 또한 우수한 성능을 보일 수 있도록 하는 기법을 의미한다. 하지만 이때 teacher와 student의 모델 capacity의 차이로 인해 distillation을 충분히 전달받지 못할 수 있는 것이 문제로 여겨져 adaptive KD 가 제안되게 되었고, 그 중 architecture search를 적용하는 방식이 등장하였다. architecture를 직접 탐색하도록 하는 NAS 기법을 적용함에 있어 해당 프레임워크는 DisWOT score를 기반으로 한 evolutionary search algorithm을 적용하여 training 없이도 student architecture를 탐색하는 방식론을 적용하였다. DisWOT score는 semantic similarity와 relation similarity metric를 적용한 방식으로 teacher 와 student 간의 관계성 및 의미적 유사성을 측정하고자 하는 방식으로 사용되었으며, 이는 distillation loss function에도 적용되어 distillation을 통한 성능까지도 개선된 결과를 보일 수 있게 되었다. 하지만 본 연구는 image classification에 한정되어 제안된 NAS 프레임워크로 다른 image analysis  task에 적용될 경우 현재와 같은 성능을 보이지 않을 것으로 예측되어, 더 다양한 task에 적용될 수 있는 기법론에 대한 연구가 필요할 것으로 생각된다.

[Q&A]
- 23p) CIFAR-100, ImageNet등의 큰 데이터셋에 대한 실험을 진행하는데 있어 semantic similarity와 relation similarity를 연산한 실험 세팅이 어떻게 더 빠른 탐색 속도를 보일 수 있는가?
: 장표상 나와있는 Time(s)의 경우 search phase 상에서의 GPU second의 time cost를 나타내는 값이 맞다. 다만 Speed-up에 대한 지표가 어떤 지표에 대한 속도를 나타내는 것인지 논문에 자세히 언급이 되어있지 않아 판단하기에 어려움이 있다. 특히 두가지 similarity metric을 연산하는 과정에서 semantic similarity의 연산이 느린 탐색을 유도할 것이라 생각되는데, 논문에서 자세하게 언급되지 않아 확인할 필요가 있다 생각된다.

[관련 논문]
- DisWOT: Student Architecture Search for Distillation WithOut Training

[녹화 영상]
https://us02web.zoom.us/rec/share/FRwro_7ZGQqZTPGDNH_YtZkE9gKcyykAE57mRuJDzC_stczxy8tjSMr_eCXRO4Mj.-lz_E8sfDbWbQeji

첨부파일

댓글목록

등록된 댓글이 없습니다.