[20231123 통합 세미나] For robust knowledge distillation

페이지 정보

profile_image
작성자 강지연
댓글 0건 조회 431회 작성일 23-11-25 17:56

본문

[일시] 2023. 11. 23

[세미나 주제] For robust knowledge distillation

[요약]
knowledge distillation은 모델 경량화 기법 중 하나로 상대적으로 큰 모델인 teacher 모델에서 가벼운 student 모델로 지식을 전달해서 가벼운 모델로도 높은 정확도를 도출하고자 하는 목적을 가지고 있습니다. 이러한 knowledge distillation을 어떻게 잘 수행할 수 있을지, teacher 모델의 정확도가 knowledge distillation의 성능에 어떻게 영향을 미치는지에 대해서 논의를 해보았습니다. 또한, 본 발표에서 초점을 맞춘 것은 Distillation Oriented Trainer(DOT)로 task loss와 distillation loss로 이루어져 있는 loss term간의 관계를 파악하면서 distillation loss의 지배력을 강화시켜 knowledge distillation을 최적화 할 수 있다는 것입니다. 여기에 추가로 teacher 모델 자체의 overconfidence 문제도 함께 보완하면서 loss를 재구성하면 어떨지에 대한 고민도 함께 나누는 시간이였습니다.

[참고 논문]
- DOT: A Distillation-Oriented Trainer
- On the Efficacy of Knowledge Distillation

첨부파일

댓글목록

등록된 댓글이 없습니다.