[230717 논문리뷰] Knowledge distillation : A good teacher is patient and c…
페이지 정보
본문
발표자 : 정종민
제목 : Knowledge distillation : A good teacher is patient and consistent
요약 : 본 논문은 기존의 Knowledge distillation에 관한 새로운 기법을 제안하지는 않는다. 그러나 teacher model이 student model을 '학습시키는 방법' 에 관한 새로운 관점을 제시한다.
논문은 teacher model의 patience(학습한 기간)와 consistence(Teacher와 student에 동일한 데이터가 input되는 것)가 중요하다고 말한다.
*질문사항 및 보완할 부분에 관한 자료를 준비하여 업로드 한 후 공지 하겠습니다.
발표 영상
https://us02web.zoom.us/rec/share/SqK8pfifdgD9hGqVor5hwll1kNvhmi55wYkLPD-C8a005KD6Eu0-UQNL4S26Cy-8.Hq0MBUX1puh5hidQ
첨부파일
-
Knowledge distillation_A good teacher is patient and consistent.pdf (9.9M)
DATE : 2023-07-23 21:43:26 -
경량화세미나_정종민.pdf (1.3M)
DATE : 2023-07-23 21:43:26
- 이전글[230724논문리뷰] Knowledge Distillation with the Reused Teacher Classifier 23.07.24
- 다음글[230711 논문리뷰] Teacher Network Calibration Improves CQKD 23.07.11
댓글목록
강지연님의 댓글
강지연 작성일오늘은 종민오빠가 경량화 세미나 시간에 Knowledge Distillation : A good teacher is patient and consistent 논문을 발표를 해주었습니다. 논문에서 제안하고 있는 효과적인 KD를 위한 학습 설계 방법은 3가지가 있는데 먼저 Teacher와 Student 간의 input 이미지를 전적으로 동일하게 주입하여야 하고, 두 번째로 일반화를 위하여 support point를 매칭 시킬 수 있는 함수를 찾는 것, 마지막으로 training time을 오래 가져가야 한다는 방법입니다. 일반적으로 제가 알고 있던 경량화의 개념은 teacher 모델의 지식을 가지고 teacher에 비해서 상대적으로 가벼운 모델을 사용해서 학습 시간을 줄이려고 하는 목적을 가지는 것으로 알고 있는데 훈련 시간을 오래 가지고 가라는 접근은 경량화의 일반적인 목적과는 조금 다르지 않을까라는 생각이 들었습니다. 또, 이미지 crop을 함으로써 같은 입력에 대해서 두 모델의 function을 일치시키는 관점에서 볼 수 있다는 아이디어가 새롭게 느껴졌지만 굳이 같은 input을 사용하기 위해 crop을 진행하는 이유에 대해 의문이 들었습니다. 본 논문이 최근 여러 방면으로 시도되는 knowledge distillation과 다르게 새로운 방법론을 제시한다기보다 KD를 실제로 잘 활용할 수 있도록 효과적인 방법을 전달한다는 측면에서 읽기 좋은 논문이라는 생각이 들었습니다.
이상민님의 댓글
이상민 작성일AI 유관 알고리즘 연구로만 국한시킨다면 증류(distillation)라는 용어는 메타휴리스틱스 분야에서 먼저 사용했었으나 최근에는 지식증류(Knowledge distillation)를 대변하는 표현이 되었다. distillation은 teacher 모델의 학습성능을 student 모델이 그대로 유지하며 더 작은 모델로 경량화 시키는 기술을 일컫는다. 최근 AI 모델의 크기와 복잡성이 비대해지면서 관련 기술에 대한 관심이 폭발적으로 증가하고 있다. 경량화 기술과 관련하여 이미 연구원들이 다양한 논문 발표를 진행해왔는데, distillation 과 관련된 기법 연구가 유독 관심을 끄는 것은 모델 경량화 측면에서의 기법의 성능 및 높은 신뢰도, 모델 배포 및 서비스 용이하다는 측면이 있다. 또한, neural pruning과 qunatization은 모델 사이즈를 줄임에 따라 성능 손실의 큰 tradeoff를 고려할 수 밖에 없으나, distillation은 loss function 설계 시 이에 대한 반영이 가능한 유연성을 갖고 있다. 추가로, 모델 경량화가 아니더라도 자기지도학습, 비지도학습 등의 unlabeled dataset에 대한 학습기법으로도 차용되고 있어 그 활용 가치가 계속 증가하고 있다. 금일 정종민 연구원이 발표한 것은 크게 patience와 consistence라는 측면에서 새로운 distillation 방안을 모색하는 기법이었다. 전반적으로 모든 접근방식이 이해가 되는 것은 아니었으나, distillation에서 무엇을 기준으로 경량화 모델을 구축해야 좋을지에 대한 small tip과 유용한 techniques 몇가지가 있다는 생각이 들었다. 정종민 연구원이 모델 경량화 분야에 잘 이해하고 학습하고 있다는 인상을 받았는데, 더욱 열심히 공부하고 실험하여 개인 연구로써 좋은 목표를 갖기를 바란다.
오수빈님의 댓글
오수빈 작성일
종민오빠가 발표한 논문은 새로운 알고리즘 제안이 아닌 어떻게하면 지식 증류할때 효과적으로 학습을 할 수 있을지에 대한 설계를 제안한 내용이었다. 그 중 3가지의 제안이 있었는데 첫번째로는 input에 완전한 동일한 데이터를 사용하기 그리고 두번째로는 두 모델의 function찾기, 마지막으로는 오랜 학습시간을 제안했다.
여러 학습 방법 중 teacher 모델을 고정해켜 주로 예측값으로 student 모델의 input으로 활용을 하는 방법이 있었다. 또한 indenpendent noise를 추가하여 fixed teacher에 추가적인 두 모델의 독립적인 노이즈를 사용하여 좀 더 많은 정보를 활용하고자 하는 학습 방법도 존재했다. 또한 augmentation 기법을 사용하여 consistent teaching을 하는 완전 동일한 input에 랜덤으로 크롭하여 teacher와 일관된 학습을 하게 하는 방법도 있었고, consistent teaching에 mix-up을 적용하는 방법이 있었다. 이런 4가지 방법 중 마지막 mix-up을 적용하는 function이 좋은 성능을 보였다.
해당 논문은 지난 지연언니 논문과 다르게 최적의 학습설계를 목표로 하는 느낌이 강했는데 이후 경량화 모델의 실험 계획을 세울때 참고하면 좋은 논문인 것 같다는 생각이 들었던 발표였다. 좋은 발표 잘 들었습니다!