[230711 논문리뷰] Teacher Network Calibration Improves CQKD
페이지 정보
본문
발표자 : 강지연
제목 : Teacher Network Calibration Improves Cross-Quality Knowledge Distillation
요약 : 본 논문은 모델 경량화 방법 knowledge distillation의 한 종류인 Cross Quality Knowledge distillation 방법론을 제안하고 있습니다 CQKD의 teacher network는 full-resolution이미지, student network는 downscaled된 이미지를 입력으로 사용하며, teacher와 student가 동시에 학습을 진행하지 않는 offline distillation 방법입니다. 기존에 동일한 입력을 받는 KD방법론과 달리 해상도에 차이를 둔 이미지를 입력으로 사용한다는 것에 차별점이 있습니다. 먼저 teacher network는 supervised learning을 통해 학습되며 distillation 단계에서 student network에게 knowledge를 transfer하게 됩니다. distillation과정이 끝나면 teacher network는 버릴 수 있으며, 이를 통해 inference time을 줄일 수 있습니다. 본 방법론에 사용되는 loss함수는 Cross-entropy loss와 KD divergence loss로 이루어져 있으며, 모델의 성능을 더욱 향상시키기 위하여 calibration 기법인 temperature scaling을 추가로 적용하였습니다. 제안하는 방법론은 기존에 supervised learining과 online knowledge distillation방법인 DML 보다 우수한 정확성을 입증하였으며 경험적인 평가 결과를 통해서 calibration측정의 중요성 또한 강조하고 있습니다.
발표 영상
https://us02web.zoom.us/rec/share/giAfN0hg-QcDDXMYebvQqHK9PuCT8GpErMF2B6Uk72dJXh0u9rBtbTWzPgW8gbDk.Mn6vUxrzkorH0Oae
첨부파일
-
발표자료.pdf (1.1M)
DATE : 2023-07-11 19:26:55 -
논문.pdf (1.1M)
DATE : 2023-07-11 19:26:55
댓글목록
오수빈님의 댓글
오수빈 작성일
지식 증류를 이용한 경량화 기법 중 Cross Quality Knowledge distillation(CQKD)에 대한 논문 리뷰를 지연언니가 진행해주었습니다. CQKD는 corss-modal knowledge distillation(CMKD)를 보완한 기법입니다. CMKD는 서로 다른 modality를 가지는 데이터를 input으로 넣어 지식증류를 하는 경량화 기법이고, 해당 모델을 기반으로 같은 modality를 가지는 데이터를 이용한 지식증류 방법으로 CQKD의 아이디어가 파생된 내용으로 이해했습니다.
CQKD는 input데이터의 해상도를 조절하여 모델을 학습하는데, 로스는 기존 KD의 loss와 동일하지만 temperature scaling을 통해 모델을 이 부분에서 scaling을 진행하여 모델 성능에 좀 더 높일 수 있는 방법을 이용한 기법이었습니다.
전반적으로 봤을때 실험 세팅까지 해당 논문이 KD에 있어서 일반화 성능을 높일 수 있는 좋은 contribution을 주었다고 생각합니다.
추가적으로 세미나때 들었던 의문이 있었는데 CQKD와 CMKD의 비교가 명확히 이해가 안돼서 어떤 이유 때문에 둘의 비교가 필요했는지가 궁금합니다! 답변 주시면 감사합니다!
좋은 발표 감사합니다!
이상민님의 댓글
이상민 작성일
기존의 경량화 기법 중에서 distillation에 초점을 맞춘 발표였다. 무엇보다 teacher와 student 사이에 서로 다른 해상도의 이미지를 input으로 다루는 부분이 특이했다.
실험적으로 CQKD 기법이 지도학습 base 및 deep mutual learning(DML)과 비교하였고, 분류 정확도, 엔트로피, 그리고 ECE loss 값을 기준으로 평가하였다. 모든 실험결과에서 우수한 성능을 보인 것은 아니나, 정확도 면에서는 이미지 사이즈가 클수록 유리한 측면이 있음을 보여주었다. 학습속도 면에서는 DML보다는 현저히 낮으나, 지도학습보다는 높음을 보였기에 학습속도의 효율면에서 높다고 하기는 어렵다. ECE loss 측면에서는 이미지 사이즈가 작았을 때 크게 높아지는 경향성을 보였는데, 이는 해상도 조절 면에서 원 이미지 정보량 손실에 따른 overconfidence problem 유발 때문이었으리라 본다. 해상도가 높은 이미지에서 이러한 현상이 잦아드는 현상을 보았으므로, 이를 활용하는 기법연구를 생각해볼 수 있다. CQKD는 그 방법 자체만으로 다방면에서 매력적인 경량화 기법은 아니다. 하지만, 제안기법 내 특이점을 잘 활용한다면 타 distillation 기법 연구 시 충분히 활용할만한 실험 셋팅이 존재하고, 정확도 성능 뿐만 아니라 confidence calibration을 고려할 수 있는 기회가 되리라 본다.