[20241104 통합 세미나] Intermediate Knowledge Distillation between Heteroge…

페이지 정보

profile_image
작성자 정화용
댓글 0건 조회 11회 작성일 24-12-30 16:44

본문

[일시]
2024.11.04

[세미나 주제]
Intermediate Knowledge Distillation between Heterogeneous Architectures

[발표자]
정화용

[요약]
본 발표는 KD 방법론 중 모델의 중간 layer 로부터 추출한 정보를 활용해 지식을 증류하는 hint-based learning 을 위해 상호 구조가 다른 이기종 teacher model 간의 KD 를 다루고 있다. CNN과 Transformer와 같이 서로 다른 모델 아키텍처 간 지식 증류를 다루고 있는 Cross-Architecture Knowledge Distillation(CA-KD) 및 One-for-All Knowledge Distillation(OFA-KD) 논문에 대해 소개한다. CA-KD는 CNN의 특징을 Transformer의 어텐션(attention) 공간으로 매핑하기 위해 프로젝터(Projector)를 사용한다. PCA Projector는 CNN 특징을 Transformer의 Query, Key, Value 행렬로 변환하고, GL Projector는 CNN의 특징 맵을 Transformer의 특징 맵에 정렬하기 위해 Fully Connected Layer를 사용한다. OFA-KD는 로짓(logits) 공간에서의 지식 증류에 초점을 맞추며, 어떤 아키텍처 간에도 지식 증류를 가능하게 한 구조에 해당한다.

[관련 논문]
- Cross-Architecture Knowledge Distillation
- One-for-All Bridge the Gap Between Heterogeneous Architectures in Knowledge Distillation

첨부파일

댓글목록

등록된 댓글이 없습니다.