[20241104 통합 세미나] Intermediate Knowledge Distillation between Heteroge…
페이지 정보
본문
[일시]
2024.11.04
[세미나 주제]
Intermediate Knowledge Distillation between Heterogeneous Architectures
[발표자]
정화용
[요약]
본 발표는 KD 방법론 중 모델의 중간 layer 로부터 추출한 정보를 활용해 지식을 증류하는 hint-based learning 을 위해 상호 구조가 다른 이기종 teacher model 간의 KD 를 다루고 있다. CNN과 Transformer와 같이 서로 다른 모델 아키텍처 간 지식 증류를 다루고 있는 Cross-Architecture Knowledge Distillation(CA-KD) 및 One-for-All Knowledge Distillation(OFA-KD) 논문에 대해 소개한다. CA-KD는 CNN의 특징을 Transformer의 어텐션(attention) 공간으로 매핑하기 위해 프로젝터(Projector)를 사용한다. PCA Projector는 CNN 특징을 Transformer의 Query, Key, Value 행렬로 변환하고, GL Projector는 CNN의 특징 맵을 Transformer의 특징 맵에 정렬하기 위해 Fully Connected Layer를 사용한다. OFA-KD는 로짓(logits) 공간에서의 지식 증류에 초점을 맞추며, 어떤 아키텍처 간에도 지식 증류를 가능하게 한 구조에 해당한다.
[관련 논문]
- Cross-Architecture Knowledge Distillation
- One-for-All Bridge the Gap Between Heterogeneous Architectures in Knowledge Distillation
2024.11.04
[세미나 주제]
Intermediate Knowledge Distillation between Heterogeneous Architectures
[발표자]
정화용
[요약]
본 발표는 KD 방법론 중 모델의 중간 layer 로부터 추출한 정보를 활용해 지식을 증류하는 hint-based learning 을 위해 상호 구조가 다른 이기종 teacher model 간의 KD 를 다루고 있다. CNN과 Transformer와 같이 서로 다른 모델 아키텍처 간 지식 증류를 다루고 있는 Cross-Architecture Knowledge Distillation(CA-KD) 및 One-for-All Knowledge Distillation(OFA-KD) 논문에 대해 소개한다. CA-KD는 CNN의 특징을 Transformer의 어텐션(attention) 공간으로 매핑하기 위해 프로젝터(Projector)를 사용한다. PCA Projector는 CNN 특징을 Transformer의 Query, Key, Value 행렬로 변환하고, GL Projector는 CNN의 특징 맵을 Transformer의 특징 맵에 정렬하기 위해 Fully Connected Layer를 사용한다. OFA-KD는 로짓(logits) 공간에서의 지식 증류에 초점을 맞추며, 어떤 아키텍처 간에도 지식 증류를 가능하게 한 구조에 해당한다.
[관련 논문]
- Cross-Architecture Knowledge Distillation
- One-for-All Bridge the Gap Between Heterogeneous Architectures in Knowledge Distillation
첨부파일
-
241104_Intermediate Knowledge Distillation between Heterogeneous Architectures.pdf (2.3M)
DATE : 2024-12-30 16:44:53
- 이전글[20241111 통합 세미나] CSI-based HAR with shapelet approach 24.12.30
- 다음글[20241028 통합 세미나] Out-of-Distribution Detection in Object Detection 24.10.29
댓글목록
등록된 댓글이 없습니다.