[20240118 특별 세미나] Efficient Self-Supervised Vision Transformers for Re…

페이지 정보

profile_image
작성자 장효영
댓글 0건 조회 91회 작성일 24-01-18 18:13

본문

[일시] 2024.01.18

[세미나 주제] Efficient Self-Supervised Vision Transformers for Representation Learning

[요약]
본 논문의 저자는 기존의 Self-supervised transformer 모델인 DINO에서 Local-region간의 유의미한 대응을 자동으로 발견해낸다는 특성에서 영감을 받아 EsViT를 제안하였다. 본 논문은 구조적인 측면에서 Multi- stage transformer architecture와 Non-contrastive region matching pre-train task 이렇게 두 가지 주요 인사이트를 제시하며 상당히 적은 계산량과 작은 모델의 크기로 SoTA SSL Vision system의 성능에 도달하며 효율성을 극대화 하였다. Multi-stage architecture를 통하여 이미지 패치에 대한 토큰 수를 감소시켜 계산의 효율성을 기존의 SoTA 대비 3배 이상 높였고, Non-contrastive 기반의 region matching pre-train task를 통해 이미지의 미세한 region dependency를 포착하여 Vision Representation에 대한 품질을 향상 시켰다. 특히 기존의 Contrastive Learning에서 저하되었던 Classification의 성능을 개선 시켰다. 쉽게 말해 정확도와 효율성 사이의 더 나은 균형을 찾기 위한 방법론이었으며 이를 통해 Pre-trained data의 규모가 클 수록 성능이 좌지우지 되는 ViT 메커니즘에서 더 크고 덜 정제된 데이터에서도 효과적인 솔루션을 탐색하는 것이 Self-Supervised Learning Vision System의 성공으로 나아가는 연구임을 본 논문에서 시사하였다.

[참고 논문]
- Efficient Self-Supervised Vision Transformers for Representation Learning

[녹화 영상 링크]
https://us02web.zoom.us/rec/share/WgGeMCghWx0bHLGARkxkKIlu9D1ua9bzZ3XKtliV5R-tPlmdVL8UlekMqnMD7QB6.3rIVNAtBtxb__pe4

첨부파일

댓글목록

등록된 댓글이 없습니다.