[230717] Vision Transformer

페이지 정보

profile_image
작성자 참여연구생
댓글 1건 조회 180회 작성일 23-07-17 17:52

본문

일시 : 2023년 7월 17일

발표자 : 장효영

제목 : Vision Transformer

요약 : 여름 방학 논문 리뷰 스터디 Computer vision팀의 첫 번째 발표였습니다. Vision Transformer 에 대한 전반적인 아키텍처 구조와 관련 실험 및 연구 결과에 대한 발표를 진행하였습니다. 본 논문은 기존의 CNN 아케텍처를 탈피하여 Transformer 아키텍처를 적용하며 Vision task에 있어서 새로운 아키텍처 제시하고 있습니다. ViT는 대규모 dataset으로 사전학습하여 기존의 SOTA보다 높은 accuracy와 좀 더 효율적인 Computation cost를 도출해냈습니다. 다음주부터는 다시 전통적인 CNN 아키텍처로 돌아가 관련 논문들에 대해 리뷰하고자 합니다. 감사합니다.

질문 : 질문사항들이 많았기에 첨부한 최종 발표자료 뒷부분에 질문에 대한 답변을 추가하여 업로드하였습니다. 참고하시고 답변이 잘못되었거나, 누락된 질문 혹은 추가 질문이 있다면 피드백 부탁드립니다. 감사합니다 :)

첨부파일

댓글목록

profile_image

이상민님의 댓글

이상민 작성일

ViT는 다수 machine learning task에서 높은 정확도 성능과 해석 능력으로 널리 활용되는 transformer 구조를 computer vision에 접목시킨 모델이다. 고차원 데이터에 해당하는 이미지를 패치 단위로 tokenizing한 후 개별 패치를 선형 조합하여 attention을 산출할 수 있도록 구조를 가져간 것이 핵심이다. Transformer의 대다수 모델이 그렇듯 대규모 학습데이터가 필요하지만, 이미지 분석에 활용되는 기존의 scalable backbones 보다도 set of weights 규모가 줄어들었다. ViT에 대한 설명을 pretraining phase, 그리고 encoder, decoder 등으로 나누어 잘 설명했다. 짧은 준비시간에도 불구하고 실험까지 잘 수행했는데, 장효영 학생이 이를 계기로 널리 활용할 수 있는 본인만의 무기로 사용하기를 바란다.
1. transformer 구조에 대해 보다 상세히 공부하고 명확한 설명이 전달하기를 바란다.
2. 실험 시 보다 철저하게 hyperparameter tuning하는 것이 필요하다.