[논문리뷰]20230711 Segment Anything

페이지 정보

profile_image
작성자 오수빈
댓글 3건 조회 121회 작성일 23-07-11 18:16

본문

논문 제목: Segment Anything

논문 기여점: 대규모 모델로써 좋은 성능을 보이는 NLP의 Foundation Model와 유사한 Image Segmentation의 Foundation Model 구축하였고, 일반화  중 zero-shot 일반화(학습 데이터가 아닌 새로운 데이터에도 강건한 성능을 보이는 일반화)성능을 유지하며 좋은 결과를 내는 모델을 구축했다.

첨부파일

댓글목록

profile_image

강민정님의 댓글

강민정 작성일

이번 방학 첫 computer vision 세미나는 SAM 모델에 대해 수빈이가 발표해주었습니다. Foundation model은 방대한 데이터셋을 통해 사전 학습 시킨 모델이기 때문에 특정 task에 대해 엄청난 일반화 성능을 보이고 있습니다. 최근 NLP 분야에서 좋은 성능을 보이고 있으며 computer vision 분야에서도 이를 활용하고자 합니다. 본 논문에서 제안하는 segmentation anything model(SAM) 모델은 학습하지 않은 물체도 segmentation 가능한 zero-shot 모델입니다. SAM 모델은 prompt model을 기반으로 하며 점, 박스 텍스트를 입력으로 받아 segmentation이 진행됩니다. Propmt 모델이란 ChatGPT처럼 사용자의 입력 값에 따라 그에 맞는 output 값을 출력하는 모델입니다. SAM의 전체 architecture는 image encoder, prompt encoder, mask decoder 세가지 영역으로 나뉩니다. Vision transformer(ViT) 기반 모델로 image encoder가 구성되며 상대적으로 오래 걸리지만 prompt decoder의 경우 실시간 추론이 가능할 정도로 짧은 처리 시간을 갖는다는 특징이 있습니다. 특히 모호한 prompt가 제공되는 경우에는 3가지의 유효한 마스크 값에 대해 평균화하여 출력합니다. 본 연구에서는 실험적으로 3개의 마스크를 선택하여 평균화했을 때 가장 좋은 결과를 보였기 때문에 3가지의 마스크 후보에 대해 minimum loss를 갖는 마스크를 학습하는 방식으로 진행됩니다. 본 연구에서는 prompt decoder의 경우 실시간 추론이 가능하다고 하였으나 실제 2초 정도의 추론 시간을 갖습니다. 따라서 실시간적인 추론은 절대적으로 불가능하며 보다 빠른 FastSAM이 제안되었습니다. 이번 발표에서는 SAM에 대해서만 리뷰해주었으나 해당 기법에 대한 부분도 고려되면 좋을 것 같습니다.
첫 computer vision 세미나였는데 최근 높은 성능을 보이는 SAM 모델에 대한 문제 정의와 제안 아키텍처, 마지막으로 실험 결과까지 명료하게 설명해주어 이해가 잘 되었습니다. 좋은 발표 잘 들었습니다. 감사합니다!

profile_image

이유진님의 댓글

이유진 작성일

수빈이가 computer vision 첫 발표로 segment anything model(SAM)을 설명해주었습니다. SAM은 NLP에서 사용되는 foundation model을 computer vision에 적용 시키고자 하였습니다. 특히 computer vision 분야에서도 image segmentation에 대한 foundation model을 구축하는 것을 목표로 하여 zero-shot generalization을 가능하게 하는 task를 수행하고자 하였습니다. prompt 모델이 NLP와 segmentation에 따라 달라지는데, NLP에서의 prompt는 언어 모델에게 질문에 따라 답을 하는 모델이고, segmentation의 prompt는 이미지에 대해 box, mask 등으로 객체의 경계를 mask하는 모델입니다. segmentation의 prompt 모델로 인해 효율적으로 이미지 segmentation이 가능합니다. SAM은 총 3개의 부분으로 나눠지는데 이는 'image encoder', 'flexible prompt encoder', 'fast mask decoder'로 구성되어 있습니다. Image encoder는 masked autoencoder(MAE)로 pretrained ViT 기반의 구조를 사용하였습니다. Flexible prompt encoder는 image encoder에서 나온 값에 mask및 point, box등의 값을 결합하여 encoder결과를 도출합니다. 그리고 나서 fast mask decoder로 encoder에서 나온 값들을 ouput mask에 매핑하는 역할을 수행합니다. 특히 여기서 만약 모호한 prompt가 제공된 경우에는 유효한 mask 3개를 평균내 출력하도록 설계되었습니다. 본 논문에서 진행한 실험 결과로 보아 segmentation task가 잘 수행되는 일반화 성능을 고려한 모델임을 알 수 있었습니다. computer vision 세미나의 첫 발표로 SAM에 대해 잘 설명해주셔서 이해하기 쉬웠고 새롭게 배웠습니다. 좋은 발표해주셔서 감사합니다 !

profile_image

이상민님의 댓글

이상민 작성일

비가 아주아주 많이 오는 날 손님없는 카페에 혼자 앉아서 수빈이의 SAM 강의를 경청했습니다. 기존 세그먼테이션(segmentation)과는 다르게 새로운 개념들이 많이 등장했는데 무척 쉽고 간결하게 설명해주었다고 봅니다. 어느덧 모든 기계학습 task에 필수처럼 등장하는 트랜스포머 구조의 인코더를 시작으로, 사용자로부터 무엇을 세그먼테이션 하고 싶은지 inquiry를 받는 prompt 부분과 디코더까지 잘 설명해주었습니다. SAM 기준만으로 본다면 scalable task나 실시간에 준하는 추론속도를 요하는 task에는 활용하기 어려울 겁니다. 학습모델 측면에서 항상 1) 학습모델의 추론은 정확하고 정확도를 항시 잘 유지하거나 업데이트가 가능한가, 2) 추론 결과에 대해 신뢰할 수 있는가, 3) 추론 결과의 사유를 사람 기준으로 해석할 수 있는가?, 4) 활용하고자 하는 시스템에서 요하는 추론속도가 가능한가? 의 기준을 계속 요구해야 합니다. SAM은 세그먼테이션을 수행해야 하는 다양한 task에 대해서 기반이 될 수 있는 새로운 패러다임이 될 수 있습니다. 자기지도학습이 유행하는 근본 원인이 레이블 데이터 생성 비용 및 품질에 대한 엄밀한 요건의 어려움으로 이를 회피하기 위한 새로운 학습 방식을 요구에 잘 대응하고 있듯, 세그먼테이션 면에서도 SAM의 활용 가치는 무궁무진하리라 봅니다.