[230807] Contrastive Representation Learning, A Framework and Review > Self supervised learning (23y)

[230807] Contrastive Representation Learning, A Framework and Review

페이지 정보

작성자 강지연
댓글 1건 조회 183회 작성일 23-08-07 19:13

본문

일시 : 2023년 8월 7일

발표자 : 강지연

제목 : Contrastive Representation Learning, A Framework and Review

요약 : 본 논문은 contrastive representation learning 분야에서의 최근 연구 동향과 발전을 종합적으로 조사하고, CRL의 작동 방식을 이해하고 설명하기 위한 간단하고 강력한 프레임 워크를 소개합니다. Contrastive representation learning은 데이터 도메인과 관계없이 이미지, 비디오, 텍스트, 오디오와 같은 다양한 분야에 적용할 수 있으며, 논문에서는 이 CRL과 다른 방법들 간의 관계를 분석하여 소개를 하고 있습니다. 또한, CRL의 각 구성 요소에 대한 분류체계를 자세하게 기재하였고, 개념적인 발전을 요약하여 제공하고 있습니다.

추가 내용 :
p.19 negative 키는 계속 끝부분이 아닌가?
--> Sequential coherence and consistency에서 negative sample은 query와 가장 먼 값이라는 것은 맞지만, 항상 마지막 프레임의 이미지가 되는 것은 아니다. positive keys가 query frame 주변의 작은 window 내의 프레임으로 정의되고, negative keys는 동일한 비디오의 프레임이지만 쿼리와 시간적으로 멀리 떨어진 프레임으로 정의된다. 따라서, negative sample은 query와 가장 멀리 떨어진 프레임이 될 수도 있지만, 마지막 프레임이 아닐 수도 있다. positive keys가 query frame 주변의 작은 window 내의 프레임으로 정의되지만, window크기에 대해서는 논문에 명시되어 있지는 않지만 하이퍼파라미터로 조정할 수 있기 때문에 negative pair가 항상 끝부분인 경우는 없다.

p.26 energy가 무엇을 의미하는지 ?
--> energy-based margin losses에서 energy는 각 변수 구성에 대해 에너지를 연관시키는 모델의 거리점수 값이다. Scoring functions은 두 벡터 간의 유사도 또는 거리를 측정하는 함수이며, 일반적으로 두 벡터 간의 내적 또는 거리(euclidean distance)를 계산한다. 반면, energy-based margin losses는 각 변수 구성에 대해 에너지(거리 점수)를 연관시키는 모델의 에너지 값을 계산하고, 변수의 원하는 구성(positive pair)에 대해 낮은 에너지(작은 거리)를 연관시키고, 변수의 원하지 않는 구성negative pair)에 대해 높은 에너지를 연관시킨다. Scoring functions은 대개 contrastive loss와 함께 사용되며, energy-based margin losses는 energy-based models에서 사용된다.

첨부파일

발표자료.pdf (2.3M)
DATE : 2023-08-07 19:13:45
논문.pdf (3.7M)
DATE : 2023-08-07 19:13:45

이전글[230810] A Simple Framework for Contrastive Learning of Visual Representations 23.08.14
다음글[230720] A cookbook of self-supervised learning 23.07.20

댓글목록

강민정님의 댓글

강민정 작성일 23-08-11 12:38

오늘 지연언니가 contrastive learning에 대해 전반적인 내용을 리뷰해주었습니다. Contrastive learning은 자기지도학습의 방법 중 하나로 anchor를 기준으로 유사한 샘펄인 positive pair와 유사하지 않은 샘플 negative sample을 통해 비슷하면 가깝게, 유사하지 않으면 멀게 임베딩하게 됩니다. 특히 여러 augmentation 기법을 통해 2개의 view를 생성하게 되며 해당 이미지들은 encoder를 통해 representation vector를 변형합니다. 이 representation vector는 저차원으로 매핑하는 projection head를 통과하게 되고 마지막으로 contrastive learning을 통해 vector 간의 유사도를 계산하는 방식으로 학습됩니다. 특히 이번 발표에서는 contrastive learning을 구성하는 similarity, encoder, transform heads, loss function 간의 taxonomy에 대한 개별 설명을 통해 관련 기법들에 대해 자세히 설명해주었습니다. 각 구성 요소들의 조합에 대한 성능은 task에 따라 매번 다르지만 일반적으로 좋은 성능을 가지는지에 요소 조합에 대한 내용도 흥미로웠으며 실제 구현체를 다루는데 있어 도움이 될 것 같습니다. Energy-based model에 대한 pair 간의 loss function에 대한 내용이 추가적으로 궁금하였습니다. 발표 잘 들었습니다. 감사합니다.