[230814] Rethinking the Inception Architecture for Computer Vision > Summer Intensive Course (23y)

[230814] Rethinking the Inception Architecture for Computer Vision

페이지 정보

작성자 참여연구생
댓글 13건 조회 275회 작성일 23-08-14 11:55

본문

발표 자료 올립니다
감사합니다

첨부파일

Inception v2,v3_주윤나.pptx (3.2M)
DATE : 2023-08-14 11:55:03

이전글[230821] Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning 23.08.20
다음글[230814] Why do tree based models still outperform deep leaning on tabular data 23.08.14

댓글목록

참여연구생님의 댓글

참여연구생 작성일 23-08-14 15:54

본 논문은 기존 인셉션 네트워크에 작은 필터들을 병렬로 적용하고 깊이별 연산방식을 통해 효율적인 정보 추출과 동시에 더 나은 representation learning을 가능하게 했음을 제시한 논문입니다.
특히 표현력과 연산량을 동시에 발전시킨다는 것에 상당히 궁금했었는데, Asymmetric Convolution과 함께 여러 크기의 layer들을 병렬로 적용하는 효과적인 그리드 크기 축소 방안을 제시하며 이미지의 표현력을 유지하며 연산량을 줄여가는 방식에 대해 잘 설명해주었습니다. 또 V2모델에 큰 구조적인 변화를 주지 않고 Label smoothing방식 적용, Optimizer 변화, Auxiliary Batch Normalization등의 다양한 시도를 통해 v2에서 안정성까지 겸비한 V3모델까지 제시하였습니다.
이번 발표를 통해 적은 연산량과 파라미터 수로도 높은 표현력을 달성 할 수 있었음을 알게되었고, 모바일 기기와 같은 한정된 컴퓨팅 자원에서도 적용이 가능하게 되며 비전 프로그램 개발 및 성능 향상에 있어서 굉장히 큰 기여가 됐음을 확인하였습니다.
쉽지 않았을 내용임에도 잘 정리 해주시고 전달해주셔서 본 논문을 이해하는데 큰 도움이 되었습니다. 좋은 발표 감사합니다 :)
-장효영-

참여연구생님의 댓글

참여연구생 작성일 23-08-14 22:15

해당 논문은 기존의 Inception Net을 개량하여 계산 효율성을 증대시킨 v2와 v3를 제시한 논문입니다. 기본적으로 DNN은 모델의 크기를 증가시키면 용량이 커지고 정확도가 증가하는 상황에서, 연산량도 추가적으로 많아지게 됩니다.
저자들은 Conv를 추가로 분해하여 연산량을 최소화 시키는 것을 중점으로 해당 모델을 발전시켰습니다(Asymmetric Conv). 또한 representation을 위해 pooling layer와 conv layer를 병렬로 활용하는 방법을 사용하여 v2를 제안했습니다.
이에 더해 Label Smoothing, RMSProp, BN-Aux를 추가로 적용한 모델이 v3임을 확인하였습니다. v3은 ILSVRC 2012데이터에 대해 top1 error 17.2%, top5 error 3.58%로 당대에는 상당히 우수한 성능을 보였음을 확인할 수 있었습니다.
Conv를 Factorizing하고 Aggresive Dimension Reduction하는 것이 컴퓨팅 비용을 낮추며 동시에 성능도 높일 수 있다는 것에 놀랐습니다.
개인적으로는 마지막 layer의 Auxiliary FC를 제외한 Aux Classifier가 연산량에 큰 부담이 되지 않는다면 유지하는 편이 좋지 않나 라는 생각도 들었습니다.
좋은 발표 진행해 주신 윤나님께도 감사의 말씀 전하며 후기를 마치도록 하겠습니다.
- 신규철

참여연구생님의 댓글

참여연구생 작성일 23-08-14 23:45

본 논문은 기존 Inception v1(GoogLeNet)의 다양한 conv filter와 그로 인한 계산 효율성, 높은 정확성을 filter factorizing의 접근법을 이용하여 해결했다는 점이 Inception v2의 혁신이라 생각됩니다. Inception v1의 경우, 연산량은 굉장히 낮췄으나 Architecture 복잡성, Auxiliary classifier의 문제점, pooling을 했을때 feature map size는 줄어들지만 그로 인한 정보 손실이 발생하는 문제점 등을 해결했다는 점이 v2가 가지는 강점이라 생각됩니다.
Architecture 복잡성을 factorizing을 통해 기존의 연산량을 효과적으로 낮추면서, model의 복잡성 또한 줄였습니다. 또, Auxiliary classifier가 Gradient vanishing을 어느정도 보완하여 low level의 feature를 잘 catch할 것이라는 가설도 실험을 통해 효과가 없음을 검증했습니다. 그로 인해 regularizer 근거로 들었습니다.
pooling의 문제점은 conv layer와 pooling layer를 병렬로 사용하여, grid size 및 정보의 손실 또한 보완했습니다. 이와 더불어 Label Smoothing, RMSProp, BN-Auxiliary를 순차적으로 적용해 가며 최적의 성능과 효율적인 연산량을 가진 v3 model을 구축했습니다. v3는 top1 error 17.2%, top5 error 3.58%로 SOTA의 성능을 보임을 알 수 있습니다.
개인적인 견해로 본 논문은 기존의 CNN을 통한 연산과정과 model의 정확도를 다양한 관점에서 접근하고 해결하려 했다는 점이 인상 깊었습니다. 다만, Auxiliary와 관련하여 regularizer로 주장할 때의 근거가 다소 부족한 점, 그러한 주장을 토대로 BN이 regularizer로 작용한다는 증거로 제시한 점이 본 논문의 아쉬운 점이라고 생각했습니다.

다량의 내용을 포함하고 있음에도 전체적인 내용을 최대한 녹여내고, 양질의 논문을 선정해서 발표해주신 윤나님께 감사의 말씀을 전합니다.
- 윤서환

본 논문은 기존 Inception v1(GoogLeNet)의 다양한 conv filter와 그로 인한 계산 효율성, 높은 정확성을 filter factorizing의 접근법을 이용하여 해결했다는 점이 Inception v2의 혁신이라 생각됩니다.  Inception v1의 경우, 연산량은 굉장히 낮췄으나 Architecture 복잡성, Auxiliary classifier의 문제점, pooling을 했을때 feature map size는 줄어들지만 그로 인한 정보 손실이 발생하는 문제점 등을 해결했다는 점이 v2가 가지는 강점이라 생각됩니다. 
 Architecture 복잡성을 factorizing을 통해 기존의 연산량을 효과적으로 낮추면서, model의 복잡성 또한 줄였습니다. 또, Auxiliary classifier가 Gradient vanishing을 어느정도 보완하여 low level의 feature를 잘 catch할 것이라는 가설도 실험을 통해 효과가 없음을 검증했습니다. 그로 인해 regularizer 근거로 들었습니다.
pooling의 문제점은 conv layer와 pooling layer를 병렬로 사용하여, grid size 및 정보의 손실 또한 보완했습니다. 이와 더불어 Label Smoothing, RMSProp, BN-Auxiliary를 순차적으로 적용해 가며 최적의 성능과 효율적인 연산량을 가진 v3 model을 구축했습니다. v3는  top1 error 17.2%, top5 error 3.58%로 SOTA의 성능을 보임을 알 수 있습니다.
개인적인 견해로 본 논문은 기존의 CNN을 통한 연산과정과 model의 정확도를 다양한 관점에서 접근하고 해결하려 했다는 점이 인상 깊었습니다.  다만, Auxiliary와 관련하여 regularizer로 주장할 때의 근거가 다소 부족한 점, 그러한 주장을 토대로 BN이 regularizer로 작용한다는 증거로 제시한 점이 본 논문의 아쉬운 점이라고 생각했습니다.

다량의 내용을 포함하고 있음에도 전체적인 내용을 최대한 녹여내고, 양질의 논문을 선정해서 발표해주신 윤나님께 감사의 말씀을 전합니다.
- 윤서환

참여연구생님의 댓글

참여연구생 작성일 23-08-15 15:06

computational efficiency를 높여서 mobile vision을 비롯한 다양한 환경들에서 기존의 Inception network를 개선시키고자 한 본 논문의 Motivation에 대해 Introduction을 통해 잘 설명해주셨고,
Avoid representational bottleneck, Balance of width and depth 등과 같은 본 논문의 General Design Principles들과 V2,V3의 핵심요소들에 대해 논문에 서술된 흐름에 따라 좋은 설명을 해주셨습니다.
이 과정에서, conv factorizing 과정에서 논문에서는 언급되지 않았던 구체적인 해석이 추가되어 활용된 factorizing methods에 대해 더 깊게 이해해볼 수 있는 시간이었던 것 같습니다.
또한 V2와 V3의 해당 논문 뿐만 아니라, regularization technic으로 범용적으로 활용되는 label smoothing에 대해서도 추가적인 자료를 첨부하여 심층적인 설명을 해주셨습니다. 좋은 발표 해주신 윤나님께 감사드립니다.
- 송준현

참여연구생님의 댓글

참여연구생 작성일 23-08-15 19:14

기존 네트워크에서 convolution network를 효율적으로 사이즈업 하기 위해 도입한 convolution factorizing 기법이 인상 깊었습니다. factorizing 함으로써 줄어드는 연산량을 논문에서 자세히 설명해 주고 있고, pooling 후 Inception을 진행하면 representational bottleneck이 발생하고, 반대로 Inception 후 pooling을 진행하면 연산량이 너무 많아지는 점을 극복하기 위해 두 개의 병렬로 된 stride 2인 블록 P,C 를 하나는 pooling, 하나는 convergence 진행 후 concat을 한 점도 신선하게 다가왔습니다. 읽으면서 생각지 못했던 convolution factorizing에서 가로/세로 중 무엇을 우선으로 convolution해야 할 지에 대해서도 발표자 분께서 발표해 주셔서 이에 대해 고민해 볼 수 있었습니다.
또한, 논문을 혼자 읽을 땐 Auxiliary Classifiers 를 없앤 점에 대해서 깊게 의문을 가지지 않았으나, 세미나 때 교수님께서 던지신 의문점으로 인해 다시 생각해 볼 수 있게 되었습니다. 교수님 말씀대로 다른 데이터 셋에서는 Auxiliary Classifiers를 제거하지 않았을 때 좋은 성능을 보일 수도 있는데, 이를 제거한 점에 대한 이유가 논문에서 충분히 설명이 되어있지 않다는 점에 공감합니다. 정말 유익한 시간이었고, 윤나 님의 좋은 발표에 감사드립니다.
- 윤성호

참여연구생님의 댓글

참여연구생 작성일 23-08-15 22:00

매개변수 수를 줄이지만 계산 효율성을 유지하며 네트워크를 확장하려는 시도가 인상 깊었던 논문이었습니다. Factorization into smaller convolutions, Asymmetric convolutions, 효율적인 그리드 크기 축소 등 계산 효율성을 위한 새로운 개념들을 알게 되어 인상 깊었던 발표입니다. Inception v2, v3 모델에 대해 잘 설명해 주셔서, 차주 Inception-v4에 대한 발표를 들을 때에 큰 도움이 될 것 같습니다. 개인적으로 Inception layer들의 순서가 달라지면 모델의 성능이 어떻게 변하는지, 이후 발전된 모델에서는 Inception layer들의 순서 또한 하이퍼파라미터로 설정할 수 있을지 궁금합니다. 좋은 발표 감사드립니다.
-김주혁-

이상민님의 댓글

이상민 작성일 23-08-17 07:50

금일 세미나에서는 inception의 주요 개념과 v2, v3의 전개방향에 대해서 상세하게 설명해주었다. inception은 딥러닝 모델 아키텍처의 큰 획을 그은 기술로 google에서 공개한 기술이다. inception 모델은 주로 computer vision의 모든 task에 활발히 적용되고 있으며 SOTA에 해당하는 최신 연구에서도 많이 활용 중이다. inception의 목표는 다양한 커널 필터를 병렬처리하는 아키텍처의 도입에 있다. 특정 레이어에서 중요 특질을 잡아내기 위한 가능성을 높이고 weight decay 문제 해결을 위해서 각 레이어마다 다양한 커널 필터를 적용하고 이를 조합하는 것이 기술이 핵심이라 볼 수 있다. (물론 병렬처리라고 해도 컴퓨터 리소스는 항상 제한적이므로 이에 따른 계산량은 감안해야 겠지만) factorized convolution 등을 제안한 v2나 auxiliary classifier를 제안한 v3를 통해 '더 넓고 더 깊게 쌓을 수 있는 딥러닝 모델'의 사상을 이어가고 있다. 참고로 v4가 있길래 찾아보니 정식 버전이 아닌 오픈커뮤니티에서 만든 것이라 하니, 현재는 v3가 최신버전으로 보인다. 주윤나 학생이 첫 논문 발표라 무척 긴장했던듯 하나 좋은 발표를 해주어 고맙다. 관련해서 깊은 개인연구를 해볼 수 있기를 바란다.

참여연구생님의 댓글

참여연구생 작성일 23-08-17 10:29

inception network의 발전(업데이트)을 위해 계산 효율성을 유지하면서 매개변수를 줄이기 위한 노력이 있었다는 것을 알 수 있었던 논문이었습니다.
특히 기존의 3가지 그리드 축소 방법을 보완하여 병렬 사슬 구조를 통해 bottleneck을 피하는 방법과, 일반화 성능을 위해 hard label을 soft label로 smoothing 하는 점이 인상적이었습니다.
convolution layer 분해에 대해서는 교양 수업에서 스쳐지나가듯 배운 적이 있어 그런 방법이 있다는 것은 알고 있었지만 왜 분해를 하는지는 몰랐는데, 연산량을 낮추면서 성능을 유지할 수 있는 이유라는 것을 새로 알게 되었습니다. 좋은 발표 감사드립니다.
-황승택

참여연구생님의 댓글

참여연구생 작성일 23-08-17 11:07

VGGNet의 아키텍처는 단순하더라도 많은 계산량을 필요로 하지만 해당 논문의 inception 아키텍처는 훨씬 적은 수의 계산량으로도 작동할 수 있습니다. 해당 이점은 큰 크기의 필터를 더 작은 convolution으로 대체하여 표현하는 방식으로 구현된다고 합니다. 하지만 n x n보다 n x 1과 같은 비대칭 convolution을 사용했을 때 그 성능이 더 뛰어난 것을 확인한 저자는 임의의 n x n convolution을 1 x n convolution과 n x 1 convolution의 연속으로 대체하여 계산 비용을 낮출 수 있었습니다. 개인적으로 이와 같은 representation을 크게 감소시키지 않으면서 연산량을 감소시키는 방법에 대해 새로 알게 되어 좋았습니다. 또한 label smoothing을 통한 모델의 정규화 과정에 대해 자세히 설명해주셔서 훈련 데이터에 과적합되는 것을 피하고 모델의 안정성을 높이는 새로운 방법을 알게 될 수 있었습니다 좋은 발표 감사드립니다!
- 김지훈

참여연구생님의 댓글

참여연구생 작성일 23-08-17 11:49

매개변수 수를 줄이지만 계산 효율성을 유지하며 네트워크를 확장하는 방법을 자세히 소개한 논문이었습니다.
특히, n x n을 사용하는 방법이 일반적이지만, n x 1, 1 x n convolution으로 대체하여 연산량을 절감하는 효과를 나타내는 부분이 인상적이었습니다. 평소 3 x 3으로 나누어 연산량을 절감한다는 사실만 알고 있었지만 해당 논문의 리뷰를 통해서 새로운 사실을 알게되어 좋았습니다. 또한, pooling layer와 convolution layer를 병렬로 사용하는 사슬 구조를 사용하여 representation을 감소시키지 않고, 연산량을 감소시킨다는 사실을 알게 되어서 좋았습니다. 하지만, pooling layer와 convolution layer를 병렬로 사용하는 사슬 구조에 대한 설명이 충분하지 않아서 아쉬웠습니다. 좋은 발표 감사드립니다.
-김상수

참여연구생님의 댓글

참여연구생 작성일 23-08-17 18:02

본 논문은 기존 깊은 CNN 구조와 이전 버전인 GoogLeNet에 장단점을 보완하여 더 효율적인 모델을 만드는 논문입니다. 저자들이 CNN 확장 효율을 위해 만든 Design Principles를 적용해 작은 모바일 기기나 빅데이터 분야에 적합한 inception v2, V3를 개발했습니다.
Inception v2의 핵심 요소 중 하나인 suitably factorized convolution의 비대칭 합성곱은 상당히 흥미로웠습니다. 5*5 convNet을 한 번 사용하는 것 보다 3*3 convNet을 2번 사용하는 것이, 더 나아가 1*3과 같은 비대칭적 convNet을 사용하여 연산량을 줄이는 것이 상당히 인상 깊었습니다. 3*3 convNet이 당연하다고 생각했는데 이러한 변화를 통해 기존 알고 있던 기법들을 다시 돌아보는 계기가 되었습니다. Label smoothing을 통해 overconfidence를 방지하는 방법은 꽤 직관적이기도 하고 성능 안정성을 높인다는 점에서 기억이 남습니다.
수고 많으셨습니다. 발표 잘 들었습니다.
- 송인섭

참여연구생님의 댓글

참여연구생 작성일 23-08-17 22:35

convolution을 분해하는 단순한 방법으로 연산량을 효과적으로 줄이는 방법이 인상적이었던 논문이였습니다.
n x n 을 n x1, 1 x n 으로 분해하여 연산량을 절감하는 테크닉은 다른 이미지 처리 네트워크에도 적용할 수 있는 기법이라고 생각되었습니다.
하지만 이 같은 분해가 실제로 기존 symmetric 한 convolution 보다 inductive bias를 잘 잡아낼 수 있는지는 아직 의문이 들었습니다. 이 부분에 대해 실험으로 충분히 증명해주지 못하였다고 생각됩니다.
발표하느라 고생하셨습니다.
-이현수

참여연구생님의 댓글

참여연구생 작성일 23-08-17 23:42

기존에 VGG net 기반의 'Layer를 수직으로 많이 쌓자'의 컨셉에서 '수평으로도 다양하게 쌓아보자'의 컨셉 적용으로, '접근 방법은 무한한 Deep Learning 세계'라는 문장을 표현하기에 적절한 시도였다고 생각합니다.
DL Model의 단점 중 시간에 대한 문제를 Conv Filter를 분해하는 방법으로 해결하려 했다는 점이 Inception Model의 큰 특징 중 하나이지만, 현재 다양한 최신 모델들에서 응용해서 사용하는 Auxiliary Classifier를 최초로 사용했던 모델의 후속 버전이라는 점이라는 관점에서도 재미있게 살펴봤던 모델이였습니다.
개인적으로는 Auxiliary Classifier에 대한 관심이 있던 터라 이를 기반으로 모델이 개선되지 않았던 점은 조금 아쉬웠지만, V3에서도 새로운 시도를 엿볼 수 있었기에 많은 의미가 담긴 시도였다고 생각합니다.
좋은 발표 진행해주셔서 감사합니다.
-오승준