[230828] EfficientNet: Rethinking Model Scaling for Convolutional Neur…

페이지 정보

profile_image
작성자 참여연구생
댓글 3건 조회 133회 작성일 23-08-28 03:04

본문

발표 자료 첨부합니다

첨부파일

댓글목록

profile_image

이상민님의 댓글

이상민 작성일

EfficientNet은 네트워크의 깊이(h), 너비(w), 및 해상도(r)를 함께 조절하는 Compound Scaling 기법을 사용해서 모델 크기를 조절하는 학습 방식을 제안합니다. 학습과정을 성능과 계산 비용 사이 균형을 맞추고자 h, w, r을 조절하며 accurate performance를 높이는데 초점을 두었습니다. 다양한 문제상황에서 우수한 성능을 보이고 있기에 이후의 DART와 같은 연구의 접근방식에 방향성을 제시했다고 생각합니다. NAS를 사용한다는 측면에서 시간복잡도 문제에서 자유로울 수 없다는 생각이 들고, 주어진 데이터에 대한 weight 뿐만 아니라 structure 측면의 과적합 문제를 해결할 메커니즘도 부재하다는 문제도 추가로 고려해야 합니다. 몇가지 질문이 있는데, hyperparemter 설정 면에서는 상당히 naive approach를 처리한듯 한데 특별한 이유가 있으려나 싶습니다. siLU를 사용했을 때 정말 큰 장점이 있는지와 AutoAugment이 효과적이었는지에 대한 ablation studies도 있었는지 궁금하네요.

profile_image

참여연구생님의 댓글의 댓글

참여연구생 작성일

코멘트 감사드립니다!
hyperparameter를 naive 하게 처리한 이유는 아마 hyperparameter 조절보단 세 가지 차원을 모두 확장함으로써 얻는 장점에 초점을 맞추기 위해서 같습니다. 이전 연구들에서는 1~2개의 차원만 확장하고 이를 수동적으로 확장시키는 데에 있는 비효율성과 번거로움이 있었기에, 본 논문의 목적은 세 가지 차원을 모두 확장하는 것에 대한 중요성과 이를 확장시키는 원칙적인 방법을 개발하는 것으로 보입니다. 따라서, hyperparameter를 자세히 다루기보다는 세 가지 차원을 원칙적으로 확장시키는 쪽에 힘을 실은 것 같습니다.

“Smish: A Novel Activation Function for Deep Learning Methods”(Wang et al., 2022)에서 EfficientNet에서 여러 활성화 함수를 비교한 결과가 있습니다.
이 논문에서는 거의 대부분 SiLU가 ReLU보다 대부분의 dataset에서 우수한 성능을 보였습니다. 하지만, SVHN dataset에서 ReLU와 SiLU를 사용했을 때 efficientNet-B7 모델에서 0.19의정확도를 보인 반면, 저자들이 고안한 smish를 사용했을 때 0.91의 정확도가 나왔다는 점에서 좀 의심스러운 마음이 들긴합니다.

AutoAugment 관련해서는 “RandAugment: Practical Automated Data Augmentation with a Reduced Search Space” (Cubuk et al., 2020)에서 efficientNet B7을 baseline과 여러 AutoAugment 기법을 비교하는 내용이 나오는데, baseline의 경우는 83.7%로 기본 AutoAugment를 사용한 84.3%보다 낮은 정확도를 보였습니다.

감사합니다!

profile_image

참여연구생님의 댓글

참여연구생 작성일

ConvNet을 더 정확하고 효율적으로 확장하는 원칙적 방법을 조사하고자 한 시도가 인상 깊었던 논문이었습니다. NAS, MnasNet 등 새로운 개념을 알게 되었고, ConvNet 성능 향상을 위한 연구 이면에 깔린 다양한 개념들을 알 수 있게 되어 좋았습니다. 간단한 compound scaling method 방법으로 구현한 여러 EfficientNet 모델군들의 성능 및 효율성, 추론 속도 또한 기억에 남는 부분입니다. 성능 비교에 사용하였던 다양한 모델들(ResNet, Inception-resnet 등)을 미리 발표해 주셔서 이번 EfficientNet의 성능 체감이 더 쉬웠던 것 같습니다. 개인적으로 모델의 해석력에 대한 실험에 있어서 CAM 외의 다른 방법과 다른 모델과의 비교 결과물이 궁금합니다. 좋은 발표 감사드립니다.
-김주혁-