제32차 KRnet 2024

페이지 정보

profile_image
작성자 이상민
댓글 0건 조회 181회 작성일 24-06-24 15:51

본문

금일 KRnet 2024 학회에 참석했다. 몇가지 흥미로운 발표를 들어서 코멘트를 남긴다.

첫번째는 How to tame you large generative models라는 제목의 논문 내용을 소개한 발표였다. 기본적으로 모델 경량화에 초기 버전은 lottery ticket에 대한 소개를 하며 neural pruning의 개념을 들 수 있다. 의사결정나무의 가지치기의 역할과 유사한데, 결국은 특정 weight는 전체 모델의 일반화 성능을 위해서는 존재하지 않아도(0) 좋고 오히려 삭제해야 한다. 하지만, pruning 기법이 성능 저하가 심하고 pretrained model이 well-trained model이었다면 더 이상 성능 개선을 유도하기 어렵다는 문제가 있었다. (구조적 변경없이 pruning 방식만으로 더 좋은 local minima 탐색의 어려움) 이후 Prof. Hinton 연구진에 의해 처음 소개된 knowledge distillation이 각광을 받고 있으나, 간간히 pruning에 대한 소개는 게속 진행되고 있다. (Meta modeling과 jungle forest를 소개했던 Microsoft사에서 관련된 연구 등) 제안 기법은 생성형 모델에 국한하여 pruning 방식을 하되 binary encoding 또는 signed function을 통과시키는 tunneling 방식을 통해서 단순하지만 보다 sparse networks를 추구하는 것이 연구의 핵심이다. 강연 이후 직접 문의하여 본 연구의 motivation에 대해서 문의했는데, 생성형 모델에 대한 경량화 연구가 부족했고 생각보다 생성형 모델 내 redundancy subnetworks가 많이 포함될 수 있다는 문제점에 착안했다는 답변을 들었다. 이후 본 연구의 확장 버전으로 federated learning 측면에서도 보다 보안성이 뛰어나고 경량화된 연합학습 방식에 대해서도 소개하였는데,  창의적인 아이디어로 좋은 성능을 보인다면 충분히 좋은 연구가 될 수 있음을 단적으로 소개했다고 생각한다.

두번째는 Code LLM에 대한 발표를 네이버 개발자 분께서 소개한 발표였다. 대표적으로 두가지 형태가 존재하는데, Chat형식 또는 Completion/infilling형식으로 나뉘는데, 특정 영역의 코드를 모두 생성하거나, 아니면 특정 단서를 주고 suffix/prefix 생성하는 코드 생성 방식이었다. 기본적인 생성 메커니즘은 code 의 autoregressive pattern을 기반으로 masking 된 영역을 채우는 방식으로 LLM을 활용하는 것이다. 이 때 학습 방식은 RLHF을 통해서 LLM을 fine tuning 했듯이 사람 개발자가 작성한 특정 정답을 맞추는 HumanEval이라는 tasks를 맞추도록 유도하면서 학습을 진행한다. 최근에 소개된 DeepSeek coder는 git code를 수집하고 code의 hierarchical dependency를 기반으로 학습하고 convention을 따르지 않거나 low-quality code를 filterout시키는 방식으로 코드 생성을 학습하여 좋은 성능을 보였다고 한다. MagicCoder 같은 경우에는 작은 모델을 추구하는데 code snippet을 기준으로 LLM에 query하고 그 응답을 학습의 대상으로 반복적으로 prompting을 스스로 학습한다는 방식이었다. 특히 최근에는 코드 에러 및 이슈화 하는 ims에 ticket 발행 시 해당 issue를 자동 해결을 추천해주는 solution candidate 생성에 도움이 될 것으로 보인다. 무척 흥미롭고 이후의 진행과정이 흥미롭다.

댓글목록

등록된 댓글이 없습니다.