[230828] Multimodal AutoML on Structured Tables with Text Fields

페이지 정보

profile_image
작성자 참여연구생
댓글 2건 조회 143회 작성일 23-08-28 02:23

본문

발표 자료 첨부합니다.

첨부파일

댓글목록

profile_image

이상민님의 댓글

이상민 작성일

Gluon은 Apache MXNet 일부의 오픈소스 계열의 프로젝트로, Amazon社에서 적극 지원하며 AutoML 기반기술로써 AWS에서 활용되고 있습니다. 특히, 금일 발표한 논문은 AutoGluon에서도 멀티모달의 정형 데이터 공략에 초점을 두고 있습니다. 2021 ICML의 AutoML 워크샵에서 발표되었네요. 우리가 컨테스트 참가시 다양한 데이터셋에 숫자값의 변수 외 문자값이 들어있는 변수들도 꽤 많이 포함되는 것이 일반적인 문제 상황입니다. 여러분들이 취업하고 회사의 테이블 들여다보면 대다수 데이터가 그렇다는 것을 볼 수 있을 겁니다. 이러한 멀티모달 정형데이터는 단순 categorical-to-numerical 의 변환 과정과는 다른 임베딩 기법이 필요하게 됩니다. 우선 텍스트 값의 변수는 tf-idf, N-gram과 같은 고전적인 방식 외 modality(테스트 또는 숫자값)를 갖는 변수 별 self-attention을 산출하고 concat 하는 방식으로도 임베딩 가능할 겁니다. 본 논문에서는 연속형 변수와 텍스트 변수 등 modality가 다른 변수를 어떻게 임베딩 처리할 수 있는 적합 구조/모델을 탐색할 수 있는지 몇가지 대안을 보여주었습니다. 탐색 문제를 제시하였고 휴리스틱한 방법론을 소개했으므로 이것이 시작이지 끝은 아닐겁니다. 더 다양한 AutoML 기반 기술이 소개되기를 바랍니다.

profile_image

참여연구생님의 댓글

참여연구생 작성일

텍스트를 정형 데이터와 함께 고려하기 위한 다양한 방법이 흥미로웠던 논문이었습니다. AutoML을 위한 AutoGluon과 함께, 텍스트와 정형 데이터가 동시에 있을 때 사용하는 다양한 임베딩 방법 등을 새로 알게 되었습니다. 개인적으로 Transformer Backbone의 후보가 왜 두 가지밖에 없는 것인지, 새로운 Transformer Backbone을 사용하게 되면 이후 Multimodal-Net, Choosing Aggregation 실험 결과가 어떻게 달라질지 궁금합니다. Multimodal AutoML이라는 생소한 분야를 접할 수 있게 되어 인상 깊었던 발표였습니다. 좋은 발표 감사드립니다.
-김주혁-