[230724]TabNet: Attentive Interpretable Tabular Learning

페이지 정보

profile_image
작성자 참여연구생
댓글 8건 조회 198회 작성일 23-07-24 10:12

본문

.

첨부파일

댓글목록

profile_image

참여연구생님의 댓글

참여연구생 작성일

기존까지의 Tabular data는 Tree 계열의 구조에서 더 뛰어난 성능을 보여주고 있었습니다. 이번 세미나에서는 Tree 계열의 모델에는 없는 Multi-model 학습, Feature engineering 부담 완화 등을 위해 이러한 딥러닝의 요소를 Tabular data에 적용하고 explainability 또한 증가시킨 TabNet 모델에 대해서 살펴보는 시간이었습니다.
해당 알고리즘은 DT의 장점인 Feature selection을 최대한 살리며 DNN의 표현력을 포함하는 Architecture라고 할 수 있겠습니다. TabNet의 Encoder는 Attentive transformer, Feature transformer 등의 구조를 여러 번 반복하여 이전 결과를 토대로 다음 결과에 영향을 주도록 하는 구조를 띄고 있으며, 각각은 feature를 선택하고, encoding하는 역할을 수행하고 있습니다. 또, 금번 세미나에서는 조금은 생소할 수 있는 sparsemax와 GLU 등, 내부에 적용되어 있는 새로운 function들도 소개를 해 주었습니다.
Explainable한 측면에서 TabNet은 feature-wise, instance-wise한 importance를 확인할 수 있으며, 이는 딥러닝 구조이기에 큰 장점으로 와닿을 수 있다고 생각했습니다.
실제로 tabular dataset을 다루다 보면 당연하겠지만 sparse한 data들을 많이 만나게 됩니다. 기존 Task로는 이를 모두 전처리 작업을 진행하며 사용자가 스스로 Decision을 내야 하는 경우가 있는데 이는 상당한 실험 시간과 노력을 요하게 됩니다. TabNet을 통해 이를 완화시킬 수 있다는 측면에서는 반가운 논문이 되겠으나, 실험적인 부분에서 확인할 수 있듯이 아직은 다양한 형태의 데이터에 대해 일관된 성능을 보여주는 것은 아니라고 생각됩니다. 이러한 부분을 보완한 Robust한 구조가 나온다면 분명 SOTA에 가까운 모델이 될 수 있는 초석이 되는 좋은 구조라고 생각이 됩니다.
마지막으로 좋은 발표 진행해주신 현수님께 감사의 인사를 전하며 후기를 마치도록 하겠습니다. - 신규철

profile_image

참여연구생님의 댓글

참여연구생 작성일

TabNet은 정형데이터를 다루기 위한 Deep Learning 모델로 특별한 전처리 과정 필요없이 특성 선택을 통해 중요 변수 혹은 보고자 하는 변수들을 선택하여  더 효과적인 학습이 가능하고, Attentive Transformer에 기반한 특성 상호작용을 통해 각 스텝별 Locality적인 측면과 Globality측면으로 변수들의 중요도를 파악 가능하다는 점에서 해석 능력까지 갖췄다는 것이 가장 큰 장점이라 생각됩니다.
Self-supervised Learning을 통해 unlabeled data가 많은 데이터 셋에서도 더 나은 성능을 도출해냈다는 점도 큰 장점이라고 생각합니다.
작은 규모의 TabNet 모델에서도 기존의 DT 보다 더 나은 성능을 보여줬음을 실험을 통해 확인하였습니다.
따라서 변수간의 상호작용이 중요시 되고 고차원의 복잡한 데이터들에 대해 활용성이 높은 모델이라고 생각됩니다.
좋은 발표 감사드립니다! :)

-장효영-

profile_image

참여연구생님의 댓글

참여연구생 작성일

정형 데이터에서 트리 기반 모델들의 장점은 무엇인지, 그럼에도 불구하고 정형 데이터에서 딥러닝 기반의 모델을 적용하려는 이유가 무엇인지에 대해 알 수 있는 논문이었습니다. TabNet은 코드 몇 줄로도 간단히 불러와 사용할 수 있는 널리 알려진 모델인데, 그 유명한 모델의 내부적인 구조를 자세히 알 수 있어 인상적인 시간이었습니다.
학습 가능한 마스크 M[i]로 instance-wise 하게 feature selection을 수행하는 부분과, 계산된 마스크를 기반으로 interpretability를 제공하는 부분이 TabNet의 중점이라 생각됩니다.
sparsemax, GLU, ghostBN 등 생소할 수 있는 부분을 발표에서 잘 설명해 주셔서 인상 깊었습니다. 좋은 발표 감사드립니다.
-김주혁-

profile_image

참여연구생님의 댓글

참여연구생 작성일

Tabular dataset에서는 여전히 DNN보다 Tree base의 model이 강건하게 사용되고 있습니다. TabNet은 Tree model의 feature engineering 등의 문제를 DNN으로 보완함으로써 Tabular data에 강력한 DNN model을 만들고자 했고, 좋은 성능을 가져왔다는 점이 혁신이라 생각됩니다. 특히, Tree model의 feature selection 과정을 Attentive transformer, Feature transformer 구조를 여러 step으로 반복함으로써  instance-wise한 feature를 선정하는데 효과적 이었습니다. 이러한 점이 XAI 측면에서의 local, global한 importance를 도출하는데 도움을 주었습니다.
또 TabNet의 encoder, decoder바로 연결함으로써, unlabeled data에 대해 Self-supervised Learning을 가능하게 했고, 이는 비지도 학습에서의 뛰어난 성능을 가져왔습니다. 이러한 점 역시 TabNet의 장점이라 생각됩니다. transfomer를 이용한 TabNet의 구조적인 특징이 이러한 결과를 가져오지 않았나? 라고 생각됩니다.
 
TabNet 논문에 포함된 다소 어려운 개념들(sparsemax, GLU, ghostBN) 까지도 쉽고, 깊이 있게 설명해 주셔서 해당 내용을 이해하는데 많은 도움이 되었습니다. 뛰어난 발표를 해주신 현수님께 감사드립니다.
- 윤서환

profile_image

참여연구생님의 댓글

참여연구생 작성일

기존 다른 타입의 데이터 셋(이미지, 소리 등) 에 비해 딥러닝 모델이 여러 장점을 가짐에도 정형 데이터 셋에서는 트리 기반 모델들을 대체하기엔 부족했던 이유, 그 한계들을 극복할 만한 TabNet 모델의 장점들을 논문에서 실험을 통해 잘 보여주고 있습니다. 모든 데이터에 대해 절대적인 것은 아니지만, 기존 트리 기반 SOTA 알고리즘에 비해 가벼우면서도 좋은 성능을 보이고, 데이터 전처리 과정을 거치지 않고 결과를 낼 수 있으며, 인스턴스 별로 다를 수도 있는 중요 feature들을 골라내서 explainable하게 보여주기까지 한다는 점은 최대한 많은 장점들을 다 끌고 나왔다고 볼 수 있을 것 같습니다.
아직 저는 다양한 SOTA 모델들을 접해보지 않아서 TabNet의 구조와 특징을 공부해 보고 싶다고 막연하게 생각만 하던 중이었는데, 마침 좋은 논문 선택해 주셔서 많이 알아볼 수 있는 시간이었습니다.
현수님의 좋은 발표와 다른 연구생 분들의 양질의 질문 및 코멘트에 감사드립니다.
- 윤성호

profile_image

참여연구생님의 댓글

참여연구생 작성일

Tabular data에서 전형적인 Decision Tree에서 벗어나 DNN과 transformer를 응용하여 성능 향상을 이뤄냈다는 점에서 상당히 유의미한 연구라 생각합니다. 추가로 Decision Tree 기반으로 변수 선택을 통해 설명 가능하다는 점에서 현업에서 유용하게 쓰일 것 같습니다.
softmax 대신 sparsemax를 사용하여 mask를 생성해 sparse feature selection을 수행할 수 있다는 부분이 인상적인 부분이었습니다. 또한 ghost BN, GLU 등 다양한 최적화 기법과 self-supervised learning을 활용하여 결측치를 예측하는 새로운 방법도 배워갈 수 있었습니다.
실험 결과 부분에서 기존 성능이 우수했던 gradient boosted tree와 비교하여, 더 작은 크기의 tabnet-S에서 더 우수한 성능을 보였고 tabnet-M부터는 확실한 성능 차이가 보였다는 점이 기억에 남는 부분이었습니다.
좋은 발표 잘 들었습니다.
- 송인섭

profile_image

참여연구생님의 댓글

참여연구생 작성일

DT 기반만이 아닌 딥러닝 기반의 모델도 사용하여 정형 데이터 탐색을 수행한다는 것이 흥미로웠고 그렇게 접근하는 이유에 있어 충분한 설득력을 가진 논문이었다고 생각합니다. 특히 TabNet Encoder의 architecture에서 여러 개의 step을 반복하여 앙상블 모델의 구조를 모방하되, 앙상블 모델처럼 여러 개의 구조를 사용하지 않고 하나의 구조 만을 사용하여 모델 사이즈를 줄인다는 점이 인상적이었습니다. 또한 각 step의 feature selection mask가 선택된 feature를 조명하는데 이를 통해 XAI 측면에서 왜 이 feature가 선택되었는가? 를 설명할 수 있는 점이 매력적이라고 생각합니다.
물론 모든 면에서 DT 기반 모델보다 뛰어나다고 할 수는 없겠지만, 전처리 작업 없이 데이터를 사용할 수 있다는 등의 TabNet만이 가진 장점이 분명히 있어 보입니다. 향후 관련 프로젝트를 진행할 때 참고할 만할 것 같습니다. 좋은 논문 소개해 주셔서 감사드립니다.
-황승택

profile_image

이상민님의 댓글

이상민 작성일

금일 세미나 영상자료를 첨부합니다. 논문을 충실하게 이해하려고 노력했고, 양질의 발표를 진행했습니다. Variant TabNet 기법에 대해서도 관심을 갖고 관련 논문들 읽기를 바랍니다. 수고 많았습니다.

https://us02web.zoom.us/rec/share/aaHlf8dNeGMasA84M6zCOC-Qsn8hhhjd1-icrE1j5ATTem4CKOzgiqb7ApwfQg8P.qHYavuaicXA9nPap
암호: 1$6UQfgL

- 이상민