[230814] Why do tree based models still outperform deep leaning on tabular data > Summer Intensive Course (23y)

[230814] Why do tree based models still outperform deep leaning on tab…

페이지 정보

작성자 참여연구생
댓글 13건 조회 287회 작성일 23-08-14 11:21

본문

첨부파일

Why do tree based models still outperform deep leaning on tabular data 논문 리뷰.pdf (1.8M)
DATE : 2023-08-14 11:21:49

이전글[230814] Rethinking the Inception Architecture for Computer Vision 23.08.14
다음글[230724]TabNet: Attentive Interpretable Tabular Learning 23.07.24

댓글목록

참여연구생님의 댓글

참여연구생 작성일 23-08-14 15:13

본 논문은 기존의 정형 데이터에서 효과적으로 작동하는 트리 기반 모델들이 왜 여전히 딥 러닝 모델을 능가하는지에 대한 여러 인사이트를 제공하는 논문이었습니다.
사실 정형데이터에 딥러닝을 적용하는 것에 대해 기존의 트리 기반 모델들에 비해 여러 측면에서 한계가 존재한다는 것에 대해서 그저 막연하게만 알고 있었지만, 어떠한 이유에서 그런 현상이 나타나는지에 대해서는 미처 생각해보지 못하였습니다.
이번 논문 발표를 통해 데이터들의 특성과 규모에 맞춘 다양한 데이터들을 적용한 실험들을 통해 어떠한 특징에서 DL모델의 한계가 도출이 된 것인지 잘 알 수 있게 되었고 왜 그런지에 대해서도 잘 알 수 있었습니다. 특히 DL모델은 불규칙한 패턴의 데이터에서 취약한 모습을 보인다는 것을 새롭게 알게 되었습니다.
해당 논문에서 나타난 정형 데이터에 대한 DL모델들의 한계점들을 바탕으로 후속 연구에 있어서 좀 더 다양한 메커니즘을 적용하여 정형데이터에 있어서 DL모델의 성능 향상을 기대하고 기존의 Tree based 모델들 보다 좀 더 강건한 DL모델을 만들 수 있는 발판이 될 수 있지 않을까라고 조심스럽게 생각됩니다.
해당 논문은 실험 위주의 논문이었는데, 기존의 논문들을 통해 대해 해당 논문의 주요 사항들을 잘 꺼내주셨고, 논문내의 여러 실험 세팅 과정들과 실험 결과 및 발견점 등 너무 잘 정리해주셔서 이해하기 쉬웠고, 흥미롭게 들을 수 있었던 것 같습니다. 좋은 발표 감사합니다 :)
-장효영-

참여연구생님의 댓글

참여연구생 작성일 23-08-14 21:29

해당 논문은 DL의 발전에도 불구하고, 왜 여전히 tabular dataset은 tree-based model을 사용하는지 general한 실험을 통해 확인하는 논문입니다.
Introduction에서 말한 것과 같이 tabular data에 대한 DL의 연구는 활발하지만, 정작 Tree-based모델보다 나은점이 명확하지 않았던 한계가 있었습니다. tabular data는 구조는 단순하지만 관련 task는 어마어마하게 많아질 수 있는 유형입니다. 따라서 기존의 연구들에서는 기준이 중구난방했던 점이 있었습니다. 해당 논문에서는 데이터의 명확한 기준을 적용하고 이를 benchmark로 이끌어낸(정량화 된)점이 그러한 부분에서 긍정적으로 평가될 수 있을 것 같습니다. 실험에서는 비교를 위해 제한적인 데이터를 사용하기는 했지만, 나름 밀도있게 실험이 진행되었다고 생각합니다.
실험에서는 DL의 경우 SAINT, FT-Transformer등의 Attention 기반 알고리즘이 그나마 나은 성능을 보여주었는데요, 추가적으로 다른 Variation의 Transformer모델을 사용해 보고 싶다는 생각도 드네요. 과연 Transformer 모델이 Tabular data에서까지 높은 성능을 차지하게 되는 건지도 궁금해 집니다.
개인적으로 해당 논문의 실험에서는, 평가 지표가 하나만 가지고 사용된 것이 아쉽습니다. 물론 실험의 가짓 수가 워낙 많기 때문에 다양하게 시도는 못 한 것으로 인식됩니다만, Tabular data는 데이터에 따라서도 평가지표를 다르게 가져가야 할 때가 있기 때문에 그렇다고 생각했습니다.
개인적인 실수로 본 발표를 전부 듣지는 못 하였으나, 본 발표 이전 팀 토의 시간에 발표해주신 것 기억하고 있고, 승준님께서는 본 발표도 큰 어려움 없이 진행하셨을 것이라고 생각됩니다.
좋은 발표 준비해 주신 승준님께 감사의 인사를 전하며 후기를 마치도록 하겠습니다.
- 신규철

참여연구생님의 댓글

참여연구생 작성일 23-08-15 14:30

tabular dataset에 대한 DL로만 접근하려는 관습적인 방법론을 tree-base의 다양한 model로 타파하고자 했다는 점이 본 논문이 주는 혁신이라 생각됩니다.
DL의 강력한 performance에도 불구하고, 여전히 tabular dataset에 대해서는 tree-based model이 강건한 성능을 보여왔습니다. 그러나 특정 dataset에 국한해서는 그렇지 못하다는 점, 그러한 이유를 막연하게 열거해둔 점을 잘 catch하여 명확한 기준을 통해 정립한 점이 인상 깊었습니다. 또 해당 논문을 통해 tabular data에 대한 benchmark dataset을 구축하려 했다는 점이 많은 기여점이라 생각됩니다.
비록, 많은 Constraint가 있었기 때문에 명확한 결과로 이어질 수 있었지만, 한편으로는 그러한 조건들이 tree-based의 약점을 드러내는 점으로도 보여졌다는 생각이 들었고, 그렇기 때문에 다양한 조건에서의 실험이 이후에도 이루어져야 한다고 생각됩니다. 오히려 이러한 Constraint을 타파할 수 있는 ML, DL 모델이 등장할 수 있을까?라는 의구심과 기대감이 동시에 들었습니다. 교수님께서 말씀하셨듯이, tabular data에 대한 DL의 접근이 과연 올바른 방향일지, 아니면 그러한 model을 아직 발견하지 못한건지라는 생각이 많이 들었습니다.

굉장히 논문에 대해 다방면으로 생각하며 준비하시고, 그 내용을 놀랍도록 잘 전달해주신 승준님께 감사의 말씀을 드립니다.
- 윤서환

참여연구생님의 댓글

참여연구생 작성일 23-08-15 15:41

해당 논문은 Tabular data에 대해서 DL이 여타 전통적인 Tree-based 모델보다 일반적으로 좋은 성능을 내지 못한다는 피상적 사실에 대해, 벤치마크 데이터셋을 구축하여 객관성을 확보하고, 다양한 실험들을 수행하여 해당 결과를 바탕으로 그 원인을 규명해보려고 했고, 비록 Tabular data의 inductive bias에 대해서 명확하게 규명해내지는 못했지만, "NNs are biased to overly smooth solutions", "Uninformative features affect more MLP", "Data are non invariant by rotation"와 같은 독창적인 가설을 제시했다는데 충분히 학문적 의의가 있는 논문이라는 생각이 들었습니다.
다양한 실험위주로 전개된 본 논문의 특성상, 청자의 이해를 위해 부가적으로 다루어야 할 실험조건이 굉장히 많았는데, 적절한 깊이와 너비의 추가적인 설명과 더불어 실험들에 대한 발표자님의 깊은 해석은 해당 발표를 더욱 풍성하게 만들어주는 좋은 요소들이었던 것 같습니다. 덕분에 해당 논문을 더 깊게 이해할 수 있는 유익한 시간이었습니다. 멋진 발표해주신 승준님께 정말 감사드립니다.
- 송준현

참여연구생님의 댓글

참여연구생 작성일 23-08-15 18:57

현재 딥러닝 모델을 Tabular dataset에 트리 기반의 모델보다 잘 적용 시키려는 연구들이 많이 진행 되고 있습니다. 지난 세미나 때 리뷰했던 TabNet도 이러한 시도의 결과물이었고, 좋은 성능을 보여 주었으나, 이미지나 텍스트 같은 타입의 데이터들은 새로운 모델의 성능을 어느 정도 일반화 해 줄 수 있는 benchmark dataset 들이 존재 하나, 정형 데이터는 이러한 벤치 마크가 부족하여 어떤 모델을 새로 들고 와도 모두 실험에 쓰인 데이터 셋이 제각각이라 성능을 일반화 하기에는 어려운 경향이 있습니다. 저자는 이러한 근본적인 한계를 극복하고자 정형 데이터의 benchmark dataset 을 확립하고자 하였습니다. 비록 여러 한계점들이 존재하여 논문에 소개된 45개의 데이터 셋이 과연 벤치 마크가 될 수 있을까? 라는 의문이 들긴 하였지만, 시도 자체는 아주 의미 있었다고 생각합니다. 직전 세미나와 공백 기간이 비교적 길었던 만큼 발표자 님께서 정말 많이 준비하셨다는 점이 느껴졌고, 세미나를 통해 논문을 읽으면서 생각지도 못했던 점들에 대해서 다시 고민해 보는 시간을 가질 수 있었습니다. 좋은 발표 감사드립니다.
- 윤성호

참여연구생님의 댓글

참여연구생 작성일 23-08-15 21:59

정형 데이터에서의 트리 기반 모델의 우수성은 널리 알려진 사실이지만, 그 우수성의 원인을 찾고자 하는 접근이 굉장히 인상 깊었던 논문이었습니다. 실험에 사용한 데이터셋의 제약 조건, 성능 비교에 사용한 DL 모델의 종류 등 보완해야 할 부분이 있어 보이지만, 정형 데이터를 위한 벤치마크 형성에 큰 도움이 될 것 같습니다. 실험 결과로 알게 된 Findings(NN의 smooth solution, Uninformative features, Rotation invariant)는 향후 정형 데이터를 위한 딥러닝 연구에 도움이 될 것 같습니다. 데이터셋의 크기가 증가할수록 DL 모델들의 성능이 좋아졌는데, 개인적으로 Large size보다 더 큰 크기의 데이터셋에서의 실험 결과는 어땠을지 궁금합니다. 좋은 발표 감사드립니다.
-김주혁-

이상민님의 댓글

이상민 작성일 23-08-17 07:40

본 논문은 실험적으로 딥러닝과 기계학습 모델이 정형데이터를 학습하는 능력 면에 있어서 실험적 고찰을 수행하였다. 데이터 기반의 문제(불균형, 이상치, 멀티모달 분포 차 등) 또는 하이퍼파라미터 이슈 등 어느 한쪽에 유리하지 않도록 충분히 고려한 실험셋팅이 인상 깊었다. 일반적으로 모델의 capacity가 크다는 것은 데이터의 복잡한 패턴을 담을 수 있는 그릇의 크기에 비교를 한다. 그릇이 크다는 것은 학습 과정에서 탐색해야 할 set of weights의 조합이 그만큼 넓다는 것을 의미하는데 효과적 탐색 방법을 꾀해야 한다. 주어진 데이터셋이 갖고 있는 일반화된 특성을 추가적으로 정의하거나 탐색 방법의 가정을 추가하는 학습 알고리즘의 특징을 inductive bias라 한다. CNN에서 kernel filter를 사용하는 것이나 일반화 성능을 높이기 위한 k-fold cross validation도 다 inductive bias라 할 수 있다. naive multi-layer perceptron(MLP)의 경우 inductive bias가 상당히 약하다 볼 수 있다. 거의 전역 탐색하듯이 하지 않는다면 좋은 수렴된 모델을 찾기가 어려운 이유이다. 예시로, 동일한 이미지 데이터로 MLP와 CNN에 학습하는 것은 가능하지만, 제한된 시간내 CNN에서 더 잘 학습되리라 기대하는 것은 locality pattern을 bias로 고려하여 spatial translation에 집중하는 CNN이 더 효과적일 것이라 보기 때문이다. 본 논문의 주제로 돌아온다면, 정형데이터의 특징은 무엇이고 그에 걸맞는 학습 알고리즘의 inductive bias는 어떻게 설계하는게 좋을까? 딥러닝이냐 앙상블이냐를 떠나서 핵심은 inductive bias에 있을 수 있다. 무작정 최신 기법을 응용하거나 알고리즘의 복잡도를 높이는 것이 아니라, 정형데이터의 특성을 더 잘게 나누고 주어진 상황에 적합한 알고리즘을 제시하는 것이 더 효과적이다. 이와 관련하여 보다 고민하고 관련 논문들을 찾아 읽어보기를 추천한다.

연구 참여중인 학생들 또한 알고리즘 연구를 수행할 수 있고 SOTA 급 성능에 해당하는 실험결과를 뽑아볼 수 있으며 이로 논문을 발표 할 수도 있다. 당장은 요원한 목표처럼 느낄 수도 있고 논문 읽는 것이 버거울지 몰라도 목표를 갖는다면 빠르게 찾아오리라 본다.
- 이상민

본 논문은 실험적으로 딥러닝과 기계학습 모델이 정형데이터를 학습하는 능력 면에 있어서 실험적 고찰을 수행하였다. 데이터 기반의 문제(불균형, 이상치, 멀티모달 분포 차 등) 또는 하이퍼파라미터 이슈 등 어느 한쪽에 유리하지 않도록 충분히 고려한 실험셋팅이 인상 깊었다. 일반적으로 모델의 capacity가 크다는 것은 데이터의 복잡한 패턴을 담을 수 있는 그릇의 크기에 비교를 한다. 그릇이 크다는 것은 학습 과정에서 탐색해야 할 set of weights의 조합이 그만큼 넓다는 것을 의미하는데 효과적 탐색 방법을 꾀해야 한다. 주어진 데이터셋이 갖고 있는 일반화된 특성을 추가적으로 정의하거나 탐색 방법의 가정을 추가하는 학습 알고리즘의 특징을 inductive  bias라 한다. CNN에서 kernel filter를 사용하는 것이나 일반화 성능을 높이기 위한 k-fold cross validation도 다 inductive bias라 할 수 있다. naive multi-layer perceptron(MLP)의 경우 inductive bias가 상당히 약하다 볼 수 있다. 거의 전역 탐색하듯이 하지 않는다면 좋은 수렴된 모델을 찾기가 어려운 이유이다. 예시로, 동일한 이미지 데이터로 MLP와 CNN에 학습하는 것은 가능하지만, 제한된 시간내 CNN에서 더 잘 학습되리라 기대하는 것은 locality pattern을 bias로 고려하여 spatial translation에 집중하는 CNN이 더 효과적일 것이라 보기 때문이다. 본 논문의 주제로 돌아온다면, 정형데이터의 특징은 무엇이고 그에 걸맞는 학습 알고리즘의 inductive bias는 어떻게 설계하는게 좋을까? 딥러닝이냐 앙상블이냐를 떠나서 핵심은 inductive bias에 있을 수 있다. 무작정 최신 기법을 응용하거나 알고리즘의 복잡도를 높이는 것이 아니라, 정형데이터의 특성을 더 잘게 나누고 주어진 상황에 적합한 알고리즘을 제시하는 것이 더 효과적이다. 이와 관련하여 보다 고민하고 관련 논문들을 찾아 읽어보기를 추천한다.

연구 참여중인 학생들 또한 알고리즘 연구를 수행할 수 있고 SOTA 급 성능에 해당하는 실험결과를 뽑아볼 수 있으며 이로 논문을 발표 할 수도 있다. 당장은 요원한 목표처럼 느낄 수도 있고 논문 읽는 것이 버거울지 몰라도 목표를 갖는다면 빠르게 찾아오리라 본다.
- 이상민

참여연구생님의 댓글

참여연구생 작성일 23-08-17 10:15

왜 Tabular Dataset에서 트리기반 모델들의 성능이 DL모델들보다 뛰어날까? 라는, 그냥 '사실이 그렇다'라고 넘어갈 수도 있는 의문에 대해 답해주는 논문이었다고 생각합니다. Categorical, Numerical, 그리고 둘 모두를 포함한 Tabular Data를 사용했을 때 각각의 모델의 성능을 비교하여 보여줌으로써 기존의 categorical feature가 DL 성능을 저하 한다는 의혹을 해결했고, DL 모델들이 중요하지 않은 feature들에 민감하다는 것을 Data Smoothing을 통해 보여주었습니다. Rotation Invariant 같은 개념은 처음 들어보는 개념이었는데, 이번 논문 리뷰를 통해 알고 넘어갈 수 있어서 좋았습니다. 다만 논문의 전처리 과정에서 400회의 random search를 진행했는데, 성능평가 지표를 classification은 accuracy를, regression은 r-square만을 사용한 것은 올바른 성능 평가를 하기에 부족하지 않을까? 라는 궁금증이 있었습니다. 좋은 발표 감사합니다.
-황승택

참여연구생님의 댓글

참여연구생 작성일 23-08-17 10:35

해당 논문을 통해 불규칙한 패턴을 가진 tabular dataset에 대해 tree-based 모델들이 DL 모델들에 비해 강건한 성능을 나타내는 이유와 tabular data에서 rotation invariant가 모델에게 있어 방해가 될 수 있기에 embedding layer의 추가를 통해 inductive bias를 주입하여 이를 해결한다는 것을 알게 되었습니다.
지금까지는 막연하게 보통의 tabular dataset에서는 tree-based 모델이 DL모델보다 더 성능이 우세하다는 사실만을 알고 있었지만 해당 논문을 통해 이와 같은 결과가 나타나는 이유와 이를 통해 갖게 되는 시사점 등을 통해 여러가지를 생각해보게 되는 계기가 될 수 있었습니다. 뿐만 아니라 해당 논문에서 tabular data에 적절한 benchmark를 구축하고 제안하여 성능 비교의 기준점으로 삼을 수 있도록 하였고, 새로운 모델들에 대해서도 적용이 가능하도록 하였습니다.
물론 많은 수의 카디널리티를 가지는 범주형 변수에 대한 처리 방법의 해결 방안은 내놓지 못하였지만 DL 모델들이 tabular data의 어떤 특성에 취약한지에 대해 조사하여 갖는 의의가 크다고 생각합니다. 발표 잘 들었습니다.
-김지훈

참여연구생님의 댓글

참여연구생 작성일 23-08-17 11:20

해당 논문은 tabular dataset에 대해 트리 기반 모델들이 딥러닝기반모델보다 좋은 성능을 가지는지 실험을 통해 확인하는 논문이었습니다.
이번 발표를 통해서, 불규칙한 target funtion을 가진 데이터에 대해서 DL 모델들이 취약하다는 사실과 정형데이터에서 Rotation invariant는 불필요한 특성을 다루는데 방해가 되므로 embedding layer를 추가하여 해결한다는 사실을 알게되었습니다.
정형데이터에서 DL이 트리 기반 모델에 비해 한계점이 많다는 사실을 알고 있었지만, 어떠한 한계점을 가지는지 깊게 생각해보지 못하였습니다. 하지만, 해당 논문을 통해서 여러가지 한계점을 다시 생각해보는 계기가 되었습니다.
해당 논문에서 여러가지 제약 조건을 걸어서 정확한 비교를 한 점은 좋았습니다. 그러나, 평가지표를 분류에서는 Accuracy, 회귀에서는 R-square만 사용한 점은 아쉬웠습니다. 한개의 비교지표만을 가지고 결과를 도출하였기 때문에 결과가 타당하지에 대해서 의문점을 가지고 있습니다. 또한, 데이터셋을 45개를 통해서 실험을 진행하였는데 더 많은 데이터셋을 가지고 실험하여도 비슷한 결과가 나올지 궁금합니다. 좋은 발표 감사드립니다.
-김상수

참여연구생님의 댓글

참여연구생 작성일 23-08-17 18:03

만능인 줄만 알았던 transformer와 MLP와 같은 NN 모델들은 tabular data에 대해서는 아직 XGBoost 등과 같은 decision tree의 파생 형태의 machine learning 기법에 비해 좋지 않은 성능을 보여주었습니다. 이번 발표를 통해 그 이유를 실험적으로 확인할 수 있었습니다. NN 모델과 DT 모델을 비교하면서 NN 모델은 DT 모델과 비교하면 경향성에 집중하고, 불필요한 정보에 집중한다는 점(모든 데이터에 집중한다는 점) 등을 알 수 있었습니다.
이전에 없던 tabular data benchmark dataset을 만듦으로서 후속 연구에 도움을 주었다는 점 또한 긍정적인 부분이라고 생각합니다. 하지만 NN 모델과 비교를 위해 Heterogeneous columns, Not high dimensional 등 많은 조건이 붙어있는 상당히 한정된 dataset만 모아놓았기 때문에 과연 실험에서와 다른 실 사용시 유의미한 성능을 낼 수 있을 까는 미지수라고 생각합니다.
좋은 발표 감사드립니다.
- 송인섭

참여연구생님의 댓글

참여연구생 작성일 23-08-17 22:46

Tabnet에 대한 논문을 먼저 발표하였던 입장에서 이번 논문 리뷰를 더욱 흥미롭게 들을 수 있었던 것 같습니다.
tabnet 과 saint 같은 DL approach는 아직 정형데이터에서 한계가 드러나는 것을 확인할 수 있었던 논문이었습니다. 특히 이러한 근거를 다양한 실험을 통해 보여주었던 점이 인상깊었습니다.
NN모델 과 DT 모델을 비교하기 위해 수행하였던 실험을 통해 저자가 주장하고자 하는 바가 잘 드러나는 논문이었습니다. 그렇지만 개인적으로 실험 세팅에서 NN 모델의 장점으로 가져갈 수 있는 부분들을 많이 제거한 채 실험을 진행했기에 유의미한 결과가 나오지 않았나 하는 생각도 들었습니다. 예시로 tabnet의 경우, 실험결과에도 나오지 않을 정도로 좋지 않은 성능을 보였다고 하였으나tabnet의 장점인 semi supervised learning을 통한 결측치 대체를 배제한 채 진행한 실험이었기에 이러한 결과가 나오지 않았나 하는 생각입니다.
하지만 아직 DT 기반 모델에 비해 smoothing 한 성능을 보여주는 NN 모델 들의 한계를 잘 보여주었고 이러한 부분에서 굳이 NN모델을 tabular data에서 써야 하나 하는 교수님의 견해에 좀 더 기울게 되기도 했던 논문이었습니다.
흥미롭게 발표 잘 들었습니다. 발표 준비하시느라 고생하셨습니다.
-이현수

참여연구생님의 댓글

참여연구생 작성일 23-08-17 23:18

발표를 위해 꼼꼼히 읽어보면서 참 많은 생각이 들었던 논문이였습니다.
처음에는 단순히 '기준들이 납득이 되긴 하지만 이렇게 한정된 기준으로 실험을 진행하고도 이와 같은 제목을 사용해도 되나?' 라는 생각이 들었으나,
논문을 읽으면서 저자는 정말 '대체로, 일반적인' 성능 비교를 위해 나름 공들여 벤치마크 데이터셋을 선별했구나라는 느낌을 강하게 받았었습니다.
또한 개인적으로 Tabular Data Competition에서 DL 모델들의 Solution들이 쉽게 Public Data에 Overfitting되는 경향을 자주 봐오곤 했는데,
이러한 현상들의 원인이 DL 모델들의 너무 좋은 Fitting 능력 때문일 것이라 생각했던 것과 달리,
논문에서 설명하는 것처럼 너무 Smooth한 Solution 혹은 모델의 부적절한 Inductive Bias 자체가 문제가 될 수도 있었겠다는 생각을 할 수 있었습니다.
너무 다양한 고민을 해볼 수 있었던 좋은 논문이였기에, 졸업 전까지 해당 논문을 발판 삼아 Tabular Data에서의 Inductive Bias 혹은 NN스럽게 ML의 Ensemble 효과를 녹여내는 방법에 대해 계속 고민을 해봐야겠다는 작은 목표를 세워보았습니다. 다른 모든 연구참여생 분들에게도 좋은 발표가 되었기를 바라겠습니다. 감사합니다.
-오승준