[230828] CatBoost: unbiased boosting with categorical features

페이지 정보

profile_image
작성자 참여연구생
댓글 4건 조회 152회 작성일 23-08-27 23:57

본문

발표 자료 첨부합니다

첨부파일

댓글목록

profile_image

이상민님의 댓글

이상민 작성일

Catboost 알고리즘에 대한 내용을 잘 리뷰했습니다. 풀고자하는 문제와 방법론에 pseudocode까지 상세히 잘 설명해주었습니다. 내 수업에서 설명한 것보다 상세하고 좋습니다. :) Catboost는 대표적인 gradient boosting 계열의 기법이므로 잘 학습하고 활용하기를 바랍니다. 본 논문에서 소개한 data shift problem이 nonstationary condition 또는 online learning 문제가 없음을 코멘트 했습니다. 질문은 두가지 있습니다. 첫째, Cardinality 자체가 target leakage의 원인은 아니고 또 직접적인 관련이 없지 않나요? 31p. categorical variable의 처리 면에서 ordered ts의 pooled set 내에서 변환 처리 시 과적합 문제에서 자유롭지는 못하지 않을까요?

profile_image

참여연구생님의 댓글의 댓글

참여연구생 작성일

코멘트 감사드립니다!

우선 첫 번째 질문에 대한 답변입니다. 해당 질문을 아마 발표 자료의 7p와 8p를 보고 주신 것 같아 해당 페이지를 다시 설명 드리면서 답변하겠습니다. 우선 7p에서는 높은 cardinality를 가지는 categorical feature를 원 핫 인코딩하면 차원에 저주에 빠질 수 있어 8p에서 이를 해결하기 위해 target statistic을 통해 해당 문제를 해결하게 됩니다. 하지만 이러한 target statistic은 대상 변수와 직접적으로 상관 되는 수치 표현으로 변환되기에 target leakage가 발생한다는 의미였습니다. 발표 자료를 만듦에 있어서 7p에는 target leakage라는 용어가 들어가면 안 됐는데 이로 인해 오해가 있었던 것 같습니다. 첫 번째 질문에 대해서는 Cardinality 자체는 target leakage의 원인이 아닌 것이 맞습니다.

두 번째 질문에 대한 답변입니다. 해당 부분에서 M_r',j는 특정 순열에서 앞 j개의 instance를 사용하여 training한 현재의 모델이며, grad_r'j(p)는 자기 자신보다 앞에 위치한 instance들로 training한 모델의 gradient입니다. 해당 변환 처리에서는 α * avg(grad_r',j(p))를 통해 여러 독립적인 순열로부터 training한 모델의 gradient를 사용하였기 때문에 오히려 Catboost의 ordered ts는 다른 boosting 알고리즘보다 과적합과 일반화 문제에서 자유로울 것이라 생각합니다.

profile_image

참여연구생님의 댓글

참여연구생 작성일

GBDT 하면 흔히 떠올릴 수 있는 Catboost에 대한 논문이었습니다. Catboost 알고리즘 이면에 있는 다양한 개념들을 쉽게 설명해 주셔서 인상 깊었습니다. 특히 다양한 Target Statistic에 대한 자세한 설명을 통해 관련 개념을 확실히 알 수 있었습니다. 알고리즘의 pseudo code의 각 부분마다 자세히 설명해 주신 부분도 인상 깊었습니다. 어려울 수 있는 내용을 최대한 쉽게 전달하고자 했던 노력들이 잘 보였던 발표였습니다. 좋은 발표 감사드립니다.
-김주혁-

profile_image

참여연구생님의 댓글

참여연구생 작성일

category 에 Gradient Boosting을 합친 개념인 Catboost에  대한 논문이었습니다. 강의 시간에 간단하게 배운 Catboost의 내용을 자세히 설명해주셔서 인상 깊었습니다. 특히, Gradient Boosting에서 statistical Issue가 prediction Shift,  Target Leakage라는내용을 소개해 주셔서 알 수 있었습니다. 또한, statistical Issue들의 해결방법으로 Ordering Principle를 제안하였다는 사실도 알 수 있었습니다. Target Statistic가 categorical feature들을 이들의 target값의 statistic으로 대체한다는 내용도 알 수 있었습니다.
마지막으로,  pseudo code를 상세히 설명해 주셔서 내용을 이해하는데 도움을 주었습니다.
이처럼, 다양한 개념을 어렵지 않게 설명해주셔서 논문의 내용을 이해할 수 있었습니다. 좋을 발표 감사드립니다.
-김상수-