[20251126 통합세미나] Survival Analysis and Deep Learning–based Survival Mo…
페이지 정보

본문
[일시] 2025.11.26
[세미나 주제]
Survival Analysis and Deep Learning–based Survival Models
[발표자]
김희지
[요약]
본 발표에서는 전통 생존분석의 개념과 한계를 정리하고, 이를 극복하기 위해 등장한 두 개의 딥러닝 기반 생존모델 DeepSurv과 DeepHit을 다루었다. 전통 모델인 Kaplan–Meier는 개별 환자 수준 예측이 불가능하고, Cox PH 모델은 선형성과 PH 가정 때문에 복잡한 임상 패턴을 설명하지 못한다. DeepSurv은 Cox 구조는 유지하되 위험도 함수의 선형식을 신경망으로 대체하여 비선형 관계와 상호작용을 학습할 수 있도록 확장한 모델이다. Synthetic과 실제 임상 데이터에서 DeepSurv는 Cox 모델과 RSF보다 더 높은 C-index와 강한 일반화 성능을 보였으며 개인화된 치료 추천에도 강점을 보였다. 반면 DeepHit은 생존시간 분포를 미리 가정하지 않고 시간과 이벤트 결합확률을 직접 학습하는 비모수적 모델로, competing risks를 자연스럽게 처리한다. Likelihood loss와 ranking loss의 조합을 통해 분포 복원과 시간 순서 일관성을 동시에 확보하며, SEER, METABRIC, UNOS 등 다양한 데이터셋에서 모든 baseline을 능가하는 성능을 보였다. 특히 비선형 hazard와 multi-event 환경에서 DeepHit의 우수성이 크게 나타났다. 두 모델 모두 전통 생존모형이 해결하지 못한 비선형성과 분포 가정 문제 그리고 competing risks 문제를 해결하며 생존분석의 표현력을 크게 확장한 모델이다. 향후 연구는 라벨이 없는 의료데이터에 특화된 SSL 기반 생존모델 연구로 발전할 것으로 기대한다.
Q. covariate이 multi variate을 나타내는 건가요? covariate이라고 하는 이유가 뭐고 형태가 어떻게 되는지 궁금합니다.
A. 생존분석에서 covariate은 다변량의 특징 벡터를 의미합니다. 생존시간 T를 설명하는 공변량으로 생존시간과 함께 변화하면서 영향을 주는 변수들이라서 공변량이라고 부릅니다.
이는 임베딩 되는 것이 아니라 사람이 데이터셋에서 유효하게 작용하는 변수들을 선택한 후 이들을 적절히 전처리 했을 때 생기게 되는 다변량 특징 벡터입니다.
Q. ranking loss에서 Fk 식에서 i와 j가 의미하는 게 무엇인지 궁금합니다.
A. deephit에서 ranking loss는 더 빨리 event가 발생한 사람의 risk가 더 높아야 한다는 아이디어를 구현한 것입니다.
여기서 i와 j는 각각 더 빨리 event가 발생한 환자 j는 i보다 늦게 event가 발생했거나 검열된 환자입니다.
Q. 데이터셋 열 이름 중에 Death cause가 있고 type이 여러 개인데 어떤 걸 의미하나요?
A. death cause는 사망 원인을 의미하는 변수로서 의료 생존 데이터에서는 사망이 하나의 종류가 아닌 여러 유형으로 구분됩니다.
따라서 발표자료에서 소개드린 SEER 데이터셋에서는 여러 죽음 원인을 ex. 1: 폐암 과 같은 식으로 분류하여 처리합니다.
[관련 논문]
- DeepSurv: Personalized Treatment Recommender System Using A Cox Proportional Hazards Deep Neural Network
- DeepHit: A Deep Learning Approach to Survival Analysis with Competing Risk
[녹화 영상]
https://us06web.zoom.us/rec/share/8cU7d7LoOPPrk8oz6SH0wscUPV1G-jkVsk593zGm9hMe_ABE9HW7hUMyEoEbzHfC.0nupJ2cJlnV7I9RZ
[세미나 주제]
Survival Analysis and Deep Learning–based Survival Models
[발표자]
김희지
[요약]
본 발표에서는 전통 생존분석의 개념과 한계를 정리하고, 이를 극복하기 위해 등장한 두 개의 딥러닝 기반 생존모델 DeepSurv과 DeepHit을 다루었다. 전통 모델인 Kaplan–Meier는 개별 환자 수준 예측이 불가능하고, Cox PH 모델은 선형성과 PH 가정 때문에 복잡한 임상 패턴을 설명하지 못한다. DeepSurv은 Cox 구조는 유지하되 위험도 함수의 선형식을 신경망으로 대체하여 비선형 관계와 상호작용을 학습할 수 있도록 확장한 모델이다. Synthetic과 실제 임상 데이터에서 DeepSurv는 Cox 모델과 RSF보다 더 높은 C-index와 강한 일반화 성능을 보였으며 개인화된 치료 추천에도 강점을 보였다. 반면 DeepHit은 생존시간 분포를 미리 가정하지 않고 시간과 이벤트 결합확률을 직접 학습하는 비모수적 모델로, competing risks를 자연스럽게 처리한다. Likelihood loss와 ranking loss의 조합을 통해 분포 복원과 시간 순서 일관성을 동시에 확보하며, SEER, METABRIC, UNOS 등 다양한 데이터셋에서 모든 baseline을 능가하는 성능을 보였다. 특히 비선형 hazard와 multi-event 환경에서 DeepHit의 우수성이 크게 나타났다. 두 모델 모두 전통 생존모형이 해결하지 못한 비선형성과 분포 가정 문제 그리고 competing risks 문제를 해결하며 생존분석의 표현력을 크게 확장한 모델이다. 향후 연구는 라벨이 없는 의료데이터에 특화된 SSL 기반 생존모델 연구로 발전할 것으로 기대한다.
Q. covariate이 multi variate을 나타내는 건가요? covariate이라고 하는 이유가 뭐고 형태가 어떻게 되는지 궁금합니다.
A. 생존분석에서 covariate은 다변량의 특징 벡터를 의미합니다. 생존시간 T를 설명하는 공변량으로 생존시간과 함께 변화하면서 영향을 주는 변수들이라서 공변량이라고 부릅니다.
이는 임베딩 되는 것이 아니라 사람이 데이터셋에서 유효하게 작용하는 변수들을 선택한 후 이들을 적절히 전처리 했을 때 생기게 되는 다변량 특징 벡터입니다.
Q. ranking loss에서 Fk 식에서 i와 j가 의미하는 게 무엇인지 궁금합니다.
A. deephit에서 ranking loss는 더 빨리 event가 발생한 사람의 risk가 더 높아야 한다는 아이디어를 구현한 것입니다.
여기서 i와 j는 각각 더 빨리 event가 발생한 환자 j는 i보다 늦게 event가 발생했거나 검열된 환자입니다.
Q. 데이터셋 열 이름 중에 Death cause가 있고 type이 여러 개인데 어떤 걸 의미하나요?
A. death cause는 사망 원인을 의미하는 변수로서 의료 생존 데이터에서는 사망이 하나의 종류가 아닌 여러 유형으로 구분됩니다.
따라서 발표자료에서 소개드린 SEER 데이터셋에서는 여러 죽음 원인을 ex. 1: 폐암 과 같은 식으로 분류하여 처리합니다.
[관련 논문]
- DeepSurv: Personalized Treatment Recommender System Using A Cox Proportional Hazards Deep Neural Network
- DeepHit: A Deep Learning Approach to Survival Analysis with Competing Risk
[녹화 영상]
https://us06web.zoom.us/rec/share/8cU7d7LoOPPrk8oz6SH0wscUPV1G-jkVsk593zGm9hMe_ABE9HW7hUMyEoEbzHfC.0nupJ2cJlnV7I9RZ
첨부파일
-
251126_김희지_Survival Analysis and Deep Learning–based Survival Models.pdf (2.4M)
DATE : 2025-11-27 17:12:18
댓글목록
등록된 댓글이 없습니다.