[20260211 통합세미나] MixUp Data Augmentation for Whole Slide Image Classif…

페이지 정보

profile_image
작성자 김민재
댓글 0건 조회 16회 작성일 26-02-22 23:36

본문

[일시] 2026.02.11

[세미나 주제]
MixUp Data Augmentation for Whole Slide Image Classification

[발표자]
김민재

[요약]
본 발표에서는 WSI 분류의 효율성을 극대화하기 위한 Mixup 데이터 증강 전략과 Weakly Supervised Learning 프레임워크인 MIL의 통합 방안을 다루었다. WSI는 데이터의 크기가 방대하고 전문의의 annotation 비용이 매우 높다는 한계가 있다. 이를 해결하기 위해 단순한 이미지 공간에서의 Mixup을 넘어, Feature Space 및 MIL Aggregator 수준에서의 Interpolation 기법들을 심도 있게 분석하였다.
핵심 방법론으로 세 가지 주요 논문을 검토하였다. 첫째, 데이터 간 볼록 조합(Convex Combination)을 통해 의사 결정 경계의 선형성을 확보하는 mixup의 기본 원리를 파악하였다. 둘째, WSI의 특성을 고려하여 특징 벡터 간의 선형 및 다중 선형 보간을 수행하는 MixUp-MIL을 통해 슬라이드 간 변동성(Slide-to-slide variability) 문제를 완화하는 전략을 논의하였다. 셋째, 최신 연구인 PreMix 프레임워크에서는 병리 데이터의 극심한 클래스 불균형 상황에서 노이즈가 낀 Negative Pair를 생성할 위험이 있는 기존 Contrastive Learning의 한계를 피하기 위해 오직 positive pair만 사용하는 Non-contrastive learning 모델인 Barlow Twins를 도입한 점에 주목하였다. 레이블이 없는 대량의 슬라이드로 MIL Aggregator 자체를 Pre-training시키고 이후 Mixup과 Manifold Mixup을 결합하여 Fine-tuning함으로써 데이터 부족으로 인한 모델의 과적합 및 under fitting을 효과적으로 방어하며 SOTA 성능을 달성함을 확인하였다. 결론적으로 병리 이미지 분석에서는 단순한 이미지 mixup 전략을 WSI에 직접 적용하기보다 도메인 특유의 변동성을 고려한 세밀한 접근이 필수적이다. 특히 MIL 구조의 중간 레이어에 Manifold Mixup을 적용하고 강력한 사전 학습을 결합하는 것이 레이블이 제한된 실제 임상 환경에서 딥러닝 모델의 견고성과 일반화 성능을 향상시키는 데 결정적인 기여를 함을 확인하였다.


[Q&A]
Q: 서로 다른 클래스를 Mixup하면 manifold가 비전형적으로 변하며 선형성을 강제하게 되는데 이로 인한 문제점은 없나요?
A: 성격이 전혀 다른 두 데이터를 mixup할 경우 Feature가 희석되거나 관련 없는 정보가 결합하여 오히려 모델의 성능을 저하시키는 부작용이 발생할 수 있습니다. 실제로 두 번째 논문 MixUp-MIL의 실험에서 서로 다른 두 슬라이드 이미지를 섞는 Inter-MixUp을 적용했을 때 슬라이드 간의 내재적인 변동성과 근본적인 차이가 너무 커서 manifold가 크게 왜곡되었고 그 결과 baseline model보다 오히려 분류 성능이 떨어지는 현상이 관찰되었습니다. 클래스나 특징 차이가 너무 큰 데이터 사이에 강제로 linear interpolation을 수행하면 분류에 중요한 정보가 관련 없는 정보와 섞이는 문제가 발생합니다.

Q: Barlow Twins는 Negative pair를 사용하지 않는데 이러면 Feature Space가 너무 작아지게 되는 거 아닌가요?
A:  Barlow Twins는 교차 상관 행렬(Cross-correlation matrix)을 단위 행렬(Identity matrix)에 가깝게 만드는 Loss function을 사용하여 이 문제를 해결합니다. 구체적으로 두 Positive 임베딩 간의 상관 행렬을 계산한 뒤 대각선 성분은 1이 되도록 학습하여 동일한 이미지에서 나온 특징들은 유사하게 유지하고 대각선 외의 성분은 0이 되도록 학습합니다. 대각선 외의 성분을 0으로 강제하는 것은 특징 차원들 간의 중복성을 최소화하는 역할을 하며 이를 통해 각 차원이 서로 다른 유용한 정보를 담게 되므로 Feature Space가 작아지거나 하나의 점으로 뭉치는 현상을 효과적으로 방지합니다.

Q: 병리 데이터처럼 샘플이 적은 상황에서 Mixup으로 결정 경계를 부드럽게 만들면 오히려 Under fitting이 발생할 위험은 없나요?
A: 데이터가 부족한 상황에서 무작위로 초기화된 모델에 mixup을 단순 적용하면 결정 경계가 지나치게 완만해지거나 특징이 희석되어 under fitting이나 학습 불안정이 발생할 위험이 큽니다. PreMix는 바로 이 under fitting 문제를 막기 위해 Pre-training이라는 해결책을 도입했습니다. 모델(MIL Aggregator)을 무작위 상태에서 처음부터 mixup으로 학습시키는 것이 아니라 먼저 레이블이 없는 대량의 WSI 데이터를 활용해 병리 데이터의 구조와 특징을 깊이 이해하도록 사전 학습을 진행합니다. 이렇게 강력한 초기화 상태를 갖춘 뒤에 Mixup과 Manifold Mixup을 Fine-tuning하기 때문에 데이터가 적더라도 결정 경계가 붕괴하는 under fitting을 막고 높은 일반화 성능을 달성할 수 있습니다.

Q: Feature Extractor의 사전 학습이 PreMix 논문만의 새로운 기여점인가요?
A: 아닙니다. 병리 연구에서 Feature Extractor(CNN이나 ViT 등)로 기존에 사전 학습된 모델을 사용하는 것은 기존 연구의 일반적인 방식을 그대로 채택한 것입니다. PreMix 논문 역시 Feature Extractor로는 이미 사전 학습된 HIPT(Hierarchical Image Pyramid Transformer) 모델을 그대로 사용했습니다. PreMix의 진짜 새롭고 핵심적인 기여점은 MIL Aggregator를 사전 학습시켰다는 것입니다. 기존의 MIL 모델들은 패치 특징을 다 뽑은 후 슬라이드 전체를 판단하는 Aggregator를 무작위 초기화 상태에서부터 학습시켰습니다. 이와 달리 PreMix는 Aggregator 자체를 비대조 학습(Barlow Twins Slide Mixing)을 통해 대량의 무라벨 슬라이드로 사전 학습시키는 새로운 프레임워크를 제안한 것입니다.

Q: 사전 학습 모델을 쓰는 것이 데이터 부족으로 인한 under fitting이나 성능 하락를 어떻게 막을 수 있나요?
A: 사전 학습을 수행하면 모델이 레이블이 없는 수많은 병리 이미지(WSI)의 고유한 패턴, 질감, 그리고 슬라이드 내의 전반적인 구조를 스스로 학습하여 강력하고 일반화된 표현을 미리 확보하게 됩니다. 무작위로 초기화된 상태에서 적은 수의 정답 레이블 데이터만으로 모델을 학습시키면 모델이 데이터의 부족함에 민감하게 반응하여 과적합되거나 제대로 특징을 잡지 못하는 문제가 생깁니다. 반면 대량의 무라벨 데이터로 사전 학습된 가중치를 출발점으로 삼으면 이미 병리 이미지의 특징을 잘 이해하고 있는 똑똑한 상태에서 Fine-tuning을 시작하는 것과 같습니다. 이로 인해 레이블이 극히 적은 제한된 상황에서도 데이터 부족 문제에 훨씬 덜 민감해지고 안정적으로 높은 성능을 유지할 수 있게 됩니다

[관련 논문]
- mixup: Beyond Empirical Risk Minimization
- MixUp-MIL: A Study on Linear & Multilinear Interpolation-Based Data Augmentation for Whole Slide Image Classification
- PreMix: Label-Efficient Multiple Instance Learning via Non-Contrastive Pre-training and Feature Mixing

[녹화 영상]
https://us06web.zoom.us/rec/share/_YRGWxxNB3UUuXNy2B3Pa7le96o5b188Fizv6VKTNZKtS6cdqTdJXvp9sNCbPV2k.1Mh8lCoehwqiBkIt

첨부파일

댓글목록

등록된 댓글이 없습니다.