Quantifying the effects of data augmentation and stain color normaliza…

페이지 정보

profile_image
작성자 강민정
댓글 2건 조회 309회 작성일 22-07-11 13:03

본문

● 논문제목: Quantifying the effects of data augmentation and stain color normalization in convolutional neural networks for computational pathology

● 논문내용 요약: 조직 슬라이드 염색 시에 발생하는 stain variation은 환경이나 이미지가 변하게 되면 성능이 저하되는 문제가 발생한다. 본 논문은 이러한 일반화 오류를 줄이기 위해 stain augmentation 기법과 statin Normalization 기법에 대해 다룬다. 특히 neural network를 통해 stain color normalization을 수행하는 새로운 비지도 학습 기법을 제안한다.

● 논문의 시사점: 본 논문에서는 9개의 pathology laboratories의 데이터를 이용하여 stain color augmentation 및 normalization의 효과를 정량화 하였다. 진행된 실험 결과는 4개의 관련 computational pathology 분야에서 stain color augmentation 및 normalization 사용에 대한 실용적인 가이드라인을 제공하였다. 이러한 방법은 새로운 application에 해당하는 유방암 이미지에 대해서도 충분히 활용할 수 있을 것으로 보인다.

첨부파일

댓글목록

profile_image

김재윤님의 댓글

김재윤 작성일

병리학에서 다양한 whole-slide에 대한 실험마다 이미지의 색상이 다른 문제를 해결하기 위한 방법론을 제시하는 논문에 대한 발표였다. 쉽게 말해 일반화의 오류를 줄이기 위해 제시된 방법론이었고, 크게 두가지의 기법(augmentation, normalization)을 설명해주었다.
첫번째는 이미지의 기존 형태를 유지하되, 대비, 밝기, 색조 등의 색상적인 요소만 변형을 주어 데이터를 augmentation하는 기법이었다. 이러한 color augmentation은 실제로 병리학에서 사용되고 있다고 했으며, 본 논문의 CNN기반 실험들은 기존보다 분류 성능을 향상시켰다고 하였다. 두번째는 stain color normalization으로 augmentation이후 의도치 않은 색상을 갖는 이미지가 생성되는 현상을 Network-based 방법으로 Reconstruction하는 새로운 형태의 normalization 기법이었다. 교수님께선 해당 기법이 input과 output 이미지의 차이를 줄여주는 denoising 컨셉의 기법인 것 같다고 말씀해주셨다. 실험 결과에서 의아했던 점은 normalization만의 관점에서는 이를 진행하지 않는 것이 더 높은 성능을 보인다는 점이었다.

profile_image

방성진님의 댓글

방성진 작성일

오늘 발표는 조직 슬라이드 염색 시 발생하는 stain variation 문제를 다루는 내용이었다. stain variation 문제는 환경이나 이미지에 크게 민감성을 보이게 된다. 이 때 CNN 기반 모델을 적용할 경우 성능 저하를 불러일으키게 된다. 이러한 일반화 성능을 높이기 위해 논문에서는 stain augmentation & stain Normalization 기법을 제안하고 있다. stain augmenation이란, 학습 시 다양한 색상 염색에 대한 이미지들을 생성하여 학습 성능을 올리게 된다. stain Normalization이란, 염색된 영역이 특정 부분에 몰려 있는 값을 전체 영역으로 골고루 분포하게 만드는 방법을 말한다. 이렇게 간단한 컨셉 기준으로 볼 때는 stain augmenation 보다는 학습될 때, 최대한 많은 영역에 집중해서 학습이 가능하게 하는 normalization 컨셉이 더 많은 효과를 줄 것으로 예상하였다. 그런데 뒤 결론에서 보면 두 방법 모두 분류 성능에 큰 도움이 되지는 못했다고 말하고 있다. 오히려 이 두 방법이 과한 경우에는 noise를 발생시켜 분류 성능을 저하시키게 된다. augmentation 또는 정규화로 새로운 샘플을 만들 때 해당 샘플의 유의한 정도를 측정하는 지표가 있어야 한다고 판단이 든다. 현재는 분류 성능의 증가 및 감소로 측정을 하고 있다. 하지만 이러한 접근법은 단순히 정확도만 보고 해석에 대해서는 확인하지 않는 경우와 같다. 더 중요한 것은 분류하고자 하는 모델의 class 간의 경계선을 더 일반화하고 강건하게 가져가는 것이 중요한데 그러한 샘플들이 만들어지는지 가시화 하거나 측정하는 지표가 필요하다는 생각이 든다.