2024 춘계 데이터마이닝학회(KDMS2024)-장효영

페이지 정보

profile_image
작성자 장효영
댓글 0건 조회 204회 작성일 24-06-07 19:04

본문

<발표 후기>
5월 30일 (목)
세션 : B2. 의료/헬스케어 데이터마이닝
제목 : MRI data augmentation via Denoising Diffusion Probabilistic Model

본 연구는 Diffusion model을 활용하여 MRI 데이터에 대한 고품질 MRI data 생성을 목표로 진행하였다. 특히 MRI 데이터의 noise distribution을 최대한 반영하기 위해 Rician noise를 Diffusion model 내의 noising/denoising process에 적용하여 이미지 생성 품질을 극대화하고자 하였다.
기존 Diffusion model에서 활용되어온 Gaussian noise와 Simplex noise와의 ablation study를 통해 rician noise의 효과성을 입증하였으며, 추가로 rician noise에 대한 Parameter optimization을 수행하여 parameter 변화에도 Variational lower bound를 산출하는데 있어서 낮은 sensitivity를 보임으로써 rician noise를 활용했을 때의 강건성 또한 입증하였다.
Diffusion model의 학습 성능은 gaussian noise를 활용하였을 때 VLB loss에서 더 높은 좋은 성능이 나타났으나 synthetic data의 품질에 있어서는 Rician noise를 활용한 모델이 더 높은 수준으로 나타났다. 이를 통해 높은 학습 모델의 성능 또한 중요하지만 원본 MRI 데이터의 분포적인 특성을 좀 더 반영한 노이즈 기법을 적용하였을 때 더 높은 수준의 생성 품질이 나타나는 것을 확인하였다.
추가적으로 고품질 synthetic 이미지들을 바탕으로 augment 된 data들에 대해 segmentation 실험을 수행하여 synthetic data들에 대한 활용 가능성 또한 입증하였다.
다만 rician noise에 대한 Probabilistic density function에 대한 유도식을 나타내지 않았던 부분과 질문상으로 나왔던 Diffusion process를 수행하였을 때 Time step 과정에서 noise가 점차적으로 추가될 때 해당 분포가 유지 되었는지에 대하여 좀 더 고려하지 못한 부분에서 아쉬움이 나타났다. 지난 산업공학회와 전자거래학회, 이번 데이터 마이닝 학회를 바탕으로 좀 더 수식적으로 강건하고 데이터및 노이즈 기법에 적합한 Time process를 고려한 추가적인 연구가 필요된다고 판단되며 향후 논문 작성에도 반영하여 좀 더 완성도 높은 연구로 마무리 지을 수 있도록 하겠다.

 
<청취 후기>
5월 30일 (목)
세션 : D2. 산업인공지능 응용2
제목 : 반도체 공정 소재 품질을 위한 시계열 및 이미지 변화 데이터 활용 (백민지, 김성범 고려대학교)

해당 발표는 좀 더 고도화되고 정밀한 작업을 요구하는 반도체 공정에서 수동 모니터링에서 품질 이상이 발생하였을 때 나타나는 여러 부정적인 파급효과를 설명하며 deep learning 기반의 이상탐지 모델을 제안하였다. 특히 반도체 공정 품질에 대한 멀티 모달 기반의 이상탐지로는 최초임을 강조하였다.
데이터 셋으로는 공정에서의 시계열성의 tabular dataset과 웨이퍼 데이터 셋을 image data로 변환하였을 때의 데이터를 활용하여 multi modal을 통한 시간적/공간적 특성을 반영하고자 하였다. 또한 해당 과정에 Markov transition field를 활용하였다. 또한 원본 데이터에 masking 기법을 적용하여 좀 더 강건한 학습을 수행하였으며 attention layer를 추가하였을 때 데이터에 대한 실시간적인 추가 정보를 학습할 수 있도록 하였다. 기존 실무에서 활용되고 있는 여타 기법들과 비교하였을 때 어느 정도의 성능 수준이 나타났을 지 또한 Markov transition field에 대한 당위성을 성능이 가장 좋아 채택하였다고 설명하였는데 다른 기법은 어떤 것을 활용하였는지 궁금하였다. tabular data에 대한 시간/공간적 특성을 반영하여 좀 더 강건한 성능을 이끌어냈다는 점에 있어서 상당히 흥미롭게 느껴졌으며 발표자분께서 정말 명료하게 설명해주셔서 좋은 공부가 되었다.

첨부파일

댓글목록

등록된 댓글이 없습니다.