2022 춘계공동학술대회(KIIE2022) - 강민정

페이지 정보

profile_image
작성자 관리자
댓글 0건 조회 335회 작성일 22-06-08 21:49

본문

<학회 후기>
1. Session C(목, 14:30~16:00)
머신러닝을 이용한 OHT 작업 종료 시간 예측을 통한 Dispatching 최적화
기존 Dispatching 알고리즘은 가장 가까운 idle OHT를 계산하고 이를 통해 작업이 배정되도록 되어 있다. 해당 연구에서는 작업 중인 OHT의 작업 종료 시점을 예측하여 더욱 다양한 후보군의 OHT를 고려하였다. 이를 통해 운용해야 하는 OHT의 수가 전체적으로 줄어들며 공정 운영의 전체적인 비용이 절감될 수 있다.
시뮬레이션 파트에서는 디지털 트윈 시뮬레이션을 통해 모델 학습을 위한 로그(경로의 Distance, 경로 사이의 Hub의 개수, 경로 상 통과하는 In-rail의 수 등)를 추출하게 된다. 학습된 모델을 이식하여 시뮬레이션을 진행하고 새로운 Dispatching algorithm에 대한 테스트를 진행한다. 머신러닝 파트에서는 시뮬레이션을 통해 추출한 로그를 기반으로 학습이 진행된다. 모델은 작업 종료 시점을 예측하는 regression 모델로 MSE Loss를 통해 학습이 진행된다. 학습 모델은 디지털 트윈으로부터 출력한 로그를 기분으로 OHT의 작업 종료 시점을 예측한다.
OHT의 작업 종료 시점을 예측하여 이를 후보군으로 사용한다는 점이 흥미로웠음, 곧 작업이 완료되는 OHT에 대해 우선순위로 후보군을 설정하게 되면 OHT 운용에 있어서 큰 효과를 가져올 것 같다는 생각이 듦.

2. Session D(목, 16:20~17:50)
딥 클러스터링을 통한 가계 금융 다양성 분석
가계의 자산, 부채, 소득 지출에 대한 연도별 현황을 조사하여 가계 금융 복지 조사 진행한다. 기존의 클러스터링은 고차원에 데이터 및 비선형적으로 복잡한 관계성을 가지는 데이터에는 적합하지 않은 한계점이 존재한다. 딥 클러스터링은 임베딩과 클러스터링이 동시에 진행하는 방법을 택하는데 이는 하이퍼파라미터 튜닝이 까다롭다.
따라서 N2D Framework 사용하여 -> 차원축소 하고 클러스터링 진행한다. 오토인코더로 차원축소하여 latent space로 줄이고 GMM으로 클러스터링 진행했다.
클러스터 8개를 자산 순으로 sorting을 해봤을 때 예금, 전세금, 거주 부동산, 비거주 부동산 순으로(가난->부유) 확인할 수 있었다.
2017-2020년까지를 데이터 분석하고 2021년 코로나 이후에 대해 따로 분석, transition에 대한 matrix를 그려본 결과 diagonal term이 줄어들고 다른 클러스터로 이동한 경우가 많았다.
가난한 클러스터가 더 가난한 클러스터로 이동한 경우가 가장 많았고 코로나의 영향이 부유한 가구와 그렇지 못한 가구에 대한 영향이 서로 달랐다.
해당 연구를 통해 얻을 수 있는 인사이트가 어떤 의미가 있는지 명확하게 모르겠음.

Why was my loan rejected and what should I do?
대출이 거절 당했을 때 이에 대한 요인의 해석이 필요하다. 현재는 general하게 신용 카드를 줄이거나 빚을 청산하거나 -> 따라서 해당 요인을 personal하게 알 수 있도록, 자신의 어떤 feature를 바꿔야 하는가를 알 수 있도록 도와주려고 한다.
가장 가까운 점을 nearest counter factor라고 부르며, 가장 짧은 cost로 대출이 거절당한 요인을 알 수 있도록 한다.
Generation, nearest CF를 define 하고 cost function c를 minimize하는 방식으로 진행한다. But, feature의 개수가 너무 많기 때문에 원래 그 사람이 가지고 있던 feature와 얼마나 달라지는지를 알 수 있도록 추천해줌으로써 대출 가능하게 도와준다. -> sparsity 고려해서
-Actionability: 해당 값이 없다면 아무리 훈련시켜서 loss 값이 낮아도 의미가 없음.
-Diversity: 사용자의 다양성을 고려하기 위해 여러 옵션들을 제공해주게 됨.
-Sparsity
-> 해당 세가지를 고려해서 사용자에게 개인화되게 추천을 제공함

3. Session G(금, 13:40~15:10)
사출 공정 중에서 여러 공정 변수 중에서 정상/불량의 주요 공정 변수 추출
기존의 AI는 블랙 박스의 특징을 가지고 있다. 그러나 XAI는 해당 의사 결정에 대한 근거에 대해 명확하게 전달해 주는 장점을 가지고 있다.
해당 연구에서는 XAI의 기법으로 SHAP, ICE(독립변수와 종속 변수 간의 상관 관계를 알 수 있음, 매 인스턴스마다 독립변수가 변화함에 따라 종속 변수의 변화를 하나의 선으로 표현하고 이를 반복 수행), PDP(독립 변수와 종속 변수간의 관계) 사용하였다.
SHAP으로 주요 공정 변수를 알 수 있게 해준다. 또한, ICE로 이상 변수의 범위를 알 수 있으며 ICE를 통해 확인한 이상 변수의 범위를 통해 새로운 데이터프레임과 기존 데이터프레임 간의 비교하여 유효성을 검증하였다.
사출 공정은 높은 수준의 공정 데이터이기 때문에 이상 관측치가 상대적으로 너무 적은 문제점이 존재했다. 따라서 클래스 불균형 문제를 해결하기 위해 SMOTE 알고리즘을 사용해 oversampling 수행했다.
ICE를 통해 해당 모델에 대해 이상 변수의 범위를 산출할 수 있는 특징이 있었다. 모델의 ICE plot을 바탕으로 주요 공정 변수의 최적 생산 조건을 확인하였고, 해당 범위에 대해서만 데이터프레임을 추출하고 기존 데이터 프레임과의 비교를 통해 불량률에 대한 비교를 진행하였다.
ICE를 통해 추출한 이상 탐지에 대한 변수의 범위가 실제 현업에서 일반적으로 사용되는 변수의 범위와 상당히 상이함 -> 이에 대한 추가적인 연구가 필요할 것으로 보임 -> ICE가 판단한 이상 범위에 대한 판단이 필요함

<발표 후기>
4. Session H(15:30~17:00)
DARNN 기반의 설명 가능한 시계열 이상탐지 예측 모델 – 강민정
지난 소프트웨어공학 학술대회(KCSE 2022) 발표 시 LSTM-AE를 사용하여 XAI 및 이상탐지를 활용한 공장 내 재고량 예측에 대한 연구를 처음 시작했었다. 그 때 했던 논문 및 발표 자료와 흐름이 유사하기도 했고 이미 발표를 한 번 해봐서 그런지 이전보다 긴장이 덜 했던 것 같다. 이전에 SOTA가 없어 아쉬웠던 부분을 추가적으로 보완하여 연구를 마무리하게 되어 감회가 이전과는 많이 다른 것 같다.
지난 2월달과 달리 일단 대본이 없이 발표를 진행했다는 점, 발표 당시 덜 긴장했다는 점, 마지막으로 내 연구 주제에 있어 자신감이 생겼던 점이 가장 큰 차이점이라고 생각한다. 이번 발표에서는 최대한 쉽고 간결하게 발표를 구성하려고 했고 실제로 발표를 들었던 사람들이 그렇게 느꼈으면 좋겠다. 물론 당일에 있던 질문을 생각해보면 지금보다 더 친절하게 발표 자료를 만들고 더 친절하게 설명하는 것에 대한 필요성을 다시 한 번 느낄 수 있었다. 뿐만 아니라 “명확한 문제 정의”가 기반이 된 발표의 힘을 알게 되었다. 다음 발표에는 내가 하고자 하는 말에 좀 더 근거를 담고 힘을 실어 표현하는 것에 대한 준비가 더 필요할 것 같다. 이제 두번째니까 앞으로 있을 발표들에서는 계속 좋은 방향으로 발전하고 많은 사람들이 주셨던 다양한 피드백들을 스펀지처럼 쫙쫙 흡수해서 개선해 나가야겠다는 생각을 많이 하게 되었다.

댓글목록

등록된 댓글이 없습니다.