2023 춘계 정보처리학회(ASK2023)-강민정

페이지 정보

profile_image
작성자 강민정
댓글 0건 조회 303회 작성일 23-06-04 20:49

본문

1. 계절성 시계열 자료의 concept drift 탐지를 위한 새로운 창 전략
5/19(금) 10:30~12:15 (T1-08 세션)
Concept drift란 원본 데이터 대비 데이터가 변이하는 것을 뜻한다. Concept drift는 시간이 지남에 따라 두 데이터를 rule 변경되는 real concept drift와데이터 분포가 변경됐지만 rule은 그대로 유지하는 virtual concept drift로 분류된다. 시간이 지날수록 구축된 기존 모델은 데이터 변이 발생 시 예측 모델의 성능이 저하되기 때문에 이를 해결하는 것은 유지,보수에 필수적이다. 따라서 본 연구에서는 concept drift가 발생한 경우와 발생하지 않은 경우에 대한 비교 실험을 진행하였다. 특히 seosonality 패턴을 가지는 시계열 데이터에 대해 컨셉 드리프트를 real dataset과 synthetic dataset에 대해 각각 적용하여 분석하였다. 비교군 (ground-truth)의 시간을 어느 정도를 볼건지에 해당하는 window size의 크기를 변경해가며 성능을 비교하였고, 비교군과의 k-test를 통해 통계적 유의성을 검증하였다.

2. Similarity-based methods or conventional ones, which is better for graph embedding?
5/19(금) 13:20~14:40 (T2-01-우수 세션)
그래프 임베딩은 그래프 구조를 활용해서 그래프의 노드를 임베딩 공간의 벡터로 매핑하는 것을 말한다. Conventional graph embedding과 같은 경우에는 노드의 로컬 이웃 보기를 활용하기 때문에 전체 노드 사이의 유사성을 보존하기 어렵다는 한계점이 존재한다. 관련된 기법으로는 Deep Walk, node2vec, NetMF, DWNS, Gravity이 있다. 따라서 Similarity-based graph embedding으로 위 문제를 해결하였다. 해당 기법은 노드간의 전역 유사성 반영하게 되며 VERSE, SimNet, FREDE 기법들이 포함된다. 본 연구에서는 6개의 그래프 데이터셋을 활용해서 다수의 그래프 기반 모델들과 state-of-the-art 모델 성능을 비교 분석하였다. 임의의 노드 v에 대해 v의 벡터와 다른 노드의 벡터의 dot product계산하게 되고 실제 그래프와 얼마나 유사한지에 대한 결과를 비교하였다. 각 노드의 레이블을 학습하기 위해서 로지스틱 회귀 분류기를 활용하였으며, 특히 유사도를 기반으로 하는 VERSE 모델이 가장 좋은 성능을 보이는 것을 확인할 수 있었다.

3. 규칙 기반 데이터 증강기법을 활용한 증상발화 데이터 구축
5/19(금) 10:30~12:15 (T1-08 세션)
본 연구에서는 다양한 연구 사례를 바탕으로 본 과업에 가장 적절한 규칙 기반의 데이터 증강 방법론을 제안하고 있다. 한국어 수집된 데이터의 부재로 인하여 MedDialog의 의료 대화 데이터를 참고해서 증상 발화 데이터를 수집하였다. 검수 작업 및 비용을 줄이기 위해 규칙 기반 증강 기법을 선택하였고, 문장 변형율을 0.05로 설정하여 변경하였다. 본 연구에서는 아래의 네가지 규칙을 제안하고 있다.
1. 원 문장에서 교체 가능 단어(문장부호인 형태소, 신체부위 단어)를 무작위로 교체함
2. 원 문장의 각 어절 사이에 삽입단어(정도 부사, 문장부호, 자모음)를 무작위로 삽입함
3. 원 문장의 삭제 가능 단어(조사, 문장부호 형태서/형식형태소)를 무작위로 삭제
4. 원 문장의 어절을 무작위로 선택하여 그 어절의 위치를 변경
특히, 증강된 데이터셋과 original 데이터셋 사이의 유사도 평가가 쉽지 않기 때문에 수작업으로 하나하나 직접 확인하였으며 대신 문맥이 바뀌거나 단어가 바뀌는 것을 최소화를 위해 규칙들을 설계하였다.

댓글목록

등록된 댓글이 없습니다.