2023 춘계학술대회(KIEE2023)-노유진

페이지 정보

profile_image
작성자 rohyujin
댓글 0건 조회 304회 작성일 23-06-13 18:03

본문

<학회 후기>

6/2(목)  F sessions 4차 산업혁명/산업인공지능

산업 문서의 경우 현장에서 작성되는 경우가 많아 전자 문서보다는 직접 집필 되는 경우가 많다. 따라서 직필된 문장을 전자 문서로 바꾸는 과정이 필수적이다. 하지만 산업 문서는 전문적인 용어로 인해 기존의 스캔 모델로는 어 려움이 있어서 직접 옮겨야하는 어려움이 있다. 이에 발표한 논문은 산업 문서의 용어에 집중하여 데이터를 수집하고 문장을 제대로 인식하여 스캔할 수 있는 모델을 제안한다.

제안하는 CNN모델은 1. 사업 단어의 인식률, 2. 단어의 유사성을 기반하여 문장의 끝이 어딘인지를  찾는 연구 진행하였다.
제안하는 CNN모델의 기법은 다음과 같다.
먼저 딥러닝 모델로 산업 단어를 정확히 인식을 하고
단어간 유사성을 학습시켜서 단어와 단어가 관련이 있다면 1, 그 반대면 0으로 단어를 숫자 벡터로 변경시켜서 1이 끝나는 부분을 마지막 문장으로 추정

노이즈 관련: 노이즈 처리에 관한 내용으로는, 그림이나 표와 같은 요소가 문서에 포함되어 있을 경우, 딥러닝 모델이 먼저 영역을 분류하여 텍스트 부분만을 분석합니다. 이렇게 함으로써 모델은 문서의 텍스트 부분에만 집중하여 노이즈를 최소화하고 정확한 분석을 수행할 수 있다.


본 연구의 발표를 들으면서 제안된 CNN 모델은 산업 문서의 용어 인식과 문장의 끝 추정에 초점을 맞춘 흥미로운 연구라고 생각이 들며.  특히, 산업 용어와 단어 간의 유사성을 고려하는 부분은 문서 처리에서 매우 중요한 요소라고 생각됩니다.
본 연구에서 노이즈를 처리하기 위해서 해당 모델은 어떻게 텍스트 부분을 식별하고 추출하였는지 궁금증이 생겼고 문장을 CNN모델로 학습시켜서 문장을 처리하는 것이 흥미로웠습니다. 연구 방법 속도면에서 좋은 성능을 보인다면 추후 연구에서 접목시켜서 사용해보고 싶은 연구였습니다.

댓글목록

등록된 댓글이 없습니다.