2022 춘계공동학술대회(KIIE2022) - 방성진

페이지 정보

profile_image
작성자 관리자
댓글 0건 조회 256회 작성일 22-06-08 21:32

본문

6/3 (금)
오전 10:50~12:20 

세션 : F5. 생산/물류 3
<동적 Job Shop 스케줄링 문제를 위한 그래프 기반의 모방학습 방법>

Job shop 이란, 중.소량 생산을 전문으로 하고 작업 Job 또는 Batch 공정을 활용하는 제조업체의 운영을 말한다. 문제로 정의한다면 Job, operation, machine 간 관계를 설정하고 개별 Job들을 수행할 수 있도록 구성 operation을 machine에 할당해주는 것으로 정의될 수 있다. 해당 발표는 Job Shop 스케줄링 문제를 해결하는 task를 수행한 내용이었다. 발표자는 설비가 고장난 경우에도 학습이 가능한 범용적인 경우를 고려하여 생각하였으며 method로 GNN-based Framework를 제안하였다. 각 Job들을 Node에 입력하였고 다음 업무 수행 우선순위를 정하기 위해 node간 weight를 학습하게 된다. 이 때, 같은 업무를 수행하는 설비끼리는 같은 type의 Node로 묶어주게 된다. 이후 학습 방법으로는 Imitation learning을 수행하였다. Imitation learning이란 강화학습에서 너무 많은 sample의 사용을 방지하기 위해 나온 개념이다. 실제로 어떻게 하는지 전문가 역할을 할 수 있는 다른 agent의 state & action을 참고하여 reward에 산정하는 학습 방법이다. 발표자 또한 실제 최적의 trajectory를 만들어 target value로 삼고 imitation learning을 수행했으며 더 자세히 말하면 target value를 고려한 강화학습을 수행한 것이다. 이후 실험결과로 본인이 제안한 학습결과에 따른 스케줄링이 가장 효율적이었음을 증명하고 발표를 끝냈다.
 GNN based model을 현재 진행하고 있는 dynamic OHT route 결정에 적용하면 어떨까 라는 생각을 하였다. Rail의 교차점들을 Node로 설정하고 각 Node간 rail에 weight 학습에 어떠한 constraint를 주어 Line cost를 반영할 수 있도록 정의하여 imitation learning을 수행하게 하는 것이다. 하지만 scheduling task의 경우 연구실에서 다루고 있는 task에 비교해 봤을 때, scheduling할 job의 크기도 차이가 나며 정해진 순서가 있는 것도 다른 부분이다. 내가 다루는 dynamic OHT route 문제에서는 Node간 순서를 정할 때 고려해야 할 부분이 상당히 많다. 그럼에도 불구하고 GNN-based model을 imitation learning 관점에서 다루는 방법도 고려해보면 더 효율적인 방법을 구상해볼 수 있을 것이라고 생각된다.

<다중 프로젝트를 위한 강화학습 기반 자원 균등화 – 이제훈>

해당 발표자가 제시한 문제상황은 프로젝트 스케줄링을 수행할 때 Resource capacity를 고려해야 한다는 점이다. 이 때, 백지상태에서 스케줄링을 고려하는 것이 아니라 resource leveling을 고려한 자동화된 자원 균등화 시스템 제안한다. 특별히 발표자는 다중 프로젝트 스케쥴링에서 해당 문제를 다루었는데 사전 연구를 살펴보았을 때 Resource leveling과 multi scheduling을 동시에 고려한 논문은 없었음을 확인하였다. 즉 제안한 시스템은 multi 프로젝트 스케줄링에 대한 자동화된 자원 균등화 시스템이다. 추가적으로 프로젝트 개수가 변경되어도 추가 학습 없이 적용 가능한 시스템을 제안하였으며 environment는 기존 스케줄로 초기화하였다. 이 때, 강화학습으로 해당 시스템을 구성하였는데 state, action reward를 다음과 같이 정의하였다.
State : 각 시점의 여러 project 기준 각 project마다 세분화된 task들 => state를 Neural Network를 사용하여 embedding하여 다음 state-action space에 fitting하였다.
Action : 하나의 프로젝트 내에서 스케줄을 조절하는 weight(기간 조정을 ±1 을 해주게 됨)
Reward : 각 task의 편차를 최소화하는 수식
모델은 A2C로 선택하여 사용하였는데 그 이유는 다른 PPO같은 알고리즘과 실험적으로 비교해본 뒤 가장 성능이 좋았기 때문이다. 알고리즘 성능은 heuristic 알고리즘인 greedy 알고리즘 & SA 알고리즘-metaheuristic 알고리즘 과 비교하였다. 이 중 제안 알고리즘이 가장 높은 성능이 나왔고 이를 정리하여 발표를 마무리하였다.
  해당 발표에서 state를 embedding하는 부분이 상당히 인상적이었다. state들간의 전체적인 local한 특성을 반영한 state정보를 활용하는 부분이 실제 강화학습에서 얼마나 효과가 있을지는 아직 살펴보지는 않았다. 하지만 내가 현재 참여하여 진행하고 있는 강화학습 과제에서도 많은 state에 대해서 어떻게 embedding 시켜서 함축된 정보를 state로 활용할 수 있을지 생각해보면 더 의미 있는 방법론을 제시할 수 있을 것이라 생각된다.

댓글목록

등록된 댓글이 없습니다.