[20260211 통합세미나] Computer Use Agent(CUA) using Vision-Language-Action …

페이지 정보

profile_image
작성자 김정년
댓글 0건 조회 12회 작성일 26-02-23 14:35

본문

[일시]
2026.02.11.

[세미나 주제]
Computer Use Agent(CUA) using Vision-Language-Action Model(VLA)

[발표자]
김정년

[요약]
본 발표에서는 실제 컴퓨터 환경에서 동작하는 Computer Use Agent(CUA)의 평가 체계와 모델 설계를 중심으로 OSWorld와 ShowUI를 다루었다. OSWorld는 가상 머신 기반 실행 환경과 결과 상태 중심 자동 평가를 도입하여, 경로가 아닌 최종 시스템 상태로 성공 여부를 판정하는 현실 지향적 벤치마크를 제시한다. 실험 결과, 최신 VLM 기반 에이전트도 인간 대비 낮은 성공률을 보였으며, 주요 실패 원인은 좌표 오차와 GUI grounding 문제로 나타났다. 이는 언어 추론보다 시각-행동 Grounding이 핵심 병목임을 시사한다. ShowUI는 GUI에 특화된 Vision-Language-Action 모델로, UI Connected Graph 기반 component 단위 토큰 선택과 interleaved vision-text-action 학습을 결합한다. 배경 영역은 강하게 압축하고 상호작용 영역은 보존하는 적응적 토큰 전략을 통해 효율과 정밀도를 동시에 확보하였다. 또한 action history 기반 ablation 결과는 일부 benchmark에서 trajectory bias 가능성을 보여주며, 향후 long-horizon memory와 도메인 일반화가 주요 연구 과제로 남아 있음을 확인하였다.

[관련 논문]
- OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments
- ShowUI: One Vision-Language-Action Model for GUI Visual Agent

[녹화 영상]
https://us06web.zoom.us/rec/share/C-FbfEFxBUNzI4L1nRK1dW6HYoMTr08MZ4ichz9CUvYPK7oS6_SRGMXbPpaS6Cs1.pieZLJ5c1xg_0KVC

첨부파일

댓글목록

등록된 댓글이 없습니다.