CIKM 2025 - 김지훈
페이지 정보

본문
<청취 후기>
세션 : FP7 Computer Vision
제목 : BOVIS: Bias-Mitigated Object-Enhanced Visual Emotion Analysis
본 발표는 이미지가 유발하는 감정을 예측하는 Visual Emotion Analysis(VEA)에서, 기존 방법들이 전체 장면의 전역 특징 또는 객체 수준 의미 정보 중 하나에만 치우쳐 감정 해석이 빈약해지고 데이터 편향이 누적되는 문제를 짚는다. 이를 해결하려고 BOVIS는 사전학습 비전/비전-언어 모델을 이용해 전역 이미지 표현 + 객체(semantic) 단서 + 문맥적 정보를 함께 통합하는 Object-Enhanced Feature Integration을 설계한다. 그 위에 핵심 기여로 Bias-Mitigation Loss를 제안하는데, 여기서 emotional/emotion loss는 Mikel’s Emotion Wheel의 감정 간 거리 구조를 반영해 “정답과 가까운 감정 오차는 덜, 먼 감정 오차는 더” 벌주도록 만든 점이 인상적이었다. 여기에 IPW-MAE로 불균형을 보정하고, GMAE와 CE를 조합해 정확도와 공정성을 동시에 끌어올리는 방향을 취한다. 여러 VEA 벤치마크에서 성능과 해석 가능성, 특히 소수 감정에 대한 편향 완화를 확인했다고 정리한다. 다만 객체 기반 단서를 크게 쓰는 구조라 객체 탐지/의미 추출 품질에 민감할 수 있고, Emotion Wheel 거리 자체가 데이터나 문화권에 따라 달라질 여지가 있는데 이 부분이 고정된 사전 지식으로 들어가 한계가 될 수 있어 보인다. 또 loss 항이 여러 개라 데이터셋마다 가중치 튜닝 부담이 생길 가능성도 있다. 그럼에도 감정 라벨의 구조를 loss로 직접 주입해 유사 감정 간 구분을 부드럽게 학습시키는 방식은 VEA 쪽에서 꽤 설득력 있는 정리라고 느꼈다.
세션 : FP63 LLM & Time Series
제목 : ESED: Emotion-Specific Evidence Decomposition for Uncertainty-Aware Multimodal Emotion Recognition in Conversation
이 발표는 대화 기반 멀티모달 감정 인식(MERC)이 모달 간 충돌, 애매한 단서, 발화 흐름의 시간적 변화 때문에 불확실성이 크게 생긴다는 점에서 출발한다. 기존 불확실성 모델링이 전체 confidence만 다루다 보니 어떤 모달이 왜 불확실한지가 흐려지는 문제가 있는데, ESED는 evidential deep learning을 바탕으로 모달별 evidence를 (1) emotion-consistent evidence(모달 공통 감정 단서), (2) emotion-specific evidence(모달 고유 역할), (3) dynamic evidence(발화 단위 시간 변화)로 분해해 해석 가능한 형태로 불확실성을 분리한다. 이렇게 나눈 evidence를 다시 조합해 예측을 만들면, 노이즈 모달이나 충돌 구간에서 더 안정적으로 감정을 잡아내는 것이 목표다. 한계로는 evidence 분해가 잘못되면 오히려 모달 기여도가 왜곡될 수 있고(분해 품질 의존), 대화 길이가 길거나 모달 누락이 잦은 실제 환경에서 dynamic/consistent/specific을 안정적으로 구분하는 게 쉽지 않을 수도 있겠다는 생각이 든다. 그래도 불확실성을 성분별로 쪼개서 본다는 관점 자체가 실용적이었다.
세션 : FP7 Computer Vision
제목 : BOVIS: Bias-Mitigated Object-Enhanced Visual Emotion Analysis
본 발표는 이미지가 유발하는 감정을 예측하는 Visual Emotion Analysis(VEA)에서, 기존 방법들이 전체 장면의 전역 특징 또는 객체 수준 의미 정보 중 하나에만 치우쳐 감정 해석이 빈약해지고 데이터 편향이 누적되는 문제를 짚는다. 이를 해결하려고 BOVIS는 사전학습 비전/비전-언어 모델을 이용해 전역 이미지 표현 + 객체(semantic) 단서 + 문맥적 정보를 함께 통합하는 Object-Enhanced Feature Integration을 설계한다. 그 위에 핵심 기여로 Bias-Mitigation Loss를 제안하는데, 여기서 emotional/emotion loss는 Mikel’s Emotion Wheel의 감정 간 거리 구조를 반영해 “정답과 가까운 감정 오차는 덜, 먼 감정 오차는 더” 벌주도록 만든 점이 인상적이었다. 여기에 IPW-MAE로 불균형을 보정하고, GMAE와 CE를 조합해 정확도와 공정성을 동시에 끌어올리는 방향을 취한다. 여러 VEA 벤치마크에서 성능과 해석 가능성, 특히 소수 감정에 대한 편향 완화를 확인했다고 정리한다. 다만 객체 기반 단서를 크게 쓰는 구조라 객체 탐지/의미 추출 품질에 민감할 수 있고, Emotion Wheel 거리 자체가 데이터나 문화권에 따라 달라질 여지가 있는데 이 부분이 고정된 사전 지식으로 들어가 한계가 될 수 있어 보인다. 또 loss 항이 여러 개라 데이터셋마다 가중치 튜닝 부담이 생길 가능성도 있다. 그럼에도 감정 라벨의 구조를 loss로 직접 주입해 유사 감정 간 구분을 부드럽게 학습시키는 방식은 VEA 쪽에서 꽤 설득력 있는 정리라고 느꼈다.
세션 : FP63 LLM & Time Series
제목 : ESED: Emotion-Specific Evidence Decomposition for Uncertainty-Aware Multimodal Emotion Recognition in Conversation
이 발표는 대화 기반 멀티모달 감정 인식(MERC)이 모달 간 충돌, 애매한 단서, 발화 흐름의 시간적 변화 때문에 불확실성이 크게 생긴다는 점에서 출발한다. 기존 불확실성 모델링이 전체 confidence만 다루다 보니 어떤 모달이 왜 불확실한지가 흐려지는 문제가 있는데, ESED는 evidential deep learning을 바탕으로 모달별 evidence를 (1) emotion-consistent evidence(모달 공통 감정 단서), (2) emotion-specific evidence(모달 고유 역할), (3) dynamic evidence(발화 단위 시간 변화)로 분해해 해석 가능한 형태로 불확실성을 분리한다. 이렇게 나눈 evidence를 다시 조합해 예측을 만들면, 노이즈 모달이나 충돌 구간에서 더 안정적으로 감정을 잡아내는 것이 목표다. 한계로는 evidence 분해가 잘못되면 오히려 모달 기여도가 왜곡될 수 있고(분해 품질 의존), 대화 길이가 길거나 모달 누락이 잦은 실제 환경에서 dynamic/consistent/specific을 안정적으로 구분하는 게 쉽지 않을 수도 있겠다는 생각이 든다. 그래도 불확실성을 성분별로 쪼개서 본다는 관점 자체가 실용적이었다.
- 이전글CIKM 2025 - 백승준 25.11.24
- 다음글CIKM 2025 - 장효영 25.11.24
댓글목록
등록된 댓글이 없습니다.