CIKM-2025 오수진
페이지 정보

본문
제목: BiListing: Modality Alignment for Listings
본 연구는 에어비앤비 숙소와 같이 이미지 여러 장과 다양한 텍스트(제목, 설명, 리뷰)를 동시에 가지는 아이템에 대해, 이를 하나의 의미 있는 임베딩으로 정렬하기 위한 BiListing 모형을 제안한다. 저자들은 CLIP의 텍스트·비전 2타워 구조를 기반으로, 다수의 사진 임베딩을 통합하는 PhotoSet Transformer와 시각적 정보만을 요약한 visual text profile을 설계하고, 둘을 대조 학습으로 정렬한다. 또, Optimal Product Quantization과 PCA를 이용해 1024차원 임베딩을 40바이트 수준까지 압축하면서도 검색·랭킹에 활용 가능한 표현을 유지하는 점이 특징이다. 실제 Airbnb 검색 랭킹에 적용했을 때 NDCG 약 0.425% 향상과 함께 예약 증가(수천만 달러 규모 매출 증가)를 달성해, 멀티모달 표현 개선이 실서비스 지표까지 이어질 수 있음을 보여준 사례로 인상 깊었다. 이 발표를 참고해, 나도 이미지·텍스트가 혼재된 숙소/상품 데이터를 다룰 때 단순 평균이 아닌 “모달리티 정렬 + 압축 임베딩” 구조로 확장해 콜드스타트 완화나 자연어 기반 검색 품질 개선에 적용해 볼 수 있겠다고 생각했다.
제목: QARM: Quantitative Alignment Multi-Modal Recommendation at Kuaishou
본 연구는 쿠아이쇼 쇼핑·광고 추천 시스템에서 멀티모달 LLM 임베딩을 활용하는 기존 캐시 기반 구조가, 추천 목적과 표현이 맞지 않는 “표현 불일치”와, 다운스트림 학습에서 갱신이 되지 않는 “표현 비학습” 문제를 가진다고 지적한다. 이를 해결하기 위해 QARM 프레임워크를 제안하며, 핵심은 두 가지이다. 첫째, 실제 유저 행동 기반 item2item 쌍을 이용해 멀티모달 모델을 비즈니스별로 미세 조정하는 item alignment 단계로, 멀티모달 표현을 사용자–아이템 상호작용 분포에 맞게 재정렬한다. 둘째, 정렬된 표현을 VQ·RQ 기반 코드 ID로 양자화해 추천 모델에서 다른 ID 피처와 마찬가지로 end-to-end로 학습할 수 있게 하는 quantitative code 메커니즘이다. 실험 결과, 이미 멀티모달 피처를 쓰고 있는 강한 베이스라인 대비 AUC·GAUC가 추가로 개선되었고, 온라인 A/B 테스트에서 광고 Revenue 최대 약 9.7%, 쇼핑 GMV 약 2.3% 향상, 특히 롱테일 아이템 노출 증가를 보여준 점이 인상적이었다. 이 연구를 들으며, 나 역시 LLM/멀티모달 임베딩을 단순 고정 입력으로 쓰기보다, 도메인별 alignment 후 양자화된 “semantic ID”로 재구성해 대규모 추천·라우팅 문제에서 효율성과 표현력을 동시에 확보하는 설계를 고민해 볼 수 있겠다고 느꼈다.
본 연구는 에어비앤비 숙소와 같이 이미지 여러 장과 다양한 텍스트(제목, 설명, 리뷰)를 동시에 가지는 아이템에 대해, 이를 하나의 의미 있는 임베딩으로 정렬하기 위한 BiListing 모형을 제안한다. 저자들은 CLIP의 텍스트·비전 2타워 구조를 기반으로, 다수의 사진 임베딩을 통합하는 PhotoSet Transformer와 시각적 정보만을 요약한 visual text profile을 설계하고, 둘을 대조 학습으로 정렬한다. 또, Optimal Product Quantization과 PCA를 이용해 1024차원 임베딩을 40바이트 수준까지 압축하면서도 검색·랭킹에 활용 가능한 표현을 유지하는 점이 특징이다. 실제 Airbnb 검색 랭킹에 적용했을 때 NDCG 약 0.425% 향상과 함께 예약 증가(수천만 달러 규모 매출 증가)를 달성해, 멀티모달 표현 개선이 실서비스 지표까지 이어질 수 있음을 보여준 사례로 인상 깊었다. 이 발표를 참고해, 나도 이미지·텍스트가 혼재된 숙소/상품 데이터를 다룰 때 단순 평균이 아닌 “모달리티 정렬 + 압축 임베딩” 구조로 확장해 콜드스타트 완화나 자연어 기반 검색 품질 개선에 적용해 볼 수 있겠다고 생각했다.
제목: QARM: Quantitative Alignment Multi-Modal Recommendation at Kuaishou
본 연구는 쿠아이쇼 쇼핑·광고 추천 시스템에서 멀티모달 LLM 임베딩을 활용하는 기존 캐시 기반 구조가, 추천 목적과 표현이 맞지 않는 “표현 불일치”와, 다운스트림 학습에서 갱신이 되지 않는 “표현 비학습” 문제를 가진다고 지적한다. 이를 해결하기 위해 QARM 프레임워크를 제안하며, 핵심은 두 가지이다. 첫째, 실제 유저 행동 기반 item2item 쌍을 이용해 멀티모달 모델을 비즈니스별로 미세 조정하는 item alignment 단계로, 멀티모달 표현을 사용자–아이템 상호작용 분포에 맞게 재정렬한다. 둘째, 정렬된 표현을 VQ·RQ 기반 코드 ID로 양자화해 추천 모델에서 다른 ID 피처와 마찬가지로 end-to-end로 학습할 수 있게 하는 quantitative code 메커니즘이다. 실험 결과, 이미 멀티모달 피처를 쓰고 있는 강한 베이스라인 대비 AUC·GAUC가 추가로 개선되었고, 온라인 A/B 테스트에서 광고 Revenue 최대 약 9.7%, 쇼핑 GMV 약 2.3% 향상, 특히 롱테일 아이템 노출 증가를 보여준 점이 인상적이었다. 이 연구를 들으며, 나 역시 LLM/멀티모달 임베딩을 단순 고정 입력으로 쓰기보다, 도메인별 alignment 후 양자화된 “semantic ID”로 재구성해 대규모 추천·라우팅 문제에서 효율성과 표현력을 동시에 확보하는 설계를 고민해 볼 수 있겠다고 느꼈다.
- 이전글CIKM 2025 - 장효영 25.11.24
- 다음글CIKM 2025 - 정화용 25.11.14
댓글목록
등록된 댓글이 없습니다.