[20251105 통합 세미나] Vision_llm
페이지 정보

본문
[일시] 2025.11.19
[세미나 주제] Seed1.5-VL: Vision-Language Foundation Model
[발표자] 오수진
[요약]
이번 발표에서는 범용 멀티모달 이해·추론을 목표로 한 비전-언어 기반 대규모 모델 Seed1.5-VL의 전체 구조를 소개했다. 먼저 VLM이 이미지·영상·텍스트를 함께 다루며 멀티모달 추론, GUI 에이전트, 자율주행, 의료·교육·챗봇 등 다양한 실제 응용에 사용되고 있지만, LLM에 비해 학습용 멀티모달 데이터가 부족하고, 파이프라인·분산 학습·평가 설계가 복잡하다는 한계를 짚었다. Seed1.5-VL은 5억대 파라미터의 Seed-ViT 비전 인코더와 200억 활성 파라미터 MoE LLM, 이 둘을 잇는 MLP 어댑터로 구성되며, 고해상도 이미지·긴 영상도 2D RoPE와 토큰 축소(2×2 풀링, 동적 프레임/해상도 샘플링)로 처리하는 아키텍처임을 설명했다.
학습 측면에서는 “비전 인코더 사전학습 → 비전-언어 정렬을 위한 VLM 프리트레이닝(Stage 0–2) → 대화·추론 품질 향상을 위한 포스트 트레이닝(Stage 0–6)”의 다단계 파이프라인을 강조했다. Seed-ViT는 CLIP 기반 교사 모델을 이용한 MIM(75% 패치 마스킹 + 2D RoPE), native-resolution 대비 학습(SigLIP + SuperClass), MiCo를 활용한 비디오·오디오·캡션 통합 표현 학습으로 점진적으로 고도화된다. 이후 VLM 단계에서는 먼저 비전-언어 공간을 정렬하는 어댑터 정렬(Stage 0)을 거쳐, 3T 규모 멀티모달 토큰으로 지식을 쌓고(Stage 1), 긴 컨텍스트·코딩·3D 과제를 포함한 더 균형 잡힌 태스크 혼합과 길어진 시퀀스(32k→131k)로 성능을 끌어올린다(Stage 2). 포스트 트레이닝에서는 하드 프롬프트/콜드스타트 데이터 수집, SFT 데이터 설계와 지도학습, RLHF용 선호 데이터와 리워드 모델 구축, 정답 검증이 가능한 태스크에서의 “검증 가능한 리워드”, 그리고 PPO 계열 하이브리드 RL과 Rejection Sampling FT를 반복해 “잘 대답하고, 잘 추론하며, 안전한” 모델로 정렬하는 전체 루프를 정리했다.
평가 결과로는 Seed1.5-VL이 60개 공개 벤치마크 중 38개에서 SOTA를 달성하며, MathVista·V*·VisuLogic 같은 복합 추론, RealWorldQA·MMBench 같은 일반 VQA, 그리고 문서·차트·OCR에서도 강력한 성능을 보인다는 점을 공유했다. 비전 인코더 단독 zero-shot 분류에서도 ImageNet 계열 평균 82.5%로 훨씬 큰 모델들과 비슷한 수준이며, ObjectNet·ImageNet-A 등 분포가 까다로운 데이터에서 강한 로버스트니스를 보인다. 반면, 미세한 카운팅·부분 가림·유사 색상 물체나 3D 공간 추론, 단순한 퍼즐·미로와 같은 조합적 탐색 문제에서는 여전히 오답과 추론 오류가 발생한다는 한계를 지적했다. 발표는 향후 과제로 시각적 Chain-of-Thought 강화, 코드/도구 연계, 3D·시간 정보 이해 강화를 위한 생성 모델 활용, OOD·환각 문제 완화를 제안하며 마무리되었다.
Q1. Rejection Sampling 이 뭔가요?
A: Rejection Sampling은 모델이 여러 개의 후보 답안을 만든 뒤, 미리 정한 기준(리워드 점수, 정답 여부 등)에 못 미치는 것들은 버리고 좋은 답만 골라 쓰는 과정입니다. LLM·VLM 포스트 트레이닝에서는 이렇게 고른 “양질의 응답들”만 모아서 다시 SFT를 하거나, 실제 사용자에게 보여줄 최종 응답으로 사용하는 데 쓰입니다.
Q2. HardPrompt 의 기준이 뭔가요?
A : Hard prompt는 현재 모델 입장에서 풀기 어려운 프롬프트를 뜻합니다. 보통 ① 정답률·리워드가 유난히 낮거나, ② 긴 Chain-of-Thought가 필요하거나, ③ 자주 hallucination이나 계산 실수가 나는 경우처럼, 모델이 자주 틀리거나 불안정한 질문들을 따로 모아서 hard prompt로 보고, 여기에 집중적으로 추가 학습(RL, SFT)을 해주는 식으로 사용합니다.
Q3. Post training 의 전체적인 흐름을 설명해 주세요
A : Post training은 크게 ① SFT → ② 선호 데이터/리워드 모델 학습 → ③ RL(PPO 등) → ④ Rejection Sampling + 추가 SFT 흐름으로 보면 됩니다. 먼저 SFT로 “지시를 따르는 기본 챗봇”을 만들고, 사람/리워드 모델이 좋은 답을 더 선호하도록 RL로 정책을 조정한 뒤, 마지막에 Rejection Sampling으로 뽑은 고품질 응답들만 다시 모아 SFT를 한 번 더 해 주면서 응답 품질과 안정성을 다듬는 단계라고 이해하시면 됩니다.
[관련논문]
Seed1.5-VL: Vision-Language Foundation Model
[녹화영상]
https://us06web.zoom.us/rec/share/mka35_QrycAfoEKr728dEpep4cTHynB-FCOdSCRpoqhILxz1kEksJAoetlFCIVHZ.WtmEzKXBdhgUHiEw
[세미나 주제] Seed1.5-VL: Vision-Language Foundation Model
[발표자] 오수진
[요약]
이번 발표에서는 범용 멀티모달 이해·추론을 목표로 한 비전-언어 기반 대규모 모델 Seed1.5-VL의 전체 구조를 소개했다. 먼저 VLM이 이미지·영상·텍스트를 함께 다루며 멀티모달 추론, GUI 에이전트, 자율주행, 의료·교육·챗봇 등 다양한 실제 응용에 사용되고 있지만, LLM에 비해 학습용 멀티모달 데이터가 부족하고, 파이프라인·분산 학습·평가 설계가 복잡하다는 한계를 짚었다. Seed1.5-VL은 5억대 파라미터의 Seed-ViT 비전 인코더와 200억 활성 파라미터 MoE LLM, 이 둘을 잇는 MLP 어댑터로 구성되며, 고해상도 이미지·긴 영상도 2D RoPE와 토큰 축소(2×2 풀링, 동적 프레임/해상도 샘플링)로 처리하는 아키텍처임을 설명했다.
학습 측면에서는 “비전 인코더 사전학습 → 비전-언어 정렬을 위한 VLM 프리트레이닝(Stage 0–2) → 대화·추론 품질 향상을 위한 포스트 트레이닝(Stage 0–6)”의 다단계 파이프라인을 강조했다. Seed-ViT는 CLIP 기반 교사 모델을 이용한 MIM(75% 패치 마스킹 + 2D RoPE), native-resolution 대비 학습(SigLIP + SuperClass), MiCo를 활용한 비디오·오디오·캡션 통합 표현 학습으로 점진적으로 고도화된다. 이후 VLM 단계에서는 먼저 비전-언어 공간을 정렬하는 어댑터 정렬(Stage 0)을 거쳐, 3T 규모 멀티모달 토큰으로 지식을 쌓고(Stage 1), 긴 컨텍스트·코딩·3D 과제를 포함한 더 균형 잡힌 태스크 혼합과 길어진 시퀀스(32k→131k)로 성능을 끌어올린다(Stage 2). 포스트 트레이닝에서는 하드 프롬프트/콜드스타트 데이터 수집, SFT 데이터 설계와 지도학습, RLHF용 선호 데이터와 리워드 모델 구축, 정답 검증이 가능한 태스크에서의 “검증 가능한 리워드”, 그리고 PPO 계열 하이브리드 RL과 Rejection Sampling FT를 반복해 “잘 대답하고, 잘 추론하며, 안전한” 모델로 정렬하는 전체 루프를 정리했다.
평가 결과로는 Seed1.5-VL이 60개 공개 벤치마크 중 38개에서 SOTA를 달성하며, MathVista·V*·VisuLogic 같은 복합 추론, RealWorldQA·MMBench 같은 일반 VQA, 그리고 문서·차트·OCR에서도 강력한 성능을 보인다는 점을 공유했다. 비전 인코더 단독 zero-shot 분류에서도 ImageNet 계열 평균 82.5%로 훨씬 큰 모델들과 비슷한 수준이며, ObjectNet·ImageNet-A 등 분포가 까다로운 데이터에서 강한 로버스트니스를 보인다. 반면, 미세한 카운팅·부분 가림·유사 색상 물체나 3D 공간 추론, 단순한 퍼즐·미로와 같은 조합적 탐색 문제에서는 여전히 오답과 추론 오류가 발생한다는 한계를 지적했다. 발표는 향후 과제로 시각적 Chain-of-Thought 강화, 코드/도구 연계, 3D·시간 정보 이해 강화를 위한 생성 모델 활용, OOD·환각 문제 완화를 제안하며 마무리되었다.
Q1. Rejection Sampling 이 뭔가요?
A: Rejection Sampling은 모델이 여러 개의 후보 답안을 만든 뒤, 미리 정한 기준(리워드 점수, 정답 여부 등)에 못 미치는 것들은 버리고 좋은 답만 골라 쓰는 과정입니다. LLM·VLM 포스트 트레이닝에서는 이렇게 고른 “양질의 응답들”만 모아서 다시 SFT를 하거나, 실제 사용자에게 보여줄 최종 응답으로 사용하는 데 쓰입니다.
Q2. HardPrompt 의 기준이 뭔가요?
A : Hard prompt는 현재 모델 입장에서 풀기 어려운 프롬프트를 뜻합니다. 보통 ① 정답률·리워드가 유난히 낮거나, ② 긴 Chain-of-Thought가 필요하거나, ③ 자주 hallucination이나 계산 실수가 나는 경우처럼, 모델이 자주 틀리거나 불안정한 질문들을 따로 모아서 hard prompt로 보고, 여기에 집중적으로 추가 학습(RL, SFT)을 해주는 식으로 사용합니다.
Q3. Post training 의 전체적인 흐름을 설명해 주세요
A : Post training은 크게 ① SFT → ② 선호 데이터/리워드 모델 학습 → ③ RL(PPO 등) → ④ Rejection Sampling + 추가 SFT 흐름으로 보면 됩니다. 먼저 SFT로 “지시를 따르는 기본 챗봇”을 만들고, 사람/리워드 모델이 좋은 답을 더 선호하도록 RL로 정책을 조정한 뒤, 마지막에 Rejection Sampling으로 뽑은 고품질 응답들만 다시 모아 SFT를 한 번 더 해 주면서 응답 품질과 안정성을 다듬는 단계라고 이해하시면 됩니다.
[관련논문]
Seed1.5-VL: Vision-Language Foundation Model
[녹화영상]
https://us06web.zoom.us/rec/share/mka35_QrycAfoEKr728dEpep4cTHynB-FCOdSCRpoqhILxz1kEksJAoetlFCIVHZ.WtmEzKXBdhgUHiEw
- 이전글[20251126 통합 세미나] Advances in Fast ODE-Based Sampling for Diffusion Models 25.11.27
- 다음글[20251105 통합 세미나] Meta-Learning for Few-Shot : Meta-Baseline & FEAT 25.11.17
댓글목록
등록된 댓글이 없습니다.