HomeAboutMeBlogGuest
© 2025 Sejin Cha. All rights reserved.
Built with Next.js, deployed on Vercel
장지원 페이지/
DGIST CV lab (My page)
DGIST CV lab (My page)
/
📔
Notes
/
Did: 연구 주제 선정: ROS with Mamba

Did: 연구 주제 선정: ROS with Mamba

날짜
Dec 30, 2024 → Jan 1, 2025
상태
완료
선택
주제 선정
주제: Depth estimation
Point:
  • self supervised
    • Digging Into Self-Supervised Monocular Depth Estimation 논문 리뷰
      Digging Into Self-Supervised Monocular Depth Estimation 논문 리뷰

      Digging Into Self-Supervised Monocular Depth Estimation 논문 리뷰

      MonoDepth 2 리뷰

      stereo data
      monocular data
      → 두 방법 모두 하나의 view point 이미지로부터, 또 다른 viewpoint의 이미지를 예측하는 방식이 main task이다.
  • 조명/재질 처리
 
주제: RVOS
Point:
  • 객체 추적 (시각적 일관성) → SSM(state space model)을 통한 개선
  • 복잡한 장면 처리
  • 계산 효율성 → SSM을 통한 개선
  • self-supervised
 
주제: image to video generation
Point:
  • 시각적 일관성
 

[RVOS]

 

TODO:

  • 성능: 아래 벤치마크에서의 성능 향상, ‘가려짐’/’모션 블러’에서의 강점, 계산 효율성
    • notion image
  • 요소: 새로운 아이디어
  • additional..: 새로운 문제 정의, 기술 통합(ex. LLM, diffusion 결합)
 
  1. sota 분석해 보기
      • Ref YouTube-VOS (challenge dataset)
          1. paperswithcodepaperswithcodePapers with Code - General Object Foundation Model for Images and Videos at Scale
            Papers with Code - General Object Foundation Model for Images and Videos at Scale

            Papers with Code - General Object Foundation Model for Images and Videos at Scale

            Jointly trained on over ten million images from various benchmarks with diverse levels of supervision, GLEE excels in a wide array of object-centric tasks while maintaining SOTA performance.

            paperswithcodepaperswithcode
            1. → attribute: 다양한 데이터 셋 + 모델 구조
      • Video Instance Segmentation on OVIS validation (challenge dataset)
          1. paperswithcodepaperswithcodePapers with Code - DVIS-DAQ: Improving Video Segmentation via Dynamic Anchor Queries
            Papers with Code - DVIS-DAQ: Improving Video Segmentation via Dynamic Anchor Queries

            Papers with Code - DVIS-DAQ: Improving Video Segmentation via Dynamic Anchor Queries

            🏆 SOTA for Video Instance Segmentation on OVIS validation (mask AP metric)

            paperswithcodepaperswithcode
            1. →
          1. paperswithcodepaperswithcodePapers with Code - Context-Aware Video Instance Segmentation
            Papers with Code - Context-Aware Video Instance Segmentation

            Papers with Code - Context-Aware Video Instance Segmentation

            🏆 SOTA for Video Instance Segmentation on OVIS validation (mask AP metric)

            paperswithcodepaperswithcode
            1. →
      • RefCOCO
          1. paperswithcodepaperswithcodePapers with Code - HyperSeg: Towards Universal Visual Segmentation with Large Language Model
            Papers with Code - HyperSeg: Towards Universal Visual Segmentation with Large Language Model

            Papers with Code - HyperSeg: Towards Universal Visual Segmentation with Large Language Model

            🏆 SOTA for Referring Expression Segmentation on RefCOCO+ val (Overall IoU metric)

            paperswithcodepaperswithcode
            1. →
(리뷰는 리뷰 페이지)
 
  1. sota 논문들의 edge case(limitation) 살펴보기
    1. → 어떻게 찾지???
       

Ideation:

: SSM을 활용해서 시간적/시각적 일관성과 계산 효율성에서 이득을 가져오기
→ 단점: 가림이나, 급작스런 출현 등에 반응을 잘 못할 수도 있다.
 
  1. GPT
    1. 자세히
      🏫
      GPT

      Referring Video Object Segmentation (RVOS)에서 Mamba 아키텍처 및 SSM의 적합성

      • *Referring Video Object Segmentation (RVOS)**는 주어진 자연어 문장(예: "빨간 모자를 쓴 사람")을 기반으로 비디오 내의 특정 객체를 프레임 단위로 정확하게 분할하는 문제입니다. 이 문제는 시공간적 특징과 언어 정보를 효과적으로 통합해야 하므로, 시간적 연속성을 잘 포착하면서도 언어-시각적 매핑이 중요한 역할을 합니다.

      🐍 Mamba 및 SSM의 특징

      1. Mamba (State Space Model; SSM)
          • 핵심: 선형 상태공간 모델(SSM) 기반으로, 복잡한 순차 데이터(시퀀스)를 효율적으로 처리합니다.
          • 장점:
            • 장기 의존성(Long-range dependency) 학습에 강점
            • 효율적인 병렬 처리 가능 (Transformer 대비 메모리 사용량 감소)
            • 순차 데이터를 연속적으로 처리할 수 있음
          • 약점:
            • 공간적(Spatial) 관계보다는 시간적(Temporal) 관계에 더 최적화
            • 복잡한 멀티모달(예: 언어-시각적 특징) 학습에는 추가 모듈 필요
      1. Transformer와의 비교
          • Transformer는 멀티 헤드 어텐션(Multi-head Attention)으로 프레임 간 상호작용 및 객체 식별이 강력함.
          • Mamba는 시간적 연속성에서 더 효율적이지만, Attention 메커니즘만큼 다양한 관계를 즉각적으로 포착하지는 못함.

      🎯 RVOS에 Mamba/SSM 적용 가능성

      1. 시간적 일관성 (Temporal Consistency)
          • Mamba는 프레임 간의 시간적 연속성 유지에 효과적입니다.
          • 객체의 이동 및 연속된 프레임 간의 관계 학습에 유리합니다.
      1. 언어-시각적 특징 통합
          • RVOS는 언어적 특징과 시각적 특징의 상호작용이 핵심입니다.
          • Mamba 자체는 언어-시각적 통합에 특화되지 않았기 때문에, 언어 특징을 통합하는 추가 모듈이 필요합니다.
          • 예를 들어 CLIP과 같은 언어-시각 모델을 Mamba와 조합하여 사용할 수 있습니다.
      1. 멀티모달 모델로 확장
          • Mamba를 RVOS에 사용하려면, 비디오 프레임의 공간적 특징을 CNN(예: ResNet, ViT)으로 먼저 추출하고, 그다음 시간적 모델링을 Mamba로 수행하는 하이브리드 접근법이 필요합니다.

      🚀 권장 아키텍처

      • 기본 구조:
        • Backbone (시각적 특징): ViT, ResNet
        • 언어-시각 통합: CLIP, Cross Attention 모듈
        • 시간적 특징 모델링: Mamba (SSM)
      • 기본 파이프라인 예시:
          1. 각 프레임에서 CNN/ViT로 공간적 특징 추출
          1. 언어 임베딩(CLIP)과 Cross Attention으로 통합
          1. Mamba로 시간적 관계 학습
          1. 최종적으로 Segmentation Head로 객체 분할 결과 생성

      📊 결론

      • 적합성: Mamba(SSM)는 RVOS의 시간적 연속성 유지에 강점이 있지만, 언어-시각적 통합 및 복잡한 공간적 관계를 단독으로 처리하기에는 한계가 있습니다.
      • 추천 사용법:
        • Backbone + Cross Attention + Mamba 조합으로 사용
        • Transformer와 병렬 또는 보완적으로 사용하여 시간적-공간적 특징을 균형 있게 학습
      RVOS에 Mamba를 적용하면 시간적 일관성 측면에서 개선될 가능성이 높지만, 언어-시각적 통합을 보완하기 위한 설계가 반드시 필요합니다.
  1. 맘바 관련 논문들
    1. Turing Post KoreaTuring Post KoreaMamba 아키텍처 관련 연구 15選
      Mamba 아키텍처 관련 연구 15選

      Mamba 아키텍처 관련 연구 15選

      Turing Post KoreaTuring Post Korea
  1. 맘바 세그멘테이션 잠재성 글
    1. [논문 정리] MambaOut: Do We Really Need Mamba for Vision?
      [논문 정리] MambaOut: Do We Really Need Mamba for Vision?

      [논문 정리] MambaOut: Do We Really Need Mamba for Vision?

      https://arxiv.org/abs/2405.07992