HomeAboutMeBlogGuest
© 2025 Sejin Cha. All rights reserved.
Built with Next.js, deployed on Vercel
장지원 페이지/
DGIST CV lab (My page)
DGIST CV lab (My page)
/
📔
Notes
/
Did: 아이디어: segmentater

Did: 아이디어: segmentater

날짜
Jan 20, 2025
상태
완료
선택
주제 선정
아이디어 핵심
→ LMM 단순 ‘객체 인식’(어느 물체가 있는지)에 더 효과적일 것이다.
→ referring task가 일반 task에 비해서 결과가 좋다.
→ 각 사물에 대해 captioning
→ 이 caption들을 쿼리로 넘기기
 
장점
  • 휴리스틱 쿼리 X
  • background 쿼리 X
  • prompt만 바꾸면 다양한 segmentation에 적용 가능
 
지피티 질문
주로 object detection은 DETR 구조를 활용하는 것으로 알고 있어
그런데 나는 DETR 기반 모델 보다, CLIP 같은 많은 데이터 셋으로 self-supervised로 train된 모델이 객체 인식에는 더 효과적이라고 생각해
물론 pixel 단위로 box 쳐주는 건 DETR 구조가 필요하겠지만, "이미지에 '어떤' 객체들이 있다"를 알아차리는 건 CLIP 같은 모델이 더 잘 할 것 같아
그래서 나는 이 둘을 결합해서 instance segmentation을 하려고 해.
  1. LMM(large multi model)으로 input 이미지에 어떤 객체들이 있는지 알아내
  1. 각 객체 '모두'에 대한 설명을 받아
  1. 각 설명들을 임베딩해서 쿼리로 만들어
  1. 이 쿼리를 바탕으로 DETR을 거쳐 mask와 class를 생성해 요약하면 CLIP으로 각 객체의 caption을 생성한 다음 이걸 쿼리로 넣어주는 거야
이렇게 하면 기존에 DETR object detection의 쿼리 개수를 휴리스틱하게 정해야 한다는 문제도 사라질 것 같아
어떻게 생각해? 그리고 이런 연구가 기존에 있었으면 찾아줘
지피티 답변
이와 유사한 연구는 "Open Vocabulary Detection", "Zero-shot Detection", 또는 "Vision-Language Grounding"의 이름으로 진행된 바 있습니다. 특히 다음 연구가 연관될 가능성이 큽니다.
 
openaccess.thecvf.com
openaccess.thecvf.com

openaccess.thecvf.com

arxiv.org
arxiv.org

arxiv.org

→ 얘와의 차이: 얘는 전체 이미지에 대한 캡션 → 난 모든 object에 대한 캡션
→ CLIP과 DETR이 서로 보완할 수 있게 해주는 것도 하나의 방법일 듯
openaccess.thecvf.com
openaccess.thecvf.com

openaccess.thecvf.com

ieeexplore.ieee.org
ieeexplore.ieee.org

ieeexplore.ieee.org

 
open vocabulary: test 시에 새로운 label이 들어오는 것
grounding: 객체 인식에 효과적인 아이디어 (GLIP/grounding DINO)