Did: 아이디어: segmentater

날짜

Jan 20, 2025

상태

완료

선택

주제 선정

아이디어 핵심

→ LMM 단순 ‘객체 인식’(어느 물체가 있는지)에 더 효과적일 것이다.

→ referring task가 일반 task에 비해서 결과가 좋다.

→ 각 사물에 대해 captioning

→ 이 caption들을 쿼리로 넘기기

장점

지피티 질문

주로 object detection은 DETR 구조를 활용하는 것으로 알고 있어

그런데 나는 DETR 기반 모델 보다, CLIP 같은 많은 데이터 셋으로 self-supervised로 train된 모델이 객체 인식에는 더 효과적이라고 생각해

물론 pixel 단위로 box 쳐주는 건 DETR 구조가 필요하겠지만, "이미지에 '어떤' 객체들이 있다"를 알아차리는 건 CLIP 같은 모델이 더 잘 할 것 같아

그래서 나는 이 둘을 결합해서 instance segmentation을 하려고 해.

이 쿼리를 바탕으로 DETR을 거쳐 mask와 class를 생성해 요약하면 CLIP으로 각 객체의 caption을 생성한 다음 이걸 쿼리로 넣어주는 거야

이렇게 하면 기존에 DETR object detection의 쿼리 개수를 휴리스틱하게 정해야 한다는 문제도 사라질 것 같아

어떻게 생각해? 그리고 이런 연구가 기존에 있었으면 찾아줘

지피티 답변

이와 유사한 연구는 "Open Vocabulary Detection", "Zero-shot Detection", 또는 "Vision-Language Grounding"의 이름으로 진행된 바 있습니다. 특히 다음 연구가 연관될 가능성이 큽니다.

→ 얘와의 차이: 얘는 전체 이미지에 대한 캡션 → 난 모든 object에 대한 캡션

→ CLIP과 DETR이 서로 보완할 수 있게 해주는 것도 하나의 방법일 듯

open vocabulary: test 시에 새로운 label이 들어오는 것

grounding: 객체 인식에 효과적인 아이디어 (GLIP/grounding DINO)