Portfolio

[Task Description]

DGIST 컴퓨터 비전 연구실에서 두 달 정도 진행한 프로젝트는 Video Instance Segmentation(VIS)/Object Tracking 입니다.

VIS task에서는 Object Tracking이 중요한 요소입니다. 객체들이 잘 segmentation 되었더라도 객체를 aligning 해주지 않는다면, Video 내에서 객체 ID가 계속 뒤바뀌며 보이게 될 것입니다. Object Tracking은 VIS에서 객체 aligning을 해주는 method입니다. 저는 두 달 동안 이러한 Object Tracking의 정확도를 높이는 연구를 진행하였습니다.

[Reference Paper]

참고한 주요 핵심 논문들은 다음과 같습니다.

VIS Ref

DETR: arxiv.org

arxiv.org

(transformer를 활용한 end-to-end segmentation model 제안 논문)

Mask2Former: arxiv.org

arxiv.org

(mask attention, high resolution processing을 통한 end-to-end segmenter 구조 개선 논문)

MinVIS: arxiv.org

arxiv.org

(cos 유사도를 활용한 object tracking 제안 논문)

DVIS: arxiv.org

arxiv.org

(transformer를 활용한 object tracking 제안 논문 & online/offline method decoupling 방식 제안 논문)

Architecture Ref

Mamba: arxiv.org

arxiv.org

(Mamba 아키텍쳐 논문)

[Ideation]

저는 위 논문들을 읽고, Mamba나 RNN과 같은 Recurrent module을 사용해서 정확도를 높여보자는 아이디어를 내보았습니다. 이를 바탕으로 구성한 아키텍쳐는 밑과 같습니다.

Tracker로 먼저 tracking을 진행합니다.

이 결과를 recurrent module에 넣어서 context를 구성해 줍니다.

context를 바탕으로 한 번 더 재정렬 해줍니다.

이 context는 scaling해서 0.2 정도만 반영해 주었습니다.

기존에는 비디오의 맥락을 저장하는 부분이 없었는데, 이런식으로 맥락 모듈을 추가하면 더 효과적으로 tracking을 할 수 있을 것이라 생각했습니다.

이 때 맥락 모듈로 transformer를 사용하지 않은 이유는 연산량 이슈도 있었고, ‘하나’씩 들어오는 비디오 이미지를 처리하는 데에는 recurrent module이 더 효과적일 것이라는 생각도 있었습니다.

또한 CTVIS나 IDOL과 같은 메모리 모듈을 사용하는 VIS 아키텍쳐도 있었는데, 메모리가 아닌 맥락 모듈을 상용한 이유는 객체를 메모리에 저장해서 매칭하는 것 보다 딥러닝 아키텍쳐로 비디오의 흐름을 파악하는 것이 정확도를 더 높일 수 있을 것이라는 생각 때문이었습니다.