DVIS self-attentionDVIS loss functiontransformer 기반 인접한 frame 처리 vs 양성/음성 기반 인접한 frame 처리?linear layer만으로도 효과적인 차원 증강 가능?어떤 학습 데이터 사용?맘바 블록 얼마나 반영할 것인지? 문제점: 너무 DVIS를 맹신한다 → DVIS를 너무 가져오지 않는 다른 아이디어가 있다면 좋을듯?!: 아예 새로운 아이디어를 생각해 보는 것도 좋을 것 같다.