HomeAboutMeBlogGuest
© 2025 Sejin Cha. All rights reserved.
Built with Next.js, deployed on Vercel
장지원 페이지/
DGIST CV lab (My page)
DGIST CV lab (My page)
/
📒
Idea Note
📒

Idea Note

  • 파라미터 임베딩
  • 쿼리 버퍼
    • 자세히
      전 프레임과 비교하지 말고, object query buffer를 만들어 두는 거야 이 object query buffer(OQB라 부를게)에는 background query를 제외한, 객체를 가르키고 있는 query가 들어가 만약 frame1에서 object가 3개 검출되었다면, OQB에는 3개의 query가 저장되어 있을 거야 그리고 이 OQB에 있는 객체와 cos 유사도를 계산해 보는거야 이러면 가려짐이나, 갑작스러운 등장에 조금 더 쉽게 대처할 수 있을 것 같아 또 OQB에 있는 객체가 frame에서 검출되면 그 frame의 query로 OQB의 해당 객체 query를 업데이트 해줘야해 이 방식은 이전 프레임과의 강한 일관성을 보장해 줄거야 그리고 OQB가 너무 커지면 안되니까 FIFO 방식으로 200개 정도(이 값은 huristic하게 결정)의 query를 유지하면 좋을 것 같아 어때?
  • 맘바의 ‘연속’ 특성을 활용해 보자
  • ‘마스크’ 단위로 처리하면, 공간, 방향, 속도 파악 가능!
    • → 납득 가능한 방향 벡터와 속도 벡터를 줄 수 있을 것이다!?
      → 단 마스크 변화를 가지고 속도와 방향을 어케 계산할지? (ex. 중심점을 기준으로? or 평균을 기준으로?)
      ⇒ 이렇게 하면 비슷한 객체를 잘 구분할 것이고, 이를 바탕으로 잘..하면 가려짐도 예측할 수 있을 것이다..!
      ⇒ 그리고 query랑 비교하지 말고, mask끼리 비교하면 좀 더 정확하지 않을까?
      ⇒ 갑작스러운 등장은 instance memory 부분 참고해 보기
       
      query가 담고 있는 정보가 무엇이고, mask를 활용해서 어떤 정보를 보완해 줄 수 있을지 생각해 보기!!
       
      mask를 활용해서 쿼리 각각에게 맥락을 부여하자!? → mask를 통해서 얻은 방향과 속도를 어케어케 해서 맥락을 형성해 보자??
  • 쿼리를 계속 넣어주기
  • GenViS 처럼 문제 제기를 새롭게 해보기 → very long video / RVOS in semi-online → MinViS dataset을 통해서
  • referring은 주로 foundation 모델을 활용해서 성능을 내고 있는 것 같다.
  • foundation 모델을 활용한 아이디어 생각해 보기
  • video의 특성을 활용해서 segmentation의 정확도를 높여보기!! → 이미지 보다 정확도를 높여보자
  • classifier로 공부 시킨다음(이거 노트북이야~, 이거 사과야~) seg를 하면 더 잘 맞출 수 있지 않을까?
 
code 아이디어: 만약 loss를 따로 주고 싶으면 기존+out+fin_out 해서 layer 축 기준으로 out과 fin_out concat 한 것 aux loss 취하고, RNN 부분만 파라미터 무시하게 한 뒤에 따로 step마다 loss 주면 될 것 같다.
→ X out layer는 concat 안해줘도 이미 있는 상태이다.
→ return 되는 값 살펴보고 거기서 return 부분에서 최종 출력값만 바꿔주고, cross랑 rnn에서는 따로 업데이트 하던지 (업데이트 하는 loss 정보들은 따로 출력 시켜주기) 이런 식으로 코드 짜보기
→ + return 값은 그냥 유지시키되, 따로 업데이트 하게 해주기, 대신 inference 할 때는 확실히 그 값 전달해 주기 → return을 유지하고, inference를 따로 보내는 게 오히려 맞는 선택일 듯(그니까 run inference 같은 부분에서 output 받는 걸 cross out을 따로 받아올 수 있는 함수를 짜서 거기서 받아오게 하자는 의미임) → 내일 코드 한 번 짜보자 → 돌려보는 건 담 인턴 시간에…
 
다이나믹 쿼리 → 작은 객체 쿼리 짧게 / 큰 객체 쿼리 길게 → 쿼리 길이 짧게 할 거는 파라미터 0으로 초기화 해주기
 
병렬로 여러 개 트랜스 포머?
 
뉴런 죽이기 (세포의 사멸)

Gan idea

글씨 생성 AI 모델 → AI 모델은 글씨를 잘 생성하지 못하는 경향이 있다.