HomeAboutMeBlogGuest
© 2025 Sejin Cha. All rights reserved.
Built with Next.js, deployed on Vercel
💻
UGRP
/
8월 8일 교수님 미팅

8월 8일 교수님 미팅

Date
Aug 8, 2024
Type
with Prof.
Contributors

Notice / Previous Week

📢
[전체]
    📢
    [From Team 철]
      📢
      [From Team 헌]
         

        This Week’s Agenda

          Next Week

             

            Memos

            발표 내용

            • 후천적으로 색상을 잃은 분들에게 경험을 제공하는 모델을 연구 방향으로 결정.
            • 이미지를 입력하면 색상에 대한 설명을 제공해 색을 이해할 수 있는 것에 도움을 주는 것.
            • 카메라에서 이미지를 입력 받으면 CV 모델로 이미지를 전처리 및 라벨을 뽑고 이를 LLM에 넣어 설명(음성, TTS)를 생성하는 모델로 계획함.
            • 모델로 YOLOv8로 선정하고, Instance Segmentaion을 위한 작업을 진행 중임.
            • Super-pixel에 관련해 새로운 베이스 논문을 찾았고, 공개된 코드가 Matlab이라 Python으로 변환했고, 언어의 차이로 인해 출력 이미지에 차이가 존재함.
              • Highlight와 shadow를 처리하는 것에 문제가 있어 개선을 진행하거나 새로운 참고자료를 찾아봐야 할 것으로 예상됨.
            • 시각장애인분들에 대해 학술적인 용어를 탐색했고, 최근에 사용되는 용어를 찾고 있음.
             
             

            교수님 질문

            • Segmentation이 실시간으로 진행되어야 하는 이유가 무엇이냐?
              • 실시간으로 설명을 제공하기 위해 처리속도를 향상시켜야 한다.
            • Segmentaion이 무엇에 대한 것이냐?
              • 이미지에 대한 중요 부분에 대한 segmentaion이다. 이미지에 많은 정보가 있으면 오히려 역효과가 있어 main object를 강조하고 전체적인 이미지에 간소화를 진행하는 것이다.

            교수님 코멘트

            • 시각장애인에 대해 VIB(visually impaired blind)라는 용어를 주로 사용하고 있다.
            • 입력과 출력 사이에 0.5초 이상 소요될 경우 사람들이 오래 걸린다고 생각하는 연구 보고가 있었다. → 0.5초는 로딩 시간에 대한 부분임. 로딩 애니메이션에 따라 사람이 느끼는 경험이 달라짐.
            • 최대한 속도를 향상시켜 0.5초 이내로 동작하도록 개선하면 좋을 것 같지만, 이것에만 많은 시간을 쏟기에는 어려울 것 같다.
            • 출력이 오래걸리는 것이 이후 모듈에 영향을 주지는 않으니 LLM 단계까지 완료하고 속도를 개선하는 것이 좋을 것 같다.
            • Real-time에 집중할 것이면 이에 대한 기술적인 부분이 있어야 하고, 만약 속도가 중요하면 이미지의 해상도를 낮추는 방법을 사용해봐도 좋을 것 같다. 연구에 집중할 부분이 속도에 집중할 것인지, 색상 설명에 집중할 것인지 결정을 해야 한다. 이미지의 사이즈를 낮추면 LLM도 동작 시간이 짧아질 것이다.
            • 가우시안 필터를 사용할 때 필터의 크기를 키우면 속도가 빨라진다.
            • 굳이 전처리가 된 이미지를 입력으로 넣어줄 필요가 있을까? → 좌표 정보를 원본 이미지와 넣어주면 LLM이 같이 처리할 수 있는지 알 수 없다. LLM 모델에 따라 다를 것이다. 단순히 두 이미지를 넣어주는 것이 아니라 LLM 모델에 맞춰서 적절한 입력을 넣어주는 것이 중요하다. 그러나 기업의 멀티모델은 내부 구조가 블랙박스이기 때문에 정보를 찾는 것이 어렵다.
            • 멀티모델을 구현하는 방식이 다 다르기 때문에 특정 모델을 이해한다 해도 이를 다른 모델에 적용하는 것은 어려움이 존재한다.
            • 원본 이미지 + 전처리된 이미지를 넣어줬을 때의 성능과 원본 이미지 + 정보를 넣어줬을 때의 성능을 비교해서 연구를 진행하는 것이 좋을 것 같다.
            • 시각장애인 분들을 대상으로 user-study를 진행하는 것은 부가적인 요소이고, computational한 수치가 중요하다. user-study를 진행한다 해도 가이드 라인을 제공하기 위해서는 computational metrix이 선행되어야 한다. user-study에서 선호도를 사용하는 것은 개인의 주관이 들어가기 때문에 위험하기 때문에 가이드 라인이 제공되어야 한다.
             
            *** 9월 이후로 이직을 하기 때문에 행정적인 부분은 김선준 교수님께 인수인계를 했고, 연구적인 부분에는 영향이 없도록 노력할 것이기 때문에 필요할 때마다 도움을 요청하면 좋을 것 같다.
             
             
            • 이미지의 해상도도 속도에 큰 영향을 미침 →우선은 작은 이미지로 시도해보는 것도 한가지 방법이 될 듯함
            • GPT에 이미지를 넣어서 prompt를 보낼때 해상도(size)에 따라 답변이 나오는 속도 차이가 있을까?
              • → YES 작을수록 빠르게 처리함
            • CV는 연구에서 main 작업이 아니며 기존이 아닌 새로 만든걸 사용해야할 거 같은데 모델검증은 어느정도의 수준까지 해야할까?
              • technical한 이슈가 있을 수 있기에 test를 하긴해야함
              • heavy하게는 안해도 되고 final performance가 안좋게 나왔을 때 downstream 작업이 안좋게 나오지 않았음을 증명하면 해당 작업은 문제가 없음을 증명하는 것이므로 이를 위해 검증하는 정도로 진행하면 됨
            • test 표현력에 대한 평가기준을 찾을 때 사용할 수 있는 검색 키워드
              • 자체적으로 개발해도 될 듯함
                • 형용사나 부사의 갯수를 세어본다던가 등등
                • computer vision color expression 같은 naive한 키워드로 검색하며 조합해보면 됨
              • 실제 user test를 통해 피드백을 받아서 하는건 technical한 paper 작성에 있어서는 좋은 작업이 아님
                • computational 한 수치로서 나오는게 좋음
            • 연구의의 -시각장애인에 대해서만 이야기하고 끝낼 것인지 다른걸 언급 할 만한 게 있을지
              • 교육현장에서도 활용될 수 있을듯함
              • 인테리어나 공간설계 수업에서 색감에 대한 이해를 후천적으로 학습해야하는 사람이 있으면 이 scene에 대한 color 교본을 익히는 과정에서 쓰일 수 있을 듯 함
              • 아이들의 교육에서도 창의력, 문해력을 증진시키는 과정에도 도움이 될 듯 함
                • 장면에 대한 표현력을 기를 수 있을 듯 함
            • YOLO대신 segment anything을 쓰는게 나을지
              • → real time을 버린다면 segment anything이 나을듯
              • 최대한 많은 class를 segmentation을 해줄 수 있도록 하는게 좋을 거 같음
             
            • 9/1부로 교수님 떠나시지만 연구진행은 meeting 요청을 하면 원격(zoom)으로 진행가능
              • 김선준 교수님께서 서류처리같은건 해주실 예정