순서
- 지금까지 한 내용들 요약 (중간 발표 참고)
- 원래 주제 소개
- Pix2Pix 실험 과정 및 결과
- 추가로 읽은 논문들 및 주제에 대한 고찰
- 새로운 주제 소개
- 주제 고안 배경 및 목표
- 코어 논문 소개
- 연관 논문 리뷰 활동 요약
- (현재) 모델 빌딩 과정
- 향후 계획
- 고민거리
내용
[새로운 주제 소개]CV 모델을 선택하기 전으로 돌아감
필터를 통해 원본 색감을 찾아내려는 시도는 과감히 포기시각 장애인, 그중에서 1차적으로 후천적 시각 장애인들을 위한 색상 설명 모델을 만들기로 결정
구체적으로,Dominant color를 뽑아내는 논문을 재현 후, real-time 성능을 좀 더 개량해서 카메라로 들어온 이미지를 최대한 빠르게 처리해서 색상 설명이 풍부한 텍스트를 내놓는 것인풋은 아마 DCE 이미지와 원본 이미지가 동시에 들어갈 듯위치 정보가 포함된 컬러 시드 역할 현재 코어 논문으로는 Youngha Chang의 DCE 논문이 있음(논문 요약 설명)단 11가지 basic color terms만 사용하고 뭉개버리기 때문에 ROI 디테일 설정 정도와 컬러 표현에 대해서는 더 많은 개선이 필요해보임컬러 시드를 몇 개를 줄 것인가!
Model | CV | Multimodal (image + text) |
목적 | 왜곡된 이미지를 역추적해서 원래 색감을 찾아내기 | 색인지에 문제가 있는 장애인들에게도 비장애인과 같은 경험의 “기회”를 제공하는 것이 목적 |
Train datatype | input : pair(원본+왜곡 이미지) | input : pair(원본 가정 이미지+색상 설명 text) |
Actual use datatype | input : 왜곡 이미지
output : 원본 이미지 | input : 원본 이미지
output : 색상 설명 |
Multimodal
- Purpose
- [핵심가치] 장애인에게도 비장애인과 유사한 경험을 할 수 있는 기회 제공
- Model output 자체가 도구가 될수도, 더 발전된 도구를 위한 base가 될수도 있음
- 색 표현에 집중한 모델
- Naive한 구상만 나와있는 상태
색인지에 불편함이 있는 이들에게도 간접적으로 색인지가 가능하도록 하는 모델
- Dataset in Training session
- 원본 이미지
- 기존 image dataset으로부터 추출
- 이 모델에서는 이미지 자체의 색감이 true color라고 가정할 것임
- 어떻게 보면 CV 모델이 이 모델을 위한 base처럼 여겨질 수도 있음
- 색감 설명 텍스트
- 직접 annotation하거나 다른 방법을 모색해야할듯 (미정)
- 지난번 미팅에서 소개했던 컬러 이름을 생성하는 LLM 모델의 output은 너무 추상적이라 다른 방법 필요
- 점자, 색맹을 위한 자료들 ⇒ 그들을 위한 색 표현은 어떤 방식으로 이루어지고 있는지 분석 필요
- Pairing
- 원본 이미지 1장 + 색감 설명 텍스트
(Dataset에 대해서는 다음 파트에서 좀 더 자세히 설명)
- Data in Actual using
- [Input] 컬러 이미지
- [Output] 색감에 대한 풍부한 묘사 텍스트
- Benchmark metric
- 아직까지는 human annotation말고는 떠올린 방법이 없어서 search 필요
GPT 결과 비교
- “비유”라는 키워드를 넣어주면 표현이 너무 장황해짐.
- DCE모델 output을 넣어주면 오히려 색채 표현이 제한됨
- 셔츠는 회색인데 순백의 색상이라는 다른 결과값 도출되는 경우가 발생하기도 함
- 표현이 장황해서 이해에 어려움이 있음
- 색상에 대한 표현이 부족하가 생각
- GPT가 색표현을 잘하면 우리의 연구는 필요없지 않을까?
현재는 GPT에 대해서만 색상 표현 테스트 진행해봤음
다양한 최신 LLM 모델에 대해 시도해보고 벤치마크해봐야함
시각 장애의 종류, 최신 시각 장애 통계, 특히 색인지 관련하여 수치적 당위성을 찾아보아야 하는 상태
실제 후천적 시각 장애인 분들 대상으로 user study를 진행하는 것이 필요해보이는데, 이때 어떤 점을 고려하고, 어떤 식으로 진행하면 좋을지 구체적인 조언이 필요
ex. 선행 user study를 통해 그들이 느끼는 현재 LLM의 표현 능력 한계 등을 확인 후, 이를 반영한 new 모델로 얼마나 좋아졌는지 비교?
알고리즘 구현과 관련하여 ref로 달려있는 6개의 논문을 리뷰 후 발표 진행
color 쪽에 대한 지식 습득 및 어떤 부분을 적용하고 어떤 부분을 새로 적용해볼 것인지 1차적으로 논의했음
현재 모델 빌드를 하기 위해 기존 논문에서 어떤 논문의 어떤 기술을 썼는지를 좀 더 테크니컬한 부분 위주로 파악하고 있음
다음 주부터 코딩 시작할 예정
모델 재현팀과 LLM 테스트 및 시각 장애 통계 조사팀으로 나누는 것을 고려 중