Main Topics
- Model 방향성
- CV only
- Multimodal
- Dataset 타당성 (for CV)
- Dataset 어떻게 구성해볼 건지
- 충분히 많다의 기준??
- 학회 추천
1. Model 방향성
Outline
- 실질적인 model build나 training은 여름방학 때 진행할 예정
- 시험기간, 과제 고려
- 그 전까지는 현실성 있는 주제로 최대한 narrow-down
- 여름방학 딱 시작하면 바로 출발할 수 있도록 자잘한 세부사항들 모두 정해두려 함
- 랩실 선배들의 조언이었음
- 그렇게 지난주까지 narrow-down한 두 가지 모델의 방향성
- CV only 의견과 Multimodal 유지 의견이 있었음
- 일단은 CV only 모델 위주로 생각하는 중이긴 한데 multimodal 모델에 대한 의견도 듣고자 함
Model | CV | Multimodal (image + text) |
목적 | 왜곡된 이미지를 역추적해서 원래 색감을 찾아내기 | 색인지에 문제가 있는 장애인들에게도 비장애인과 같은 경험의 “기회”를 제공하는 것이 목적 |
Train datatype | input : pair(원본+왜곡 이미지) | input : pair(원본 가정 이미지+색상 설명 text) |
Actual use datatype | input : 왜곡 이미지
output : 원본 이미지 | input : 원본 이미지
output : 색상 설명 |
모델 세부내용
CV
- Purpose
색감/대비 보정이 과도한 이미지들을 보정 전으로 돌려줄 수 있는 모델
- Dataset in Training session
- 원본 이미지
- 기존 image dataset으로부터 추출
- 왜곡 이미지
- 원본 이미지에 특정 필터를 걸어 왜곡(보정)
- 왜곡의 정의: 형태는 유지한 채 색감/대비 등의 intensity만 변경하는 경우
- 어떤 필터들을 사용할지는 추후 논의 예정 (타당한 근거가 있도록)
- Pairing
- 원본 이미지 1장 + 왜곡 이미지 1장
- [Augmentation] 원본 이미지 1장에 대해 여러 왜곡 이미지들을 생성할 것이므로 원본 이미지 1장만으로 여러 쌍의 데이터 획득
(Dataset에 대해서는 다음 파트에서 좀 더 자세히 설명)
ex: 의류만이 타겟 이미지인 경우, 패션 브랜드들이 자주 사용하는 보정 필터 사용
- Data in Actual using
- [Input] 왜곡 이미지
- [Output] 왜곡 제거 이미지
- Benchmark metric
- 원본 이미지와 왜곡 제거 이미지 간의 유사도를 측정
- 유사도 판별 알고리즘 search 예정
- 형태는 비교 대상 X
- Methods
- 아직 어떤 pipeline을 이용해야할지 의견 논의 중
- Model 팀에서 비슷한 분야의 모델 분석 진행 중
- 도균님께 우선적으로 조언을 구해볼 예정
Multimodal
- Purpose
- [핵심가치] 장애인에게도 비장애인과 유사한 경험을 할 수 있는 기회 제공
- Model output 자체가 도구가 될수도, 더 발전된 도구를 위한 base가 될수도 있음
- 색 표현에 집중한 모델
- Naive한 구상만 나와있는 상태
색인지에 불편함이 있는 이들에게도 간접적으로 색인지가 가능하도록 하는 모델
- Dataset in Training session
- 원본 이미지
- 기존 image dataset으로부터 추출
- 이 모델에서는 이미지 자체의 색감이 true color라고 가정할 것임
- 어떻게 보면 CV 모델이 이 모델을 위한 base처럼 여겨질 수도 있음
- 색감 설명 텍스트
- 직접 annotation하거나 다른 방법을 모색해야할듯 (미정)
- 지난번 미팅에서 소개했던 컬러 이름을 생성하는 LLM 모델의 output은 너무 추상적이라 다른 방법 필요
- 점자, 색맹을 위한 자료들 ⇒ 그들을 위한 색 표현은 어떤 방식으로 이루어지고 있는지 분석 필요
- Pairing
- 원본 이미지 1장 + 색감 설명 텍스트
(Dataset에 대해서는 다음 파트에서 좀 더 자세히 설명)
- Data in Actual using
- [Input] 컬러 이미지
- [Output] 색감에 대한 풍부한 묘사 텍스트
- Benchmark metric
- 아직까지는 human annotation말고는 떠올린 방법이 없어서 search 필요
2. Dataset
Dataset의 구성
왜 꼭 clothes-only dataset이어야 하는가?
- 같은 색상이더라도 텍스처에 따라 상이하게 인지될 가능성이 있음
- 브랜드 이미지를 드러내고자 과도한 조명, 보정이 적용되는 경우가 많음
- 왜곡 이미지를 구성할 때 이들을 분석하여 어떤 필터를 적용할 것인지 가이드라인을 잡을 수 있음 (specialized)
Dataset 구성 flow
- Open되어있는 large image dataset 다운로드
- Object recognition이 가능한 모델로 원본 dataset 속에서 의류가 main object인 이미지들만 추출
- 충분히 많으면 이 상태로 진행
- (else) 의류가 존재하는 이미지로 확대해서 추출
- 2-ii.까지 실패한 경우, general object를 대상으로 진행
Dataset의 크기
“충분히 많다”의 general한 기준이 존재하는가?
- Clothes-only dataset 구성 가능성의 여부 때문에 필요한 정보
- 물론 IF가 꽤 높은 저널에 게재된 논문도 수백개만을 사용한 경우가 있긴 했음
- 하지만 좀 더 좋은 결과를 위해, 최소 임계치를 정하고 싶음
(이건 굳이 PPT에 없어도 될 듯함)
3. 학회 추천
- 현재 후보 제시
- 중간/기말 안 겹치는 걸 고려함
- 조건 무관히 일단 가볼 가치가 있는 학회 추천받기