Notice / Previous Week
[From Team 철]
[From Team 헌]
- 규모가 엄청 큰 img dataset 찾기
Memos
- 데이터셋의 데이터가 의류일 필요가 있는가? 라는 코멘트 받음
- if true
- 옷에는 여러 소재가 쓰이다 보니 텍스처에 의해 색감이 달라보일 수도
- 브랜드 이미지를 드러내고자 과도한 조명, 보정이 들어가는 경우가 많음
- else
- …
- 전처리 고려사항
- 다른 CV 모델과 달리 gray-scale 변환을 하지 않아서 각 데이터의 용량이 큼
⇒ 이 문제 어떻게 해결할 것인가
주요 결론
- CV 모델에 집중
- 학기 중 → 모델 디자인에 집중 / 방학 → 모델 설계 및 테스트 진행
- Datasets 구성 → 방대한 datasets에서 main object가 의류인 이미지를 뽑아 구성. 의류 데이터가 충분하면 의류를 주제로 진행
논의 내용 요약
- CV 모델 VS Multimodal
- CV 모델을 위주로 진행할 것. Image + text로 구성된 datasets을 구하기 어렵고 text를 사용하는 것에 회의적임.
- 추후에 CV 모델을 Multimodal로 확장하는 방식이 좋을듯. 먼저 CV 모델을 만들고 multimodal을 하게 된다면 CV 모델 output을 LLM에 넣어 multimodal로 가지를 뻗는 것이 좋을 것 같음.
- CoCa paper review를 참고, CoCa가 이미지에서 텍스트를 생성해주는 점을 이용해 색상 관련 텍스트를 생성하도록 제한해 CV 모델을 축으로 텍스트 생성 모델을 엮어 색맹을 갖고 있는 분들에게 색을 이해할 수 있는 기회를 제공하면 좋을 것 같음.
Model | CV | Multimodal (image + text) |
Train datatype | input : pair(원본+왜곡 이미지) | input : pair(원본 가정 이미지+색상 설명 text) |
Actual use datatype | input : 왜곡 이미지
output : 원본 이미지 | input : 원본 이미지
output : 색상 설명 |
목적 | 원본 색상 추출 | 색맹도 색을 이해할 수 있음 |
- Base model에 관해
- 왜곡된 이미지를 원본 이미지로 근사하는 필터를 찾는 모델이 필요함. GAN은 필터를 찾는 것이라 하기에는 애매함. Base model에 대한 코멘트가 필요
- Datasets
- datasets의 크기에 대한 기준이 필요. 1차 시도는 방대한 datasets 이용에서 이미 존재하는 모델로 의류가 메인인 이미지만 뽑아서 데이터셋 구성. datasets이 충분히 크다면 의류를 주제로 잡고, 아니라면 일반 사물로 주제 변경. 의류 이미지는 이미지만 존재하면 됨. 원본 이미지가 정답이라고 가정하고 진행할 것임.
두 번째 가정은 배경의 색은 무시하고 진행. - RGB 이미지는 데이터양이 큼. 학습할 때 색이 필요없는 모델에서는 흑백 이미지를 사용하기 때문에 비교적 속도가 빠름. RGB 이미지는 연산에 문제가 존재할 것으로 예상됨.
- 의류 이미지를 사용하려는 이유는 같은 색의 옷이라도 재질에 따라 색상이 달라 보이고, 보통 브랜드를 나타내기 위해 이미지에 여러 가공(왜곡)이 들어가는 특수성이 존재하기 때문.
- main object가 뚜렷한 원본 이미지에 필터를 사용해 왜곡 이미지 제작, 다양한 필터를 시도해봐야 할 것
CoCa Paper Review
etc
4월 보고서 작성에 관해
앞으로 해야 할 일에 대한 내용을 위주로 작성하고, 추가적으로 Pytorch/Git CLI command 학습 내용 추가.
학회에 관해
메모 백업
- 김상우
4월 보고서 작성을 위해 약간의 양념이 필요. 앞으로 해야 할 일에 대해 논하고 5월 보고서에서 진행사항 보고서에 넣는 방향으로.
파이토치, git 관련 내용을 보고서 참고해서 공부할 것.
기본 모델 선정을 위해서는 데이터셋이 어떻게 구성될 지를 정해야 함. 기본 모델이 어떤 작업이 진행될지 정하고 실제 테스트는 여름방학에 진행 예정. 학기 중에는 시간이 없어 실제 실험은 방학에 진행하고, 학기 중에는 방식을 정하는 방향.
CoCa 모델 리뷰 내용을 ppt에 정리해 놨으니 읽어보면 좋을 것 같다.
데이터셋이 왜 의류 사진이어야 하냐? 의류 사진을 사용한다면 정당한 이유가 있어야 한다. 의류의 재질에 의한 특수성, 온라인 상에서 브랜드의 정체성을 보여주기 위해 의류 사진에 왜곡이 심하기 때문에 이런 이미지에서 필터를 제거할 필요가 있다라는 이유. 꼭 의류 사진이 아니라면 구할 수 있는 데이터에 필터를 씌어서 데이터셋을 만들 수 있을 것. 팀 내에서 논의해서 정해야 함. 의류 이미지를 이용하지 않을 경우 비교적 간단히 해결할 수 있을 것.
의류 이미지를 사용한다면 이미지가 의류 이미지인지 아닌지를 처리하는 것을 먼저 하는 것도 좋을 것 같다. CoCa가 이미지에서 텍스트를 생성해주는 점을 이용해 색상 관련 텍스트를 생성하도록 제한하면 좋을 것 같다.
멀티 모델을 일단 버리고 당장은 CV 방향으로만 가는 것이 좋을 것 같다. 꼭 멀티모델이 아닌 CV와 텍스트 생성형 모델을 엮는 것도 방법임.
교수님께서 멀티모델이 효과가 있을 것이라는 답변에 관련된 내용: 무신사 같은 곳에서는 의류 이미지만 존재하기 때문에 시각 장애인 분들은 볼 수 없기 때문에 의류 사진으로 설명 음성을 생성하는 모델이 될 수 있다.
시각 장애인을 대상을 방향을 트는 것은 어떻냐? CV와 텍스트 생성을 엮는 것.
학습할 때 색이 필요없는 모델에서는 흑백 이미지를 사용하기 때문에 비교적 속도가 빠름. RGB 이미지는 채널이 많기 때문에 데이터양이 많을 것이기 때문에 연산에 문제가 존재할 것 같다.
먼저 CV 모델을 만들고 멀티 모델을 하게 된다면 CV 모델 아웃풋을 LLM에 넣어 멀티 모델로 가지를 뻗는 것이 좋을 것 같다.
이미지 데이터셋 조건은 main object가 뚜렷한 이미지, 원본 이미지와 왜곡 이미지 pair
1차 시도는 방대한 데이터셋 이용에서 이미 존재하는 모델로 의류가 메인인 이미지만 뽑아서 데이터셋 구성. 데이터셋이 충분히 크다면(데이터셋이 충분히 크다는 기준이 필요) 의류를 주제로 잡고, 아니라면 일반 사물로 주제 변경. 의류 이미지는 이미지만 존재하면 됨. 일단 원래 이미지가 정답이라고 가정하고 진행할 것임. 두번째 가정은 배경의 색은 무시하고 진행.
모델에서는 이미지에서 물체를 추출,
일단 CV 하는 방향으로
- 김지현
- 보고서에 쓸 겸 공부했으면 하는거 : Git CLI command
- Git을 4월 보고서에 정리할 예정
- dataset에 data가 어떻게 생겼는지를 frame을 짜놔야 입출력 flow를 짤 수 있을 것
- 기본 모델을 어떤 작업이 돌아가도록 할건지 flow를 정해놓는걸
- test는 여름방학
- 그 전에는 방법을 제대로 정해놓는걸 목표로
- 지헌님께서 논문 review때 COCA 발표했는데 준비하면서 작성한 scrpit 읽어보면 좋을 듯
- 왜 꼭 옷이여야 하는가?
- 같은 color라 해도 texture에 따라 달라보이기도 함 → 특수성
- 의류 이미지들을 보여줄 때 브랜드의 이미지나 성격을 드러낼 때 극단적인 조명을 쓰는 case가 있거나 대비를 강하게 주는 조명, 대비 등의 가공이 들어감
- 필터제거 이미지를 하는 거 이므로 특수한 dataset을 의류에서 쉽게 얻을 수 있을거라 생각
- 학습할 때 문제인데, color를 이용하지 않는 모델을 만들때는 흑백처리해서 grayscale로 하는게 연산이 빠름 …
- 중요한건 dataset을 의류로 갈건지 다른 열려있는 dataset을 조작해서 쓸건지
- coca 모델 자체가 여러 task를 수행할 수 있다는 장점이 있지만 pretraining을 해야하는 결국 object recognition을 씀
- 의류를 object detection하는 모델을 먼저 만들어야 함 따라서 의류
- 사전학습을 할 때 캡션 가이드라인을 적어놓고 train을 하면 data agmentation을 할때도 도움이 될 듯. 결국은 caption을 generation하는 거니까 data를 어떻게 더 불려야할까 하는 의문에도 적용가능할 듯
- 아이디어 : 색맹, 시각장애인을 위한 색상 알리미
- 방향성
- multimodal을 하기엔 너무 시간이 오래 걸릴 거 같으니 CV로 방향 잡기로…!
- 위 내용들을 정리해서 office에서 meeting
- 이번주 중으로 학회 알아보기,,,,~! (한반도 밖 우선)
- 이미지 dataset 조건
- main object가 크게 존재하는 img(Raw data)
- 1차 시도 : 규모가 엄청 큰 img dataset 찾기
- → 다른 구현된 모델로 1) 의류가 main인 이미지 거르기 2) 의류가 존재하는 이미지 거르기
- → 1) 충분히 많으면(의 기준은?) 의류로 GO
- → 2) 너무 적으면 그냥 일반 object로 GO
- 왜곡 이미지를 정답 이미지로 근사시킬 수 있는 필터 찾기
Model | CV | Multimodal (image + text) |
Train datatype | input : pair(원본+왜곡 이미지) | input : pair(원본 가정 이미지+색상 설명 text) |
Actual use datatype | input : 왜곡 이미지
output : 원본 이미지 | input : 원본 이미지
output : 색상 설명 |
목적 | 원본 색상 추출 | 색맹도 색을 이해할 수 있음 |
