Notice / Previous Week
[전체]
[From Team 철]
[From Team 헌]
Memos
Q
의류 이미지만 사용하는 것과 데이터셋 양이 충분한가에 대한 기준이 존재하는지 궁금하다.
A
데이터셋 양에 대한 기준이 정해진 것은 없다. 모델 사이즈에 따라 달라진다. 모델의 복잡도, 사이즈에 따라 선택해야하고, 적은 데이터셋에서도 모델이 잘 동작한다면 문제가 없다. 보통 새로운 분야에 대한 연구를 할 때는 일단 적은 데이터로 해보고, 데이터셋이 부족하다면 추가로 확보해서 진행한다. 일단 몇 백개 정도만으로 해보고 필요하다면 추가로 늘리면 좋을 것 같다.
Q
CV 모델에 대한 의견에 대해 어떻게 생각하시는지 궁금하다.
A
꼭 멀티모델을 고집할 필요는 없다. CV 모델만 사용해서 색을 복원하고, 복원한 이미지의 키워드를 만들어 LLM에 넣는 연구도 접근 자체 자체는 좋다. 색감만 복원하는 것은 이미 연구가 많이 되서 색감 복원 이후를 생각해야 한다. 만약 온라인 상의 의류 이미지를 원본 색상으로 되돌리는 모델이 없다면 일반적인 모델을 바로 의류 이미지 복원에 적용하면 성능이 안 좋을 것이다. 따라서 의류 이미지에 적합한 모델을 만드는 것 만으로도 연구가 된다.
데이터셋을 만드는 것도 논의 대상일 것이고 몇 백개 정도의 데이터셋이 만들어진 뒤, 팀에서 구성한 모델에서 결과가 잘 나오게 하는 것으로도 연구가 된다. 추가로 키워드를 뽑아 LLM에 넣는 것도 UGRP로 할만한 연구가 될 것이고, 정확도가 잘 나온다면 작은 학회에는 넣어볼 만 하다.
Q
CV 모델을 구성하는 것에 얼마나 시간이 소요될지 궁금하다.
A
방학 동안 열심히 하면 CV 모델 부분은 충분히 끝낼 수 있을 것 같지만, 기존 모델에 대한 파인튜닝 이외에 추가로 function을 건들어야 한다면 오래 걸릴 것 같다. 정확도에 대한 기준을 설정하고 기준을 달성한다면 다음 단계로 넘어가는 방식이 좋을 것 같다.
Q
어떻게 보면 왜곡 이미지를 원래 이미지로 되돌리는 모델이 생성형 모델이 될 수 있을 것 같다. Pix2Pix 모델을 사용하고, 모델이 왜곡된 이미지를 원래 이미지로 되돌리는 법을 학습하도록 데이터셋을 구성한다면 어떨지 궁금하다.
A
Pix2Pix 모델을 사용해보는 것도 좋을 것 같다. 데이터셋을 잘 구성한다면 괜찮은 결과가 나올 것 같다. Pix2Pix2 모델을 사용하는 이유에 대한 근거가 있어야 한다.
정리 전
모델에 대한 방향성과 데이터셋의 타당성에 대한 코멘트가 필요함
팀 내에서 회의를 해본 결과 1학기에는 실제 구현을 가능하도록 세부사항을 정하고 여름방학에 모델 빌드 및 학습을 하는 방향을 진행을 하고자 함.
모델에 대해서는 CV와 멀티모달에 대해 생각해봤고 CV만으로 접근한다면 왜곡된 이미지를 역추적해서 원래의 색감을 찾는 것으로, 멀티모델에 대해서는 색 인지에 문제가 있는 사람들에게 경험을 제공하는 모델을 구축하는 것으로 논의 됨.
CV 모델의 목적은 색감 보정이 과도한 이미지를 원래 이미지로 되돌리는 모델이 될 것. 학습 과정에서의 데이터셋은 원본 이미지와 왜곡 이미지(원본 이미지에 노이즈를 추가한)로 구성. 원본 이미지에 다양한 노이즈를 넣어 여러 왜곡 이미지를 만들어 여러 쌍의 데이터 페어 획득
색깔이 왜곡된 이미지를 넣으면 과보정을 제거된 이미지를 output으로 나오는 모델.
평가 메트릭에 대해서는 형태보다는 색상만을 사용해 유사도를 판별하는 방법 사용 예정
파이프라인에 대해서는 아직 논의가 되고 있어 조언을 받아 진행할 예정
멀티모델의 목적은 색맹과 같이 색 인지에 문제를 겪는 사람들에게 색을 인지할 수 있는 기회를 제공하는 것. 색을 어떻게 전달(텍스트를 사용할 것이냐)할지는 논의 중.멀티모델의 데이터셋은 원본 이미지와 텍스트(색상에 대한 설명)로 구성됨. 컬러 이미지를 input으로 넣으면 색에 대한 텍스트 설명이 output으로 나오는 모델. 성능 평가 메트릭에 대해서는 아직 정해지지 않음.
데이터셋이 꼭 의류 이미지이어야 하는냐에 대해서는 CV 모델에는 의류 이미지가 과보정이 들어가는 경우가 많기 때문에, 같은 색이어도 텍스처에 따라 색이 다르게 느껴질 수 있기 때문에 의류 데이터가 좋을 것 같지만, 멀티모델에 대해서는 의류 데이터만을 사용하는 것에 회의적임.
데이터셋 수집은 오픈된 이미지 데이터셋에서 의류 이미지를 뽑아 데이터셋을 구성할 것이고 만약 양이 부족하다면 일반 사물에 대한 이미지로 확장할 예정.
데이터셋 양이 충분한가에 대한 기준이 필요함.
교수님 답변
데이터셋 양에 대한 기준이 정해진 것은 없다. 모델 사이즈에 따라 달라진다. 모델의 복잡도, 사이즈에 따라 선택해야하고, 적은 데이터셋에서도 모델이 잘 동작한다면 문제가 없다. 보통 새로운 분야에 대한 연구를 할 때는 일단 적은 데이터로 해보고, 데이터셋이 부족하다면 추가로 확보해서 진행한다. 일단 몇 백개 정도만으로 해보고 필요하다면 추가로 늘리면 좋을 것 같다.
꼭 학습을 멀티모델로 안 해도 좋을 것 같다. CV 모델만 사용해 색을 복원해 키워드를 표현해 LLM에 넣는 것도 좋을 것 같다. 색감만 복원하는 것은 이미 연구가 많이 되서 색감 복원 이후로 먼가를 추가하는 것이 좋다. 접근 자체 자체는 좋다. 온라인 상의 의류 이미지를 원본 색상으로 되돌리는 모델이 없다면 일반적인 모델을 바로 적용하면 성능이 안 좋을 것이기 때문에 의류 이미지에 적합한 모델을 만드는 것 만으로도 가치가 있다.
데이터셋을 만드는 것도 논의 대상일 것이고 몇백개 정도의 데이터셋이 만들어지면 팀에서 구성한 모델에서 결과가 잘 나오게 하는 것으로도 연구가 되고 이후에 키워드를 뽑아 LLM에 넣는 것도 UGRP로 할 수 있는 연구가 될 것이고 정확도가 잘 나온다면 작은 학회에는 넣어볼 만 하다.
방학 동안 열심히 하면 CV 모델 부분은 끝낼 수 있을 것 같지만, 파인튜닝 이외에 function을 건들어야 한다면 오래 걸릴 것 같다.
정확도에 대한 기준을 잡아 기준을 달성한다면 다음 단계로 나가는 것이 좋을 것 같다.