What
- 인터넷 쇼핑몰 제품(의류)에 대한 true color를 찾아낼 수 있는 AI model 개발
- Fine-tuning을 통해 다른 제품, 다른 산업에도 적용하는 것이 최종 목표
Why
(이 연구가 왜 중요할까?)
- 의류
- 쇼핑몰에서 받은 실제 제품의 색상과 쇼핑몰 상에 나타난 의류 색상의 차이로 인한 반품 사례 증가 → 반품에 들어가는 여러 비용들로 인한 환경오염 증가
- 단순히 ‘밝다, 어둡다’라는 리뷰 text만으로는 정확한 color를 유추하기 어려움
- 예상하지 못한 색감의 선택을 야기하며 나아가 소비자의 불만족으로 이어질 확률이 높음
- 정확한 Color를 Detection하지 못한다는 기존의 전제로 인해 결정할 수 있는 선택지의 폭이 제한적임에도 이를 인지하지 못하는 다양한 산업군이 존재한다. (ex. True Color Detection이 어려운 농작물 병충해 현황으로 농작물 대량화 및 자동화의 솔루션 방안을 내기 어렵다.)
- 농업
- true color detection 기술을 스마트팜에 도입함으로서 농업의 기계자동화 성능 향상
How
- Text signal과 image signal을 multimodal method로 융합
- Text signal: 제품의 색상에 대한 설명글, 소비자들의 리뷰
- Image signal: 제품 상세 이미지, 리뷰 이미지
- Text와 Image에서 true color에 대한 적절한 feature 추출
- Data 수집
- Web Crawling을 통한 데이터 수집
- Data Augmentation 이용, 데이터셋 규모 확대
- Dual-encoder architecture를 이용한 dataset 관리
- Preprocessing을 통해 적절한 형태로 이미지/텍스트 dataset을 가공
- 연구 방향성
- 유사한 task를 수행하는 모델을 개선 → 기존의 연구된 pre-trained model의 fine-tuning을 통해 연구 방향성에 맞는 downstream task를 해결할 수 있도록…
- 이미지, 텍스트 각각에 대한 모델을 선택해서 새로운 조합의 모델 개발
- Performance metric
- 고정된 디스플레이 환경에서 평가
- Comparison to state of the art
- human annotator validation + benchmarks
Challenge
- text와 image는 표현 방식이 다르기에 단순한 연산 불가능
- real-world에 적용할 수 있을만한 performance를 보일 수 있도록 reasonable한 크기의 dataset을 만들어야 함
- 의류에는 다양한 color가 존재, 한 의류에 존재하는 여러 true color을 찾는 것이 중요
- 조명에 의한 왜곡, 디스플레이 환경에 따른 왜곡은 어떻게 보정해서 찾아낼 것인가
- 특정 text에 matching되는 color의 분포가 넓음 (헥스 코드로 나타낼 수 있는 색상의 수는 1677만여가지)
