HomeAboutMeBlogGuest
© 2025 Sejin Cha. All rights reserved.
Built with Next.js, deployed on Vercel
💻
UGRP
/
7월 정기발표

7월 정기발표

 
한국어
발표 시작하겠습니다.
 
오늘 발표는 저와 민철이형이 진행할 예정입니다.
 

 
금일 발표는 저희 Color team의 진행사항에 대해 공유드리고,
 
저희가 어떤 부분을 보완해야하는지 피드백을 얻고자 진행하게 되었습니다.
 

 
저희는 4월에서 5월 사이에, 또 한번의 ideation 과정을 거쳐 다음의 두 메인 아이디어를 얻게 되었습니다.
 
첫 번째 아이디어는, 온라인 쇼핑몰의 제품, 특히 의류 이미지가 다양한 필터 효과나 조명에 의해 실물과 다르게 왜곡되는 문제를 해결하는 것입니다.
 
두 번째 아이디어는, 색인지에 어려움이 있는 사람들을 위해, 입력된 이미지에 대한 설명을 풍부한 색상 표현과 함께 해주는 모델을 구축하는 것입니다.
 
처음 고안했던 아이디어와는 이제 결이 많이 달라지긴 했지만, 저희가 이전부터 계속 방향성을 정할 때 놓치지 않고 stem으로 가져가려는 부분은 Color입니다.
 
어쨌든 2가지 아이디어 중 저희가 먼저 시도해본 아이디어는 첫 번째 아이디어였습니다.
 

 
첫 번째 아이디어에 대해, 그리고 어떤 실험이 있었는지를 설명해드리겠습니다.
 
저희는 온라인 의류 쇼핑몰에서 필터나 조명 효과 등으로 true color가 왜곡된 이미지에 주목했습니다.
 
이를 해결하기 위해 image2image model을 base model로 설정했고, resolution 유지를 위해 이미지 전체에 unfilter 연산을 진행하도록 modify할 예정이었습니다.
 
그리고 데이터셋으로는 국내 온라인 의류 쇼핑몰의 이미지들을 수집하여 최대한 자주 사용되는 필터나 조명 효과를 학습하도록 할 계획이었습니다.
 
본격적으로 시작 전, 여름방학 내로 작업을 대부분 끝낼 수 있을지 알아보기 위해 Pix2Pix 모델을 이용해서 기본적인 테스트를 진행해보았습니다.
 
약 130장 정도의 이미지에 대해 테스트를 한 결과, GT image와 output image에 대해 SSIM 값 통계는 다음과 같았습니다.
 

 
저희가 직면한 문제점은 이렇습니다.
 
우선 코어 논문으로 가져갈 만한 논문이 없다는 것이었습니다.
 
또한 이러한 상황에 대해 조언을 얻고자 CV를 연구하고 계신 홍재성 교수님께 찾아가 조언을 구해보았습니다만,
 
UGRP 남은 기간 동안 어떤 결과물을 낸다는 것이 어려울 것이라는 답변을 얻었습니다.
 
그래서 저희는 다시 한번 방향성에 대한 고민을 하게 되었고,
 
그 결과, 두 번째 아이디어를 가져가기로 결정했습니다.
 

발표자 전환
 
이 연구는, 후천적으로 색인지가 불가능하게 된 시각 장애인들을 대상으로 합니다.
 
러프하게 조사해본 결과, 2005년 한국보건사회연구원의 한국장애인실태조사에 의하면, 국내 시각장애인의 86.1%가 후천적요인으로 인한 것이었습니다.
 
다만 너무 오래된 조사 결과여서 최신 통계 자료도 찾아봐야하고, 시각 장애의 종류가 굉장히 많아서 저희가 원하는 색상 인지가 어려운 시각 장애에 대해서는 또 따로 찾아봐야 하는 상태입니다.
 
어쨌든 저희는 그들이 예전과 같은 다채로운 색상 경험을 느낄 수 있도록, 이미지를 텍스트로 설명할 때 색상 표현을 보다 풍부하게 할 수 있는 모델을 구축하는 것이 목표입니다.
 
좀 더 구체적으로 설명드리자면,
 
Dominant color를 real-time에 가깝게 뽑아내고, 이 정보와 원본 이미지를 LLM에 입력해서 색상 표현이 강화된 텍스트 설명을 얻어내는 것입니다.
 
이를 통해 최종적으로는 사용자가 어떤 카메라 기반의 디바이스나 앱으로 미술관이나 쇼핑 등의 상황에서 실시간으로 색상 표현을 다채롭게 인지하도록 하는 것이 목표입니다.
 

 
다행히 이번 주제에 대해서는 활용 가능한 core paper들이 꽤 있는 상태입니다.
 
그중에서도 저희는 Youngha Chang의 Determining region color by using maximum colorfulness를 핵심으로 가져가려 합니다.
 
이 논문은 어떤 인풋 이미지에서 무채색 조명으로 인한 highlight와 shadow를 제거하고, 이를 기반으로 각 영역의 dominant color를 11가지 basic color terms로 제한 및 color naming하는 논문입니다.
 
저희는 우선 이 논문의 모델을 재현한 뒤, 필요한 부분들을 추가하고 개선해나갈 생각입니다.
 
이를 위해 이번주 화요일까지 7~8편 정도의 관련 논문과 reference 논문들을 리뷰하고 발표하는 시간을 가졌습니다.
 
현재 모델 재현을 위해 각 알고리즘 단계에서 어떤 기법들이 쓰였는지에 대한 기술명세서를 작성 중이며, 이 작업이 끝나는대로 바로 코드를 짜기 시작할 예정입니다.
 

 
모델 빌드에 대해 요약하고 넘어가자면,
 
기본적으로는 영역을 좀 더 디테일한 부분까지 잡으면서 real-time으로 활용 가능한 dominant color extraction(DCE) model을 구축하는 것이 1차 목표입니다.
 
그리고 현실적으로 LLM까지 구축하는 것은 불가능하기 때문에, 기존의 LLM 모델을 튜닝하거나 DCE 모델로부터 나온 color seed 이미지와 원본 이미지를 함께 LLM에 넣어 색상 표현의 정도가 어느 정도로 개선될 수 있는지 평가하는 것이 2차 목표입니다.
 
만약에 시간적 여유가 된다면 러프하게나마 작동 가능한 앱까지 제작해볼 계획입니다.
 

 
마지막으로 저희가 가지고 있는 문제점과 고민에 대해 정리하겠습니다.
 
사실 ChatGPT 4o나 Claude3 같은 LLM 모델들이 프롬프트를 잘 짜주면 어느 정도까지는 색상 표현을 해주고 있긴 합니다.
 
간단하게 저희는 각자가 GPT로 논문의 결과 이미지 혹은 원본 이미지를 넣어 표현을 어떻게 하는지에 대한 피드백을 주고 받았고, GPT의 표현이 불충분한 것 같다는 의견으로 기울었습니다.
 
하지만 이는 주관적인 저희의 의견에 지나지 않기 때문에,
 
어떻게 하면 LLM의 색상 표현이 부족하고, 그래서 이 연구가 필요하다는 것을 어필할 수 있을지가 현재 가장 큰 문제점입니다.
영어
Let's begin the presentation.
 
Today, Mincheol and I will be presenting together.
(Next)
 
 
The purpose of today's presentation is to share the progress of our team
 
and to receive feedback on areas where we can make improvements.
(Next)
 

 
Between April and May,
 
we went through another round of discussions
 
and came up with two main ideas.
 
The first idea is to solve the problem of product images,
 
especially clothing,
 
on online shopping sites being distorted by various filters or lighting effects,
 
making them look different from the real items.
(Next)
 
The second idea is to develop a model
 
that provides rich color descriptions for images
 
to help people with color perception difficulties.
(Next)
 
Although it has significantly diverged from our initial idea,
 
one aspect we have consistently focused on
 
and aim to maintain as a core element in our direction
 
is color.
 
Out of the two ideas, the first one was the one we decided to try out first.
(Next)
 

 
Now, let me explain the first idea and the experiments we conducted.
 
We focused on images on online clothing stores
 
where the true color is distorted due to filters or lighting effects.
 
To solve this, we set the image2image model as the base model
 
and planned to modify it to perform unfilter operations
 
across the entire image to maintain resolution.
(Next)
 
We collected images from domestic online clothing stores to create a dataset,
 
aiming to train the model on the most commonly used filters and lighting effects.
(Next)
 
Before fully diving into the project,
 
we conducted basic tests using the Pix2Pix model
 
to see if we could complete most of the work by the end of the summer break.
 
We tested around 130 images,
 
and the SSIM value statistics for the GT images and output images were as follows.
(Next)
 

 
We encountered several issues.
 
Firstly, we couldn't find any core papers that we could use as a foundation.
 
Secondly, to improve further,
 
we need to start considering physical condition,
 
however we have determined that this cannot be accomplished in the short term.
 
Additionally, 지헌 sought advice from Professor 홍재성,
 
who is researching computer vision,
 
but he advised us that it would be challenging
 
to produce significant results within the remaining UGRP period.
(Next)
 
As a result, we reconsidered our direction and decided to pursue the second idea.
(Next)
 

발표자 전환


 
This study targets individuals who have acquired visual impairments that affect their ability to perceive colors.
 
According to a rough investigation,
 
the 2005 Korea Disabled Persons Survey by the Korea Institute for Health and Social Affairs
 
found that 86.1% of visual impairments in Korea
 
were due to acquired causes.
 
However, as you can see,
 
since this data is quite outdated,
 
we need to look for more recent statistics.
 
Additionally, given the wide variety of visual impairments,
 
we need to find specific data on those that affect color perception.
(Next)
 
Anyway, our goal is to develop a model
 
that can describe colors in images more richly when converted to text,
 
allowing these individuals to experience vibrant colors as they did before.
 
Ultimately, we hope to enable users
 
to perceive rich color descriptions in real-time in various situations,
 
such as visiting museums or shopping,
 
using camera-based devices or apps.
(Next)
 

 
Fortunately, there are several core papers available on this topic.
 
Among them, we plan to focus on
 
Youngha Chang's "Determining region color by using maximum colorfulness" first.
(Next)
 
This paper discusses removing highlights and shadows caused by achromatic lighting from input images
 
and determining the dominant color in each region,
 
limiting them to 11 basic color terms and performing color naming.
 
We intend to replicate the model from this paper first,
 
then add and improve upon it as needed.
(Next)
 
For this, we reviewed and presented around 7-8 related papers and reference documents by this Tuesday.
 
Currently, we are drafting a technical specification
 
detailing the techniques used in each algorithmic step for model replication.
 
Once this is completed, we will start coding immediately.
(Next)
 

 
To summarize our model-building plan:
 
Our primary goal is to build a dominant color extraction model
 
that can capture detailed regions and be utilized in real-time.
 
Since it is unrealistic to build an entire LLM from scratch,
 
our secondary goal is to tune existing LLM models
 
or input the color seed images from the DCE model
 
along with the original images into an LLM
 
to evaluate the degree of improvement in color expression.
 
If time permits, we plan to develop a rough but functional app as well.
(Next)
 

 
Lastly, we want to share the issues and concerns we currently face.
 
The first question is
 
whether this research holds sufficient value.
 
LLM models like ChatGPT-4 and Claude 3 have a chance
 
to provide some high level of color expression if the prompts are crafted well.
 
But, we have noticed some limitations like these.
 
To investigate this, we individually input the result images or original images into GPT
 
and shared feedback on how the descriptions were generated.
 
We generally agreed that the color descriptions provided by GPT were insufficient.
 
However, this conclusion is just based on our subjective opinions.
(Next)
 
The main challenge we face now
 
is demonstrating that the color expression capabilities of LLMs are lacking
 
and justifying the necessity of our research.
 
So this is our current status,
 
and we need feedback on the mentioned aspects
 
as well as any other areas we might be overlooking.