HomeAboutMeBlogGuest
© 2025 Sejin Cha. All rights reserved.
Built with Next.js, deployed on Vercel
장지원 페이지/
DGIST CV lab (My page)
DGIST CV lab (My page)
/
📔
Notes
/
Did: 연구 주제 선정

Did: 연구 주제 선정

날짜
Dec 30, 2024
상태
완료
선택
미팅

1️⃣ 씬 그래프 제너레이션 (Scene Graph Generation)

  • 정의: 이미지나 비디오에서 객체(Object)와 객체 간의 관계(Relation)를 그래프 형태로 표현하는 기술입니다.
  • 핵심 목표: 이미지의 내용을 구조화된 그래프 형태로 변환해 객체와 객체 간의 상호작용을 효과적으로 나타냄.
  • 주요 기술: 합성곱 신경망(CNN), 관계 추론 네트워크(Relation Networks)
  • 응용 분야: 이미지 캡셔닝, 시각적 질의응답(VQA), 로봇 비전
🔑 핵심: 이미지 내 객체와 객체 간의 관계를 그래프 구조로 명확하게 표현합니다.

2️⃣ 레퍼링 비디오 오브젝트 세그멘테이션 (Referring Video Object Segmentation)

  • 정의: 주어진 텍스트 문장(예: "빨간 모자를 쓴 사람")을 기반으로 비디오 내 특정 객체를 찾아 픽셀 단위로 세그멘테이션하는 기술입니다.
  • 핵심 목표: 자연어로 설명된 특정 객체를 정확하게 인식하고, 프레임 전반에 걸쳐 추적 및 분리.
  • 주요 기술: 시각-언어 결합 모델(Vision-Language Models), 시공간적 특징 학습(Spatiotemporal Feature Learning)
  • 응용 분야: 비디오 편집, 증강현실(AR), 감시 시스템
🔑 핵심: 자연어로 설명된 객체를 비디오에서 픽셀 단위로 정확하게 분리합니다.

3️⃣ 스타일 트랜스퍼 (Style Transfer)

  • 정의: 한 이미지의 **콘텐츠(내용)**를 유지하면서 다른 이미지의 **스타일(화풍, 색감)**을 적용하는 기술입니다.
  • 핵심 목표: 이미지의 구조는 유지하되, 스타일 이미지를 기반으로 예술적 효과를 적용.
  • 주요 기술: 합성곱 신경망(CNN), 그래디언트 최적화(Gradient Optimization), Adaptive Instance Normalization (AdaIN)
  • 응용 분야: 디지털 아트, 필터 효과, 영화 및 광고 디자인
🔑 핵심: 한 이미지의 구조를 유지하면서 다른 이미지의 스타일을 자연스럽게 적용합니다.

4️⃣ 이미지 투 비디오 제너레이션 (Image to Video Generation)

  • 정의: 정적인 이미지에서 시간에 따른 움직임을 예측하여 연속적인 비디오 프레임을 생성하는 기술입니다.
  • 핵심 목표: 이미지에 기반해 자연스럽고 일관된 비디오 시퀀스를 생성.
  • 주요 기술: 생성적 적대 신경망(GAN), 모션과 콘텐츠 분리(Motion-Content Decomposition)
  • 응용 분야: 애니메이션 제작, AR/VR 콘텐츠 생성, 시뮬레이션
🔑 핵심: 정적인 이미지에서 시간적 흐름을 가진 비디오를 생성합니다.

5️⃣ 뎁스 에스티메이션 (Depth Estimation)

  • 정의: 이미지나 비디오의 각 픽셀이 카메라로부터 얼마나 멀리 떨어져 있는지를 예측하는 기술입니다.
  • 핵심 목표: 2D 이미지에서 3D 공간 정보를 복원해 깊이 맵(Depth Map)을 생성.
  • 주요 기술: 단안 카메라 기반(모노큘러), 스테레오 비전, Transformer 기반 네트워크
  • 응용 분야: 자율주행, 로봇 비전, AR/VR, 3D 장면 재구성
🔑 핵심: 이미지의 픽셀별 깊이 정보를 예측하여 3D 공간 정보를 복원합니다.

  • 씬 그래프 제너레이션 (Scene Graph Generation):
    • 논문 제목: "Scene Graph Generation by Iterative Message Passing"
    • 저자: Yikang Li, Wanli Ouyang, Bolei Zhou, Kun Wang, Xiaogang Wang
    • 발표 연도: 2017년
    • 요약: 이 논문은 이미지에서 객체와 그들 간의 관계를 그래프로 표현하는 씬 그래프를 생성하기 위해 반복적인 메시지 전달 방식을 사용하는 방법을 제안합니다.
  • 레퍼링 비디오 오브젝트 세그멘테이션 (Referring Video Object Segmentation):
    • 논문 제목: "URVOS: Unified Referring Video Object Segmentation Network with a Large-Scale Benchmark"
    • 저자: Jing Li, Hongwei Wang, Zehao Huang, Xiaodi Wang, Liusheng Huang, Philip S. Yu
    • 발표 연도: 2020년
    • 요약: 이 논문은 자연어 문장을 기반으로 비디오에서 특정 객체를 세그멘테이션하는 통합 네트워크인 URVOS를 제안하며, 이를 평가하기 위한 대규모 벤치마크 데이터셋도 함께 소개합니다.
  • 스타일 트랜스퍼 (Style Transfer):
    • 논문 제목: "Image Style Transfer Using Convolutional Neural Networks"
    • 저자: Leon A. Gatys, Alexander S. Ecker, Matthias Bethge
    • 발표 연도: 2016년
    • 요약: 이 논문은 합성곱 신경망(CNN)을 활용하여 콘텐츠 이미지와 스타일 이미지를 결합한 새로운 이미지를 생성하는 스타일 트랜스퍼 방법을 제안합니다.
  • 이미지 투 비디오 제너레이션 (Image to Video Generation):
    • 논문 제목: "MoCoGAN: Decomposing Motion and Content for Video Generation"
    • 저자: Sergey Tulyakov, Ming-Yu Liu, Xiaodong Yang, Jan Kautz
    • 발표 연도: 2018년
    • 요약: 이 논문은 모션과 콘텐츠를 분리하여 이미지를 기반으로 비디오를 생성하는 MoCoGAN 모델을 제안하며, 이를 통해 이미지에서 자연스러운 비디오 시퀀스를 생성할 수 있습니다.
  • 뎁스 에스티메이션 (Depth Estimation):
    • 논문 제목: "Unsupervised Monocular Depth Estimation with Left-Right Consistency"
    • 저자: Clément Godard, Oisin Mac Aodha, Gabriel J. Brostow
    • 발표 연도: 2017년
    • 요약: 이 논문은 좌우 일관성을 활용한 비지도 학습 방식의 단안(depth estimation) 방법을 제안하며, 이를 통해 라벨이 없는 데이터에서도 정확한 깊이 추정을 가능하게 합니다.