📝

2024/05/01 회의록 (논문 리뷰/설문 마리)

위 제목은 예시 입니다. 회의록 작성 시 “날짜 ‘회의록’ (회의 내용 요약)” 형식으로 제목을 수정해 주세요:)

[회의 주제]

SoTa 모델 탐색

[To-do]

[세부 내용 메모]

설문조사

추첨을 통해…

notion image

Sota(link)

우리의 목적과 가장 비슷한 모델 찾아보기

(→ 이해해 보기 → 감정 데이터 구해 보기 → 마지막 layer 바꿔서 감정 데이터에 대해서 학습 시켜보기)

Task	Paper Title	Year	Journal \|\| conference	detail	Dataset	Model(Github link)	Comment
Emotion Recognition	A proposal for Multimodal Emotion Recognition using aural transformers and Action Units on RAVDESS dataset(link)	2021	Applied Sciences Journal(IF=2.7)	음성(녹음), 얼굴 감정 인식기를 통한 자동 감정인식기 제안.	RAVDESS	LogisticRegression on posteriors of xlsr-Wav2Vec2.0&bi-LSTM+Attention(link)	비디오(중 오디오) 파일 같은 걸 이용해서 training 시키는 것 같은데 우리랑 엄청 가까워 보이진 않지만. Keyword를 “emotion”으로 하니까 걸린거,, Find Tuning 하는 방법이 나와있어서 지시따라서 한번 해보는 것도 재밌을 듯?!
Multi-Label Image Classification	SSL4EO-S12: A Large-Scale Multi-Modal, Multi-Temporal Dataset for Self-Supervised Learning in Earth Observation(link)	13 Nov 2022	IEEE	self-supervised learning을 통한 multi label modeling	BigEarthNet	MoCo-v2(https://github.com/zhu-xlab/ssl4eo-s12)	self supervise를 이용해서 멀티 라벨에 특화되는 모델링을 제안하는 논문 약간 결이 다른 느낌이지만 멀티 라벨이라 넣어봄
Audio Classification	OmniVec: Learning robust representations with cross modal sharing(link)	2024	WACV 2024	제안된 framework는 작업별 인코더, 중간에 공통 트렁크, 작업별 예측 헤드로 구성. 먼저 self-supervised masked training으로 pre-train한 후 위의 내용대로 순차적으로 훈련.	ImageNet	OmniVec	Image, Depth maps, video, 3D point clouds, udio, Text 등의 Modality 마다 사용하는 Network가 다름. 각각에서 Meta token과 Modality Encoder통해 여러 값이나 feature을 추출하고, 순차적으로 (1. Projection Layer 2. Transformer 3. Vectorizer(생략하는 경우도 있음.) 4.Task heads)를 거쳐 Task output을 return
Emotion Classification	SpanEmo: Casting Multi-label Emotion Classification as Span-prediction (link)	2024	EACL	다중 감정 label 분류를 위한 SpanEmo 제안	SemEval 2018 Task 1E-c	SpanEmo(link)	Sentence로부터 감정 뽑아내는 것 같음,,
Multi-Label Image Classification	Residual Attention: A Simple but Effective Method for Multi-Label Recognition	2021	ICCV	CSRA라는 모듈을 통해서 multi-label 문제에 특화된 모델 제안	VOC2007	ResNet101(link)	이 친구도 self supervised… 벤치마크가 하나뿐이라 정보가 좀 적은게 흠이긴 하지만 정확도가 매우 높음
Image classification	CoCa: Contrastive Captioners are Image-Text Foundation Models CoCa (frozen / finetuned)	2022	arXiV	ㅤ	ㅤ	ㅤ	ㅤ
Semantic Segmentation	AllSpark: Reborn Labeled Features from Unlabeled in Transformer for Semi-Supervised Semantic Segmentation	2024	ㅤ	ㅤ	ㅤ	ㅤ	ㅤ

idea

이미지에 변화를 주어서 데이터를 생성해 보기

다중 레이블 (다양한 감정에 대해 multi-lable) 사용

[다음 회의 주제 및 To-do]

설문조사 피드백 받아오기

최적의 모델의 종류를 찾아오자