위 제목은 예시 입니다. 회의록 작성 시 “날짜 ‘회의록’ (회의 내용 요약)” 형식으로 제목을 수정해 주세요:)
[회의 주제]
SoTa 모델 탐색
[To-do]
[세부 내용 메모]
설문조사
- 추첨을 통해…

Sota(link)
우리의 목적과 가장 비슷한 모델 찾아보기
(→ 이해해 보기 → 감정 데이터 구해 보기 → 마지막 layer 바꿔서 감정 데이터에 대해서 학습 시켜보기)
Task | Paper Title | Year | Journal || conference | detail | Dataset | Model(Github link) | Comment |
Emotion Recognition | A proposal for Multimodal Emotion Recognition using aural transformers and Action Units on RAVDESS dataset(link) | 2021 | Applied Sciences Journal(IF=2.7) | 음성(녹음), 얼굴 감정 인식기를 통한 자동 감정인식기 제안. | RAVDESS | LogisticRegression on posteriors of xlsr-Wav2Vec2.0&bi-LSTM+Attention(link) | 비디오(중 오디오) 파일 같은 걸 이용해서 training 시키는 것 같은데 우리랑 엄청 가까워 보이진 않지만. Keyword를 “emotion”으로 하니까 걸린거,,
Find Tuning 하는 방법이 나와있어서 지시따라서 한번 해보는 것도 재밌을 듯?! |
Multi-Label Image Classification | SSL4EO-S12: A Large-Scale Multi-Modal, Multi-Temporal Dataset for Self-Supervised Learning in Earth Observation(link) | 13 Nov 2022 | IEEE | self-supervised learning을 통한 multi label modeling | BigEarthNet | self supervise를 이용해서 멀티 라벨에 특화되는 모델링을 제안하는 논문
약간 결이 다른 느낌이지만 멀티 라벨이라 넣어봄 | |
Audio Classification | OmniVec: Learning robust representations with cross modal sharing(link) | 2024 | WACV 2024 | 제안된 framework는 작업별 인코더, 중간에 공통 트렁크, 작업별 예측 헤드로 구성. 먼저 self-supervised masked training으로 pre-train한 후 위의 내용대로 순차적으로 훈련. | ImageNet | OmniVec | Image, Depth maps, video, 3D point clouds, udio, Text 등의 Modality 마다 사용하는 Network가 다름. 각각에서 Meta token과 Modality Encoder통해 여러 값이나 feature을 추출하고, 순차적으로 (1. Projection Layer 2. Transformer 3. Vectorizer(생략하는 경우도 있음.) 4.Task heads)를 거쳐 Task output을 return |
Emotion Classification | SpanEmo: Casting Multi-label Emotion Classification as Span-prediction (link) | 2024 | EACL | 다중 감정 label 분류를 위한 SpanEmo 제안 | SemEval 2018 Task 1E-c | SpanEmo(link) | Sentence로부터 감정 뽑아내는 것 같음,, |
Multi-Label Image Classification | Residual Attention: A Simple but Effective Method for Multi-Label Recognition | 2021 | ICCV | CSRA라는 모듈을 통해서 multi-label 문제에 특화된 모델 제안 | VOC2007 | ResNet101(link) | 이 친구도 self supervised… 벤치마크가 하나뿐이라 정보가 좀 적은게 흠이긴 하지만 정확도가 매우 높음 |
Image classification | CoCa: Contrastive Captioners are Image-Text Foundation Models
CoCa (frozen / finetuned)
| 2022 | arXiV | ㅤ | ㅤ | ㅤ | ㅤ |
Semantic Segmentation | AllSpark: Reborn Labeled Features from Unlabeled in Transformer for Semi-Supervised Semantic Segmentation | 2024 | ㅤ | ㅤ | ㅤ | ㅤ | ㅤ |
idea
- 이미지에 변화를 주어서 데이터를 생성해 보기
- 다중 레이블 (다양한 감정에 대해 multi-lable) 사용
[다음 회의 주제 및 To-do]
- 설문조사 피드백 받아오기
- 최적의 모델의 종류를 찾아오자