HomeAboutMeBlogGuest
© 2025 Sejin Cha. All rights reserved.
Built with Next.js, deployed on Vercel
장지원 페이지/
기계학습개론
기계학습개론
/
#16. Semi-Supervised Learning

#16. Semi-Supervised Learning

선택
fin
참고 자료
텍스트
May 2, 2024
보편적으로 사용되는 분야 (정해진 것은 아님,classification model이 regression할 수 있도록 할 수 있다)
semi supervised
차수 (일주일 단위)
9-2.
📌
라벨이 일부만 있는 데이터를 처리하는 방법에 대해서 알아보자.
 

[SLL]

What
SLL은 무엇일까?
일부만 라벨이 달려있는 데이터에 대한 문제를 해결하는 것! → 라벨이 부족할 때 문제를 해결하고 싶을 때
  • 라벨이 달려있는 데이터는 매우 비싸다.
  • 라벨은 전문가가 필요하다.
Goal
Label, Unlabel이 모두 존재할 때, 더 나은 Learner(classifier)를 만들자.
How
그냥 확실한 것 label 주고, 다시 label 생긴 것 합쳐서 다시 보고, 확실한 것 label 주고,… 이 과정을 반복한다고 보면 된다.
Type
총 4가지 종류가 있다.
  • Self-training method
  • Generative model based method → GMM과 유사..
  • Margin based method → SVM과 유사..
  • Graph based method: Nearest-neighbor like → Spectral Clustering과 유사..

종류
Self-training Method
다음과 같은 방식으로 학습한다.
  1. Classifier를 통해서 intial data를 라벨링한다.
(밑 예시에서는 두 개의 라벨로 라벨링한 것을 확인할 수 있다)
notion image
  1. Confidence(라벨링된 데이터들)를 바탕으로 Unlabel 데이터를 분류한다. 이는 밑 수식을 참고한다.
    1. notion image
      예를 y=천문학일 때의 확률이 1에 가깝다면 0에 수렴하게 될 것이다. 0에 가깝다면 -inf에 수렴하게 될 것이다. 왜 그런지는 log 함수 형태를 생각해 보면 이해가 갈 것이다.
notion image
  1. 이를 바탕으로 라벨링한다. (=confidence image를 늘린다)
notion image
  1. 이를 바탕으로 확장된 confidence set을 바탕으로 위 과정을 다시 진행한다.
notion image
Pros and Cons
장점
간단한다.
다양한 classifier를 적용해 볼 수 있다.
단점
mistake가 일어나면 그곳에 집중하게 된다.
수렴을 보장하지 못한다. (데이터 신뢰성 등의 이유로)
Generative Model for SLL
다음과 같은 방식으로 학습한다.
GMM와 유사한 방식으로 학습한다.
파라미터(개수의 비율, 평균, 분산)를 기반으로 maximize likelihood estimate(MSE)를 찾는 것을 목표로 한다.
notion image
GMM과 마찬가지로 EM 알고리즘을 사용해서 학습한다.
EM 알고리즘으로 Unlabeled의 MSE를 계속 찾아가며, 최적화 할 때까지 업데이트를 진행한다.
notion image
(뭐 이렇다.. 만 이해해두자..)
Pros and Cons
장점
effective하다.
단점
EM 알고리즘을 사용하기 때문에 local optima에 빠질 가능성이 있다.
 
Margin-based Method
다음과 같은 방식으로 학습한다.
SVM과 유사하다. 기존 SVM에 unlabel을 고려하는 수식을 붙이면 NP hard 문제가 된다.
notion image
따라서 밑과 같이 학습한다.
  1. unlabel의 slack var을 0으로 만든다(noise에 굉장히 취약하게 한다).
  1. 확실한 것만 먼저 label한다.
  1. slack var을 조금씩 늘린다.
  1. 남은 것들 중 확실한 것들을 label한다.
이 과정을 반복하면 된다.
Pros and Cons
장점
SVM을 기반으로 한 것이므로 수학적으로 완벽하다. (=내가 이해하기 어렵다 ㅋ)
단점
optimization이 어렵다.
local optima에 빠지기 쉽다.
Graph-based SSL
다음과 같이 학습한다.
근처에 있는 데이터들을 비슷한 라벨이라고 가정하고, propergation 한. 이를 바탕으로 energy를 구해서 graph cut을 한다.
Pros and Cons
장점
수학적으로 깔끔하다.
laplasian matrix가 kernel 함수의 역할을 하기도 하낟.
단점
graph구조의 영향을 많이 받는다.
내 머리로 이해 불가..