Portfolio

📌

라벨이 일부만 있는 데이터를 처리하는 방법에 대해서 알아보자.

[SLL]

What

SLL은 무엇일까?

일부만 라벨이 달려있는 데이터에 대한 문제를 해결하는 것! → 라벨이 부족할 때 문제를 해결하고 싶을 때

라벨이 달려있는 데이터는 매우 비싸다.

라벨은 전문가가 필요하다.

Goal

Label, Unlabel이 모두 존재할 때, 더 나은 Learner(classifier)를 만들자.

How

그냥 확실한 것 label 주고, 다시 label 생긴 것 합쳐서 다시 보고, 확실한 것 label 주고,… 이 과정을 반복한다고 보면 된다.

Type

총 4가지 종류가 있다.

Self-training method

Generative model based method → GMM과 유사..

Margin based method → SVM과 유사..

Graph based method: Nearest-neighbor like → Spectral Clustering과 유사..

종류

Self-training Method

다음과 같은 방식으로 학습한다.

Classifier를 통해서 intial data를 라벨링한다.

(밑 예시에서는 두 개의 라벨로 라벨링한 것을 확인할 수 있다)

Confidence(라벨링된 데이터들)를 바탕으로 Unlabel 데이터를 분류한다. 이는 밑 수식을 참고한다.

예를 y=천문학일 때의 확률이 1에 가깝다면 0에 수렴하게 될 것이다. 0에 가깝다면 -inf에 수렴하게 될 것이다. 왜 그런지는 log 함수 형태를 생각해 보면 이해가 갈 것이다.

이를 바탕으로 라벨링한다. (=confidence image를 늘린다)

이를 바탕으로 확장된 confidence set을 바탕으로 위 과정을 다시 진행한다.

Pros and Cons

장점

간단한다.

다양한 classifier를 적용해 볼 수 있다.

단점

mistake가 일어나면 그곳에 집중하게 된다.

수렴을 보장하지 못한다. (데이터 신뢰성 등의 이유로)

Generative Model for SLL

다음과 같은 방식으로 학습한다.

GMM와 유사한 방식으로 학습한다.

파라미터(개수의 비율, 평균, 분산)를 기반으로 maximize likelihood estimate(MSE)를 찾는 것을 목표로 한다.

GMM과 마찬가지로 EM 알고리즘을 사용해서 학습한다.

EM 알고리즘으로 Unlabeled의 MSE를 계속 찾아가며, 최적화 할 때까지 업데이트를 진행한다.

(뭐 이렇다.. 만 이해해두자..)

Pros and Cons

장점

effective하다.

단점

EM 알고리즘을 사용하기 때문에 local optima에 빠질 가능성이 있다.

Margin-based Method

다음과 같은 방식으로 학습한다.

SVM과 유사하다. 기존 SVM에 unlabel을 고려하는 수식을 붙이면 NP hard 문제가 된다.

따라서 밑과 같이 학습한다.

unlabel의 slack var을 0으로 만든다(noise에 굉장히 취약하게 한다).

확실한 것만 먼저 label한다.

slack var을 조금씩 늘린다.

남은 것들 중 확실한 것들을 label한다.

이 과정을 반복하면 된다.

Pros and Cons

장점

SVM을 기반으로 한 것이므로 수학적으로 완벽하다. (=내가 이해하기 어렵다 ㅋ)

단점

optimization이 어렵다.

local optima에 빠지기 쉽다.

Graph-based SSL

다음과 같이 학습한다.

근처에 있는 데이터들을 비슷한 라벨이라고 가정하고, propergation 한. 이를 바탕으로 energy를 구해서 graph cut을 한다.

Pros and Cons

장점

수학적으로 깔끔하다.

laplasian matrix가 kernel 함수의 역할을 하기도 하낟.

단점

graph구조의 영향을 많이 받는다.

내 머리로 이해 불가..

#16. Semi-Supervised Learning

[SLL]