강화학습 찍먹!
[RL]
What
Agent에게 Reward를 주면서 학습 시켜보자!

Q
Q function
State와 Action에 대해서 어떤 Reward를 받을 수 있는 지에 관한 함수

Max Q
어떠한 state에서 각 action에 대해 Q값이 있을 때, 가장 큰 값이다.
Q값은 max Q+R로 계속 업데이트 해준다.

위의 것들을 바탕으로 optimal한 policy를 찾아야 한다.
예제를 통해서 더 잘 이해할 수 있다.
Example
밑과 같이 학습한다.


Problem: 위 길은 최적의 길이 아닐 수 있다.
세 가지 보완 방법
Exploit & Exploration
Random noise를 주어서 Exploration도 함께 이용할 수 있다.
Discount Reward
Reward를 discount하며 학습하면 converge한 모델을 구현할 수 있다.

Stochastic
위 세 가지 방법은 deterministic한 방법이다. 즉 새로운 Q가 들어오면 무조건 그 값으로 업데이트 한다.
stochastic 방법은 이전의 Q, 새로 들어온 Q를 확률적(Explot&Exploration으로 탐색하면서 확률을 지정할 수도 있을 것이다)으로 반영하는 방법이다. 밑 수식과 같이 반영하고, 이 모델 역시 수렴한다.
