Portfolio

What

Agent에게 Reward를 주면서 학습 시켜보자!

Q

Q function

State와 Action에 대해서 어떤 Reward를 받을 수 있는 지에 관한 함수

Max Q

어떠한 state에서 각 action에 대해 Q값이 있을 때, 가장 큰 값이다.

Q값은 max Q+R로 계속 업데이트 해준다.

위의 것들을 바탕으로 optimal한 policy를 찾아야 한다.

예제를 통해서 더 잘 이해할 수 있다.

Example

밑과 같이 학습한다.

Problem: 위 길은 최적의 길이 아닐 수 있다.

Exploit & Exploration

Random noise를 주어서 Exploration도 함께 이용할 수 있다.

Discount Reward

Reward를 discount하며 학습하면 converge한 모델을 구현할 수 있다.

Stochastic

위 세 가지 방법은 deterministic한 방법이다. 즉 새로운 Q가 들어오면 무조건 그 값으로 업데이트 한다.

stochastic 방법은 이전의 Q, 새로 들어온 Q를 확률적(Explot&Exploration으로 탐색하면서 확률을 지정할 수도 있을 것이다)으로 반영하는 방법이다. 밑 수식과 같이 반영하고, 이 모델 역시 수렴한다.

#19. Reinforcement Learning