HomeAboutMeBlogGuest
© 2025 Sejin Cha. All rights reserved.
Built with Next.js, deployed on Vercel
장지원 페이지/
기계학습개론
기계학습개론
/
#19. Reinforcement Learning

#19. Reinforcement Learning

📌
강화학습 찍먹!
 

[RL]

What
Agent에게 Reward를 주면서 학습 시켜보자!
notion image
Q
Q function
State와 Action에 대해서 어떤 Reward를 받을 수 있는 지에 관한 함수
notion image
Max Q
어떠한 state에서 각 action에 대해 Q값이 있을 때, 가장 큰 값이다.
Q값은 max Q+R로 계속 업데이트 해준다.
notion image
위의 것들을 바탕으로 optimal한 policy를 찾아야 한다.
예제를 통해서 더 잘 이해할 수 있다.
Example
밑과 같이 학습한다.
notion image
notion image
Problem: 위 길은 최적의 길이 아닐 수 있다.

세 가지 보완 방법
Exploit & Exploration
Random noise를 주어서 Exploration도 함께 이용할 수 있다.
Discount Reward
Reward를 discount하며 학습하면 converge한 모델을 구현할 수 있다.
notion image
Stochastic
위 세 가지 방법은 deterministic한 방법이다. 즉 새로운 Q가 들어오면 무조건 그 값으로 업데이트 한다.
stochastic 방법은 이전의 Q, 새로 들어온 Q를 확률적(Explot&Exploration으로 탐색하면서 확률을 지정할 수도 있을 것이다)으로 반영하는 방법이다. 밑 수식과 같이 반영하고, 이 모델 역시 수렴한다.
notion image
선택
fin
참고 자료
텍스트
May 14, 2024
보편적으로 사용되는 분야 (정해진 것은 아님,classification model이 regression할 수 있도록 할 수 있다)
Classification
차수 (일주일 단위)
12-1.