출처: https://typemin.tistory.com/7 [TypeLOG:티스토리] [RL] MRP(Markov Reward Process) & MDP(Markov Decision Process)
 

[RL] MRP(Markov Reward Process) & MDP(Markov Decision Process)

MRP&MDP를 설명하기 이전에 MC(Markov Chain)과 MP(Markov Process)를 간단하게 살펴보자.

MC는 마르코프 성질을 가지는 State의 전이를 이야기한다. 여기서 마르코프 성질은 다음과 같다.

  • 현재 상태는 미래의 State를 결정하는 데 필요한 모든 정보를 포함하고 있다.
  • 즉 T+1 시점의 State는 T시점의 State 만이 영향을 준다는 것이다.  

MC와 MP의 개념은 아래와 같다. 

 

 

  • 마르코프 체인 (Markov Chain, MC):
    • 이산 상태 공간에서 정의된 확률 모델
    • 상태 전이는 현재 상태에만 의존
    • 일반적으로 이산 시간에서 정의됨

 

  • 마르코프 과정 (Markov Process, MP):
    • 마르코프 체인의 확장된 개념
    • 연속 상태 공간을 포함할 수 있음
    • 상태 전이는 현재 상태에만 의존
    • 이산 시간 또는 연속 시간에서 정의될 수 있음

 

 


 

MRP(Markov Reward Process)

마르코프 보상 과정, MRP는 Markov Chain에 Reward의 개념을 추가한 것이다. 

MRP는 다음과 같이 구성된다. 

$$ <S, P, R, \gamma>$$

  • $S$ : State의 유한집합
  • $P$ : 전이확률
  • $R$ : 보상함수
    • $$R_s = \mathbb{E}[R_{t+1} | S_t = S]$$
  • $\gamma \in [0,1]$ : 할인율 
    • 시간이 지남에 따라 보상의 가치를 낮추는 파라미터
    • Return이 수렴할 수 있도록 해준다. -> 편리

 

Return : 시간이 진행함에 따라 할인율이 적용되어 지금까지 얻은 보상을 말한다. 강화학습은 이 Return을 최대화 하고자 하는 것이다.

 

MDP(Markov Decision Process)

마르코프 결정 과정, MDP T시점의 State는 T-1시점에서의 State에만 의존한다 First-Order Markov Assumption 을 기반으로

한 Stochastic Process(확률과정)이다. 

MDP

 

MDP는 다음과 같이 구성된다. 

$$<S, A, P, R, \gamma>$$

  • $S$ : State 유한집합
  • $A$ : Action 유한집합
    • MP와 MDP의 차이가 Action의 존재 유무이다. 
  • $P$ : 전이확률
  • $R$ : 보상함수
  • $\gamma$ : 할인율

정책(Policy)

정책은 특정 State에서 특정 Action을 수행할지에 대한 확률분포이다. 

$$\pi(a|s) = \mathbb{P}[A_t = a | S_t = s]$$

 

'study > Reinforcement Learning' 카테고리의 다른 글

[RL] DQN(Deep Q-Networks)  (0) 2024.08.08
[RL] Q-Learning  (0) 2024.08.08
[RL] On-Policy / Off-Policy Q-Learning, SARSA  (0) 2024.08.05
[RL] 강화학습이란  (0) 2024.07.24