MRP&MDP를 설명하기 이전에 MC(Markov Chain)과 MP(Markov Process)를 간단하게 살펴보자.
MC는 마르코프 성질을 가지는 State의 전이를 이야기한다. 여기서 마르코프 성질은 다음과 같다.
- 현재 상태는 미래의 State를 결정하는 데 필요한 모든 정보를 포함하고 있다.
- 즉 T+1 시점의 State는 T시점의 State 만이 영향을 준다는 것이다.
MC와 MP의 개념은 아래와 같다.
- 마르코프 체인 (Markov Chain, MC):
- 이산 상태 공간에서 정의된 확률 모델
- 상태 전이는 현재 상태에만 의존
- 일반적으로 이산 시간에서 정의됨
- 마르코프 과정 (Markov Process, MP):
- 마르코프 체인의 확장된 개념
- 연속 상태 공간을 포함할 수 있음
- 상태 전이는 현재 상태에만 의존
- 이산 시간 또는 연속 시간에서 정의될 수 있음
MRP(Markov Reward Process)
마르코프 보상 과정, MRP는 Markov Chain에 Reward의 개념을 추가한 것이다.
MRP는 다음과 같이 구성된다.
$$ <S, P, R, \gamma>$$
- $S$ : State의 유한집합
- $P$ : 전이확률
- $R$ : 보상함수
- $$R_s = \mathbb{E}[R_{t+1} | S_t = S]$$
- $\gamma \in [0,1]$ : 할인율
- 시간이 지남에 따라 보상의 가치를 낮추는 파라미터
- Return이 수렴할 수 있도록 해준다. -> 편리
Return : 시간이 진행함에 따라 할인율이 적용되어 지금까지 얻은 보상을 말한다. 강화학습은 이 Return을 최대화 하고자 하는 것이다.
MDP(Markov Decision Process)
마르코프 결정 과정, MDP는 T시점의 State는 T-1시점에서의 State에만 의존한다는 First-Order Markov Assumption 을 기반으로
한 Stochastic Process(확률과정)이다.
MDP는 다음과 같이 구성된다.
$$<S, A, P, R, \gamma>$$
- $S$ : State 유한집합
- $A$ : Action 유한집합
- MP와 MDP의 차이가 Action의 존재 유무이다.
- $P$ : 전이확률
- $R$ : 보상함수
- $\gamma$ : 할인율
정책(Policy)
정책은 특정 State에서 특정 Action을 수행할지에 대한 확률분포이다.
$$\pi(a|s) = \mathbb{P}[A_t = a | S_t = s]$$
'study > Reinforcement Learning' 카테고리의 다른 글
[RL] DQN(Deep Q-Networks) (0) | 2024.08.08 |
---|---|
[RL] Q-Learning (0) | 2024.08.08 |
[RL] On-Policy / Off-Policy Q-Learning, SARSA (0) | 2024.08.05 |
[RL] 강화학습이란 (0) | 2024.07.24 |