[RL] Q-Learning
Q-LearningQ-Learning은 대표적인 Model-Free, Off-Policy 강화학습 알고리즘으로, 주어진 State-Action Pair에 대해 Q-Value를 학습합니다. 이 Q-Value는 특정 State에서 특정 Action을 취했을 때 받을 수 있는 기대 보상을 의미합니다. 여기서 Model-Free란, 환경(Environment)에 대한 모델이 없이도 Action의 기댓값을 구하고 비교하여 Q-Table을 업데이트 할 수 있음을 의미합니다. AlgorithmQ-Learning에서 사용하는 업데이트 함수는 아래와 같습니다.$$Q(s,a) \leftarrow Q(s,a) + \alpha(R_{t+1} + \gamma\; \underset{a'}{max}Q(s_{t+1}, a') - ..