출처: https://typemin.tistory.com/7 [TypeLOG:티스토리] 'study/Reinforcement Learning' 카테고리의 글 목록
 
heekim
close
프로필 사진

heekim

  • - (20)
    • study (19)
      • Statistics (4)
      • Machine Learning (0)
      • Algorithm (2)
      • Deep Learning (0)
      • Reinforcement Learning (5)
      • Coding Test (8)
      • Project (0)
  • 홈
  • 태그

[RL] DQN(Deep Q-Networks)

Deep Q-NetworksDeep Q-Networks(DQN)는 강화 학습 알고리즘 중 하나로, Q-learning을 딥러닝 기법과 결합하여 고차원 상태 공간에서도 효율적으로 작동할 수 있도록 합니다. DQN은 주로 딥러닝을 활용하여 Q 함수를 근사하는 데 사용되며, 이를 통해 전통적인 Q 테이블의 한계를 극복합니다. DQN의 주요 구성 요소와 알고리즘에 대해 자세히 살펴보겠습니다.  Q-Learning의 단점을 해소!Q-learning은 각 상태-행동 쌍에 대해 Q 값을 추정하여 최적의 정책을 학습합니다. 그러나 고차원 상태 공간에서는 이러한 Q 값을 담을 테이블을 만드는 것이 비효율적이거나 불가능합니다. DQN은 인공 신경망(딥러닝)을 사용하여 Q 값을 근사함으로써 이 문제를 해결합니다. 구성요소Q..

  • format_list_bulleted study/Reinforcement Learning
  • · 2024. 8. 8.
[RL] Q-Learning

[RL] Q-Learning

Q-LearningQ-Learning은 대표적인 Model-Free, Off-Policy 강화학습 알고리즘으로, 주어진 State-Action Pair에 대해 Q-Value를 학습합니다. 이 Q-Value는 특정 State에서 특정 Action을 취했을 때 받을 수 있는 기대 보상을 의미합니다. 여기서 Model-Free란, 환경(Environment)에 대한 모델이 없이도 Action의 기댓값을 구하고 비교하여 Q-Table을 업데이트 할 수 있음을 의미합니다.  AlgorithmQ-Learning에서 사용하는 업데이트 함수는 아래와 같습니다.$$Q(s,a) \leftarrow Q(s,a) + \alpha(R_{t+1} + \gamma\; \underset{a'}{max}Q(s_{t+1}, a') - ..

  • format_list_bulleted study/Reinforcement Learning
  • · 2024. 8. 8.
[RL] On-Policy / Off-Policy  Q-Learning, SARSA

[RL] On-Policy / Off-Policy Q-Learning, SARSA

강화학습에서 자주 언급되는 용어인 On/Off-Policy에 대해서 알아보겠습니다. 두 용어는 RL에서 Agent의 학습시 사용되는 Policy을 의미합니다. (Policy란 Agent가 Action을 선택하는 데 사용되는 규칙을 의미합니다.)On-Policy현재 학습 중인 Policy(Action을 결정하는 규칙)를 사용하여 Environment와 상호작용합니다.이 때 학습 중인 Policy를 Target Policy라고 부릅니다. (현재 State 에서 가장 높은 Reward를 기대할 수 있는 Action을 선택하는 Policy를 Greedy Policy라고 합니다.)Agent는 이 Policy에 따라 행동을 선택하고, 그 Action의 결과로 얻는 Reward와 State의 변화를 통해서 해당 Po..

  • format_list_bulleted study/Reinforcement Learning
  • · 2024. 8. 5.
[RL] MRP(Markov Reward Process) & MDP(Markov Decision Process)

[RL] MRP(Markov Reward Process) & MDP(Markov Decision Process)

MRP&MDP를 설명하기 이전에 MC(Markov Chain)과 MP(Markov Process)를 간단하게 살펴보자.MC는 마르코프 성질을 가지는 State의 전이를 이야기한다. 여기서 마르코프 성질은 다음과 같다.현재 상태는 미래의 State를 결정하는 데 필요한 모든 정보를 포함하고 있다.즉 T+1 시점의 State는 T시점의 State 만이 영향을 준다는 것이다.  MC와 MP의 개념은 아래와 같다.   마르코프 체인 (Markov Chain, MC):이산 상태 공간에서 정의된 확률 모델상태 전이는 현재 상태에만 의존일반적으로 이산 시간에서 정의됨 마르코프 과정 (Markov Process, MP):마르코프 체인의 확장된 개념연속 상태 공간을 포함할 수 있음상태 전이는 현재 상태에만 의존이산 시간..

  • format_list_bulleted study/Reinforcement Learning
  • · 2024. 7. 28.
[RL] 강화학습이란

[RL] 강화학습이란

강화(Reinforcement)는 시행착오(Trial & Error) 를 통해 학습하는 방법을 말한다. 강화학습은 이 강화를 기반으로 보상과 패널티를 통해 학습해 목표를 찾아가는 학습 방법론이다.  우선 강화학습에서 사용되는 용어를 정리해보자. 용어의미에이전트(Agent)결정을 내리고 행동하는 주체. 게임의 경우 메인 캐릭터환경(Environment)에이전트가 결정을 내리고 행동하는 배경, 세계상태(State)현재의 상황을 나타냄. 캐릭터의 위치나 점수 등행동(Action)에이전트가 취할 수 있는 선택 보상(Reward)에이전트가 특정 행동을 취했을 때 받는 댓가정책(Policy각 상태(State)에서 최적의 행동(Action)을 결정하는 전략.이는 에이전트가 학습을 통해 최적화하고자하는 대상임.가치 함..

  • format_list_bulleted study/Reinforcement Learning
  • · 2024. 7. 24.
  • navigate_before
  • 1
  • navigate_next
공지사항
전체 카테고리
  • - (20)
    • study (19)
      • Statistics (4)
      • Machine Learning (0)
      • Algorithm (2)
      • Deep Learning (0)
      • Reinforcement Learning (5)
      • Coding Test (8)
      • Project (0)
인기 글
전체 방문자
오늘
어제
Copyright © 희김 모든 권리 보유.
SKIN: Copyright © 쭈미로운 생활 All rights reserved. Designed by JJuum.
and Current skin "dev-roo" is modified by Jin.

티스토리툴바