오늘의 목표

  1. 강화학습 이론 공부하기
  2. 전반적인 강화학습에 대해 알아보기

오늘의 내용 및 결과

  1. 강화학습(Reinforcement Learning): 에이전트가 환경과 상호작용하면서 최대 보상을 얻기 위해 행동을 학습하는 방법
  2. 세 가지 요소
    1. 에이전트(Agent): 학습을 진행하는 주체. 환경 내에서 특정 행동을 선택하고 수행함.
    2. 환경(Environment): 에이전트가 상호작용하는 세계. 에이전트의 행동에 대한 보상이나 처벌을 제공하며 에이전트의 행동에 따라 상태가 변화.
    3. 보상(Reward): 에이전트가 특정 행동을 했을 때 환경으로부터 받는 피드백. 보상은 긍정적일 수도, 부정적일 수도 있음.
  3. 학습과정
    1. 에이전트가 행동을 선택함
    2. 그 결과에 따라 환경에서 보상 받음
    3. 에이전트는 더 높은 누적 보상을 얻기 위해 행동 방식을 조정하고 학습하게 됨
  4. 종류
    1. 모델 기반(Model-Based) 강화학습: 환경의 모델을 예측함. 이를 바탕으로 최적의 정책을 찾음.
    2. 모델 프리(Model-Free) 강화학습: 환경에 대한 명확한 모델 없이 시뮬레이션을 통해 최적 정책을 찾아 냄. 대표적인 알고리즘으로는 Q-learning, SARSA 등이 있음.