강화학습(Reinforcement Learning) 학습하는 시스템을 에이전트(Agent)라 부르며 환경(Environment)을 관찰(Observation)해서 행동(Action)을 실행하고 그 결과로 보상을 받는다. 시간이 지나면서 가장 최적의 보상을 얻기위해 정책(Policy)이라 부르는 최상의 전략을 스스로 학습을 진행한다. 1. 배치 학습 & 온라인 학습 입력 데이터의 스트림으로부터 점진적으로 학습할 수 있는지에 따른 분류 배치 학습(Batch Learning) 시스템을 점진적으로 학습할 수 없고, 가용 데이터를 모두 사용하여 훈련 시간과 자원을 많이 소모하므로 보통 오프라인에서 수행 새로운 데이터에 대한 학습이 필요할 경우 전체 데이터를 사용하여 시스템의 새로운 버전을 처음부터 다시 훈련 많은..