1. 강화학습의 정의 보상(Reward)를 정희하고 이를 최대하하는 방식을 찾아내는 것 2. 강화학습의 특징 Trial and Error Delayed Reward 예를 들어, 바둑게임을 강화학습으로 학습시킬 때, t시간의 바둑게임의 이미지를 입력으로 하면, 모델은 그 상태에서 가장 이길 가능성이 높은 t+1 시간의 수를 두게 됩니다. 이렇게 계속 게임을 진행하고 해당 게임이 끝나면 게임의 승패가 보상으로 주어지게 됩니다. 모델을 학습시키기 위해, 각 시간에서 다양한 수를 둬보는 과정이 Trial and Error라고 합니다. 또한, 주체 즉 Agent가 여러 Action을 해보고 각각의 Reward를 비교하면서 Reward를 최대화하도록 행동하는 방식을 학습하는 것이 Delayed Reward입니다. ..