etc..

[ML-Agents] 강화학습의 개요(2)

탐험(Exploration)과 이용(Exploitation)

- 탐험 = 에이전트가 다양한 경험을 할 수 있도록 에이전트의 행동을 결정하는 기법

    -> ex. 무작위 탐색 기법

- 이용 = 학습된 결과에 따라 행동을 결정하는 기법

    -> ex. Greedy Method

 

이 둘의 밸런스를 어떻게 맞출 수 있을까?

-   $$\varepsilon $$ - greedy 기법

    -> 학습 초기 = 탐험 ↑, 이용 ↓

    -> 학습 진행 = 탐험 , 이용

    -> 이 때, $$\varepsilon $$은 탐험의 확률을 의미한다. $$\varepsilon $$가 0.8이면 80%확률로 탐험하는 셈이다.

    _. $$\varepsilon $$은 step에 따라 조금씩 줄어들다가 나중엔 0.1정도에서 멈춘다.