탐험(Exploration)과 이용(Exploitation)
- 탐험 = 에이전트가 다양한 경험을 할 수 있도록 에이전트의 행동을 결정하는 기법
-> ex. 무작위 탐색 기법
- 이용 = 학습된 결과에 따라 행동을 결정하는 기법
-> ex. Greedy Method
이 둘의 밸런스를 어떻게 맞출 수 있을까?
- $$\varepsilon $$ - greedy 기법
-> 학습 초기 = 탐험 ↑, 이용 ↓
-> 학습 진행 = 탐험 ↓, 이용 ↑
-> 이 때, $$\varepsilon $$은 탐험의 확률을 의미한다. $$\varepsilon $$가 0.8이면 80%확률로 탐험하는 셈이다.
_. $$\varepsilon $$은 step에 따라 조금씩 줄어들다가 나중엔 0.1정도에서 멈춘다.
'etc..' 카테고리의 다른 글
[활동 후기] 2020 Google Indie Game Festival 유저심사위원단 (0) | 2020.07.29 |
---|---|
[Physics For Game Developers] 물리학 기초 (0) | 2020.05.14 |
[ML-Agents] Anaconda 설치와 환경 조성 (0) | 2020.05.13 |
[ML-Agents] 강화학습의 개요(1) (0) | 2020.05.10 |