Posilované učení (reinforced learning)

Co učit?

Markovské procesy

Částečné pozorování

typy algoritmů

Fáze učení

  1. pustím agenta do světa - zaznamenává si trajektorie / učí se chování světa
  2. zlepšení chování (policy)
  3. spuštění policy

Sample efficiency

Q-learning

Problém řídkých odměn

Policy gradients

Actor-critic algoritmus