Grokking Deep Reinforcement Learning Capitulo 7 - Mejora de comportamiento de agente más eficiente
Вставка
- Опубліковано 9 лют 2025
- Este video muestra cómo mejorar el comportamiento de políticas de un agente con algoritmos mas eficientes y avanzados que los mostrados en el capitulo 6.
El video compara la precisión y eficiencia del entrenamiento de los siguientes agentes de aprendizaje por refuerzo:
1) SARSA lambda λ
2) Q λ
3) Dyna Q
4) Trajectory Sampling
Los entornos utilizados son:
1) Slippery Walk Seven
2) Frozen lake
3) Frozen lake 8x8
Referencias:
Libro:
www.amazon.com...
Projecto:
github.com/mim...
Codigo:
github.com/mim...