CS885 Lecture 7a: Policy Gradient

Поділитися
Вставка
  • Опубліковано 12 гру 2024

КОМЕНТАРІ • 10

  • @SphereofTime
    @SphereofTime 3 місяці тому +1

    26:15 how alphago uses montecarlotreesearch

  • @user-or7ji5hv8y
    @user-or7ji5hv8y 4 роки тому

    wow, thanks for sharing the lecture

  • @Shikhar_
    @Shikhar_ 3 роки тому

    The AlphaGo example was so neat!

  • @MrNgovanmao
    @MrNgovanmao 4 роки тому

    minute 21:13, the line before stochastic gradient should be E[\gamma^n G_n \frac{
    abla pi_\theta(A_n|S_n)}{ pi_\theta(A_n|S_n)}]

  • @hemanthsharma5630
    @hemanthsharma5630 5 років тому

    Thanks for the great lecture prof. :)

  • @shanggao781
    @shanggao781 5 років тому

    Thanks Prof Poupart.

  • @tuliomoreira7494
    @tuliomoreira7494 4 роки тому

    Amazing lecture. Does anyone know why at 12:14 we are discounting twice?

    • @yuxiang3147
      @yuxiang3147 2 роки тому +1

      It's not discounting twice, the first gamma^n is used to represent the state/reward distribution after executing the policy for n steps, the second gamma^t is used to represent the future expected reward.

  • @НиколайНовичков-е1э

    Thank you!

  • @lordjared2572
    @lordjared2572 2 роки тому

    35:34 Resign is just the same as calling gg. :)))