Відео

КОМЕНТАРІ •

@Dusha9119 3 роки тому ⁺¹
Лектор противоречит слайдам:
1) В policy iteration, evaluation шаг не сходится к константе , а обновляется пока не будет значимого различия между V(s) разных состояний, затем обновляется политика, видимо на основе как раз этого изменения. Ну и весь процесс повторяется до сходимости, пока второй шаг не перестанет менять политику.
2) В value iteration мы предполагаем, что у нас нет изначальной политики и поэтому сразу оцениваем V(s) по максимуму из всех действий. Эти действия и есть политика. По сути выполняется только один шаг предыдущего алгоритма, поэтому он быстрее, но качество хуже. Может быть всего лишь одна итерация по состояниям, поэтому, грубо говоря, будет посчитан только один шаг с конца. (V(s') = 0)
PS: очень крутое дело делаете, спасибо большое!
@MosbkaTV 4 роки тому ⁺¹
Честно говоря, плохо объяснил. Совершенно нет примеров или они непонятны. Зато на основе ШАД
@eduardtsuranov712 4 роки тому ⁺¹
Полностью понятно никогда не будет, это надо самому все раскуривать(теорию) и на практике смотреть.
@MosbkaTV 4 роки тому ⁺¹
@@eduardtsuranov712, всегда есть вероятность что это я тупой, а видео урок на самом деле классный.
@mind-set 3 роки тому
Николай шикарно объяснил, по сравнению с остальными лекциями по RL