Машинное обучение. Обучение с подкреплением. К.В. Воронцов, Школа анализа данных, Яндекс.

Поділитися
Вставка
  • Опубліковано 1 тра 2020
  • Процесс обучения представляется в виде игры агента со средой, в которой агент совершает действия, среда в ответ даёт премии, и агент должен корректировать свою стратегию принятия решений таким образом, чтобы максимизировать суммарную будущую премию. Задача имеет черты классификации и прогнозирования. В простейшем случае это задача выбора действия по накопленной статистике премий, называемая задачей о многоруком бандите. В более сложном случае на каждом шаге известно, в каком из состояний находится среда. Если состояние среды описывается вектором признаков, то для принятия решений возможно приспособить инкрементные методы классификации, а для оптимизации стратегии агента применять градиентные методы. Во всех случаях основным вопросом обучения с подкреплением остаётся компромисс «exploration-exploitation» между изучающими действиями и действиями, непосредственно нацеленными на получение премий.
  • Наука та технологія

КОМЕНТАРІ • 3

  • @alicenNorwood
    @alicenNorwood 2 роки тому +4

    Широкоформатное видео, для серьёзных кинотеатров снято!

  • @user-kw4kp7eq9m
    @user-kw4kp7eq9m Рік тому

    Большое спасибо!