Monte Carlo in Reinforcement Learning

Foundation of Q-learning | Temporal Difference Learning explained!

Building your first Neural Network

⚡️ Хто найбільш вірогідна ЖЕРТВА Росії після України?

ПОЛНАЯ ИСТОРИЯ ЭКЗОРЦИЗМА [Топ Сикрет]

Новий концерт Єдиного Кварталу від 2 червня 2024. Повний випуск

Reinforcement Learning: on-policy vs off-policy algorithms

CodeEmporium

Переглядів 5 915

Додати в
- Мій плейлист
- Переглянути пізніше
Поділитися

Поділитися

Вставка

Розмір відео:

Показувати елементи керування програвачем

Автоматичне відтворення

Автоповтор

Опубліковано 4 чер 2024
Let's talk about on-policy vs off-policy algorithms in reinforcement learning
ABOUT ME
⭕ Subscribe: ua-cam.com/users/CodeEmporiu...
📚 Medium Blog: / dataemporium
💻 Github: github.com/ajhalthor
👔 LinkedIn: / ajay-halthor-477974bb
RESOURCES
[1] Reinforcement Learning book: incompleteideas.net/book/RLboo...
[2] Paradigms of ML: idapgroup.com/blog/types-of-m...
PLAYLISTS FROM MY CHANNEL
⭕ Reinforcement Learning: • Reinforcement Learning...
Natural Language Processing: • Natural Language Proce...
⭕ Transformers from Scratch: • Natural Language Proce...
⭕ ChatGPT Playlist: • ChatGPT
⭕ Convolutional Neural Networks: • Convolution Neural Net...
⭕ The Math You Should Know : • The Math You Should Know
⭕ Probability Theory for Machine Learning: • Probability Theory for...
⭕ Coding Machine Learning: • Code Machine Learning
MATH COURSES (7 day free trial)
📕 Mathematics for Machine Learning: imp.i384100.net/MathML
📕 Calculus: imp.i384100.net/Calculus
📕 Statistics for Data Science: imp.i384100.net/AdvancedStati...
📕 Bayesian Statistics: imp.i384100.net/BayesianStati...
📕 Linear Algebra: imp.i384100.net/LinearAlgebra
📕 Probability: imp.i384100.net/Probability
OTHER RELATED COURSES (7 day free trial)
📕 ⭐ Deep Learning Specialization: imp.i384100.net/Deep-Learning
📕 Python for Everybody: imp.i384100.net/python
📕 MLOps Course: imp.i384100.net/MLOps
📕 Natural Language Processing (NLP): imp.i384100.net/NLP
📕 Machine Learning in Production: imp.i384100.net/MLProduction
📕 Data Science Specialization: imp.i384100.net/DataScience
📕 Tensorflow: imp.i384100.net/Tensorflow

КОМЕНТАРІ • 14

@MrFalk358 6 місяців тому ⁺⁸
Ok i will indulge your quiz time questions since your videos are really great!
Question 1: A is correct. it would not learn at all, since the target policy is the policy which we are trying to learn. Setting it fixed would imply it not changing, which would imply it staying random, therefore we are not learning
Question 2: Im not completely sure but i would say B is correct, since SARSA uses its target policy both to choose action and to "look" (by taking the action according to the target policy) at its follow up state
Hope more people comment so the algorithm boosts your channel!
@CodeEmporium 6 місяців тому ⁺⁷
Ding ding ding! You have been paying attention :) Also thanks a ton for indulging me here. I am trying new ways to make sure this content is engaging and educational at the same time. So the more people like yourself that participate, the more I see the value in this content.
@MrFalk358 6 місяців тому
@@CodeEmporium i taking a course on rl at the moment which is quite disorganized, your content definitely helps a ton with understanding!
@0xabaki 3 місяці тому
@@CodeEmporium I love quiz time! It felt best when professors would quiz us on topics so I can re-engage.
@aitorgonzalezgonzalez9395 7 днів тому
I think i found an error in the summary, you wrote twice "Off Policy RL Algorithms". Apart from that, thanks so much for the video, it helped me a lot.
@mumbo2526 5 місяців тому
Amazing Video, thank you!
@moaaathkhalil 5 місяців тому
Well explained!
@alonsovalderramahickmann940 6 місяців тому
Very nice video man
@kiranbade9481 Місяць тому
well explained brother
@zhezhe3351 Місяць тому
Good video！there is a small typo at the summary page about on-policy
@hugeturnip3520 2 місяці тому
Thank you so much dude
@broccoli322 6 місяців тому ⁺¹
Thanks for the video! ☺
@CodeEmporium 6 місяців тому
You are very welcome :)
@user-xv9qk3iz7b 3 місяці тому

Наступне

Автоматичне відтворення

Monte Carlo in Reinforcement Learning

Monte Carlo in Reinforcement Learning

Foundation of Q-learning | Temporal Difference Learning explained!

Foundation of Q-learning | Temporal Difference Learning explained!

Building your first Neural Network

Building your first Neural Network

⚡️ Хто найбільш вірогідна ЖЕРТВА Росії після України?

⚡️ Хто найбільш вірогідна ЖЕРТВА Росії після України?

ПОЛНАЯ ИСТОРИЯ ЭКЗОРЦИЗМА [Топ Сикрет]

ПОЛНАЯ ИСТОРИЯ ЭКЗОРЦИЗМА [Топ Сикрет]

Новий концерт Єдиного Кварталу від 2 червня 2024. Повний випуск

Новий концерт Єдиного Кварталу від 2 червня 2024. Повний випуск

Притворяюсь своим СТАЛКЕР-аккаунтом в Telegram!

Притворяюсь своим СТАЛКЕР-аккаунтом в Telegram!

Exploration vs. Exploitation - Learning the Optimal Reinforcement Learning Policy

Exploration vs. Exploitation - Learning the Optimal Reinforcement Learning Policy

Q Learning simply explained | SARSA and Q-Learning Explanation

Q Learning simply explained | SARSA and Q-Learning Explanation

How to solve problems with Reinforcement Learning | Markov Decision Process

How to solve problems with Reinforcement Learning | Markov Decision Process

Monte Carlo And Off-Policy Methods | Reinforcement Learning Part 3

Monte Carlo And Off-Policy Methods | Reinforcement Learning Part 3

Bellman Equation - Explained!

Bellman Equation - Explained!

Embeddings - EXPLAINED!

Embeddings - EXPLAINED!

Q-learning - Explained!

Q-learning - Explained!

Reinforcement Learning: ChatGPT and RLHF

Reinforcement Learning: ChatGPT and RLHF

Шалений трюк із монетками від Усика

Шалений трюк із монетками від Усика

⚡"ЦЕ НЕПРИКРИТА БРЕХНЯ!"💥Лана ЗЕРКАЛЬ і підвищення тарифів на електроенергію. Де правда? Яніна знає!

⚡"ЦЕ НЕПРИКРИТА БРЕХНЯ!"💥Лана ЗЕРКАЛЬ і підвищення тарифів на електроенергію. Де правда? Яніна знає!

Історія військовослужбовця з ТЦК на Миколаївщині #shortsvideo

Історія військовослужбовця з ТЦК на Миколаївщині #shortsvideo

Дурнєв дивиться сторіс ZОМБІ #48

Дурнєв дивиться сторіс ZОМБІ #48

НОВЫЙ AMONG US в РЕАЛЬНОЙ ЖИЗНИ! Utopia Show VS Масленников

НОВЫЙ AMONG US в РЕАЛЬНОЙ ЖИЗНИ! Utopia Show VS Масленников

💥 Россия РЕАГИРУЕТ на победу Усика. "Z-патриоты" НЕ НАХОДЯТ себе места

💥 Россия РЕАГИРУЕТ на победу Усика. "Z-патриоты" НЕ НАХОДЯТ себе места

Китайка и Пчелка 4 серия😂😆

Китайка и Пчелка 4 серия😂😆

🤬🤬 ВАМ САМОЙ НЕ СМЕШНО!? ПОРТНИКОВ vs ЛАТЫНИНА - пекельна прожарка рудої імперки | реакція на дебати

🤬🤬 ВАМ САМОЙ НЕ СМЕШНО!? ПОРТНИКОВ vs ЛАТЫНИНА - пекельна прожарка рудої імперки | реакція на дебати