Large Language Models from scratch

Reinforcement Learning from scratch

But what is a GPT? Visual intro to transformers | Chapter 5, Deep Learning

Дружина загиблого азовця, яка переїхала з Росії, розповіла про відношення до РФ

Сакура із свічки

БОНДАРЕНКО: БУДУТ КОЛОССАЛЬНЫЕ ЖЕРТВЫ! ВЛАСТЬ ОБМАНУЛИ! ЗЕЛЕНСКИЙ СРОЧНО ОТМЕНИТ УКАЗ...

Reinforcement Learning: ChatGPT and RLHF

Graphics in 5 Minutes

Переглядів 7 330

Додати в
- Мій плейлист
- Переглянути пізніше
Поділитися

Поділитися

Вставка

Розмір відео:

Показувати елементи керування програвачем

Автоматичне відтворення

Автоповтор

Опубліковано 15 тра 2024
Reinforcement Learning from human feedback, and how it's used to help train large language models like ChatGPT.
Part 3 of RL from scratch series.
• Reinforcement Learning...
0:00 - intro
0:06 - large language models
0:35 - learning to tell jokes
1:13 - fine tuning with better data
1:26 - positive and negative examples
2:03 - reinforcement learning for LLMs
3:00 - labeling fewer examples
3:56 - reward networks
5:08 - summing it up
5:23 - variants
5:57 - chatGPT, Bard, Claude, Llama
6:09 - finally, a good joke!

КОМЕНТАРІ • 11

@user-cm5es5kk7j 15 днів тому ⁺¹
help me a lot, can't wait to see more
@pegasusbupt 7 місяців тому ⁺²
Amazing content! Please keep them coming!
@jasonpmorrison 7 місяців тому ⁺¹
Super helpful - thank you for this series!
@ireoluwaTH 9 місяців тому ⁺¹
Welcome back!
Hope to see more of these videos..
@tuulymusic3856 Місяць тому ⁺¹
Please come back, your videos are great!
@RaulMartinezRME 9 місяців тому ⁺¹
Great content!!
@0xeb- 9 місяців тому ⁺¹
Good teaching.
@0xeb- 9 місяців тому ⁺¹
How long it takes to train a reward network? And how reliable would it be?
@vamsinadh100 6 місяців тому ⁺¹
You are the Best
@stayhappy-forever 18 днів тому ⁺¹
come back :(
@onhazrat 9 місяців тому
🎯 Key Takeaways for quick navigation:
00:00 🤖 Reinforcement learning improves large language models like ChatGPT.
00:25 🃏 Large language models face issues like bias, errors, and quality.
01:11 📊 Training data quality impacts results; removing bad jokes might help.
01:55 🧩 Training on both good and bad jokes improves language models.
02:38 🔄 Language models are policies, reinforcement learning uses policy gradient.
03:08 🎯 Reinforcement Learning from Human Feedback (RLHF) challenges data acquisition.
03:35 🤔 RLHF theory: Language model might already know jokes' boundary.
04:18 🏆 Training a reward network predicts human ratings for model's output.
04:47 🔄 Reward network is a modified language model for predicting ratings.
05:14 📝 Approach: Humans write text, train reward network, refine model with RL.
05:57 ⚖️ Systems convert comparisons to ratings for reward network training.
06:11 😄 RLHF successfully improves language models, including humor.
Made with HARPA AI

Наступне

Автоматичне відтворення

Large Language Models from scratch

Large Language Models from scratch

Reinforcement Learning from scratch

Reinforcement Learning from scratch

But what is a GPT? Visual intro to transformers | Chapter 5, Deep Learning

But what is a GPT? Visual intro to transformers | Chapter 5, Deep Learning

Дружина загиблого азовця, яка переїхала з Росії, розповіла про відношення до РФ

Дружина загиблого азовця, яка переїхала з Росії, розповіла про відношення до РФ

Сакура із свічки

Сакура із свічки

БОНДАРЕНКО: БУДУТ КОЛОССАЛЬНЫЕ ЖЕРТВЫ! ВЛАСТЬ ОБМАНУЛИ! ЗЕЛЕНСКИЙ СРОЧНО ОТМЕНИТ УКАЗ...

БОНДАРЕНКО: БУДУТ КОЛОССАЛЬНЫЕ ЖЕРТВЫ! ВЛАСТЬ ОБМАНУЛИ! ЗЕЛЕНСКИЙ СРОЧНО ОТМЕНИТ УКАЗ...

ТОРТ ИЛИ ФЕЙК ЧЕЛЛЕНДЖ! (99.8% НЕ УГАДАЮТ) 🍰#Shorts #Глент

ТОРТ ИЛИ ФЕЙК ЧЕЛЛЕНДЖ! (99.8% НЕ УГАДАЮТ) 🍰#Shorts #Глент

Reinforcement Learning from Human Feedback Explained (and RLAIF)

Reinforcement Learning from Human Feedback Explained (and RLAIF)

Reinforcement Learning with Human Feedback - How to train and fine-tune Transformer Models

Reinforcement Learning with Human Feedback - How to train and fine-tune Transformer Models

Building a neural network FROM SCRATCH (no Tensorflow/Pytorch, just numpy & math)

Building a neural network FROM SCRATCH (no Tensorflow/Pytorch, just numpy & math)

Reinforcement Learning from Human Feedback (Natural Language Processing at UT Austin)

Reinforcement Learning from Human Feedback (Natural Language Processing at UT Austin)

OpenAI SHOCKED Everyone! Voice, Vision, & Free?!

OpenAI SHOCKED Everyone! Voice, Vision, & Free?!

AI Learns to Walk (deep reinforcement learning)

AI Learns to Walk (deep reinforcement learning)

What is Retrieval-Augmented Generation (RAG)?

What is Retrieval-Augmented Generation (RAG)?

Large Language Models: Part 2

Large Language Models: Part 2

Text to Image in 5 minutes: Parti, Dall-E 2, Imagen

Text to Image in 5 minutes: Parti, Dall-E 2, Imagen

Естонія СМАЖИТЬ облудний РУССКИЙ МИР. Плакат ДИКТАТОРА путина, у росіян ПАЛАЄ

Естонія СМАЖИТЬ облудний РУССКИЙ МИР. Плакат ДИКТАТОРА путина, у росіян ПАЛАЄ

Невістка | Український серіал про справжнє кохання | Серія 1 (2024)

Невістка | Український серіал про справжнє кохання | Серія 1 (2024)

Nemo - The Code (LIVE) | Switzerland🇨🇭| Grand Final | Eurovision 2024

Nemo - The Code (LIVE) | Switzerland🇨🇭| Grand Final | Eurovision 2024

Новий концерт Єдиного Кварталу від 12 травня 2024. Повний випуск

Новий концерт Єдиного Кварталу від 12 травня 2024. Повний випуск

Сакура із свічки

Сакура із свічки

Moyens bizarres et cool de faire entrer des bonbons sans se faire prendre

Moyens bizarres et cool de faire entrer des bonbons sans se faire prendre

Поруч з могилою збудували Каховське водосховище | #УПошукахІстини #Сірко #історія

Поруч з могилою збудували Каховське водосховище | #УПошукахІстини #Сірко #історія

نصائح للعناية المنزلية للحصول على قدمين جميلتين وناعمتين 👣

نصائح للعناية المنزلية للحصول على قدمين جميلتين وناعمتين 👣