Reinforcement Fine-Tuning-12 Days of OpenAI: Day 2

免费可用： Canvas 三大更新｜ OpenAI 12天「第4天」 | 回到Axton

telegram成品账号批发购买指南|如何购买靠谱的电报账号？在哪里可以买到telegram成品老账号，抗封耐用的飞机账号批发教程

THE AMAZING DIGITAL CIRCUS - Ep 4: Fast Food Masquerade

Анна Трінчер - Треш (Official Music Video)

УГАДАЙ КОНТЕЙНЕР - ЗАБЕРИ ТАЧКУ! Новогодний выпуск!

OpenAI 12天「第2天」｜能让 o1-mini 超越 o1 的强化微调 Reinforcement Fine-Tuning | 回到Axton

回到Axton

Переглядів 11 233

Додати в
- Мій плейлист
- Переглянути пізніше
Поділитися

Поділитися

Вставка

Розмір відео:

Показувати елементи керування програвачем

Автоматичне відтворення

Автоповтор

Опубліковано 19 гру 2024

КОМЕНТАРІ •

@kevinyang2118 13 днів тому ⁺⁵
講笑話的時候來賓的表情有夠好笑，都能看到他頭上的三條線了
@hongweiwang781 13 днів тому ⁺⁵
就是说，openAI的“软件商店”里，很快会出现各种各样的专家级微调模型可用了？
@hobbytan6841 13 днів тому ⁺²
我的理解是，除非用来强化训练这个专家模型的数据是公开的。
@jason77nhri 12 днів тому
感謝Axton老師這個這麼快的更新看影片那個是強化式的微調訓練感覺流程很簡單但是背後的流程一定很複雜
但是訓練費用很貴吧? 而且上傳的資料也要注意敏感性
@DrillingRpt 13 днів тому ⁺¹
一个同事发言，其他同事满脸浮笑，静静的注视和认真的样子，给人感觉是一个友好合作，积极向上的团队。
@marketingno1 13 днів тому ⁺⁴
能訓練自己的專業，感覺像更高階的GPT,不是給他數據即時推理，而是真正讓他學習，做出自己專屬更正確的GPT,不知道是不是這樣的意思
@allezvenga7617 13 днів тому
謝謝分享
@zhoumingmingzhou1982 11 днів тому
感觉有两个演员凑数，不如第一天的好看
@cleyang 13 днів тому
还有就是既然训练集都有标签了，为什么不用 SFT？
@光辉-e3c 5 днів тому ⁺¹
这是一个典型的监督学习，但是其实是否就是这些gens导致了罕见病，人类自己也没有绝对把握吧？
@michaelcheng2993 13 днів тому ⁺¹
播放openai影片时候，你那个背景噪音能降低就好了。謝謝
@axtonliu 13 днів тому
谢谢！下期注意
@cleyang 13 днів тому
这个和 RLHF 有什么区别?
@zhoumingmingzhou1982 11 днів тому
感觉是一回事，但这里叫做强化微调，因此数据集比较小，视频里介绍的例子才1000多条数据训练集
@fengmrstian851 13 днів тому
這厲害了，個人可以使用專家級強化學習🎉
@dansong4523 13 днів тому
智能体？
@outliertony 13 днів тому
四个技术骨干两个华人，可惜大陆没法用open AI
@eGuoSuperAlihonX 13 днів тому
放心啦，就算四個都是華人
也不會有中國人的，畢竟華為遙遙領先
@hobbytan6841 13 днів тому
搞研究开发的没几个不会翻墙 :-)
@OAAGOD 12 днів тому
就是定制化私人AI助理
@qingpingguo85 13 днів тому
这么多东亚面孔

Наступне

Автоматичне відтворення

Reinforcement Fine-Tuning-12 Days of OpenAI: Day 2

Reinforcement Fine-Tuning—12 Days of OpenAI: Day 2

免费可用： Canvas 三大更新｜ OpenAI 12天「第4天」 | 回到Axton

免费可用： Canvas 三大更新｜ OpenAI 12天「第4天」 | 回到Axton

telegram成品账号批发购买指南|如何购买靠谱的电报账号？在哪里可以买到telegram成品老账号，抗封耐用的飞机账号批发教程

telegram成品账号批发购买指南|如何购买靠谱的电报账号？在哪里可以买到telegram成品老账号，抗封耐用的飞机账号批发教程

THE AMAZING DIGITAL CIRCUS - Ep 4: Fast Food Masquerade

THE AMAZING DIGITAL CIRCUS - Ep 4: Fast Food Masquerade

Анна Трінчер - Треш (Official Music Video)

Анна Трінчер - Треш (Official Music Video)

УГАДАЙ КОНТЕЙНЕР - ЗАБЕРИ ТАЧКУ! Новогодний выпуск!

УГАДАЙ КОНТЕЙНЕР - ЗАБЕРИ ТАЧКУ! Новогодний выпуск!

Wall Rebound Challenge 🙈😱

Wall Rebound Challenge 🙈😱

200美金/月的GPT Pro，真的值吗？o1 Pro 多场景应用详测。

200美金/月的GPT Pro，真的值吗？o1 Pro 多场景应用详测。

【OpenAI】强化微调ReFT | OpenAI圣诞活动Day 2 | 用强化学习技术进行微调 | o1-mini超过o1 | 评分器 | 预热和强化学习 | 取代SFT

【OpenAI】强化微调ReFT | OpenAI圣诞活动Day 2 | 用强化学习技术进行微调 | o1-mini超过o1 | 评分器 | 预热和强化学习 | 取代SFT

02/12 days of openai：解读“强化微调”，o1 模型训练的关键

02/12 days of openai：解读“强化微调”，o1 模型训练的关键

Devin just came to take your software job… will code for $8/hr

Devin just came to take your software job… will code for $8/hr

万众期待的 SORA 震撼来临! 重点讲解 & 双语字幕 | OpenAI 12天「第 3天」 | 回到Axton

万众期待的 SORA 震撼来临! 重点讲解 & 双语字幕 | OpenAI 12天「第 3天」 | 回到Axton

谷歌的逆袭之作：实测Gemini 2.0三大核心功能，原生多模态+工具，超越当前AI助手的局限 | 回到Axton

谷歌的逆袭之作：实测Gemini 2.0三大核心功能，原生多模态+工具，超越当前AI助手的局限 | 回到Axton

Palantir PLTR 最全面的业务&护城河剖析 | 5年后万亿AI公司 | Foundry&AIP | 大数据 | 本体论Ontology | AI代理 | 可视化&去代码化 | GPT-4

Palantir PLTR 最全面的业务&护城河剖析 | 5年后万亿AI公司 | Foundry&AIP | 大数据 | 本体论Ontology | AI代理 | 可视化&去代码化 | GPT-4

NotebookLM 最全教程： AI 学习神器！一款 AI 笔记本居然让我 1 分钟变身英文播客主播 | 回到Axton

NotebookLM 最全教程： AI 学习神器！一款 AI 笔记本居然让我 1 分钟变身英文播客主播 | 回到Axton

中国经济真正的内忧和外患是什么？全球化已死？中产阶级是如何陨落的？ | 付鹏 | 高善文 | 演讲 | 对冲基金 | 消费降级 | 内需不足 | 贸易战 | 人民币贬值 | 中美关系 | 老周横眉

中国经济真正的内忧和外患是什么？全球化已死？中产阶级是如何陨落的？ | 付鹏 | 高善文 | 演讲 | 对冲基金 | 消费降级 | 内需不足 | 贸易战 | 人民币贬值 | 中美关系 | 老周横眉

How Strong Is Tape?

How Strong Is Tape?

МІША ЛЕБІГА і АНДРІЙ ЛУЗАН в СРАЧІ #32

МІША ЛЕБІГА і АНДРІЙ ЛУЗАН в СРАЧІ #32

СПОРИМ ТЫ НЕ ЗНАЕШЬ ТРИ СЛОВА НА БУКВУ О? #shortsvideo #юмор #катяклон #comedy #прикол #мамадочка

СПОРИМ ТЫ НЕ ЗНАЕШЬ ТРИ СЛОВА НА БУКВУ О? #shortsvideo #юмор #катяклон #comedy #прикол #мамадочка

Син ПОВАЛІЙ ПЛЮНУВ ЇЙ в ОБЛИЧЧЯ! Скандальне ПРИВІТАННЯ для ЗРАДНИЦІ! | OBOZ.LIFE

Син ПОВАЛІЙ ПЛЮНУВ ЇЙ в ОБЛИЧЧЯ! Скандальне ПРИВІТАННЯ для ЗРАДНИЦІ! | OBOZ.LIFE

Ветеран війни отримав гроші на житло

Ветеран війни отримав гроші на житло

ПРОВЕРКА НА ВШИВОСТЬ (смешное видео, юмор, поржать, приколы)

ПРОВЕРКА НА ВШИВОСТЬ (смешное видео, юмор, поржать, приколы)

Wall Rebound Challenge 🙈😱

Wall Rebound Challenge 🙈😱

УКРАЇНСЬКИЙ ДЕТЕКТИВ | Стоматолог. ТОП СЕРІАЛ. 1,2 серія

УКРАЇНСЬКИЙ ДЕТЕКТИВ | Стоматолог. ТОП СЕРІАЛ. 1,2 серія