Розмір відео: 1280 X 720853 X 480640 X 360
Показувати елементи керування програвачем
Автоматичне відтворення
Автоповтор
哈哈哈 真的是小沈陽耶
感觉就是SelfTaught Reasoning和Test time training的结合体
謝謝!
感谢支持🙏
左一的小沈阳,我知道是你
🎉🎉🎉❤❤❤
沒看出來跟RL有什麼關係,這不是一般的supervised learning 嗎? 也就是Behaviour Cloning。 如果他的reasoning process 有多個step, 然後每一步都有評分機制,那還能說的通。但從example 來看,不太像,就算有reasoning 在output, 也像是一次生成的。 所以,評分器很關鍵
其实我也不太理解。下游企业用是要用SFT灌注私域知识的,这种情况没办法减少微调数据量。而如果要通过强化微调对其偏好,那少量数据又如何充分描述偏好呢。或许对基础模型训练公司来说,RFT能够降低他们原本SFT+RLHF/DPO的数据标注和训练工作量
Thank you 大 飞 一口氣看到尾 看完再看 🏆 🏆 🏆 🏆 🏆 ☘ 😄 🌺 🀄 😃 💐 ☕ 🌸 😁 🏵 😀 🧧 🎉 😇 🌺 😎 🎊 🏮 🍀
引用论文出处为什么不介绍呢
视频简介里有
这个评分器是关键啊,要不然跟以前rlhf也没啥区别了
讲的不错,但是要好好练英语口语,很多英文词发音都不清口音太重
我没太懂啊,你训练的时候不就是用的RL吗?怎么改成预训练的时候也跑一下RL?那reward model估计都可以丢掉了,直接REFT就完了,还要什么DPO,PPO
現在只開放一般的微調,沒有RL。現在是只有預訓練有RL。
@@Sulzbach-dk7ov 预训练只是灌注无标签的知识,为什么要涉及RL
@@m.m8994 不是一直都有RLHF嗎?只是現在可以用Back propagation做了。
ReFT的论文地址有吗?
arxiv.org/abs/2401.08967
@@bestpartners 🎉🎉🎉❤❤❤
你们都听错了,不是连续十二天,而是“是二天”,所以,然后,就没了
openai那个妹子的表情很丰富嘛
虽然我get不到这个笑话,但圣诞老人出现的十二月底,哪里都冷啊
南半球: am I a joke to you?
普通码农听不大懂啊
我今天问了chatgpt一个问题,习近平是下一个阿萨德吗
回答是什么
ChatGPT最後看到的數據2023年底,他大概不知道敘利亞發生了啥。
哈哈哈 真的是小沈陽耶
感觉就是SelfTaught Reasoning和Test time training的结合体
謝謝!
感谢支持🙏
左一的小沈阳,我知道是你
🎉🎉🎉❤❤❤
沒看出來跟RL有什麼關係,這不是一般的supervised learning 嗎? 也就是Behaviour Cloning。 如果他的reasoning process 有多個step, 然後每一步都有評分機制,那還能說的通。但從example 來看,不太像,就算有reasoning 在output, 也像是一次生成的。 所以,評分器很關鍵
其实我也不太理解。下游企业用是要用SFT灌注私域知识的,这种情况没办法减少微调数据量。而如果要通过强化微调对其偏好,那少量数据又如何充分描述偏好呢。
或许对基础模型训练公司来说,RFT能够降低他们原本SFT+RLHF/DPO的数据标注和训练工作量
Thank you 大 飞 一口氣看到尾 看完再看 🏆 🏆 🏆 🏆 🏆 ☘ 😄 🌺 🀄 😃 💐 ☕ 🌸 😁 🏵 😀 🧧 🎉 😇 🌺 😎 🎊 🏮 🍀
引用论文出处为什么不介绍呢
视频简介里有
视频简介里有
这个评分器是关键啊,要不然跟以前rlhf也没啥区别了
讲的不错,但是要好好练英语口语,很多英文词发音都不清口音太重
我没太懂啊,你训练的时候不就是用的RL吗?怎么改成预训练的时候也跑一下RL?那reward model估计都可以丢掉了,直接REFT就完了,还要什么DPO,PPO
現在只開放一般的微調,沒有RL。現在是只有預訓練有RL。
@@Sulzbach-dk7ov 预训练只是灌注无标签的知识,为什么要涉及RL
@@m.m8994 不是一直都有RLHF嗎?只是現在可以用Back propagation做了。
ReFT的论文地址有吗?
arxiv.org/abs/2401.08967
@@bestpartners 🎉🎉🎉❤❤❤
你们都听错了,不是连续十二天,而是“是二天”,所以,然后,就没了
openai那个妹子的表情很丰富嘛
虽然我get不到这个笑话,但圣诞老人出现的十二月底,哪里都冷啊
南半球: am I a joke to you?
普通码农听不大懂啊
我今天问了chatgpt一个问题,习近平是下一个阿萨德吗
回答是什么
ChatGPT最後看到的數據2023年底,他大概不知道敘利亞發生了啥。