【OpenAI】强化微调ReFT | OpenAI圣诞活动Day 2 | 用强化学习技术进行微调 | o1-mini超过o1 | 评分器 | 预热和强化学习 | 取代SFT

Поділитися
Вставка
  • Опубліковано 20 гру 2024

КОМЕНТАРІ • 29

  • @ice300tw
    @ice300tw 14 годин тому +2

    哈哈哈 真的是小沈陽耶

  • @k-towncinty
    @k-towncinty 7 днів тому +1

    感觉就是SelfTaught Reasoning和Test time training的结合体

  • @adamadammisko283
    @adamadammisko283 11 днів тому

    謝謝!

  • @machaellv661
    @machaellv661 11 днів тому +2

    左一的小沈阳,我知道是你

  • @1110-d3r
    @1110-d3r 11 днів тому +1

    🎉🎉🎉❤❤❤

  • @winnerzhu
    @winnerzhu 11 днів тому +1

    沒看出來跟RL有什麼關係,這不是一般的supervised learning 嗎? 也就是Behaviour Cloning。 如果他的reasoning process 有多個step, 然後每一步都有評分機制,那還能說的通。但從example 來看,不太像,就算有reasoning 在output, 也像是一次生成的。 所以,評分器很關鍵

    • @m.m8994
      @m.m8994 10 днів тому +1

      其实我也不太理解。下游企业用是要用SFT灌注私域知识的,这种情况没办法减少微调数据量。而如果要通过强化微调对其偏好,那少量数据又如何充分描述偏好呢。
      或许对基础模型训练公司来说,RFT能够降低他们原本SFT+RLHF/DPO的数据标注和训练工作量

  • @hiucollo2402
    @hiucollo2402 11 днів тому

    Thank you 大 飞 一口氣看到尾 看完再看 🏆 🏆 🏆 🏆 🏆 ☘ 😄 🌺 🀄 😃 💐 ☕ 🌸 😁 🏵 😀 🧧 🎉 😇 🌺 😎 🎊 🏮 🍀

  • @leyu2656
    @leyu2656 10 днів тому +1

    引用论文出处为什么不介绍呢

  • @吕璐-y7o
    @吕璐-y7o 11 днів тому +4

    这个评分器是关键啊,要不然跟以前rlhf也没啥区别了

  • @kunlu7479
    @kunlu7479 11 днів тому

    讲的不错,但是要好好练英语口语,很多英文词发音都不清口音太重

  • @ruiyangxu790
    @ruiyangxu790 11 днів тому

    我没太懂啊,你训练的时候不就是用的RL吗?怎么改成预训练的时候也跑一下RL?那reward model估计都可以丢掉了,直接REFT就完了,还要什么DPO,PPO

    • @Sulzbach-dk7ov
      @Sulzbach-dk7ov 11 днів тому

      現在只開放一般的微調,沒有RL。現在是只有預訓練有RL。

    • @m.m8994
      @m.m8994 11 днів тому +3

      @@Sulzbach-dk7ov 预训练只是灌注无标签的知识,为什么要涉及RL

    • @Sulzbach-dk7ov
      @Sulzbach-dk7ov 11 днів тому +1

      @@m.m8994 不是一直都有RLHF嗎?只是現在可以用Back propagation做了。

  • @tonypang1577
    @tonypang1577 11 днів тому +1

    ReFT的论文地址有吗?

    • @bestpartners
      @bestpartners  11 днів тому +1

      arxiv.org/abs/2401.08967

    • @1110-d3r
      @1110-d3r 11 днів тому

      ​@@bestpartners 🎉🎉🎉❤❤❤

  • @fantaxifantaxi
    @fantaxifantaxi 11 днів тому

    你们都听错了,不是连续十二天,而是“是二天”,所以,然后,就没了

  • @corgirun7892
    @corgirun7892 10 днів тому

    openai那个妹子的表情很丰富嘛

  • @hzm779
    @hzm779 11 днів тому +1

    虽然我get不到这个笑话,但圣诞老人出现的十二月底,哪里都冷啊

  • @fairymewtwo1475
    @fairymewtwo1475 11 днів тому

    普通码农听不大懂啊

  • @proud_chinese_traitor
    @proud_chinese_traitor 11 днів тому +2

    我今天问了chatgpt一个问题,习近平是下一个阿萨德吗

    • @佰川施
      @佰川施 11 днів тому +1

      回答是什么

    • @Sulzbach-dk7ov
      @Sulzbach-dk7ov 11 днів тому +1

      ChatGPT最後看到的數據2023年底,他大概不知道敘利亞發生了啥。