OpenAI 12天「第2天」| 能让 o1-mini 超越 o1 的强化微调 Reinforcement Fine-Tuning | 回到Axton

Поділитися
Вставка
  • Опубліковано 19 гру 2024

КОМЕНТАРІ •

  • @kevinyang2118
    @kevinyang2118 13 днів тому +5

    講笑話的時候來賓的表情有夠好笑,都能看到他頭上的三條線了

  • @hongweiwang781
    @hongweiwang781 13 днів тому +5

    就是说,openAI的“软件商店”里,很快会出现各种各样的专家级微调模型可用了?

    • @hobbytan6841
      @hobbytan6841 13 днів тому +2

      我的理解是,除非用来强化训练这个专家模型的数据是公开的。

  • @jason77nhri
    @jason77nhri 12 днів тому

    感謝Axton老師這個這麼快的更新 看影片那個是強化式的微調訓練 感覺流程很簡單 但是背後的流程一定很複雜
    但是訓練費用很貴吧? 而且上傳的資料也要注意敏感性

  • @DrillingRpt
    @DrillingRpt 13 днів тому +1

    一个同事发言,其他同事满脸浮笑,静静的注视和认真的样子,给人感觉是一个友好合作,积极向上的团队。

  • @marketingno1
    @marketingno1 13 днів тому +4

    能訓練自己的專業,感覺像更高階的GPT,不是給他數據即時推理,而是真正讓他學習,做出自己專屬更正確的GPT,不知道是不是這樣的意思

  • @allezvenga7617
    @allezvenga7617 13 днів тому

    謝謝分享

  • @zhoumingmingzhou1982
    @zhoumingmingzhou1982 11 днів тому

    感觉有两个演员凑数,不如第一天的好看

  • @cleyang
    @cleyang 13 днів тому

    还有就是既然训练集都有标签了,为什么不用 SFT?

  • @光辉-e3c
    @光辉-e3c 5 днів тому +1

    这是一个典型的监督学习,但是其实是否就是这些gens导致了罕见病,人类自己也没有绝对把握吧?

  • @michaelcheng2993
    @michaelcheng2993 13 днів тому +1

    播放openai影片时候,你那个背景噪音能降低就好了。謝謝

    • @axtonliu
      @axtonliu  13 днів тому

      谢谢!下期注意

  • @cleyang
    @cleyang 13 днів тому

    这个和 RLHF 有什么区别?

    • @zhoumingmingzhou1982
      @zhoumingmingzhou1982 11 днів тому

      感觉是一回事,但这里叫做强化微调,因此数据集比较小,视频里介绍的例子才1000多条数据训练集

  • @fengmrstian851
    @fengmrstian851 13 днів тому

    這厲害了,個人可以使用專家級強化學習🎉

  • @dansong4523
    @dansong4523 13 днів тому

    智能体?

  • @outliertony
    @outliertony 13 днів тому

    四个技术骨干两个华人,可惜大陆没法用open AI

    • @eGuoSuperAlihonX
      @eGuoSuperAlihonX 13 днів тому

      放心啦,就算四個都是華人
      也不會有中國人的,畢竟華為遙遙領先

    • @hobbytan6841
      @hobbytan6841 13 днів тому

      搞研究开发的没几个不会翻墙 :-)

  • @OAAGOD
    @OAAGOD 12 днів тому

    就是定制化私人AI助理

  • @qingpingguo85
    @qingpingguo85 13 днів тому

    这么多东亚面孔