【人工智能】什么是强化学习中的奖励黑客 | Reward Hacking | OpenAI前安全主管翁荔最新长文 | 奖励函数 | RLHF | 古德哈特定律 | ICRH | 缓释措施

Поділитися
Вставка
  • Опубліковано 20 гру 2024

КОМЕНТАРІ • 31

  • @LineXiongJieLin
    @LineXiongJieLin 14 днів тому +3

    这篇也看完了👍,更新的好勤快

  • @ice300tw
    @ice300tw 17 годин тому +2

    這問題還滿可怕的

  • @Guavaava
    @Guavaava 14 днів тому +23

    翻译成奖励黑客有点怪。可能翻译成奖励滥用,奖励破解失效之类的更好

    • @bestpartners
      @bestpartners  14 днів тому +3

      谢谢建议🙏

    • @harveywang8020
      @harveywang8020 14 днів тому +1

      羊毛党

    • @Bing.W
      @Bing.W 14 днів тому +1

      ”奖励攻击”,对模型训练的攻击。

    • @LineXiongJieLin
      @LineXiongJieLin 14 днів тому +1

      这个翻译应该是对应life hacker

    • @riverwang5482
      @riverwang5482 14 днів тому +3

      Hacking 指利用某物到超过其设计的初衷。翻成黑客最大问题是中文中黑客是人,但hacking是个动作,所以听着会有误解。楼上说的“滥用”应该是更好的翻译。

  • @尘戈
    @尘戈 13 днів тому +1

    奖励的本质其实是引导。
    既然是引导,就应该是一条线而不是一个点。可能递进的很多个奖励函数,才能成就良好的引导之路😊

  • @ilovetrees-k1i
    @ilovetrees-k1i 13 днів тому +1

    hack不仅仅有黑客这么一个意思,还有创新之举这样的“正面”意思

  • @卡神-o2n
    @卡神-o2n 14 днів тому +1

    謝謝

  • @pensularnaseeare9531
    @pensularnaseeare9531 14 днів тому +1

    第一个想到的就是高考

  • @happyying_
    @happyying_ 14 днів тому +3

    獎勵駭客就像「考試作弊」,AI找到了捷徑,但沒有真正學會知識。
    AI就像一個「狡猾的學生」,總想鑽規則的空子。

  • @stan-kk2sf
    @stan-kk2sf 14 днів тому +2

    通过reward来训练模型本身就是极其不靠谱的事情,如果没法从真实世界采样,不管怎么reward绝对会在某个地方hacking住,现在还能让你观察到,模型更大了到嵌入层次更高的时候想观察都不知道该怎么观察

    • @corgirun7892
      @corgirun7892 9 днів тому

      真实世界一样能被hacking

  • @1110-d3r
    @1110-d3r 14 днів тому +1

    🎉🎉🎉❤❤❤

  • @kmkwong
    @kmkwong 14 днів тому

    👍👍👏👏

  • @chenyeshao3887
    @chenyeshao3887 14 днів тому +1

    AI投机取巧😂

  • @BigggRicee
    @BigggRicee 14 днів тому +1

    臥槽 看封面我還以爲是蔣聖呢,就無腦點進來了😃😃

  • @SOUL_SOFALEX
    @SOUL_SOFALEX 14 днів тому +1

    我想,這就是為什麼人會持續尋找新事物/stimulation, 久了又會感到無聊的原因吧,不然人也會進入「reward hacking」的狀態。

    • @SOUL_SOFALEX
      @SOUL_SOFALEX 14 днів тому

      換言之,機器也需要類似的機制: desire for reward - motivate 持續尋找刺激(得到 reward) - 同個刺激給予的reward 逐漸減少 - motivate 尋找新的刺激 。同時,過去接觸過的刺激能給予的reward 的量會稍微恢復 - 新刺激給予的reward 逐漸減少 - motivate 尋找新的刺激,以此往復。

  • @corgirun7892
    @corgirun7892 10 днів тому

    还好没去字节跳动

  • @deter3
    @deter3 14 днів тому +3

    翁荔 写的东西一向都是类似论文的survey 一样, 总结的很好,缺乏自己的独特深入的见解和方案。 技术研究的深度一般般。

    • @ilovetrees-k1i
      @ilovetrees-k1i 13 днів тому

      review大师,笔记记得好😂

    • @corgirun7892
      @corgirun7892 9 днів тому

      作为技术管理者,这其实才是更重要的。她已经是openai的安全副总裁了

  • @leishi8514
    @leishi8514 7 днів тому +1

    看完觉得比教小孩难多了

  • @hiucollo2402
    @hiucollo2402 14 днів тому

    Thank you 大 飞 一口氣看到尾 看完再看 🏆 🏆 🏆 🏆 🏆 ☘ 😄 🌺 🀄 😃 💐 ☕ 🌸 😁 🏵 😀 🧧 🎉 😇 🌺 😎 🎊 🏮 🍀

  • @scchen2011
    @scchen2011 14 днів тому +1

    第三!