RE-Bench: measuring AI agents at AI R&D vs human experts

Поділитися
Вставка
  • Опубліковано 21 гру 2024

КОМЕНТАРІ • 3

  • @Think666_
    @Think666_ День тому +12

    O3 might impact this paper

    • @SamuelAlbanie1
      @SamuelAlbanie1  15 годин тому +4

      Agreed. I'm curious to see the results of the updated eval.

  • @poiitidis
    @poiitidis 18 годин тому +2

    nice