Ces IA qui s'entraînent dans leur imagination

Поділитися
Вставка
  • Опубліковано 13 жов 2024

КОМЕНТАРІ • 36

  • @alexandretl
    @alexandretl  Рік тому +5

    J'espère que la vidéo vous a plu! N'hésitez pas à aimer ou à réagir dans les commentaires.
    Quelques précisions plus techniques non abordées :
    -ces méthodes, appliquées à l'apprentissage par renforcement, sont relativement récentes, et ont été introduites en 2018, voir : worldmodels.github.io/ (dont la vidéo s'inspire)
    -GAIA-1, comme sous-entendu dans la vidéo, n'a pas effectué d'entraînement de politique à partir du modèle monde, contrairement à DreamerV3. En fait, en imitant les actions des humains, la politique est déjà "optimale" (si on considère que l'humain conduit de façon optimale...). Le but de GAIA-1 est de produire, en masse et de façon peu chère, des vidéos de conduite, pour plus tard entraîner des voitures autonomes. Il n'est pas clair s'ils vont réellement se servir du modèle monde autre que pour cette génération de vidéo, donc.
    -Toujours pour GAIA-1, la partie "décodeur" qui produit les vidéos vues dans la vidéo est plus complexe que celle d'une simple autoencodeur, est fait intervenir un algorithme de diffusion (même principe que les modèles comme DALLE, StableDiffusion, Midjourney, ...)
    -L'exploit qu'a fait DeepMind avec DreamerV3 sur Minecraft est d'autant plus impressionnant qu'ils n'ont eu pas eu besoin de relancer plusieurs fois l'entraînement pour sélectionner les paramètres de l'algorithme qui fait que tout va bien. C'est une des grandes faiblesses de l'apprentissage par renforcement : il faut souvent trouver la combinaison parfaite de paramètres, et si on l'a pas, l'entraînement est instable voir impossible. DreamerV3 est robuste à cela.

    • @crocodil.13
      @crocodil.13 2 місяці тому

      Salut, si tu lis ce commentaire, je ne comprends pas tres bien comment le modele determine si une récompense doit etre donnée dans son "imagination". Dans une interaction réelle avec le jeu, c'est ce dernier qui fournit l'info, mais dans son imagination? Je ne sais pas si c'est clair... autrement dit, comment determiner une "bonne action " dans un espace qui reste abstrait?
      Si je comprends bien, le model est capable de lui meme de determiner une bonne action via son propre "vecu" dans la simulation? C'est fou

    • @crocodil.13
      @crocodil.13 2 місяці тому

      Et encore une chose, a quel moment le robot "immagine"? Il lance une sequence entre chaque decision réelle? Ca rends le nombre de recurence pour chaque action réelle enome non?

    • @crocodil.13
      @crocodil.13 2 місяці тому

      Je comprends que mes questions sont peut etre un peu simpletes pour moi qui n'est pas expert, je n'arrive pas a trouver le papier qui explique bien cela si vous pouvez m'aiguiller !

    • @alexandretl
      @alexandretl  2 місяці тому +1

      @@crocodil.13 oui en fait on entraîne le modèle "monde" à reproduire les récompenses vues dans la réalité (en plus des autres choses qu'on lui demande, comme prédire le prochain état compressé). Cela lui permet donc comme tu le dis de savoir quelle "bonne action" prendre.

    • @alexandretl
      @alexandretl  2 місяці тому +1

      @@crocodil.13 Oui c'est comme ça que l'algorithme de Dreamer est présenté : à chaque décision réelle observée, on lance une imagination à partir de celle-ci. En pratique ce qui est fait c'est 1) une période de récolte dans la réalité (une séquence d'un coup) 2) pour chaque état rencontré dans la réalité, lancer une imagination
      Donc oui ça fait beaucoup mais le modèle monde est assez gourmand en données

  • @quiche1936
    @quiche1936 Рік тому +8

    Ça m'a toujours rendu fou le nombre de petits youtubeurs très quali mais que personne ne connait

    • @crocodil.13
      @crocodil.13 7 місяців тому

      Ils sont durs à trouver mais quand on en trouve un on ne le lâche plus

  • @Aminoquiz
    @Aminoquiz 16 днів тому

    Super vidéo. J'ai été surpris en découvrant ta chaîne, c'est quali et clair (en tout cas pour qqun dans le domaine) bravo.
    À la fin de la video tu dis que tu compte faire d'autres vidéos avec l'implémentation. Tu parles de l'implémentation d'un algo avec modèle de monde etc ou pas ? Si oui, est-ce que tu en as fais la vidéo ?

    • @alexandretl
      @alexandretl  16 днів тому

      Merci pour ton retour ça fait très plaisir! Oui je parlais des algo avec modèle monde, là je suis en train de reprendre la série sur le RL (partie III, deep RL), je pense qu'après ça je pourrais revenir sur les modèles monde

    • @Aminoquiz
      @Aminoquiz 16 днів тому

      @@alexandretl Okie, j'ai rien loupé alors!
      Keep up, c'est du bon travail ça se voit

  • @JetyWorld
    @JetyWorld Рік тому +2

    Vidéo super intéressante, j'espère que tu en feras d'autres sur ce sujet passionnant. Continue comme ça

  • @HerosPlaying
    @HerosPlaying Рік тому

    Vidéo intérêssante, bonne élocution mais manque de musique de fond pour que ce soir plus agréable je trouve. Continues !

    • @alexandretl
      @alexandretl  Рік тому

      Merci beaucoup ! Ok c'est noté pour le retour

  • @Redro_
    @Redro_ Рік тому

    Incroyable vidéo ! (quelle est ta chaine YT plus technique ?)

    • @alexandretl
      @alexandretl  Рік тому +1

      Merci! C'est celle-ci (il y a déjà 3 séries de vidéos techniques, d'autres arrivent)

  • @crocodil.13
    @crocodil.13 2 місяці тому

    Quand j'y penses... un gros modele du genre doublé d'un ssm qui fonctionne bien, pourrait vraiment etre une techno de rupture...j'espere que ca sera pour bientot

  • @tetuaoro
    @tetuaoro 11 місяців тому

    Merci pour cette vidéo.

  • @TheRemiRODRIGUES
    @TheRemiRODRIGUES Рік тому

    Super intéressant !
    Merci pour la vidéo !

  • @LatelierdArmand
    @LatelierdArmand 11 місяців тому +1

    banger :)

  • @zozodejante8350
    @zozodejante8350 Рік тому

    Super video incroyable où est ce que tu apprends tout ça ?

    • @alexandretl
      @alexandretl  Рік тому

      Un grand merci! Tout vient d'internet, surtout des blog posts (anglais)

  • @jgcb0071
    @jgcb0071 Рік тому

    Très très intéressant merci !

  • @shaihalimi9102
    @shaihalimi9102 Рік тому

    Fascinant

  • @bause6182
    @bause6182 7 місяців тому

    Pourquoi on utilise pas ce principe pour faire un générateur de vidéos ?

    • @alexandretl
      @alexandretl  7 місяців тому +1

      pour générer des vidéos on n'a très rarement accès aux "actions" prises lorsque la vidéo a été tournée, le cas de Wayve est très particulier puisque c'était des véhicules équipés de capteurs. on ne peut pas déterminer automatiquement les actions prises (en fait, il y a une semaine, un papier est sorti qui faisait justement ça, déterminer les actions automatiquement, ça s'appelle Genie par DeepMind c'est assez pointu et encore limité)

    • @bause6182
      @bause6182 6 місяців тому

      ​@@alexandretlMerci pour l'explication , c'était interessant je vais consulter le papier de deepmind

  • @virolengin1841
    @virolengin1841 10 місяців тому

    Whaou

  • @blabla199498
    @blabla199498 Рік тому

    hello cette ia pourrait jouer avec d'autres joueurs?

    • @alexandretl
      @alexandretl  Рік тому +1

      Pas telle quelle puisqu'elle n'a jamais vu d'autres joueurs dans le jeu, mais si on lui fournissait du gameplay où d'autres joueurs se trouvent, alors oui.