Ces IA qui s'entraînent dans leur imagination

Alexandre TL

Додати в
- Мій плейлист
- Переглянути пізніше
Поділитися

Поділитися

Вставка

Розмір відео:

Показувати елементи керування програвачем

Автоматичне відтворення

Автоповтор

Опубліковано 13 жов 2024

КОМЕНТАРІ • 36

@alexandretl Рік тому ⁺⁵
J'espère que la vidéo vous a plu! N'hésitez pas à aimer ou à réagir dans les commentaires.
Quelques précisions plus techniques non abordées :
-ces méthodes, appliquées à l'apprentissage par renforcement, sont relativement récentes, et ont été introduites en 2018, voir : worldmodels.github.io/ (dont la vidéo s'inspire)
-GAIA-1, comme sous-entendu dans la vidéo, n'a pas effectué d'entraînement de politique à partir du modèle monde, contrairement à DreamerV3. En fait, en imitant les actions des humains, la politique est déjà "optimale" (si on considère que l'humain conduit de façon optimale...). Le but de GAIA-1 est de produire, en masse et de façon peu chère, des vidéos de conduite, pour plus tard entraîner des voitures autonomes. Il n'est pas clair s'ils vont réellement se servir du modèle monde autre que pour cette génération de vidéo, donc.
-Toujours pour GAIA-1, la partie "décodeur" qui produit les vidéos vues dans la vidéo est plus complexe que celle d'une simple autoencodeur, est fait intervenir un algorithme de diffusion (même principe que les modèles comme DALLE, StableDiffusion, Midjourney, ...)
-L'exploit qu'a fait DeepMind avec DreamerV3 sur Minecraft est d'autant plus impressionnant qu'ils n'ont eu pas eu besoin de relancer plusieurs fois l'entraînement pour sélectionner les paramètres de l'algorithme qui fait que tout va bien. C'est une des grandes faiblesses de l'apprentissage par renforcement : il faut souvent trouver la combinaison parfaite de paramètres, et si on l'a pas, l'entraînement est instable voir impossible. DreamerV3 est robuste à cela.
@crocodil.13 2 місяці тому
Salut, si tu lis ce commentaire, je ne comprends pas tres bien comment le modele determine si une récompense doit etre donnée dans son "imagination". Dans une interaction réelle avec le jeu, c'est ce dernier qui fournit l'info, mais dans son imagination? Je ne sais pas si c'est clair... autrement dit, comment determiner une "bonne action " dans un espace qui reste abstrait?
Si je comprends bien, le model est capable de lui meme de determiner une bonne action via son propre "vecu" dans la simulation? C'est fou
@crocodil.13 2 місяці тому
Et encore une chose, a quel moment le robot "immagine"? Il lance une sequence entre chaque decision réelle? Ca rends le nombre de recurence pour chaque action réelle enome non?
@crocodil.13 2 місяці тому
Je comprends que mes questions sont peut etre un peu simpletes pour moi qui n'est pas expert, je n'arrive pas a trouver le papier qui explique bien cela si vous pouvez m'aiguiller !
@alexandretl 2 місяці тому ⁺¹
@@crocodil.13 oui en fait on entraîne le modèle "monde" à reproduire les récompenses vues dans la réalité (en plus des autres choses qu'on lui demande, comme prédire le prochain état compressé). Cela lui permet donc comme tu le dis de savoir quelle "bonne action" prendre.
@alexandretl 2 місяці тому ⁺¹
@@crocodil.13 Oui c'est comme ça que l'algorithme de Dreamer est présenté : à chaque décision réelle observée, on lance une imagination à partir de celle-ci. En pratique ce qui est fait c'est 1) une période de récolte dans la réalité (une séquence d'un coup) 2) pour chaque état rencontré dans la réalité, lancer une imagination
Donc oui ça fait beaucoup mais le modèle monde est assez gourmand en données
@quiche1936 Рік тому ⁺⁸
Ça m'a toujours rendu fou le nombre de petits youtubeurs très quali mais que personne ne connait
@crocodil.13 7 місяців тому
Ils sont durs à trouver mais quand on en trouve un on ne le lâche plus
@Aminoquiz 16 днів тому
Super vidéo. J'ai été surpris en découvrant ta chaîne, c'est quali et clair (en tout cas pour qqun dans le domaine) bravo.
À la fin de la video tu dis que tu compte faire d'autres vidéos avec l'implémentation. Tu parles de l'implémentation d'un algo avec modèle de monde etc ou pas ? Si oui, est-ce que tu en as fais la vidéo ?
@alexandretl 16 днів тому
Merci pour ton retour ça fait très plaisir! Oui je parlais des algo avec modèle monde, là je suis en train de reprendre la série sur le RL (partie III, deep RL), je pense qu'après ça je pourrais revenir sur les modèles monde
@Aminoquiz 16 днів тому
@@alexandretl Okie, j'ai rien loupé alors!
Keep up, c'est du bon travail ça se voit
@JetyWorld Рік тому ⁺²
Vidéo super intéressante, j'espère que tu en feras d'autres sur ce sujet passionnant. Continue comme ça
@alexandretl Рік тому ⁺¹
Merci beaucoup
@HerosPlaying Рік тому
Vidéo intérêssante, bonne élocution mais manque de musique de fond pour que ce soir plus agréable je trouve. Continues !
@alexandretl Рік тому
Merci beaucoup ! Ok c'est noté pour le retour
@Redro_ Рік тому
Incroyable vidéo ! (quelle est ta chaine YT plus technique ?)
@alexandretl Рік тому ⁺¹
Merci! C'est celle-ci (il y a déjà 3 séries de vidéos techniques, d'autres arrivent)
@crocodil.13 2 місяці тому
Quand j'y penses... un gros modele du genre doublé d'un ssm qui fonctionne bien, pourrait vraiment etre une techno de rupture...j'espere que ca sera pour bientot
@tetuaoro 11 місяців тому
Merci pour cette vidéo.
@TheRemiRODRIGUES Рік тому
Super intéressant !
Merci pour la vidéo !
@LatelierdArmand 11 місяців тому ⁺¹
banger :)
@zozodejante8350 Рік тому
Super video incroyable où est ce que tu apprends tout ça ?
@alexandretl Рік тому
Un grand merci! Tout vient d'internet, surtout des blog posts (anglais)
@jgcb0071 Рік тому
Très très intéressant merci !
@shaihalimi9102 Рік тому
Fascinant
@bause6182 7 місяців тому
Pourquoi on utilise pas ce principe pour faire un générateur de vidéos ?
@alexandretl 7 місяців тому ⁺¹
pour générer des vidéos on n'a très rarement accès aux "actions" prises lorsque la vidéo a été tournée, le cas de Wayve est très particulier puisque c'était des véhicules équipés de capteurs. on ne peut pas déterminer automatiquement les actions prises (en fait, il y a une semaine, un papier est sorti qui faisait justement ça, déterminer les actions automatiquement, ça s'appelle Genie par DeepMind c'est assez pointu et encore limité)
@bause6182 6 місяців тому
@@alexandretlMerci pour l'explication , c'était interessant je vais consulter le papier de deepmind
@virolengin1841 10 місяців тому
Whaou
@blabla199498 Рік тому
hello cette ia pourrait jouer avec d'autres joueurs?
@alexandretl Рік тому ⁺¹
Pas telle quelle puisqu'elle n'a jamais vu d'autres joueurs dans le jeu, mais si on lui fournissait du gameplay où d'autres joueurs se trouvent, alors oui.

Наступне

Автоматичне відтворення

Pourquoi ChatGPT connait vos attentes et préférences