Comprendre JEPA et ses limites - Yann LeCun, Energy Based model, MPC & RL - Chronique d'une IA #3

Поділитися
Вставка
  • Опубліковано 13 кві 2024
  • #jepa #ia #agi
    Patreon : / membership
    Dans cette nouvelle vidéo je vous présente mes réflexions autour de l'approche proposé par Yann LeCun : JEPA dans son papier original : A Path Towards Autonomous Machine Intelligence. Ces idées remettent en cause de nombreuses méthodes généralement utilisées : Les approches générative, probabiliste, contrastive & le RL. Je vous présente mon prisme d'analyse et les raisons pour lesquelles je pense que JEPA n'est pas la seul solution pour progresser en direction d'une machine autonome intelligente.
    [Chronique d'une IA]
    Spotify : open.spotify.com/show/5yTTTKf...
    Amazon music : music.amazon.fr/podcasts/5097...
    Apple Podcasts: podcasts.apple.com/us/podcast...
    [About me]
    Visual Behavior : visualbehavior.ai
    Perso : www.thibaultneveu.ai/
    Github : github.com/thibo73800
    Linkedin : / thibaultneveu
    Twitter : / thiboneveu
  • Наука та технологія

КОМЕНТАРІ • 27

  • @yacinezahidi7206
    @yacinezahidi7206 2 місяці тому +8

    Contenu de très haute qualité merci Thibault ! J'aurais apprécié plus de représentations graphiques

  • @xavierfolch2814
    @xavierfolch2814 2 місяці тому +2

    Merci de cette nouvelle vidéo. Quelques liens sur les modèles à énergie, les papiers / interviews cités auraient été super:)

  • @user-ky9vw8hx7y
    @user-ky9vw8hx7y 2 місяці тому +3

    Perso je pense pas que JEPA soit la finalité, mais je suis d'accord avec Lecun sur le fait qu'il faudra probablement passer par l'apprentissage basé sur l'image et la vidéo ainsi que le "unsupervised learning" pour créer une IA avec un world model solide.
    Les méthodes actuelles basées sur le texte sont extrêmement utiles pour la synthèse d'information et pour effectuer des raisonnement pas trop poussées, mais pour réellement comprendre le monde je pense que le texte n'est pas suffisant.
    La raison est que comme le dit Lecun, la majorité de nos connaissances viennent de l'observation et non pas du texte. Les maths et autres sciences sont "découvertes" d'abord par observation avant d'être exprimé en texte et formules mathématiques. De plus, on a déduis la majorité de nos connaissances de manière non supervisé. Ce n'est pas une personne qui a dû nous expliquer qu'un objet va tomber au sol si on le lâche par exemple.
    Une IA qui n'a été exposée qu'à du texte (ou en "trichant" en transformant les images en texte comme le font certains LLMs) ne pourra probablement pas arriver à une compréhension suffisante du monde pour ne serait-ce que s'approcher d'une AGI. Par contre, une IA qui comprend les données visuelles pourrait en théorie apprendre comment transposer ses connaissances en texte. C'est un peu comme ca que même nous les humains avons appris d'ailleurs non ? On s'est d'abord bâtit une compréhension plus ou moins solide du monde par vision puis on a été exposé au format textuel.
    Donc oui, JEPA n'est pas optimisé pour le texte et peut-être même que ce ne sera pas JEPA qui permettra de créer une IA pouvant à la fois gérer le texte et comprendre le monde. Mais mon humble opinion est que dans le futur les IA qui pourront faire ces 2 choses en même temps, càd gérer le texte tout en ayant une vraie compréhension du monde, reposeront sur des techniques similaires à JEPA soit des techniques basées sur l'observation et le unsupervised learning.

    • @filsessoki34
      @filsessoki34 2 місяці тому +1

      Bonjour merci pour ton dev c'est justement comme ça que les enfants apprennent. Mais tu ne pense pas que l'évolution de la loi de Moore et les futurs puces d'invidia n'inverseront pas le phénomène? C'est à dire en comprenant les images et l'environnement à partir du texte? Je crois que c'est ce que Elon musk à peur

    • @user-ky9vw8hx7y
      @user-ky9vw8hx7y 2 місяці тому +1

      @@filsessoki34 C'est possible mais je n'y crois vraiment pas. Le texte est un format très compressé de la réalité. Lecun répète souvent que même lorsqu'on prend la totalité des informations que un LLM a tiré de tous les textes qu'il a lu (et à ce stade les LLMs ont quasiment écumé internet), ca reste bien inférieure à la quantité d'information qu'un bébé aura tiré du monde à partir de sa vision seulement quelques mois après sa naissance.
      On ne peut pas tout décrire avec du texte. En fait quand on y pense, on omet 99.99% de l'information lorsqu'on écrit. Admettons que je veux raconter à une personne une mésaventure que j'ai eu lorsque j'étais saoul. Je pourrais dire qqch comme "alors que j'étais saoul, j'ai eu de la difficulté à saisir mon verre et je l'ai malencontreusement renversé au sol".
      Mais en fait cette description est très loin de la réalité. En réalité, il faudrait plutôt dire qqch comme "alors que j'étais saoul, j'ai tenté d'agripper mes doigts au verre en placant mon pouce à 15cm à partir du haut du verre, mon index à 20 degrés et 2 cm du pouce, ma paume collé à 70% au verre mais la pression de 15N a été insuffisant pour maintenir le verre contre ma paume et la gravité a fait en sorte que le verre soit projeté à 5m/secondes carrés avec une vitesse de rotation de 4pi radians/s vers le sol". Pour des raisons de simplicité, personne ne met autant de détails dans ses descriptions parce que ce n'est juste pas pertinent (et même cette description ne colle toujours pas à la réalité. Il faudrait limite décrire comment chaque cm de l'objet bouge...)
      Donc le texte auquel un LLM est exposé est finalement très pauvre en information par rapport à la réalité. Ce que je t'ai décris plus haut paraît détaillé lorsque je l'écris comme ça mais intuitivement ton cerveau aurais probablement capté la plupart de ces informations en interagissant avec le monde réel. Bien sûr, tu n'aurais aucune idée des chiffres réels, mais tu saurais exactement comment placer tes doigts pour que ton verre ne s'échappe pas de ta main par exemple. Tu aurais aussi un "feeling" de la vitesse à laquelle l'objet s'écrasera au sol dépendamment du poids que tu auras perçu en le tenant. Un LLM, lui, est complètement inconscient de tout ca. Et c'est pour ca que malgré toute la qté de données textuelles accumulées, ils continuent à faire des erreurs de logique/bon sens élémentaires.

      C'est pour ca que Lecun a dit que même si on entraînait des modèles de langage jusqu'à la fin des temps, leurs connaissances et compréhension du monde resteraient infiniment inférieur même à la compréhension des animaux ! Ca parait bizarre à dire parce que les LLMs peuvent t'expliquer ce qu'est la physique quantique si tu les poses la question, mais en réalité ils ne comprennent pas vraiment ce qu'ils disent. Ils font juste une synthèse de ce qu'ils ont lu sur internet en essayant tant bien que mal de relier leur réponse à ce qu'ils ont lu dans leur database. Leur compréhension du monde reste extrêmement superficielle
      Le temps nous dira si l'intuition de Lecun avait vu juste, mais j'ai tendance à trouver son argumentaire assez solide personnellement. Je pense que, étant donné les moyens déployés par OpenAi, GPT5 nous en dira long sur l'avenir des LLMs. Si GPT5 fait des avancés significatifs en raisonnement par rapport à GPT4, alors on pourra remettre fortement en question la théorie de Yann Lecun.

    • @TheRealUsername
      @TheRealUsername 2 місяці тому

      Le language (texte) est une source de donnée assez fiables si les tokens (le corpus de textes) du pré entrainement sont de qualité, un LLM Transformer avec ses biais inductifs est capable de reconnaître des patterns que même l'humain n'a jamais encore fait, l'avantage avec le LLM c'est qu'il est capable d'apprendre énormément de choses provenant d'une infinité de domaine et il est capable de tout généraliser, imagine qu'un humain avec un certain QI arrivait à lire et à apprendre des connaissances provenant de millions de livres académiques de haute qualité, c'est un peu pareil pour un LLM, avec un LLM assez précis (ce qu'on obtient à partir de 1,5 trillions de paramètres) on est capable de théoriser scientifiquement avec une simple inference de quelques secondes, des chercheurs ont testé avec Claude 3 Opus et il est capable d'assister sur des tâches académiques complexes là où GPT-4 est un plus petit modèle et n'y arrive pas encore. Plus il y a de paramètres, plus le LLM est capable de reconnaître des patterns de plus en plus complexe et pas forcément évident, on peut supposer qu'à partir de 10 trillions de paramètres il est capable de réellement comprendre les données mathématiques et scientifiques, ce qui réduira si ce n'est supprimer totalement les hallucinations.
      Ensuite il faut noter que les LLMs ne sont nullement limité au language, l'architecture Transformer fonctionne très bien avec une multitude de modalités, dont la vision (image et vidéo), et contrairement à ce que tu as mentionné au sujet de la tricherie en transformant l'image en texte sache que cela est valable que pour GPT-4 qui au début n'était pas nativement multimodal, aujourd'hui Google Gemini, Claude et même des modèles Open Source comme Reka ont été pré entraîné avec le language et la vision dans le même dataset, étant donné que le LLM prédit fondamentalement les tokens (unité de texte à 4,5 caractères environ) il ne fait pas de diffusion pour l'image mais il est capable de nativement le comprendre et il existe des biais inductifs à travers l'encodage des données imagées qui permettent au LLM de nativement comprendre la vision, malgré cela il faut quand même annoter les images en labellisant des régions de pixels qui correspondent à un élément du monde réel, ainsi le LLM peut faire le lien entre la vision et le texte, ce qu'on appelle dans le jargon la causalité des données, cette compréhension native est l'approche de base pour tout modèle qui est classifié multimodal aujourd'hui, c'est le cas pour Gemini et Claude 3. Et cela est très peu connu mais dès 2023 il existait des expérimentations dans la communauté open-source qui ont même permis d'intégrer la 3D et l'audio en tant que modalité dans les LLMs, et cela a parfaitement fonctionné vu la flexibilité que permet l'architecture Transformer, on peut aller plus loin et réellement entraîner le modèle à comprendre les réelles applications de données multimodales durant la phase de fine-tuning, imaginez un LLM multimodal de 5 trillions de paramètres capable de raisonner sur des tâches complexes et impliquant une énorme quantité de données multimodales, cela pourrait révolutionner la recherche scientifique particulièrement. Hier à peine sortait un papier de recherche sur une architecture appelée OmniFusion qui permet de pousser la compréhension causale des données multimodales durant le pré entrainement. Ce n'est pas un biais le fait que l'industrie se focalise particulièrement sur les LLMs bien que l'architecture JEPA de Yann LeCun est excellent puisqu'il manque au LLM cette capacité de compréhension abstrait et cohérent du monde (la compréhension des LLMs n'est pas cohérent de manière unifié).

    • @user-ky9vw8hx7y
      @user-ky9vw8hx7y 2 місяці тому

      @@TheRealUsername Je ne vais pas te mentir, j'ai lu en diagonal étant donné l'heure actuelle. Mais ta réponse est très intéressante et très développée, je vais prendre mon temps pour la lire demain. Merci encore pour le temps que tu y a mis.

    • @user-ky9vw8hx7y
      @user-ky9vw8hx7y 2 місяці тому

      @@TheRealUsername Petit disclaimer : je comprends le principe général des IA mais je suis complètement dépassé quand il s’agit des détails. Donc pardonne moi si jamais je dis parfois des énormités
      J'ai essayé d'être exhaustif donc le texte est assez long. Pour rendre la lecture plus agréable, j’ai séparé ma réponse en 7 parties. Vu que je n'utilise pas de mots trop compliqués, j'espère que ca se lira quand même vite 😅
      1- Capacité à détecter des patterns
      J’ai bien compris que les LLMs sont excellents pour détecter des patterns. Mais, aussi fiable et de qualité que soient les tokens, en fait le problème fondamental est que ca reste des patterns textuels. Et ces patterns textuels sont, comme j’ai essayé de l’expliquer dans mon 2e post, infiniment moins nombreux que les patterns que l’on peut observer par vision et qui sont selon moi nécessaires à l’émergence du « bon sens ». La raison de cette infériorité numérique marquée est que le texte est une donnée discrète tandis que les données visuelles sont continues.
      2- Ils ne peuvent pas vraiment raisonner
      Étant donné qu’ils reposent sur du texte, les LLMs fonctionnent principalement par exemple textuel. Leurs « raisonnements » proviennent essentiellement d’exemples dans leur database. Il a été montré par exemple que même si un LLM sait que X = Y, ca ne veut pas dire qu’il va en déduire que Y = X (donc par exemple, si dans leur database il est dit que 1L = 1000mL mais pas l’inverse, alors ils ne vont pas pouvoir déduire que 1000mL = 1L).
      Si les données d’entraînement n’avaient le raisonnement que dans 1 sens, ils seront limités à ce seul sens. La raison est que, encore une fois, ils n’ont aucun contact avec le « vrai » monde. Ils ne comprennent pas le monde, qui est principalement visuel. Donc ils sont réduits à se reposer sur des exemples textuels qu’ils tentent plus ou moins d’imiter dans leurs réponses.
      De manière générale, pour améliorer le raisonnement d’un modèle, on est obligé de constamment le fine-tune sur de nouveaux problèmes de logique en les rajoutant dans sa database, ce qui est unsustainable étant donné qu’il y a une infinité de problèmes possibles. C’est un cycle sans fin. Aucun scaling ne donnera la capacité de raisonner aux LLMs.
      3- Ils continuent à faire des erreurs de bon sens élémentaires
      Et ce constat reste vrai malgré toutes les ressources mises dessus. Cela s’applique même pour les LLMs à la pointe. C’est difficile de manquer ca si tu en utilises un régulièrement mais juste pour te donner 2 exemples concrets qui se sont réellement produits (il y en a des TONNES) :
      Exemple concret #1 :
      Question : Cela prend 5 heures pour que 5 vêtements sèchent complètement au soleil. Combien de temps cela prendra-t-il pour que 30 vêtements sèchent?
      R : 150 heures, 5 heures par vêtements.
      Réponse de GPT4: Cela prendra 30 heures pour que 30 vêtements sèchent.
      Commentaire : GPT4 n’a pas le bon sens pour comprendre que le temps de séchage ne dépend pas du nombre de vêtements. Il s’est juste fié sur l’exemple donné
      Exemple concret #2 :
      Question : J'ai une cruche de 12 litres et une cruche de 6 litres. Je veux mesurer 6 litres d'eau. Comment puis-je le faire ?
      R : utiliser la cruche de 6 litres
      Réponse de GPT4 :
      -remplis la cruche de 6 litres. Verse l'eau de la cruche de 6 litres vers celle de 12 litres. Remplis la cruche de 6 litres à nouveau. Verse à nouveau l'eau de cette cruche dans celle de 12 litres (la cruche de 12 litres sera remplie). À la fin, il y aura 6 litres d'eau restant dans la cruche de 6 litres
      Commentaire : Ici, la réponse n’a absolument aucun sens. Sa conclusion (le fait qu’il reste 6 litres) est même fausse. Encore une preuve de manque de compréhension. Si je devais spéculer, il s’est probablement inspiré de la réponse à une question similaire dans sa database au lieu de se fier à un vrai raisonnement venant de lui-même.
      Source des exemples : ua-cam.com/video/Dv4yBH5dwtY/v-deo.html

  • @alexamand2312
    @alexamand2312 2 місяці тому +2

    Bonjour super intéressant comme toujours,
    Mais par contre j'ai des doutes sur le prémices, texte versus image, discret vs continu.
    par exemple si je dis : "l'objet ... est bleu" je vois pas en quoi c'est plus discret qu'une image, il y a un nombre fini de possibilités qui décroit avec la précision du contexte et c'est pareil pour l'image non ?
    je dirais même pour une taille de patch finie, il y a forcément un nombre de token fini qui peuvent constituer une réponse raisonnable si on exclu les pixels ou les lettres randoms, et cela pour le texte et pour l'image. Mais je suis d'accord le join embedding minimisation de l'énergie truc là intéressant, peut être une convergence plus rapide, à démontrer.
    Je suis donc plutot d'accord sur votre conclusion.
    Par contre j'ai jamais compris l'argumentaire de monsieur LeCun sur le fait qu'une IA générative auto régressive ne peux pas constituer un world model, c'est ce qui me gène le plus, ça et son rejet de toute les méthodes qu'il n'a pas mis au point enfaite...

    • @user-ky9vw8hx7y
      @user-ky9vw8hx7y 2 місяці тому

      Moi je le vois comme ceci :
      Une IA générative comme SORA essaie de prédire tous les détails du monde réel, alors qu'en réalité selon Lecun, bâtir un world model avec cette approche est soit impossible à faire ou beaucoup trop demandant en ressources pour être une bonne approche.
      Avoir un word model, c'est être capable de faire des prédictions sur des éléments importants en ignorant les détails. On utilise ensuite ce world model pour prendre des décisions.
      Par exemple : lorsque je conduis, pour prendre des décisions comme tourner à gauche, ralentir, accélérer, etc., je me focus sur des éléments importants comme la position par rapport aux autres voitures et la route sur laquelle je roule. Je ne m'intéresse pas aux arbres à côté de la route ni à comment les feuilles de ces arbres bougent par rapport au vent.
      Essayer de générer une vidéo pixel par pixel est probablement une mauvaise approche car cela ne pousse pas le système à focus sur les éléments importants et à réellement comprendre ce qui se passe dans une vidéo. C'est pour ca que, aussi impressionnant que SORA puisse paraître il continue à faire des erreurs de logique ultra basiques. Il ne comprend pas réellement le monde
      En tout cas, c'est mon intuition en écoutant Lecun. Je suis loin de tout comprendre

    • @Bencurlis
      @Bencurlis 2 місяці тому

      En fait la différence c'est que pour le texte on peut le décomposer de façon "logique" en sous morceaux, par exemple mot par mot, et donc il est possible de donner une probabilité à chaque mot à chaque étape, et construire mot à mot n'importe quel texte en piochant un mot selon les probabilités à chaque étape.
      Pour les images ont pourrait avoir une approche similaire avec les pixels, en faisant que le modèle donne une probabilité pour chaque couleur de pixel possible par exemple, mais le soucis c'est qu'il n'y a pas vraiment d'ordre logique pour construire une image pixel par pixel, et en plus on atteint très rapidement un contexte gigantesque à prendre en compte pour des images de taille même raisonnable. En résumé, c'est surtout la dimension des images qui est bien plus grande que celle du texte en pratique.

    • @alexamand2312
      @alexamand2312 2 місяці тому

      @@user-ky9vw8hx7y Ce que l'on appelle un world model dans la définition actuelle est une représentation interne générale qui permettrai de faire de faire des étapes prédictives intermédiaire, menant à un meilleur résultat. Plusieurs papier discute de l'existence de ces représentations internes dans les LLM et on démontré leur existence par exemple pour des jeux de plateaux.
      Je ne comprend pas trop cette histoire de détail, si vous voulez conduire, certain élément du contexte seront plus important que d'autre certe, mais c'est très relié à votre objectif et cela me fait plus penser à un mécanisme d'attention qu'a une capacité de représentation interne.
      Bien sur ce sont des sujets compliqué et pas encore bien défini mais je pense que c'est bien ces mécanismes d'attention que LeCun essaie de résoudre avec ses histoires d'énergie. Cela pourrait être une bonne approche peut être plus efficace qu'une autre mais j’attends de voir les résultats avant de me prononcer . Il a démontré pour l'instant qu'il pourrait avoir une approche pour faire mieux avec moins de data en entrée donc que le modèle se concentre mieux sur les parties importante.
      Pour l'instant je dirai que pour l'instant les mécanisme d'attention et de représentation sémantique (actuel) sont suffisant aux modèles afin qu'ils puissent trouver les patterns ou séquences nécessaire pour se construire à la fois une représentation interne et se concentrer sur les éléments qui lui permette de prédire correctement.
      Personnellement je vois ça comme deux choses différentes, mais merci de votre réponse, c'est toujours très intéressant de débattre de ces sujets.

    • @alexamand2312
      @alexamand2312 2 місяці тому

      @@Bencurlis Je suis d'accord que peut être on pourrait démontrer que les dimensions sont plus grande. Qu'il n'y ai pas "d'ordre logique" je suis pas sur, si vous prenez une image avec un trou, il y a un ensemble de pixel fini qui ont du sens par rapport au reste du contexte. Et cela dépend de ce contexte. si l'image est entièrement noire vous conviendrez que la couleur des pixels attendu serait probablement noir aussi. qu'il y ai plus de possibilité dans un texte à trou ou dans une image à trou... et bien cela dépend donc du contexte de l'image et du texte, difficile à comparer (intuitivement ça parait vrai que l'image est de plus haute dimension). Mais je n'en suis pas certain. Dans mon exemple du précédent commentaire on peux imaginer une quantité astronomique d'objet qui pourrait être bleu.
      Ce que je n'ai pas compris c'est dans le début cette comparaison continue versus discret.

    • @Bencurlis
      @Bencurlis 2 місяці тому

      @@alexamand2312 Pour le continu VS discret, plus précisément c'est que une couleur de pixel tu en a une infinité parce que tu pourras toujours changer légèrement la couleur et tomber sur une nouvelle couleur, tu peux toujours trouver une nouvelle couleur entre deux couleurs différentes données. C'est donc en réalité difficile de faire qu'un modèle prédise une probabilité pour chaque couleur, puisqu'il faudrait qu'il prédise une infinité de valeurs. Compare cela à un modèle qui prédit un mot à la fois, tu n'a qu'une quantité finie de mots, et elle est discrète puisque tu peux numéroté chaque mot possible avec un nombre entier.

  • @alex595659
    @alex595659 8 днів тому

    Pour les IA ont plus de mal en mathématiques ?

  • @Bencurlis
    @Bencurlis 2 місяці тому

    J'ai plusieurs problèmes avec les EMB/JEPA, même si je trouve l'idée assez séduisante:
    - déjà les loss et les objectifs d'apprentissages ne sont pas très bien posés, c'est pas clair qu'est-ce qu'on optimise le modèle à faire, et donc c'est aussi peu interprétable. C'est aussi pas clair pourquoi ça devrait donner de bonne représentations comparé à d'autres approches en principe.
    - il y a de gros problèmes de stabilités et de fine tuning, les modèles sont sujets à des collapses et les méthodes pour empêcher ça ressemblent à des hacks
    - plus par rapport à JEPA, je ne comprend pas pourquoi on voit le problème comme celui d'une compatibilité entre un x et un y, il me parait plus logique de vouloir modéliser x directement à partir de lui-même. C'est la partie jointe qui me semble un peu arbitraire, ça laisse penser qu'on maîtrise pas quelque chose dans l'histoire, parce que le lien entre x et y est pas clair
    - et du coup, je vois des approches probabilistes comme Sora comme la version plus formelle, plus justifiable et finalement meilleure, des EBMs/JEPA: l'objectif est clair, on prédit x directement selon les lois des probabilités (éventuellement avec un conditionnement y optionnel), il n'y a pas de risque de collapse et on observe déjà une grande robustesse des features créées comme ça. Mais sur ça j'aimerais avoir ton avis.
    Du coup, je suis presque certain que si on entraînait un modèle type JEPA mais qu'a la place des régularisations actuelle on mettait un modèle décodeur, même petit, avec un terme de reconstruction à petit facteur mais en changeant rien d'autre, on obtiendrait des modèles équivalent voire meilleurs tout en évitant les écueils actuels.

    • @ThibaultNeveu
      @ThibaultNeveu  2 місяці тому +1

      ", je vois des approches probabilistes comme Sora comme la version plus formelle, plus justifiable et finalement meilleure, des EBMs/JEPA: l'objectif est clair, on prédit x directement selon les lois des probabilités (éventuellement avec un conditionnement y optionnel), il n'y a pas de risque de collapse et on observe déjà une grande robustesse des features créées comme ça."
      =>
      Mon intuition c'est que c'est plus rapide de mettre a l'echelle une approche générative. Cela dit il est possible que la représentation d'une JEPA par rapport a un modèle génératif soit meilleur a taille de calcul défini et une fois que les deux approches sont paramétré comme il faut : Le cout de paramétrisation d'un JEPA est cependant probablement plus haute (aujourd'hui). Encore une fois, ce raisonement s'applique surtout a la vision.
      "je suis presque certain que si on entraînait un modèle type JEPA mais qu'a la place des régularisations actuelle on mettait un modèle décodeur, même petit, avec un terme de reconstruction à petit facteur mais en changeant rien d'autre, on obtiendrait des modèles équivalent voire meilleurs tout en évitant les écueils actuels."
      =>
      Ce serait plus vraiment JEPA dans ce cas. L'intuition de LeCun la dessus c'est que c'est plus efficace (pour l'image et la vidéo, de prédire dans l'espace latent. Voir V-JEPA. Sur la proposition de combiner les deux à la fois : Je pense que ce serait instable, pour beaucoup de raisons liées à la régularisation mise en place pour substituer l'approche contrastive.

    • @Bencurlis
      @Bencurlis 2 місяці тому

      @@ThibaultNeveu "Ce serait plus vraiment JEPA dans ce cas. L'intuition de LeCun la dessus c'est que c'est plus efficace (pour l'image et la vidéo, de prédire dans l'espace latent. Voir V-JEPA."
      => je garderais toujours la partie prédiction dans l'espace latent, le fait de prédire l'image de base à partir d'une augmentation de cette même image. La reconstruction serait la vraiment juste pour empêcher le collapse, le fait que le modèle créé une représentation triviale des images.
      En gros ça remplacerait juste les termes ou techniques de régularisation compliquées qui sont utilisées pour empêcher la collapse, par exemple la régularisation par variance de VICReg.
      Le fait de reconstruire l'image, même imparfaitement, devrait empêcher le collapse car le modèle sera encouragé à conserver suffisamment d'information de l'image de base dans l'embedding pour pouvoir en retrouver les pixels.

  • @alex595659
    @alex595659 8 днів тому

    Pourquoi les neurones informatique n'ont pas assez de capacités de généralisation par rapport aux neurones bilogiques ,notamment quand il faut une grande base de données d'images de chat alors qu'un enfant d'intelligence normal(QI) apprend plus rapidement ?

  • @Gauloi007
    @Gauloi007 2 місяці тому

    Il me semble que Yan base une grosse partie de ses travaux sur l'idée que les transformers ne seraient pas capable d'apprendre a planifier mais cette idee a été grandement mis a mal par le fait qu'avec le bon prompt certaine version gpt3.5 étai capable de battre la plupart des humains aux échecs. Donc pourquoi maintenir qu'il y aurait un problème si ce n'est pour maintenir le court de metha pour pouvoir financer les recherches...

  • @johangodfroid4978
    @johangodfroid4978 2 місяці тому +1

    Les transformer sont la mauvaise solution