2 expériences (a priori) contradictoires sur les LLMs

Поділитися
Вставка
  • Опубліковано 16 січ 2025

КОМЕНТАРІ • 29

  • @alexandretl
    @alexandretl  4 місяці тому +8

    J’espère que la vidéo vous a plu !
    Quelques notes et ressources dont je n’ai pas parlé dans la vidéo :
    -ma reproduction de l’expérience A=B/B=A : ça marche bien ! x.com/AlexandreTL2/status/1725966137161056515
    -une interprétation plus « concrète » de la non généralisation de B=A à partir A=B existe aussi. Elle se base sur l’étude de « circuits » dans les Transformers (domaine de la mechanistic interpretability). On se rend compte en fait que les faits stockés dans les Transformers le sont seulement « dans un sens ». C’est un autre point de vue.
    -dans la vidéo, on a parlé de deux « modèles mentaux » qu’on peut avoir sur les LLMs. Vous pouvez en découvrir un troisième ici : substack.com/@fchollet/p-137628402. Ce modèle permet de comprendre pourquoi le « prompting » est nécessaire lorsqu’on utilise des LLMs (ie, formuler correctement la demande pour faire effectuer une tâche précise). L’idée globale est de dire que les LLMs sont des base de données de « programmes », et le prompting permet de retrouver le bon programme. Par « programme », on peut par exemple retrouver : « traduction anglais -> français » ou « réécrire un poème dans le style de Victor Hugo ».
    -récemment, une étude sur le « grokking » a permis de mettre en avant une méthode d’entraînement qui permet aux Transformer de « raisonner implicitement », le même phénomème qu’observé dans les expériences « Connecting the dots » : combiner des exemples d’entraînement pour en tirer des conclusions. Le grokking désigne le moment de l’entraînement où les performances du modèle passent de « très bon sur les données d’entraînement, mauvais sur les données de test » à « très bon sur les données d’entraînement, très bon sur les données de test ». Autrement dit, le moment où le modèle arrive à généraliser ce qu’il a appris à de nouvelles données jamais vues. Le lien : x.com/BoshiWang2/status/1795294846212567089

  • @ced1401
    @ced1401 4 місяці тому +7

    Le mot le plus probable n'est effectivement pas forcément une simple affaire de bête répétition stochastique: imaginons un roman policier qui se termine par "et donc l'assassin est...". Pour donner le mot le plus probable (le nom de l'assassin), il faudrait avoir compris l'intrigue aussi bien que le détective qui révèle le coupable. Ce n'est pas toujours aussi simple que "le chat mange la...".
    Sinon, j'anticipe avec grand plaisir une vidéo sur la compression et l'entropie, j'espère qu'elle verra le jour, le sujet est passionnant

    • @alexandretl
      @alexandretl  4 місяці тому +1

      Yes finalement ce sera surement une mini série, ça s'annonce pas mal!

    • @delec9665
      @delec9665 4 місяці тому

      Un vidéo sur la compression et l’entropie serait super en effet !

    • @alexandretl
      @alexandretl  4 місяці тому

      @@delec9665 c'est dans la boîte :) ça sortira surement la semaine prochaine

  • @jean-micheltorres6925
    @jean-micheltorres6925 4 місяці тому

    Excellente vidéo, comme d'habitude ! MERCI !

  • @jgcb0071
    @jgcb0071 4 місяці тому

    toujours très intéressant bravo !

  • @Sabrarch
    @Sabrarch 4 місяці тому

    Super vidéo bravo

  • @valerykyungu
    @valerykyungu 4 місяці тому

    6:57 Kinshasa ✨ je m'y attendais pas du tout ❤

  • @bause6182
    @bause6182 4 місяці тому +4

    Le constat que je fais c'est que tous les grands acteurs de l'ia rencontrent les mêmes problèmes/erreurs lors de l'élaboration de leurs models. Si seulement ils partageaint tous leurs decouvertes et expertises on avancerait plus vite dans la recherche en ia , mais tout le monde veut faire son propre llm...

    • @alexandretl
      @alexandretl  4 місяці тому +1

      Oui c'est vrai, surtout que les bases des technologiques des LLMs viennent de l'académie.
      Par exemple il y a quelques jours l'entreprise Magic a annoncé qu'ils avaient mis au point une architecture capable de traiter des séquences très très longues, mais aucune information technique, c'est rageant!

    • @bacrima6382
      @bacrima6382 4 місяці тому

      C'est une bonne chose du coups si ça ralentit la recherche.

  • @yayasy1362
    @yayasy1362 4 місяці тому +1

    Il faudrait voir si des modèles comme BERT ou BART (s’ils sont mis à l’échelle des LLMs modernes en termes de taille et de données d’entraînement) passent le test du reversal curse. Ces modèles ont un mécanisme d’attention bi-directionnel, et n’ont pas ce biais de prediction du mot suivant de droite à gauche uniquement. Peut-être que le problème est juste un artéfact technique dû au causal attention. Parce que ça m’a l’air d’être un problème de modélisation linguistique. Le LLM a des lacunes en inférence linguistique: fr.m.wikipedia.org/wiki/Modèle_d%27inférence.

    • @alexandretl
      @alexandretl  4 місяці тому

      Oui c'est une bonne remarque on soupçonne aussi le côté auto-regressif en effet

  • @bossgd100
    @bossgd100 4 місяці тому +1

    Tu penses que les futures LLM qui seront plus gros seront faire que cela ou auront des nouvelles propriétés (émergentes) ?

    • @alexandretl
      @alexandretl  4 місяці тому +2

      Difficile de prévoir mais je dirais que non dans le cas où on ne fait "que" agrandir la taille du modèle et des données. Si on introduit des données synthétiques, ou que l'on change l'objectif d'entraînement, là oui pourquoi pas

    • @bossgd100
      @bossgd100 4 місяці тому

      @@alexandretl dac je vois, j'espère que tu te trompe ^^

    • @bacrima6382
      @bacrima6382 4 місяці тому

      Je dirais que oui. On voit que la plupart des capacités n'ont pas une courbe d'apprentissage linéaire mais plutôt sigmoide. Autrement dit, avant une certaine taille/quantité de données ils sont nuls, et une fois dépassé cette taille/qté de données ils maîtrisent.
      Une expérience a été faite avec un llm qui apprend l'addition modulaire et on voit bien cette courbe.

    • @alexandretl
      @alexandretl  4 місяці тому +1

      @@bacrima6382 concernant l'addition modulaire, tu parles de l'expérience du grokking ?

    • @bacrima6382
      @bacrima6382 4 місяці тому

      @@alexandretl je crois que c'est ça oui

  • @krimod
    @krimod 4 місяці тому +1

    Très bonne vidéo, merci à toi !
    Pour ce qui est du soucis généralisation de B=A à partir A=B, est ce que tu penses que si on avait le moyen de doubler la taille du dataset d'entrainement et de construire les inférences inverses (en utilisant un LLM par exemple) réglerais le problème ou bien en créera d'autres ?

    • @alexandretl
      @alexandretl  4 місяці тому

      Merci!
      Ca pourrait en effet régler le problème "superficiellement" (il saurait qui est l'enfant de Mary Lee Pfieffer) mais de là à lui permettre d'automatiquement généraliser de A=B à B=A pas sur. En fait ce qui serait intéressant c'est d'entraîner un LLM sur des données synthétiques du type A=B et B=A et voir si il arrive à apprendre à généraliser de A=B à B=A. (dans la vidéo, c'est seulement du sur-entraînement, sur très peu de données).

  • @Algneo
    @Algneo 4 місяці тому +2

    Il n'y a pas vraiment de contradiction entre prédire le mot le plus probable et créer une représentation interne : la meilleure façon de prédire le mot le plus probable est justement de développer une représentation interne. C'est l'opposition qu'on fait entre un perroquet stochastique et un agent qui comprend qui me semble fallacieuse, un bon perroquet stochastique doit avoir un certains degré de compréhension.
    Et si les LLM ne connectent pas tous les points c'est peut-être que la taille des données ou la durée de l'entraînement n'est pas encore suffisante pour qu'ils capturent toute la structure d'un agent qui produit du langage.

    • @alexandretl
      @alexandretl  4 місяці тому +1

      Oui je suis d'accord avec toi mais je ne crois pas avoir dit* qu'il y avait une contradiction entre "prédire le mot le plus probable" et "créer une représentation interne". Ce que je voulais dire, c'est qu'avoir en tête le modèle de "générateur du mot le plus probable" (au sens de : parmi les phrases des données d'entraînement qui ressemblent au prompt, quel est le prochain mot le plus courant?) nous permet difficilement d'expliquer les expériences connecting the dots.
      J'axe donc plus mon discours sur la façon dont on se représente ces modèles. Je suis d'accord qu'au final, ça revient à décrire différents visage d'une même chose (cf 11:42), mais pour quelqu'un de novice qui regarde la vidéo, penser "générateur du mot le plus probable" n'implique pas tout de suite "représentation interne". C'est au final le but de la vidéo.
      Je dis d'ailleurs bien à la fin que les deux "modèles mentaux" sont valables et qu'on peut en choisir un ou autre en fonction du contexte.

    • @lesfreresdelaquote1176
      @lesfreresdelaquote1176 4 місяці тому

      ​@@alexandretl M. Phi avait fait une très bonne analogie. Comment considèrerait-on un modèle entrainé à prédire le prochain coup de Magnus Carlsen? Un très bon joueur d'échec ou un perroquet stochastique??? En effet, un transformer peut être facilement entrainé à prédire le coup suivant si on l'entraine avec les millions de partie encodées en PGN.
      Autre chose, la plupart des LLM sont entrainés sur un nombre ridicule d'époque, 1 ou 2... Ce qui signifie qu'il ne voit les données d'entrainement le plus souvent qu'une fois...