J’espère que la vidéo vous a plu ! Quelques notes et ressources dont je n’ai pas parlé dans la vidéo : -ma reproduction de l’expérience A=B/B=A : ça marche bien ! x.com/AlexandreTL2/status/1725966137161056515 -une interprétation plus « concrète » de la non généralisation de B=A à partir A=B existe aussi. Elle se base sur l’étude de « circuits » dans les Transformers (domaine de la mechanistic interpretability). On se rend compte en fait que les faits stockés dans les Transformers le sont seulement « dans un sens ». C’est un autre point de vue. -dans la vidéo, on a parlé de deux « modèles mentaux » qu’on peut avoir sur les LLMs. Vous pouvez en découvrir un troisième ici : substack.com/@fchollet/p-137628402. Ce modèle permet de comprendre pourquoi le « prompting » est nécessaire lorsqu’on utilise des LLMs (ie, formuler correctement la demande pour faire effectuer une tâche précise). L’idée globale est de dire que les LLMs sont des base de données de « programmes », et le prompting permet de retrouver le bon programme. Par « programme », on peut par exemple retrouver : « traduction anglais -> français » ou « réécrire un poème dans le style de Victor Hugo ». -récemment, une étude sur le « grokking » a permis de mettre en avant une méthode d’entraînement qui permet aux Transformer de « raisonner implicitement », le même phénomème qu’observé dans les expériences « Connecting the dots » : combiner des exemples d’entraînement pour en tirer des conclusions. Le grokking désigne le moment de l’entraînement où les performances du modèle passent de « très bon sur les données d’entraînement, mauvais sur les données de test » à « très bon sur les données d’entraînement, très bon sur les données de test ». Autrement dit, le moment où le modèle arrive à généraliser ce qu’il a appris à de nouvelles données jamais vues. Le lien : x.com/BoshiWang2/status/1795294846212567089
Le mot le plus probable n'est effectivement pas forcément une simple affaire de bête répétition stochastique: imaginons un roman policier qui se termine par "et donc l'assassin est...". Pour donner le mot le plus probable (le nom de l'assassin), il faudrait avoir compris l'intrigue aussi bien que le détective qui révèle le coupable. Ce n'est pas toujours aussi simple que "le chat mange la...". Sinon, j'anticipe avec grand plaisir une vidéo sur la compression et l'entropie, j'espère qu'elle verra le jour, le sujet est passionnant
Le constat que je fais c'est que tous les grands acteurs de l'ia rencontrent les mêmes problèmes/erreurs lors de l'élaboration de leurs models. Si seulement ils partageaint tous leurs decouvertes et expertises on avancerait plus vite dans la recherche en ia , mais tout le monde veut faire son propre llm...
Oui c'est vrai, surtout que les bases des technologiques des LLMs viennent de l'académie. Par exemple il y a quelques jours l'entreprise Magic a annoncé qu'ils avaient mis au point une architecture capable de traiter des séquences très très longues, mais aucune information technique, c'est rageant!
Il faudrait voir si des modèles comme BERT ou BART (s’ils sont mis à l’échelle des LLMs modernes en termes de taille et de données d’entraînement) passent le test du reversal curse. Ces modèles ont un mécanisme d’attention bi-directionnel, et n’ont pas ce biais de prediction du mot suivant de droite à gauche uniquement. Peut-être que le problème est juste un artéfact technique dû au causal attention. Parce que ça m’a l’air d’être un problème de modélisation linguistique. Le LLM a des lacunes en inférence linguistique: fr.m.wikipedia.org/wiki/Modèle_d%27inférence.
Difficile de prévoir mais je dirais que non dans le cas où on ne fait "que" agrandir la taille du modèle et des données. Si on introduit des données synthétiques, ou que l'on change l'objectif d'entraînement, là oui pourquoi pas
Je dirais que oui. On voit que la plupart des capacités n'ont pas une courbe d'apprentissage linéaire mais plutôt sigmoide. Autrement dit, avant une certaine taille/quantité de données ils sont nuls, et une fois dépassé cette taille/qté de données ils maîtrisent. Une expérience a été faite avec un llm qui apprend l'addition modulaire et on voit bien cette courbe.
Très bonne vidéo, merci à toi ! Pour ce qui est du soucis généralisation de B=A à partir A=B, est ce que tu penses que si on avait le moyen de doubler la taille du dataset d'entrainement et de construire les inférences inverses (en utilisant un LLM par exemple) réglerais le problème ou bien en créera d'autres ?
Merci! Ca pourrait en effet régler le problème "superficiellement" (il saurait qui est l'enfant de Mary Lee Pfieffer) mais de là à lui permettre d'automatiquement généraliser de A=B à B=A pas sur. En fait ce qui serait intéressant c'est d'entraîner un LLM sur des données synthétiques du type A=B et B=A et voir si il arrive à apprendre à généraliser de A=B à B=A. (dans la vidéo, c'est seulement du sur-entraînement, sur très peu de données).
Il n'y a pas vraiment de contradiction entre prédire le mot le plus probable et créer une représentation interne : la meilleure façon de prédire le mot le plus probable est justement de développer une représentation interne. C'est l'opposition qu'on fait entre un perroquet stochastique et un agent qui comprend qui me semble fallacieuse, un bon perroquet stochastique doit avoir un certains degré de compréhension. Et si les LLM ne connectent pas tous les points c'est peut-être que la taille des données ou la durée de l'entraînement n'est pas encore suffisante pour qu'ils capturent toute la structure d'un agent qui produit du langage.
Oui je suis d'accord avec toi mais je ne crois pas avoir dit* qu'il y avait une contradiction entre "prédire le mot le plus probable" et "créer une représentation interne". Ce que je voulais dire, c'est qu'avoir en tête le modèle de "générateur du mot le plus probable" (au sens de : parmi les phrases des données d'entraînement qui ressemblent au prompt, quel est le prochain mot le plus courant?) nous permet difficilement d'expliquer les expériences connecting the dots. J'axe donc plus mon discours sur la façon dont on se représente ces modèles. Je suis d'accord qu'au final, ça revient à décrire différents visage d'une même chose (cf 11:42), mais pour quelqu'un de novice qui regarde la vidéo, penser "générateur du mot le plus probable" n'implique pas tout de suite "représentation interne". C'est au final le but de la vidéo. Je dis d'ailleurs bien à la fin que les deux "modèles mentaux" sont valables et qu'on peut en choisir un ou autre en fonction du contexte.
@@alexandretl M. Phi avait fait une très bonne analogie. Comment considèrerait-on un modèle entrainé à prédire le prochain coup de Magnus Carlsen? Un très bon joueur d'échec ou un perroquet stochastique??? En effet, un transformer peut être facilement entrainé à prédire le coup suivant si on l'entraine avec les millions de partie encodées en PGN. Autre chose, la plupart des LLM sont entrainés sur un nombre ridicule d'époque, 1 ou 2... Ce qui signifie qu'il ne voit les données d'entrainement le plus souvent qu'une fois...
J’espère que la vidéo vous a plu !
Quelques notes et ressources dont je n’ai pas parlé dans la vidéo :
-ma reproduction de l’expérience A=B/B=A : ça marche bien ! x.com/AlexandreTL2/status/1725966137161056515
-une interprétation plus « concrète » de la non généralisation de B=A à partir A=B existe aussi. Elle se base sur l’étude de « circuits » dans les Transformers (domaine de la mechanistic interpretability). On se rend compte en fait que les faits stockés dans les Transformers le sont seulement « dans un sens ». C’est un autre point de vue.
-dans la vidéo, on a parlé de deux « modèles mentaux » qu’on peut avoir sur les LLMs. Vous pouvez en découvrir un troisième ici : substack.com/@fchollet/p-137628402. Ce modèle permet de comprendre pourquoi le « prompting » est nécessaire lorsqu’on utilise des LLMs (ie, formuler correctement la demande pour faire effectuer une tâche précise). L’idée globale est de dire que les LLMs sont des base de données de « programmes », et le prompting permet de retrouver le bon programme. Par « programme », on peut par exemple retrouver : « traduction anglais -> français » ou « réécrire un poème dans le style de Victor Hugo ».
-récemment, une étude sur le « grokking » a permis de mettre en avant une méthode d’entraînement qui permet aux Transformer de « raisonner implicitement », le même phénomème qu’observé dans les expériences « Connecting the dots » : combiner des exemples d’entraînement pour en tirer des conclusions. Le grokking désigne le moment de l’entraînement où les performances du modèle passent de « très bon sur les données d’entraînement, mauvais sur les données de test » à « très bon sur les données d’entraînement, très bon sur les données de test ». Autrement dit, le moment où le modèle arrive à généraliser ce qu’il a appris à de nouvelles données jamais vues. Le lien : x.com/BoshiWang2/status/1795294846212567089
Le mot le plus probable n'est effectivement pas forcément une simple affaire de bête répétition stochastique: imaginons un roman policier qui se termine par "et donc l'assassin est...". Pour donner le mot le plus probable (le nom de l'assassin), il faudrait avoir compris l'intrigue aussi bien que le détective qui révèle le coupable. Ce n'est pas toujours aussi simple que "le chat mange la...".
Sinon, j'anticipe avec grand plaisir une vidéo sur la compression et l'entropie, j'espère qu'elle verra le jour, le sujet est passionnant
Yes finalement ce sera surement une mini série, ça s'annonce pas mal!
Un vidéo sur la compression et l’entropie serait super en effet !
@@delec9665 c'est dans la boîte :) ça sortira surement la semaine prochaine
Excellente vidéo, comme d'habitude ! MERCI !
toujours très intéressant bravo !
Merci bien!
Super vidéo bravo
Merci!
6:57 Kinshasa ✨ je m'y attendais pas du tout ❤
Le constat que je fais c'est que tous les grands acteurs de l'ia rencontrent les mêmes problèmes/erreurs lors de l'élaboration de leurs models. Si seulement ils partageaint tous leurs decouvertes et expertises on avancerait plus vite dans la recherche en ia , mais tout le monde veut faire son propre llm...
Oui c'est vrai, surtout que les bases des technologiques des LLMs viennent de l'académie.
Par exemple il y a quelques jours l'entreprise Magic a annoncé qu'ils avaient mis au point une architecture capable de traiter des séquences très très longues, mais aucune information technique, c'est rageant!
C'est une bonne chose du coups si ça ralentit la recherche.
Il faudrait voir si des modèles comme BERT ou BART (s’ils sont mis à l’échelle des LLMs modernes en termes de taille et de données d’entraînement) passent le test du reversal curse. Ces modèles ont un mécanisme d’attention bi-directionnel, et n’ont pas ce biais de prediction du mot suivant de droite à gauche uniquement. Peut-être que le problème est juste un artéfact technique dû au causal attention. Parce que ça m’a l’air d’être un problème de modélisation linguistique. Le LLM a des lacunes en inférence linguistique: fr.m.wikipedia.org/wiki/Modèle_d%27inférence.
Oui c'est une bonne remarque on soupçonne aussi le côté auto-regressif en effet
Tu penses que les futures LLM qui seront plus gros seront faire que cela ou auront des nouvelles propriétés (émergentes) ?
Difficile de prévoir mais je dirais que non dans le cas où on ne fait "que" agrandir la taille du modèle et des données. Si on introduit des données synthétiques, ou que l'on change l'objectif d'entraînement, là oui pourquoi pas
@@alexandretl dac je vois, j'espère que tu te trompe ^^
Je dirais que oui. On voit que la plupart des capacités n'ont pas une courbe d'apprentissage linéaire mais plutôt sigmoide. Autrement dit, avant une certaine taille/quantité de données ils sont nuls, et une fois dépassé cette taille/qté de données ils maîtrisent.
Une expérience a été faite avec un llm qui apprend l'addition modulaire et on voit bien cette courbe.
@@bacrima6382 concernant l'addition modulaire, tu parles de l'expérience du grokking ?
@@alexandretl je crois que c'est ça oui
Très bonne vidéo, merci à toi !
Pour ce qui est du soucis généralisation de B=A à partir A=B, est ce que tu penses que si on avait le moyen de doubler la taille du dataset d'entrainement et de construire les inférences inverses (en utilisant un LLM par exemple) réglerais le problème ou bien en créera d'autres ?
Merci!
Ca pourrait en effet régler le problème "superficiellement" (il saurait qui est l'enfant de Mary Lee Pfieffer) mais de là à lui permettre d'automatiquement généraliser de A=B à B=A pas sur. En fait ce qui serait intéressant c'est d'entraîner un LLM sur des données synthétiques du type A=B et B=A et voir si il arrive à apprendre à généraliser de A=B à B=A. (dans la vidéo, c'est seulement du sur-entraînement, sur très peu de données).
Il n'y a pas vraiment de contradiction entre prédire le mot le plus probable et créer une représentation interne : la meilleure façon de prédire le mot le plus probable est justement de développer une représentation interne. C'est l'opposition qu'on fait entre un perroquet stochastique et un agent qui comprend qui me semble fallacieuse, un bon perroquet stochastique doit avoir un certains degré de compréhension.
Et si les LLM ne connectent pas tous les points c'est peut-être que la taille des données ou la durée de l'entraînement n'est pas encore suffisante pour qu'ils capturent toute la structure d'un agent qui produit du langage.
Oui je suis d'accord avec toi mais je ne crois pas avoir dit* qu'il y avait une contradiction entre "prédire le mot le plus probable" et "créer une représentation interne". Ce que je voulais dire, c'est qu'avoir en tête le modèle de "générateur du mot le plus probable" (au sens de : parmi les phrases des données d'entraînement qui ressemblent au prompt, quel est le prochain mot le plus courant?) nous permet difficilement d'expliquer les expériences connecting the dots.
J'axe donc plus mon discours sur la façon dont on se représente ces modèles. Je suis d'accord qu'au final, ça revient à décrire différents visage d'une même chose (cf 11:42), mais pour quelqu'un de novice qui regarde la vidéo, penser "générateur du mot le plus probable" n'implique pas tout de suite "représentation interne". C'est au final le but de la vidéo.
Je dis d'ailleurs bien à la fin que les deux "modèles mentaux" sont valables et qu'on peut en choisir un ou autre en fonction du contexte.
@@alexandretl M. Phi avait fait une très bonne analogie. Comment considèrerait-on un modèle entrainé à prédire le prochain coup de Magnus Carlsen? Un très bon joueur d'échec ou un perroquet stochastique??? En effet, un transformer peut être facilement entrainé à prédire le coup suivant si on l'entraine avec les millions de partie encodées en PGN.
Autre chose, la plupart des LLM sont entrainés sur un nombre ridicule d'époque, 1 ou 2... Ce qui signifie qu'il ne voit les données d'entrainement le plus souvent qu'une fois...