- 66
- 271 545
Alexandre TL
France
Приєднався 18 січ 2020
S'informer et comprendre les dernières recherches du monde de l'IA
Quantifier l'information : de la météo au machine learning
Dans cette vidéo, on découvre la théorie de l'information, au travers de 3 concepts : l'information, l'entropie et l'entropie croisée. En fin de vidéo, on fait le lien avec l'utilisation du coût d'entropie croisée, très utilisé en machine learning. On regarde aussi les conséquences de ce coût sur les LLMs et leur capacité à compresser du texte.
0:00 : Introduction
0:46 : Information
7:27 : Entropie
10:22 : Entropie croisée et ML
16:53 : Application aux LLMs : compression
19:44 : Note sur l'entropie croisée
20:42 : Entropie et langage
21:39 : Conclusion
Bibliographie :
-Complexity and universality in the long-range order of words, Montemurro et. al. : arxiv.org/abs/1503.01129
Freepik a été utilisé pour certains icons présents dans la vidéo.
Rejoindre la communauté Machine Learning FR : discord.gg/97j8ymj2kA
Me suivre :
Github : github.com/alxndrTL
Twitter : AlexandreTL2
0:00 : Introduction
0:46 : Information
7:27 : Entropie
10:22 : Entropie croisée et ML
16:53 : Application aux LLMs : compression
19:44 : Note sur l'entropie croisée
20:42 : Entropie et langage
21:39 : Conclusion
Bibliographie :
-Complexity and universality in the long-range order of words, Montemurro et. al. : arxiv.org/abs/1503.01129
Freepik a été utilisé pour certains icons présents dans la vidéo.
Rejoindre la communauté Machine Learning FR : discord.gg/97j8ymj2kA
Me suivre :
Github : github.com/alxndrTL
Twitter : AlexandreTL2
Переглядів: 862
Відео
OpenAI o1 : pourquoi c'est important
Переглядів 4,8 тис.Місяць тому
Dans cette vidéo, on s'intéresse aux nouveaux modèles d'OpenAI : o1 et o1-mini. Ils marquent une certaine rupture par rapport aux précédent, car l'inverse de GPT-2, 3 et 4 et qui n'étaient "que" plus grands que leur prédécesseur, la famille o1 mise davantage sur les ressources utilisées au moment de l'inférence, c'est-à-dire dans la conversation avec l'utilisateur. Si le problème est plus compl...
2 expériences (a priori) contradictoires sur les LLMs
Переглядів 3,2 тис.Місяць тому
Dans cette vidéo, on étudie deux séries d'expériences a priori contradictoires sur les modèles de langage géants (LLMs). La première série d'expérience nous laisse penser que les LLMs sont de simples perroquets, seulement capables de restituer leurs données d'entraînement sans pouvoir les combiner, les généraliser. La seconde série d'expérience vient nuancer cela en montrant que, dans une certa...
Mamba : bien parti pour détrôner le Transformer ? Le bilan
Переглядів 5 тис.2 місяці тому
Dans cette vidéo, on fait le bilan sur ces 7 mois de développement autour de Mamba, une nouvelle architecture qui fait face au Transformer. 0:00 : Introduction 1:53 : Les applications 4:47 : Les faiblesses 9:12 : Contres ces faiblesses Rejoindre la communauté Machine Learning FR : discord.gg/97j8ymj2kA Me suivre : Github : github.com/alxndrTL Twitter : AlexandreTL2
Générer des noms de communes françaises, en Python.
Переглядів 5913 місяці тому
Dans cette vidéo, on construit pas à pas des modèles capables de générer des noms de communes françaises. De la méthode la plus simple, qui se base sur des comptages de lettres, jusqu'à des méthodes plus poussées se basant sur des réseaux de neurones. -Andrej Karpathy : ua-cam.com/users/andrejkarpathy 0:00 : Introduction 0:57 : Approche statistique 8:59 : Réseaux de neurones 16:27 : Remarque su...
Comment interpréter ce qui se passe dans un réseau de neurones ?
Переглядів 6 тис.3 місяці тому
On le dit souvent, les réseaux de neurones sont des boîtes noires qu'on n'arrive pas à interpréter... Alors, surement que des modèles comme ChatGPT ou Claude 3, avec des centaines de milliards de paramètres, sont loin d'être interprétables ? Et bien non. Dans cette vidéo, on voit une technique qui permet d'interpréter "ce qui passe dans un réseau de neurones", ou plus précisément, identifier le...
Qu'est-ce que le Mixture of Experts (MoE) ?
Переглядів 2,4 тис.5 місяців тому
Dans cette vidéo, on s'intéresse au Mixture Of Experts (MoE), une technique très utilisée dans les plus grands LLMs comme GPT-4, Mixtral 8x7B ou Mixtral 8x22B. En quelques mots, il s'agit d'associer plusieurs experts. Mais quel est l'intérêt ? Quelques ressources en lien avec le MoE: -A Review of Sparse Expert Models in Deep Learning : arxiv.org/abs/2209.01667 -Papier Mixtral 8x7B : arxiv.org/a...
SARSA vs Q-learning | Intro RL 7
Переглядів 4587 місяців тому
Dans cette vidéo, on compare les algorithmes de SARSA et de Q-learning sur deux environnements classiques du RL : FrozenLake et CliffWalking. On étudie rapidement le comportement de ces deux algorithmes face à différents choix de alpha et epsilon. Sur CliffWalking, on voit en pratique la différence fondamentale entre ces deux algorithmes : l'un tient compte de l'exploration dans sa politique, l...
Mamba, le remplaçant du Transformer ?
Переглядів 1,3 тис.7 місяців тому
Dans cette vidéo, on s'intéresse à Mamba, une nouvelle architecture qui pourrait remplacer le Transformer. Mamba est une architecture qui traite des séquences de données, comme du texte, qui est une séquence de mots. 0:00 : Introduction 0:38 : Mamba = RNN ? 1:26 : 1) RNN 4:15 : 2) Sélection 7:58 : 3) Delta et SSM 12:05 : Architecture complète 14:38 : Avantages de Mamba 16:22 : Inconvénients de ...
Guide PyTorch : la représentation des tenseurs en mémoire
Переглядів 1,1 тис.8 місяців тому
Dans cette vidéo, on s'intéresse à la manière qu'a PyTorch de manipuler en mémoire les tenseurs : représentation d'un tenseur (taille, stride, ...) et l'utilisation de ces meta-données dans des opérations comme la transposition ou le redimensionnement. 0:00 : Introduction 0:33 : Le vecteur 1:48 : Les matrices 6:14 : Transposition 8:21 : Autres opérations 10:12 : Notes Rejoindre la communauté Ma...
IA 2023 : Ce qu'il faut retenir
Переглядів 9669 місяців тому
Dans cette vidéo, on récapitule les tendances majeures observées dans le monde de la recherche en IA pendant l'année 2023. Evidemment, une seule vidéo ne peut résumer tout ce qui a été produit en une année, mais comprendre les tendances globales permet d'avoir un meilleur recul sur ce qui se passe. Le site labs.perplexity.ai a été utilisé pour l'inférence avec Mistral et Mixtral. GPT-4 : openai...
Q-learning | Intro RL II - 6
Переглядів 50510 місяців тому
Après avoir vu les algorithmes de Monte-Carlo (MC) et TD(0)/SARSA (ainsi que n-step TD), on s'attaque maintenant au fameux Q-learning ! Il est très différent de MC et TD, puisqu'il s'agit d'un algorithme off-policy. On voit ce que ça veut dire dans la vidéo, ainsi que les origines de cette différence. 0:00 : Ce qui a été vu 1:06 : On-policy / off-policy 3:16 : Lien partie I et II 5:02 : Q-learn...
Algorithme n-step TD | Intro RL II - 5
Переглядів 36311 місяців тому
Après avoir vu les algorithmes de Monte-Carlo (MC) et TD(0)/SARSA dans le cadre du model-free, on introduit un nouvel algorithme, n-step TD, qui réunit en un seul algorithme MC et SARSA. Concrètement, MC correspond au cas où n vaut l'infini, et SARSA au cas n=1. NOTE : L'algorithme dénommé "n-step SARSA" dans la vidéo doit plutôt s'appeler n-step TD Contrôle, c'est une erreur de ma part. Si on ...
Ces IA qui s'entraînent dans leur imagination
Переглядів 4,5 тис.11 місяців тому
Dans cette vidéo, on s'intéresse à une famille d'algorithmes qui possèdent une modélisation, une simulation du monde qui les entoure : que ce soit sur Minecraft ou sur la route, l'algorithme arrive à recréer l'environnement dans lequel il évolue. Cette reproduction s'effectue dans un état "compressé" : par exemple pour Minecraft, au lieu de recréer des images, il travaille avec des états qui dé...
J'ai testé DALLE 3 : quelles nouveautés ?
Переглядів 1,8 тис.Рік тому
Dans cette vidéo, on parle de la nouvelle version de DALLE, le modèle d'OpenAI qui permet de générer des images à partir d'une simple description. Trois nouveautés au menu : une meilleure écoute du prompt, la possibilité de générer du texte dans l'image, l'intégration avec ChatGPT. 0:00 : Introduction 0:16 : de meilleures images 0:30 : meilleure écoute 1:42 : générer du texte 2:14 : intégré ave...
Pourquoi ChatGPT connait vos attentes et préférences
Переглядів 1,3 тис.Рік тому
Pourquoi ChatGPT connait vos attentes et préférences
Architecture encodeur-décodeur du Transformer
Переглядів 1,4 тис.Рік тому
Architecture encodeur-décodeur du Transformer
Les champions du monde de drones battus par une IA
Переглядів 102 тис.Рік тому
Les champions du monde de drones battus par une IA
Comment accéder à Llama 2, Code Llama et autres (en ligne et localement)
Переглядів 2,6 тис.Рік тому
Comment accéder à Llama 2, Code Llama et autres (en ligne et localement)
Visualiser la fonction coût d'un réseau de neurones
Переглядів 1,8 тис.Рік тому
Visualiser la fonction coût d'un réseau de neurones
Algorithme d'apprentissage SARSA | Intro RL II - 4
Переглядів 431Рік тому
Algorithme d'apprentissage SARSA | Intro RL II - 4
Qu'est-ce qui se passe dans un réseau de neurones ?
Переглядів 3,2 тис.Рік тому
Qu'est-ce qui se passe dans un réseau de neurones ?
Transformers : têtes d'attention et couches
Переглядів 1,6 тис.Рік тому
Transformers : têtes d'attention et couches
Comprendre les Transformers en 10 minutes
Переглядів 9 тис.Рік тому
Comprendre les Transformers en 10 minutes
Les réseaux de neurones récurrents illustrés
Переглядів 2,3 тис.Рік тому
Les réseaux de neurones récurrents illustrés
Se former au ML : quelle stratégie ? quelles ressources ?
Переглядів 739Рік тому
Se former au ML : quelle stratégie ? quelles ressources ?
Classification multi-classes avec un réseau de neurones
Переглядів 2,9 тис.Рік тому
Classification multi-classes avec un réseau de neurones
Quand je prends le temps, c'est un plaisir de regarder les vidéos de cette chaîne UA-cam ! Tout est clair et bien expliqué, c'est purement génial ! (Penses-tu faire des vidéos sur la computer vision un jour ?) Continue comme ça en tout cas !
Merci pour ton retour c'est très encourageant ! Pour la computer vision oui c'est possible que ça arrive
Merci beaucoup, ca m'a bien plus aidé que mes cours pour comprendre les parcours
Merci pour le retour!
Super vidéo. J'ai été surpris en découvrant ta chaîne, c'est quali et clair (en tout cas pour qqun dans le domaine) bravo. À la fin de la video tu dis que tu compte faire d'autres vidéos avec l'implémentation. Tu parles de l'implémentation d'un algo avec modèle de monde etc ou pas ? Si oui, est-ce que tu en as fais la vidéo ?
Merci pour ton retour ça fait très plaisir! Oui je parlais des algo avec modèle monde, là je suis en train de reprendre la série sur le RL (partie III, deep RL), je pense qu'après ça je pourrais revenir sur les modèles monde
@@alexandretl Okie, j'ai rien loupé alors! Keep up, c'est du bon travail ça se voit
Je découvre la chaîne et je regarde un à un tous les épisodes: c'est clair, accessible, agréable. Merci pour ce beau travail !
Merci beaucoup pour ce commentaire!
Bonjour Alexandre , je viens de découvrir ta chaine et franchement cela m'aide beaucoup en ce moment. Merci infiniment .
Ravi de pouvoir aider! Et merci pour ton retour ça fait très plaisir
merci boss bonne vidéo!
Merci!
Vidéo très intéressante merci !
Excellente vidéo. J'avais beaucoup aimé ces notions en ecole d'ingénieur et c'est agréable de jeter à nouveau un oeil dessus. Et on apprécie et l'absence d'erreur (en tout cas j'en ai pas relevé) et la clarté de l'explication (pas besoin de l'avoir deja étudié pour comprendre je pense)
Merci pour le retour! Oui j'espère pouvoir parler au maximum de personnes dans cette vidéo, l'un des buts étant de comprendre le cout d'entropie croisée si souvent utilisé en ML.
La vidéo est excellente merci beaucoup
Merci pour ton taff super vidéo
Merci bravo 🤩
Très belle vidéo comme toujours, l'explication de l'entropie croisée est magistrale, je ne l'avais jamais vue ni comprise comme ça. Personnellement, je préfère écrire l'information ln(1/p): je vois 1/p comme le nombre d'essais nécessaires pour obtenir l'évènement de probabilité p, et donc le lien avec la surprise ou l'information apportée est très intuitif: chaque tirage apporte de l'info, plus l'évènement arrive tard (petite proba, beaucoup de tirages), plus il apporte d'information. Shannon a écrit historiquement -ln(p) et c'est resté, mais le signe moins n'est pas intuitif, et il est d'ailleurs compensé par le signe toujours négatif du log (puisque la proba est inférieure à 1). J'espère que la vidéo sur la compression arrivera aussi. Et le cookie déguisé en chien était effrayant jusqu'à ce que je comprenne enfin que c'était un gateau 😀 Encore merci pour votre travail d'excellente qualité.
Merci beaucoup pour le commentaire! Oui j'ai mis du temps à trouver la bonne formulation pour l'entropie croisée, les explications que je voyais en ligne n'étaient pas très convaincantes/intuitives (pour le ML). Ah oui c'est une manière de voir en effet, intéressant! Pour le muffin c'est un meme classique des algo de vision qui n'arrivent pas à différencier entre les 2 ... C'est noté pour la vidéo suite :)
Et un approfondissement sur la compression avec grand plaisir stp
D'acc c'est noté :)
Excellente vidéo, comme d’hab, à regarder et re regarder
Merci 🫶
comme dab, super travaille merci
Vous avez vu le muffin caché ? Quelques ressources pour aller plus loin : en rapport avec les LLMs: -LLMZip : décrit la procédure pour effectivement compresser du texte avec des LLMs : arxiv.org/abs/2306.04050 (et aussi nlp.stanford.edu/courses/cs224n/2006/fp/aeldaher-jconnor-1-report.pdf, bellard.org/ts_zip/) -Language Modeling is Compression : arxiv.org/abs/2309.10668 en rapport avec langage, entropie et compression : -Information Theory and Language : www.ncbi.nlm.nih.gov/pmc/articles/PMC7516908/ -Information-Theoric Approaches to Linguistics : sites.socsci.uci.edu/~rfutrell/teaching/itl-davis/ lien prédiction / compression : -On prediction by data compression : link.springer.com/chapter/10.1007/3-540-62858-4_69 -Prediction by Compression : arxiv.org/abs/1008.5078 -Compression Represents Intelligence Linearly : arxiv.org/abs/2404.09937 autre : -Machine Learning Meets Information Theory : web.stanford.edu/class/ee376a/files/kedar_slides.pdf -Une introduction visuelle à la théorie de l’information : colah.github.io/posts/2015-09-Visual-Information -La vidéo classique sur la théorie de l’information et ML (qui utilise une autre méthode pour présenter l'entropie, bien qu'évidemment équivalente) : ua-cam.com/video/ErfnhcEV1O8/v-deo.html
🐶 merci, très bonne vidéo!
Super contenu
Merci c'était très intéressant, Lee de science4all a fait aussi une vidéo sur l'entropie basé sur la théorie de l'information si vous voulez pousser les concepts un peu plus loin
Je ne tombe sur cette vidéo que maintenant, mais je suis impressionné de la qualité des explications. Cela m'aide énormément et je vous en remercie pour cela !
Ravi de pouvoir être utile (et merci pour le retour!)
J'aime beaucoup l'énigme du médecin, comment en voulant corriger des "biais" dans un LLM, on en incorpore de nouveaux qui les poussent à échouer à des tâches simples.
Ouais je l'ai mis pour ça, j'en avais un autre similaire. Sur X j'ai vu des exemples en anglais où il était convaincu que le médecin était trans pour absolument pas que ce soit un homme...
Merci pour cette vidéo très intéressante! PS: j'ai passé 10 minutes en pause sur le message caché mais je n'ai rien trouvé. Je pensais que gpt nous donnerait la réponse (et j'étais décidée à me mesurer à lui!). Il y a un message caché finalement ? ;-)
Merci! Ahah oui il y en bien un, il faut regarder la première lettre des deuxièmes mots de chaque phrase (en fait je viens de me rendre compte que pour la première phrase c'est le 3e et non 2nd ça a pas du l'aidé). Mais j'ai gardé l'exemple car on le voit réfléchir pendant longtemps et à la fin il nous montre tout ce qu'il a essayé c'est pas mal
Est ce qu'il raisone vraiment ou fait semblant?
Grosse grosse question ça, qui en divise plus d'un. Ca dépend de ta définition de "raisonner". Certains disent déjà que finalement, il s'est juste entraîné à recopier les raisonnements humains vus pendant l'entraînement. Personnellement, je dirais que oui il raisonne, MAIS il arrive à le faire dans un cadre bien précis, sur des tâches bien précises aussi (par exemple, sur les puzzles visuels ARC, il n'est pas vraiment meilleurs que les autres LLMs)
Super ! Merci !
excellente vidéo, bravo Alexandre !
Merci beaucoup!
Bonne présentation merci 👌
why not 100%?
all the landings are not the same : initial position, rotation, velocity, angular velocity etc are different. Surely, the last 2% are initial conditions that are very hard (for example the rocket spawns upside down) and may even be not possible to handle
@@alexandretl ok, clear. I'd like to do RL for infrastructure deployments, real profesionnal use case, then I see everything around RL, even game, or starships landing ;)
@@stephanemetairie good luck! seeing RL applied on games may be a good inspiration (at the high-level but also low-level like number and types of actions, algorithm, hyperparameters...)
Mec le son est à régler j'ai crus que c'était mes écouteurs
Oui je sais problème de config dans Audacity je m'en suis pas rendu compte
Hâte de voir un équivalent open weigts/source et pourquoi pas multi modal. À voir les applications que la communauté trouvera
Ik existe avec llama3 70b va sur hugging face! Ya meme 3 space avec!
yes! il y a quelques jours il y a eu Reflection 70B qui avait été entraîné à faire plus ou moins cela, mais c'était un scam...
@@alexandretl mais non??? C'est a dire? Ca avait l'aire de marcher un peu... préprompt caché? Je suis trop decuuu
@@crocodil.13 non c'est pire en fait il appelait Claude en backend pour traiter les réponses, et les résultats annoncés (notamment sur GSM8K) était bidonnés
ah les c**.... mais quel interet?? C'est pas comercial ... juste le buzz? En attendant sur huggingface on peut se consoller avec PuLID-flux XD qui est en open source LUI🤣
Super vidéo
Le son chef :(
tu as pas l'air emballé :/
ahah si je le suis pourtant
pas de son !
On l’a copain
un peu dommage de ne pas avoir abordé l'aspect système 1 vs système 2 dans la video, je pense que c'est le but de o1
C'est vrai j'aurais pu en parler, après j'ai fait la vidéo en une aprem et ce qui m'a paru le plus important dans une courte vidéo c'était de parler des travaux d'AlphaGo
Merci beaucoup ! Toujours très clair et intéressant !
Il y a un petit problème de son (rien dans le canal de droite).
Oui problème avec Audacity..
@@alexandre-hallaine ah oui c'est vrai ça je vais essayer merci
Les papiers de recherche publics qui sont (sûrement) en rapport avec l'entraînement suivi par o1: sur le côté entraînement : -ReFT: Reasoning with Reinforced Fine-Tuning (arxiv.org/abs/2401.08967) -Training Large Language Models for Reasoning through Reverse Curriculum Reinforcement Learning (arxiv.org/abs/2402.05808) sur le côté "inference scaling" : -Large Language Monkeys: Scaling Inference Compute with Repeated Sampling (arxiv.org/abs/2407.21787v1) -Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters (arxiv.org/abs/2408.03314) Petite précision aussi, c'est AlphaGo Zero qui s'entraîne à joueur contre lui-même, et non AlphaGo. Enfin, un retour d'expérience de quelqu'un qui a eu accès à o1 depuis quelques semaines : www.oneusefulthing.org/p/something-new-on-openais-strawberry
Excellente vid en tt cas merci
est ce que je peux faire un rag ou fine tunning très simplement ? je ne connais que dale au code
C'est en partie possible, pour faire du fine tuning je te conseille de regarder Cohere : docs.cohere.com/docs/fine-tuning-with-the-cohere-dashboard (là ce sera la méthode la plus simple mais sûrement aussi la plus chère). Sinon, en alternatives "ouvertes" il y a unsloth (github.com/unslothai/unsloth) les instructions sont assez claires (tout sera en anglais par contre)
@@alexandretl c'est quoi la différence entre le rag, le fine tuning et un custom gpt? j'ai cru comprendre qu'il y en a un ou plusieurs qui permettent qu'une IA n'alucine pas ?
@@chrisder1814 oui je dirais que c'est le RAG qui permet de limiter au max les hallucinations. -le RAG permet de donner les connaissances nécessaires pour répondre à la question de l'utilisateur "en live". dès que tu poses la question, le système RAG va accoler au contexte du LLM des bouts d'une base de connaissance en lien avec ta question. -le fine-tuning c'est "juste" de modifier le comportement des LLMs (au sens des paramètres). donc on peut aussi leur faire apprendre de nouvelles choses. -les custom GPTs c'est juste des GPT normaux auquel on donne (il me semble) un "prompt système" particulier (c'est à dire des consignes) et pourquoi pas des actions
@@alexandretl ok bah merci de ces précisions, est-ce que je pourrais t'écrire
@@chrisder1814 yes tu peux me trouver sur discord (nom d'user procuste)
trop fort, est-ce qu'un custom GPT c'est du fine tuning? moi qui ne connais que dalle au code est-ce qu'il y a une façon simple de faire un rag ou du fine tuning parce que les réponses que j'obtiens quand je lui dis que c'est un expert dans un sujet il me fait des tutos complètement claqué
salut moi qui n'y connais rien au code est-ce qu'il y a moyen que je fasse du fine tuning ou un rag très facilement je veux dire les réponses que j'obtiens , les tutos sont carrément HS est-ce qu'un custom GPT c'est du fine tuning ?
Il faudrait voir si des modèles comme BERT ou BART (s’ils sont mis à l’échelle des LLMs modernes en termes de taille et de données d’entraînement) passent le test du reversal curse. Ces modèles ont un mécanisme d’attention bi-directionnel, et n’ont pas ce biais de prediction du mot suivant de droite à gauche uniquement. Peut-être que le problème est juste un artéfact technique dû au causal attention. Parce que ça m’a l’air d’être un problème de modélisation linguistique. Le LLM a des lacunes en inférence linguistique: fr.m.wikipedia.org/wiki/Modèle_d%27inférence.
Oui c'est une bonne remarque on soupçonne aussi le côté auto-regressif en effet
Excellente vidéo, comme d'habitude ! MERCI !
du coup la réduction de dimensionnalité 13:13 utilise quel algorithme ?
J'ai utilisé PCA (j'avais aussi testé tSNE mais les résultats étaient moins clairs que ceux visualisés)
@@alexandretl umap est plus flexible de ce que j'ai entendu dire (et aussi plus rapide je crois). Sinon dernièrement j'ai vu passer le sigle PaCMAP (je connaissais pas). ua-cam.com/video/sD-uDZ8zXkc/v-deo.html
@@automatescellulaires8543 Merci je ne connaissais pas PaCMAP
Super vidéo bravo
Merci!
Merci pour cette vidéo très intéressante
toujours très intéressant bravo !
Merci bien!
6:57 Kinshasa ✨ je m'y attendais pas du tout ❤
Le mot le plus probable n'est effectivement pas forcément une simple affaire de bête répétition stochastique: imaginons un roman policier qui se termine par "et donc l'assassin est...". Pour donner le mot le plus probable (le nom de l'assassin), il faudrait avoir compris l'intrigue aussi bien que le détective qui révèle le coupable. Ce n'est pas toujours aussi simple que "le chat mange la...". Sinon, j'anticipe avec grand plaisir une vidéo sur la compression et l'entropie, j'espère qu'elle verra le jour, le sujet est passionnant <3
Yes finalement ce sera surement une mini série, ça s'annonce pas mal!
Un vidéo sur la compression et l’entropie serait super en effet !
@@delec9665 c'est dans la boîte :) ça sortira surement la semaine prochaine
Le constat que je fais c'est que tous les grands acteurs de l'ia rencontrent les mêmes problèmes/erreurs lors de l'élaboration de leurs models. Si seulement ils partageaint tous leurs decouvertes et expertises on avancerait plus vite dans la recherche en ia , mais tout le monde veut faire son propre llm...
Oui c'est vrai, surtout que les bases des technologiques des LLMs viennent de l'académie. Par exemple il y a quelques jours l'entreprise Magic a annoncé qu'ils avaient mis au point une architecture capable de traiter des séquences très très longues, mais aucune information technique, c'est rageant!
C'est une bonne chose du coups si ça ralentit la recherche.
Tu penses que les futures LLM qui seront plus gros seront faire que cela ou auront des nouvelles propriétés (émergentes) ?
Difficile de prévoir mais je dirais que non dans le cas où on ne fait "que" agrandir la taille du modèle et des données. Si on introduit des données synthétiques, ou que l'on change l'objectif d'entraînement, là oui pourquoi pas
@@alexandretl dac je vois, j'espère que tu te trompe ^^
Je dirais que oui. On voit que la plupart des capacités n'ont pas une courbe d'apprentissage linéaire mais plutôt sigmoide. Autrement dit, avant une certaine taille/quantité de données ils sont nuls, et une fois dépassé cette taille/qté de données ils maîtrisent. Une expérience a été faite avec un llm qui apprend l'addition modulaire et on voit bien cette courbe.
@@bacrima6382 concernant l'addition modulaire, tu parles de l'expérience du grokking ?
@@alexandretl je crois que c'est ça oui