j'ai découvert ta chaine il y a un mois et j'ai vu presque toute tes vidéos. J'ADORE ! Et même si je capte pas toujours tout, comme tu dis c'est pas grave, ça n'empêche pas de trouver toute ces astuces très très très jolies, voir parfois même d'une grande beauté. C'est vraiment cool que tu nous donne a voir tout ça. Un grand bravo et un grand merci.
Merci de t'inquièter de mon incompréhension. En fait, en pratique, tout tes vidéos me dépasse un peu. Malgré tout merci de me distraire avec les maths , je me sens chaque fois un peu plus intelligent meme si les calculs différentiel et intégral sont loin derrière moi. Toujours un plaisir
La totalité de tes videos sont geniales. J ai toujours regretté d avoir arreté les math apres un DUT mais grace à toi j ai l impression d avoir suivis des cours particuliers. J espere que tu trouvera la force/le temps/l envie/ autre car t es d utilité public. Merci
En effet tu avais raison quand tu dit que les puristes n'aimerait pas ça... Les approximations linéaires me rend dingue hahah. Même si je suis un économetre plus que un puristes.
Hello, comme d'habitude tes vidéos sont intéressantes, et nous font voir les concepts sous un nouvel œil. Je sais que tu es bayésien (tes vidéos et podcasts le laisse savoir), après avoir écouté Stanislas Dehaene, il semble que le sujet soit fécond et très intéressant. Peut-être feras tus une vidéo sur le machine learning bayésien un de ces quatre ;) Bonne continuaition.
Ta série sur le ML tombe vraiment bien ! J'suis en train de me faire la formation ML sur Coursera et je dois dire que ça fait un bon complément tes vidéos :) Jusqu'au bout de l'épisode j'étais là à me dire : "mais à rajouter trop de features, va y avoir un overfitting monstrueux !"... et puis est venu la conclusion de la vidéo et la j'ai poussé un ouf de soulagement ! ^_^ Pour régler le problème d'underfitting (si jamais rajouter des features ne marche pas), on peut aussi jouer avec le paramètre de régularisation lambda (en le prenant plus petit), non ?
Petite question, quand tu augmentes tes dimensions pour ton kernel trick, tu risques aussi de te rapprocher d'autant plus vite du point de surrapprentissage... et donc de ne plus etre predictif que pour ton jeu de données initial, a ne pas negliger non plus c'est que selon le kernel ca peut accentuer le bruit initial Il me semble que au dela de la phase pure de traitements des données (apprentissage sup ou non et mise en prod), le coté traitement du signal en amont n'est pas evoqué (ou j'ai peut etre loupé un episode) c'est une phase importante ou un cherche a l'inverse souvent a reduire les dimensions car elle peuvent introduire des infos perturbant le modele...
Il faut aussi garder a l'esprit que pour parer aux complications causées a la fois par la méthode des moindres carrés et la surinterprétation, il est toujours possible d'éffectuer de l’échantillonnage (K-fold method) afin de faire la moyenne des modèles prédits.
Pour les gens qui avaient lâchés à la corrélation au dernier épisode, la chaine "la statistique expliquée à mon chat" a fait une vidéo sur le sujet qui explique très bien je trouve.
pour ceux qui voudraient s'amusé avec des réseaux de neurone : playground.tensorflow.org/ c'est relativement simple à utiliser, c'est juste pour visualiser un peut comment ça marche. (posté sur la vidéo précédante par Redswap)
Je te trouve un peu dur avec Gabriel Frey, car prendre deux droites pour le XOR c'est exactement ce que va faire un arbre de décision, et ce principe est généralisable, juste qu'au lieu de prendre des droites on prend des morceaux de droites, et le Random Forest qui est une évolution des arbres de décision est très à la mode en ce moment.
Il s'agit clairement des SVM, à préciser que seuls les vecteurs de support (les points les plus proches de l'hyperplan) sont nécessaires pour générer l'hyperplan séparateur et ça c'est cool (nombre d'échantillons assez faibles mais nécessairement pertinents)
Idée pour les séparations linéaires: -commencer par une application qui commet beaucoup d'erreurs -la restreindre sur les intervalles ou elle a eu juste -on obtient un ensemble d'applications linéaires (qui risque d'être infini mais pas si on s'autorise des erreurs) -si en plus au cours du procédé deux intervalles se rejoignent il faut les fusionner (si les AL donnent le même résultat sur l'intervalle )
tu tires tes info du livre : "intelligence artificielle, une approche moderne" ?, parce que je viens de l'acheter et je retrouve presque toutes tes idées. Mais merci pour tes videos tu donnes une explication différente.
Hello ! Passionnant ! J'ai deux questions : 1) Peux-tu nous donner un exemple de features/labels utilisables pour une IA qui joue aux échecs ou au go ? Dans le cas des like/dislike on comprend que la régression linéaire nous permettra de prédire ce qui sera "aimé" ou "non". Mais dans le cas d'un jeu, les données sont des coups joués, des positions, mais comment sait-on qu'un coup est "bon" ou "mauvais" ? 2) Il me semble que la dernière version Alphago Zero apprend à jouer sans aucune donnée (connaissant seulement les règles du jeu). Malgré l'efficacité de la régression linéaire, si on a pas de données, ça ne peut pas marcher =p ? Cela signifie-t-il que ce n'est pas du deep learning ? Est-ce que je mélange tout =p ? Merci en tout cas pour ces vidéos ! (je milite autour de moi pour le scrutin randomisé de condorcet =D).
1) Pour un jeu d'échec par exemple, les features seraient le jeu à un instant donné et les coup possible, les labels seraient pour un coups "bon" et les pour les autres "mauvais". Pour savoir si un coups est bon ou mauvais, on simule les 5-10 coups suivants et on compte le nombre moyen de pièces qui restent (en attribuant à chaque pièce une valeur, genre 1 pour un pion et 10 pour une reine). C'est l'idée de base pour les échec et c'est faisable facilement avec un ordinateur actuel. 2) Tu ne mélange rien ^^ C'est juste que AlphaGo0 a créé lui-même un ensemble de données en jouant contre lui-même. Cet immense set de données a pour features le jeu à un instant donné et le coups joué. Et il attribuait un label continue (et pas discret comme les like/dislike) selon qu'il déterminait que ce coups était bon ou mauvais. Et pour déterminer si un coups était bon ou mauvais et bien c'est plutôt simple, tu regarde qui a gagné et avec combien de "points" il a gagné. Si il a gagné de beaucoup, il a bien joué et tu peux attribuer à chaque features qui correspond à ses coups joués une bonne note et tu met une mauvaise note aux features des coups du perdant. En vrai c'est plus compliqué que ça mais ça résume bien l'idée générale ^^.
Merci Bacrima pour cette réponse, c'est très clair. J'imagine bien qu'il est de toute façon impossible de ne pas simplifier. L'approche que tu décris pour les échecs a l'inconvénient cependant de nécessiter une connaissance "externe" du jeu, afin de décider de l'importance ou non d'une pièce, ou même de décréter qu'une position est meilleure si on a plus de pièces (en fait une fonction d'évaluation de la position). J'imagine que cette fonction doit pouvoir elle-même être "apprise" ? Pour le go, la différence de points n'est en fait pas représentative d'une victoire "large" ou "facile". Une partie peut être très serré avec une différence finale de 100 points au score (par exemple un "ko" final compliqué, pour les connaisseurs), comme elle peut ne l'être pas du tout avec une différence de seulement 10 points. Mais j'imagine que par "points" gagné, tu entends là encore un genre de fonction dévaluation plus complexe que juste une différence de points ?
En fait je décrivais ici le fonctionnement de Deep Blue, qui a battu les meilleurs joueurs d'échec il y a 20 ans. On applique toujours la même idée qu'auparavant sauf qu'aujourd'hui la fonction d'évaluation est déterminée grâce à l'apprentissage ^^. Pour le go je ne m'y connait pas assez pour dire comment une telle fonction pourrait être déterminée. Je sais que la première version de AlphaGo attribuait à chaque position possible pour jouer un certain poids. Plus ce poids était important plus la position était importante dans la partie en cours. Au pire jette un oeil à la vidéo de Science étonnante sur le deep learnig, il explique bien l'algorithme de AlphaGo.
En effet, je viens de regarder à nouveau les vidéos sur le Deep Learning et sur Alphago. C'est tout à fait la pièce du puzzle qu'il me manquait. Donc en effet, Alphago utilise un réseau apprentissage pour la fonction d'évaluation, et un autre pour apprendre à parcourir un arbre en Monte Carlo. Merci !
Oulah ! Attention ! On ne "bidouille" pas n'importe comment jusqu'à trouver une fonction de transfert qui linéarise. Car alors la plupart des transformations (carré, racine, log...) altèrent la pondération de chaque point par rapport aux données de départ. Heureusement, les stats savent prendre ça en compte. Attention car cette dernière vidéo (et les deux précédentes) ne concerne pas que l'IA, mais toutes les stats associées à n'importe quelles sciences expérimentales. On voit tellement d'articles scientifiques (surtout par des auteurs de pays latins...) dans lesquelles les données sont mal traitées statistiquement... Et qui pourtant sont parfois acceptés par les revues !!!
Tu vas t'attirer la colère des zététiciens avec tes bidouilles ! Bon, sinon, il y a vraiment des jours où je regrette de ne pas avoir suivi un cursus mathématique. Enfin, des jours... juste quand je regarde tes vidéos :P
C'est pas tant le mal de crâne que le sentiment d'impuissance en fait : filière ES, j'en suis resté aux équations avec des x et des y, là je me retrouve avec des z des C et des symboles grecs dont je ne connais même pas la prononciation, c'est hyper frustant haha. Heureusement que l'enthousiasme de Lê est communicatif.
En effet, ça ne gêne pas du tout pour un zététicien, vu que la bidouille est présentée comme étant une bidouille. Si ça avait été présentée comme une vérité absolue, là un zét' aurait de quoi râler, vu qu'il y aurait clairement tromperie sur la marchandise. Rien de tel ici :)
J'ai un niveau de TES en maths et je n'ai pas trop de problème a suivre ces vidéos bien qu'il parlent sans arrêt de théorème ou de concept mathématiques que je ne connais pas. En réalité même avec mon niveau je ne comprend que la moitié ou moins de ce que Science for all explique dans ses vidéos mais j'arrive à suivre à peut près les concept et ce qu'il expose dans cette vidéo notamment !
Un bon exemple de distribution non gaussienne des erreurs (voir d'erreur localement corrélées) est la mesure des distances entre nous et divers objets célestes par Hipparcos. Dans un cas, (et un seulement) un objet (je crois que ce sont les pleiades, mais je ne suis plus sûr), le satellite a répété les même mesure, avec une corrélation des erreurs allant totes dans le même sens, conduisant à une estimation de distance fausse. Pourtant, le reste des mesures sur les autres objets est juste, avec des erreurs normalement distribuées.
Merci merci merci de dire que tout n'est que bidouille. J'ai régulièrement des groupes entiers qui me redardent comme un taré complet quand je leur dit que les maths c'est de la rigueur mais que la réalité c'est la guerre de tranchées avec appel régulier à sainte bidouille et saint je-sais-pas-si-ça-va-marcher-mais-ca-se-tente-quand-même-des-fois-que.
Surrement rien compris, mais sur les valeurs extrême, est ce que le fait de "remacher" les données via par exemple le test de Grubbs ne résoudrai pas le problème de robustesse de la méthode des moindres carré ?
... Mais est-ce que 2 bidouilles différentes n'obtiendraient pas deux classifications différentes faisant deux predictions différentes ? Comment savoir quelle bidouille est la meilleure ?
On ne dit pas "de de Borda" même s'il a une particule à son nom de famille. Je sais que tout le monde fait cette faute mais si l'on donne UNIQUEMENT le nom de famille de quelqu'un qui a une particule, il faut ne pas dire cette particule. Dans tous les autres cas, il faut la mettre. Bisous bisous et merci pour toutes tes superbes vidéos.
Ben non :( Et puis la règle de l'Hôpital c'est une sous-application des développements limités quoi. Bon en vrai je suis méchant là, je trouve que c'est une très bonne règle pour comprendre ce qui se passe dans les développements limités quand ils sont utiles. En tout cas moi j'ai bien compris les DL grâce à cette règle.
Pas con ta remarque sur d'Artagnan. On dit bien Rastignac pour parler d'Eugène de Rastignac. Il faudrait que je vérifie pour la particule et l'apostrophe. Par exemple on dit aussi d'Alembert.
Même dans les maths dite "rigoureuse" il y a de la bidouille : Quand on parle on parle d'infinitésimal pour les notions de limite et de continuité en analyse "standard" on utilise des mathématiques non-standard.
Du coup, pour en revenir à la régression linéaire : On fait tourner un algorithme qui minimise la somme de la puissance Alpha des erreurs et qui retourne la valeur des coefficients de la droite en fonction de Alpha. Puis on intègre pour faire la moyenne de ces coefficients pour Alpha allant de 0 à l'infini. On prend ce résultat comme coefficients de la droite. C'est une sorte de "mixte" .Ça peut marcher?Évidemment ça doit pas être top en temps de calcul.
J'aime bien ton idée mais j'ai un doute sur la pertinence d'un coefficient basé sur un grand Alpha. Avec Alpha grand on donne de plus en plus d'importance aux points aberrants ce qui rend la méthode peu robuste. Avec un Alpha trés grand, c'est carrément absurde, car des point pas si loin que ça de la droite vont la faire dévier énormément et les points proches n'auront plus aucun poids. Et pour Alpha nul ... c'est juste pas pertinent non plus, on peut pas minimiser. Par contre on pourrait faire ta méthode entre 1 et 2. Ou alors mieux ! Trouver le plus grand Alpha pour lequel on a un R²
Oui, tu as raison sur la non pertinence de certains Alpha (trop petit ou trop grand) Il vaut mieux s'arrêter entre 1-1/n et 2 (voire plus restreint). Par contre prendre Alpha inférieur à 1 n'est pas forcément inutile ( on tient encore moins compte des grosses erreurs que pour 1, mais on donne plus d'importance aux petites erreurs ). Mais du coup, la fin de ton commentaire est une autre bonne idée ( prendre le meilleur Alpha).
Bonjour, je profite de cet espace de communication pour vous soumettre une question malheureusement hors sujet par rapport à cette vidéo et cependant raccord avec le thème de votre chaîne. Peut-on dire ? "Un algorithme ne se résout pas !" Merci par avance pour votre réponse et vos partages.
Pour moi un algorithme n'est pas un problème, on ne cherche pas la solution d'un algorithme. Donc oui je dirais qu'un algo ne se résout pas, c'est la résolution d'un problème, qui lui se résout (grâce à l'algo).
plus que bidouille , on appelait ça changement de variables dans mes cours. enfin ça me semble pas absurde que la science avance à tatons et qu'il y ai beaucoup de là ça marche pour faire qu'une courbe suive ce valeurs ^^
ben en fait c'est pas tellement un changement de variable, c'est la projection dans un autre espace ( appele feature space), et on fait ca avec des noyaux ( kernels).......pour les changements de variable purs, y a des methodes en econometrie et en stats ( c'est un peu long et ca depend de ce qu'on veut faire)
Ce que tu dis sur l'intérêt des modèles bayésiens, ça me rappelle ce que fait le GIEC pour ses modèles climatiques : ils donnent plusieurs modèles différents (genre pour la circulation atmosphérique, les courants océaniques, etc.) et regardent à l'arrivée combien de modèles donnent tel résultat ou tel autre.
Je sais pas si on peut parler de problèmes non résolus en informatique, mais si on considère que c'est un problème auquel on a pas de solution proche d'être optimale (ou au moins calculable en un temps raisonnable), j'ai l'impression que les problèmes non résolus en maths sont les problèmes non résolus en informatique, ce sont deux domaines très proches je trouve. Le voyageur de commerce est un problème "non résolu" en informatique. Mais ce n'est que mon point de vue pas du tout fiable.
L'informatique théorique est un océan de problèmes non-résolus. Vraiment. On n'y connaît en fait presque rien (surtout en "théorie de la complexité algorithmique").
Outch, j'avoue que depuis la précédente vidéo dans cette série je suis totalement largué... Vu que je suis nul en maths c'est peut-être pas un contenu pour moi. Je veux pas tirer la chaîne vers le bas (et d'ailleurs je peux comprendre aussi ceux qui regrettent quand c'est pas assez matheux) mais ça serait cool si les profanes pouvaient avoir un peu plus d'éléments auxquels se raccrocher. Moi j'ai un peu l'impression d'entendre ça : ua-cam.com/video/GTVUvXEOrsk/v-deo.html
Il faut s'accrocher quand même :/ j'ai du mal avec les sujets sur l'IA. C'est un sujet cool d'apparence mais hyper compliqué quand on rentre dans le concret. J'attends avec impatience la prochaine série. En attendant, je re(rerere)garde les séries sur l'infini et sur les lois de la physique. :)
Pas mal la bidouille non-linéaire!!! c'est cette bidouille qui a permis d'atteindre des niveaux jamais atteints en Intelligence. Par exemple, les résultats d'Alphazero a fait dire à un spécialiste des échecs: "je me suis toujours demandé ce que cela ferait si une espèce supérieure atterrissait sur Terre et nous expliquait comment jouer aux échecs... après Alphazero, je sais maintenant..." Sans aucune connaissance au départ, il a fallu 3000ans à l'humanité et quelques jours à Alphazero...
Je me faisais la même réflexion. C'est tiquant quand tu as l'habitude d'écouter des conférences qui parlent de sur-apprentissage et qu'on te sors sur-interpretation. Mais sur-interpretation semble mieux adapté finalement.
Utiliser le terme bidouille (bien français celui-là) est inutilement négatif, il faut en parler comme ce que c'est vraiment : un changement de point de vue d'un même ensemble de données. Point de vue qui fait mieux comprendre (la machine dirait qui permet enfin de séparer les caractéristiques/features). Un peu comme un scientifique qui prend un microscope pour mieux voir ce qui se passe dans une cellule, ou un astrophysicien qui utilise un télescope pour obtenir un point de vue plus efficace sur les caractéristiques de son objet d'étude.
"La bidouille, c'est pas beau mais ça marche": Ahhh! Les mathématiciens... Les pauvres... ils ne savent pas apprécier la beauté d'une bonne vieille bidouille empirique de physicien :D
voilà, aujourd'hui seulement je comprends l'ironie du nom de ta chaîne. Mais c'est bien, vous avez l'air d'avoir des discussions super pasionnantes avec les 5-6 francophones qui comprennent qlq choses à tout ça ^^ Et pratiquement, dans quoi est ce que c'est utilisé tout ça ?
A peu près partout, quand tu utilise facebook par exemple, si tu n'as pas une bonne connexion tu as peut-être déjà remarqué qu'à la place de la photo, avant qu'elle ne s'affiche, un petit texte est écrit décrivant le contenu de la photo. C'est de l'I.A. Ou alors les suggestions d'amis ... I.A. Ou le tag automatique des photos facebook (actif uniquement aux U.S.A.) ... I.A. Ou les recherches que tu fais sur google ... I.A. Ou la reconnaissance vocale de ton téléphone ... I.A. Ou les voitures qui conduisent seules ... I.A. Ou les suggestions youtube ... I.A. Ou la spéculation boursière ... I.A. Bref .. partout.
Faut s'accrocher ! J'y comprends rien en mathématiques mais en revisionnant plusieurs fois la suite des épisodes on commence à avoir l'intuition de ce vers quoi ça tend. Pour la pratique ça viendra bientôt : Lê nous explique les fondamentaux pour piger l'IA, je suis impatient de saisir le lien entre régression linéaire et deep learning !
koromon789 merci pour cette explication ! Je bosse dans un labo d'analyses microbiologiques. Perso j'ai du mal avec les stats et j'ai l l'impression que la moyenne, l'écart type et la variance suffisent. La loi de Poisson par exemple, utilisée dans nos incertitudes, me semble farfelue. Et mes résultats de contrôles internes par exemple sont quasi les mêmes si j'utilise Poisson ou pas. Pr ça que je me posais la question sur ces bidouilles qui se veulent prédictives jusqu'à en perdre la signification. (Suis sûr que je n'ai pas été complétement clair mais une IA devrait pouvoir tirer quelque chose de mon laïus ;). )
Aie ! Encore une objection : quand on croit que les erreurs "aléatoires" sur des mesures donnent une loi normale, certes ça se démontre, et pourtant c'est ... FAUX ! Car ça ignore que dans presque tous les cas, la grandeur qu'on mesure possède une borne inférieure (souvent zéro : comme un nombre de dislike, une concentration en une substance, etc) alors que la grandeur ne possède pas de borne supérieure absolue. C'est quasiment toujours le cas, et dans ce cas la loi de distribution des mesures est FORCEMENT asymétrique vers la droite. Le fit gaussien n'est qu'une approximation (certes souvent très bonne quand l'erreur moyenne est faible face à la médiane : en gros quand le moment d'ordre 3 est faible), mais il faut en être conscient. Combien de scientifiques "appuient sur le bouton" de leur logiciel de traitement stat des données pour avoir l'intervalle de confiance à 95% sans savoir que, dessous, se cache la supposition gaussienne qui est en réalité ... une approximation ?... Bref : toujours vérifier la courbe de répartition. En effet, dans beaucoup de domaines, notamment les sciences de l'environnement, la répartition des données est très asymétrique (racine-normale, ou même log-normale), alors tous les "boutons" des logiciels de stat ne peuvent plus s'appliquer (la p-value, l'intervalle de confiance, etc...) !!!
Très bonne remarque ! Du coups en pratique dans ces cas là on fait comment ? Si on agglomère plusieurs mesures entres elles, par exemple on fait 20 mesures pour chaque valeurs et on moyenne. Alors là le théorème centrale limite nous assure que l'on aura une erreur qui suit plus ou moins une loi normal non ?
Il existe une généralisation de la régression linéaire qui peut "fitter" des distributions non-normale: la régression linéaire généralisée (dont la régression logistique est un exemple d'application). Pour des données asymétriques, la distribution Gamma donne de bon résultats. Voilà un exemple d'application: la modélisation des durées de séjour à l'hôpital. La variable dépendante "durée de séjour" est forcément positive (il n'y a pas de durée négative). www.ncbi.nlm.nih.gov/pubmed/16157254
Ma réponse à Bacrima : Presque toujours : oui. Mais en fait ce n'est qu'une approximation, et cela vient aussi du fait que les erreurs sont souvent suffisamment "resserrées" autour de la moyenne, de sorte que l'asymétrie soit indétectable. Mais parfois, ce n'est pas du tout le cas. Ce que je veux dire, c'est que c'est souvent OK, mais il faut juste être conscient de l'approximation que cela implique : trop de scientifiques "cliquent" sur leur bouton de logiciel de traitement statistique des données parce qu'on leur a "toujours dit que ça marche comme ça" sans même regarder la courbe de distribution de leurs données. Et un jour, ils tomberont sur une distribution très asymétrique et le l'auront même pas vue... Et appliqueront alors des méthodes qui ne s'appliquent pas à leurs données car nécessitant la loi normale. Bon OK, il faut également bien savoir de quoi on parle : ici notre youtuber scientifique préféré parle de la distribution des résultats répétés de la mesure d'une seule chose (distribution des "erreurs"). Moi je parle de cela, mais je souhaite aussi aborder dans la présente discussion les distributions de mesures d'une grandeur sur plusieurs choses ou individus (exemple : la distribution des salaires des français). Et là, alors là, c'est presque JAMAIS NORMAL. Prenons l'exemple des mesures dans les sciences de l'environnement (domaine que je connais) : elles sont souvent très dispersées, et leur distribution très asymétrique (sauf : le pH ! Mais tout simplement parce que le pH est en fait -log(H+), donc déjà "log-transformé"). Quand j'étais dans la recherche dans ce domaine, je conseillais souvent à mes étudiants de d'abord regarder leur distribution de données, puis faire une transformation racine ou plus souvent même log. Et seulement avec les données log-transformées donc devenues "normales", y appliquer les traitements statistiques habituels : intervalle de confiance à 95%, tests en tous genres. Et d'après les résultats de ces tests ou calculs : "dé-transformer" (faire un 10-puissance si on avait log-transformé, par exemple) les valeurs obtenues pour revenir à la grandeur de départ. Eh ben dans plein de domaines des sciences, j'ai pu constater que ... presque PERSONNE NE LE FAIT OU MEME N'Y PENSE. Et je n'ai jamais compris pourquoi. Autre problème : contrairement aux big data du numérique dont on parle ici, les données d'une expérience dans beaucoup de domaines sont souvent peu nombreuses. C'est le cas en biologie, en sciences de l'environnement (partout où la mesure coûte cher). Or quand on a peu de données, on ne peut pas vraiment bien connaitre leur loi de distribution. QUAND ON N'A PAS ACCES A LA LOI DE DISTRIBUTION, PEUT-ON SUPPOSER PAR DEFAUT QU'ELLE EST NORMALE ? J'Y METS UNE GROSSE OBJECTION. Car les rares expérimentations dans ces domaines qui ont pu collecter beaucoup de données, DEMONTRENT LE CONTRAIRE. Pourtant, vous verrez tous les articles scientifiques supposer implicitement (sans même le dire...) une distribution normale. C'est un gros problème, à mes yeux, de la science expérimentale et du traitement statistique. Et un vrai champ de recherche en soi. Pas du tout suffisamment connu.
Alors comme ça "utiliser le maximum de vraisemblance est un peu une hérésie pour un bayésien comme toi"?? Je suis étonné, il me semblait au contraire que l'approche bayésienne était la meilleure justification à l'utilisation du maximum de vraisemblance! En effet, si tu pars d'une probabilité "a priori" uniforme sur un paramètre inconnu à estimer, ta probabilité "a posteriori" (ou sa densité) sera maximisée... en le paramètre du maximum de vraisemblance! Alors oui, ce paradigme a ses limites (en particulier, pourquoi partir d'une probabilité "a priori" uniforme? Ce n'est d'ailleurs pas possible si ton espace de paramètres est un ensemble non compact, comme la droite réelle par exemple, et que tu veux travailler avec des mesures de probabilité... de masse 1!), mais il me semble tout de même bien expliquer en quoi l'estimateur du maximum de vraisemblance est souvent un bon estimateur. Je ne connais pas d'aussi bonne justification à l'utilisation du max de vraisemblance dans un cadre de statistique mathématique non-bayésienne...
Oui, le bayésianisme est peut-être la meilleure justification possible du maximum de vraisemblance... Mais ça ne veut pas dire que le maximum de vraisemblance est la meilleure approche selon le bayésiannisme !
Ok, même si j'aurais tendance à penser qu'alors le bayésianisme devrait juger le maximum de vraisemblance plus favorablement que le non-bayésianisme...
Allez, tu me donnes envie de troller un peu ^^ Perso, je vois pas trop ce qu'est le non-bayésiannisme, à part peut-être le "bidouillisme". Or, je pense que le bidouilliste est très fier de son maximum de vraisemblance ^^
On dirait que tu fais exprès pour de me troller... Mais je cède volontiers encore à mon hooliganisme laplacien : C'EST QUAND MÊME ABSOLUMENT SCANDALEUX QUE LA VALEUR DE A CORRESPONDE À CE QUE L'ON APPELLE L'INTÉGRALE DE GAUSS, ALORS QUE, BORDEL DE MERDE, C'ÉTAIT LAPLACE QUI L'AVAIT CALCULÉ BIEN AVANT GAUSS !! ADMETTEZ-LE, LAPLACE >> GAUSS !
Tu considère ta chaîne comme une chaine de vulgarisation pour tous, ou plus pour une petite niche de personne avec des connaissances déjà assez poussées en sciences ? Parce que franchement, je vois que tu fais du bon travail, mais même moi (qui ai de bonnes bases en sciences ) la plupart du temps je comprends rien à tes vidéos ! Tu fais souvent appel à des théorèmes,théories,et autre notions que je ne connais pas sans les expliquer (alors que par contre tu explique le théorème central limite qui pour moi est basique !). Je trouve cela dommage, je pense que tu as du potentiel pour mieux expliquer les choses en traitant de sujet toujours aussi poussés ! Et puis en voyant les commentaires, clairement, les gens qui regardent tes vidéos ont tous l'air de déjà s'y connaitre en intelligence artificielle et autres manipulations mathématiques complexes 😅 ça m'énerve parce que j'ai envie de comprendre ce dont tu parles, je trouve cela extrêmement intéressant (enfin de ce que j'arrive à comprendre) mais pour prendre l'exemple de cette vidéo précisément, je ne vois pas ce que cette linéarisation et cette bidouille à a faire avec le thème de l'IA... J'me suis sûrement perdue en chemin, mais peut-être que lancer une série plus simple et plus vulgarisée pourrait être une bonne idée ! Enfin bon ton travail reste de qualité quoi que tu fasse !
Tu fais un super taff , mais essaye d'etre homogène sur le lexique, si ta video est en francais, evite d'utiliser les termes Labels et Features.... par exemple.... je comprend bien que probablement te schema sont reutilisé mais ca rendrais ta video plus soigné... (et le monde academique aime ca ^^)
Il a dit au début de la série (pratiquement) qu'il utiliserait ces termes et les a définit, je pense que c'est assez rigoureux ( et puis là on est pas vraiment dans le monde académique).
nullissime. le gars se prend pour un normalien niveau 5eme, geniale la regression lineaire et celle du cerveau. Je regrette pas mes profs de math sup/spe apres cette video a 2 balles, c etait autre chose que 2+2=5. Public passez a autre chose serieux,....
Cette série est vraiment exceptionnelle de qualité ! UA-cam te doit tout Imo!
Pitié Lê 🙏, ne t’arrête pas !!
j'ai découvert ta chaine il y a un mois et j'ai vu presque toute tes vidéos. J'ADORE !
Et même si je capte pas toujours tout, comme tu dis c'est pas grave, ça n'empêche pas de trouver toute ces astuces très très très jolies, voir parfois même d'une grande beauté.
C'est vraiment cool que tu nous donne a voir tout ça. Un grand bravo et un grand merci.
Je suis étudiant en statistique mais je n'avais pas pensé à certaines limites pour l'interprétation de la régression linéaire. Très instructif !
Toujours aussi plaisant à regarder ! Je suis en DUT informatique et c'est un pur régal (on fait beaucoup d'algèbre linéaire)
Merci de t'inquièter de mon incompréhension. En fait, en pratique, tout tes vidéos me dépasse un peu. Malgré tout merci de me distraire avec les maths , je me sens chaque fois un peu plus intelligent meme si les calculs différentiel et intégral sont loin derrière moi. Toujours un plaisir
La totalité de tes videos sont geniales. J ai toujours regretté d avoir arreté les math apres un DUT mais grace à toi j ai l impression d avoir suivis des cours particuliers. J espere que tu trouvera la force/le temps/l envie/ autre car t es d utilité public. Merci
Ce genre de commentaires m'aide beaucoup ! Merci
Un énorme j aime pour votre effort. Bcp de points se sont éclaissit . Merci
En effet tu avais raison quand tu dit que les puristes n'aimerait pas ça... Les approximations linéaires me rend dingue hahah. Même si je suis un économetre plus que un puristes.
Hello, comme d'habitude tes vidéos sont intéressantes, et nous font voir les concepts sous un nouvel œil. Je sais que tu es bayésien (tes vidéos et podcasts le laisse savoir), après avoir écouté Stanislas Dehaene, il semble que le sujet soit fécond et très intéressant. Peut-être feras tus une vidéo sur le machine learning bayésien un de ces quatre ;)
Bonne continuaition.
Une vidéo serait très largement insuffisante pour dire ne serait-ce qu'un iota de ce que j'aimerais dire à ce sujet :P
Ta série sur le ML tombe vraiment bien ! J'suis en train de me faire la formation ML sur Coursera et je dois dire que ça fait un bon complément tes vidéos :)
Jusqu'au bout de l'épisode j'étais là à me dire : "mais à rajouter trop de features, va y avoir un overfitting monstrueux !"... et puis est venu la conclusion de la vidéo et la j'ai poussé un ouf de soulagement ! ^_^ Pour régler le problème d'underfitting (si jamais rajouter des features ne marche pas), on peut aussi jouer avec le paramètre de régularisation lambda (en le prenant plus petit), non ?
Héhé... On en parlera :P
depuis que je connais ta chaîne, ma consommation d'aspirine suit une exponentielle ;)
Petite question, quand tu augmentes tes dimensions pour ton kernel trick,
tu risques aussi de te rapprocher d'autant plus vite du point de surrapprentissage... et donc de ne plus etre predictif que pour ton jeu de données initial,
a ne pas negliger non plus c'est que selon le kernel ca peut accentuer le bruit initial
Il me semble que au dela de la phase pure de traitements des données (apprentissage sup ou non et mise en prod), le coté traitement du signal en amont n'est pas evoqué (ou j'ai peut etre loupé un episode) c'est une phase importante ou un cherche a l'inverse souvent a reduire les dimensions car elle peuvent introduire des infos perturbant le modele...
effectivement, comme la dit George Box : "tous les modéles sont faux, mais certains sont utiles"
Il faut aussi garder a l'esprit que pour parer aux complications causées a la fois par la méthode des moindres carrés et la surinterprétation, il est toujours possible d'éffectuer de l’échantillonnage (K-fold method) afin de faire la moyenne des modèles prédits.
on sent le mec qui veut apparaitre dans la vidéo suivante :D
Guy Don Coupable votre honneur :)
Pour les gens qui avaient lâchés à la corrélation au dernier épisode, la chaine "la statistique expliquée à mon chat" a fait une vidéo sur le sujet qui explique très bien je trouve.
pour ceux qui voudraient s'amusé avec des réseaux de neurone : playground.tensorflow.org/
c'est relativement simple à utiliser, c'est juste pour visualiser un peut comment ça marche.
(posté sur la vidéo précédante par Redswap)
Tiens mais c'est génial =D
Je te trouve un peu dur avec Gabriel Frey, car prendre deux droites pour le XOR c'est exactement ce que va faire un arbre de décision, et ce principe est généralisable, juste qu'au lieu de prendre des droites on prend des morceaux de droites, et le Random Forest qui est une évolution des arbres de décision est très à la mode en ce moment.
a mon avis si on a pas les bases en ML et DL, tes objections tres interessantes au passage, sont carrement imbitable lol
Il s'agit clairement des SVM, à préciser que seuls les vecteurs de support (les points les plus proches de l'hyperplan) sont nécessaires pour générer l'hyperplan séparateur et ça c'est cool (nombre d'échantillons assez faibles mais nécessairement pertinents)
Idée pour les séparations linéaires:
-commencer par une application qui commet beaucoup d'erreurs
-la restreindre sur les intervalles ou elle a eu juste
-on obtient un ensemble d'applications linéaires (qui risque d'être infini mais pas si on s'autorise des erreurs)
-si en plus au cours du procédé deux intervalles se rejoignent il faut les fusionner (si les AL donnent le même résultat sur l'intervalle )
tu tires tes info du livre : "intelligence artificielle, une approche moderne" ?, parce que je viens de l'acheter et je retrouve presque toutes tes idées. Mais merci pour tes videos tu donnes une explication différente.
Juste te dire merci… continue
Hello ! Passionnant ! J'ai deux questions :
1) Peux-tu nous donner un exemple de features/labels utilisables pour une IA qui joue aux échecs ou au go ? Dans le cas des like/dislike on comprend que la régression linéaire nous permettra de prédire ce qui sera "aimé" ou "non". Mais dans le cas d'un jeu, les données sont des coups joués, des positions, mais comment sait-on qu'un coup est "bon" ou "mauvais" ?
2) Il me semble que la dernière version Alphago Zero apprend à jouer sans aucune donnée (connaissant seulement les règles du jeu). Malgré l'efficacité de la régression linéaire, si on a pas de données, ça ne peut pas marcher =p ? Cela signifie-t-il que ce n'est pas du deep learning ? Est-ce que je mélange tout =p ?
Merci en tout cas pour ces vidéos ! (je milite autour de moi pour le scrutin randomisé de condorcet =D).
1) Pour un jeu d'échec par exemple, les features seraient le jeu à un instant donné et les coup possible, les labels seraient pour un coups "bon" et les pour les autres "mauvais". Pour savoir si un coups est bon ou mauvais, on simule les 5-10 coups suivants et on compte le nombre moyen de pièces qui restent (en attribuant à chaque pièce une valeur, genre 1 pour un pion et 10 pour une reine). C'est l'idée de base pour les échec et c'est faisable facilement avec un ordinateur actuel.
2) Tu ne mélange rien ^^ C'est juste que AlphaGo0 a créé lui-même un ensemble de données en jouant contre lui-même. Cet immense set de données a pour features le jeu à un instant donné et le coups joué. Et il attribuait un label continue (et pas discret comme les like/dislike) selon qu'il déterminait que ce coups était bon ou mauvais.
Et pour déterminer si un coups était bon ou mauvais et bien c'est plutôt simple, tu regarde qui a gagné et avec combien de "points" il a gagné. Si il a gagné de beaucoup, il a bien joué et tu peux attribuer à chaque features qui correspond à ses coups joués une bonne note et tu met une mauvaise note aux features des coups du perdant.
En vrai c'est plus compliqué que ça mais ça résume bien l'idée générale ^^.
Merci Bacrima pour cette réponse, c'est très clair. J'imagine bien qu'il est de toute façon impossible de ne pas simplifier.
L'approche que tu décris pour les échecs a l'inconvénient cependant de nécessiter une connaissance "externe" du jeu, afin de décider de l'importance ou non d'une pièce, ou même de décréter qu'une position est meilleure si on a plus de pièces (en fait une fonction d'évaluation de la position). J'imagine que cette fonction doit pouvoir elle-même être "apprise" ?
Pour le go, la différence de points n'est en fait pas représentative d'une victoire "large" ou "facile". Une partie peut être très serré avec une différence finale de 100 points au score (par exemple un "ko" final compliqué, pour les connaisseurs), comme elle peut ne l'être pas du tout avec une différence de seulement 10 points. Mais j'imagine que par "points" gagné, tu entends là encore un genre de fonction dévaluation plus complexe que juste une différence de points ?
En fait je décrivais ici le fonctionnement de Deep Blue, qui a battu les meilleurs joueurs d'échec il y a 20 ans. On applique toujours la même idée qu'auparavant sauf qu'aujourd'hui la fonction d'évaluation est déterminée grâce à l'apprentissage ^^.
Pour le go je ne m'y connait pas assez pour dire comment une telle fonction pourrait être déterminée.
Je sais que la première version de AlphaGo attribuait à chaque position possible pour jouer un certain poids. Plus ce poids était important plus la position était importante dans la partie en cours.
Au pire jette un oeil à la vidéo de Science étonnante sur le deep learnig, il explique bien l'algorithme de AlphaGo.
En effet, je viens de regarder à nouveau les vidéos sur le Deep Learning et sur Alphago. C'est tout à fait la pièce du puzzle qu'il me manquait. Donc en effet, Alphago utilise un réseau apprentissage pour la fonction d'évaluation, et un autre pour apprendre à parcourir un arbre en Monte Carlo. Merci !
très bonne vidéo, génial :)
Tu mérite tellement d'être au sommet de la courbe y=c/x !
Il n'y a pas de sommet :'(
Le sujet de ta prochaine vidéo est passionnant je l attends avec impatience 🤗
Oulah ! Attention ! On ne "bidouille" pas n'importe comment jusqu'à trouver une fonction de transfert qui linéarise. Car alors la plupart des transformations (carré, racine, log...) altèrent la pondération de chaque point par rapport aux données de départ. Heureusement, les stats savent prendre ça en compte. Attention car cette dernière vidéo (et les deux précédentes) ne concerne pas que l'IA, mais toutes les stats associées à n'importe quelles sciences expérimentales. On voit tellement d'articles scientifiques (surtout par des auteurs de pays latins...) dans lesquelles les données sont mal traitées statistiquement... Et qui pourtant sont parfois acceptés par les revues !!!
Tu vas t'attirer la colère des zététiciens avec tes bidouilles ! Bon, sinon, il y a vraiment des jours où je regrette de ne pas avoir suivi un cursus mathématique. Enfin, des jours... juste quand je regarde tes vidéos :P
Si non ça fait trop mal à la tête^^
C'est pas tant le mal de crâne que le sentiment d'impuissance en fait : filière ES, j'en suis resté aux équations avec des x et des y, là je me retrouve avec des z des C et des symboles grecs dont je ne connais même pas la prononciation, c'est hyper frustant haha. Heureusement que l'enthousiasme de Lê est communicatif.
Quel rapport avec la zététique ? En quoi ça gêne qui que ce soit ?...
Si ça ne dérange pas les matheux, ça ne peut géner personne 🤣
En effet, ça ne gêne pas du tout pour un zététicien, vu que la bidouille est présentée comme étant une bidouille. Si ça avait été présentée comme une vérité absolue, là un zét' aurait de quoi râler, vu qu'il y aurait clairement tromperie sur la marchandise. Rien de tel ici :)
J'ai un niveau de TES en maths et je n'ai pas trop de problème a suivre ces vidéos bien qu'il parlent sans arrêt de théorème ou de concept mathématiques que je ne connais pas.
En réalité même avec mon niveau je ne comprend que la moitié ou moins de ce que Science for all explique dans ses vidéos mais j'arrive à suivre à peut près les concept et ce qu'il expose dans cette vidéo notamment !
Cimer encore encore et encore pour toutes tes vidéos :)
Bonjour je suis le gentil commentaire pour le referencement
Un bon exemple de distribution non gaussienne des erreurs (voir d'erreur localement corrélées) est la mesure des distances entre nous et divers objets célestes par Hipparcos. Dans un cas, (et un seulement) un objet (je crois que ce sont les pleiades, mais je ne suis plus sûr), le satellite a répété les même mesure, avec une corrélation des erreurs allant totes dans le même sens, conduisant à une estimation de distance fausse. Pourtant, le reste des mesures sur les autres objets est juste, avec des erreurs normalement distribuées.
Merci merci merci de dire que tout n'est que bidouille. J'ai régulièrement des groupes entiers qui me redardent comme un taré complet quand je leur dit que les maths c'est de la rigueur mais que la réalité c'est la guerre de tranchées avec appel régulier à sainte bidouille et saint je-sais-pas-si-ça-va-marcher-mais-ca-se-tente-quand-même-des-fois-que.
Surrement rien compris, mais sur les valeurs extrême, est ce que le fait de "remacher" les données via par exemple le test de Grubbs ne résoudrai pas le problème de robustesse de la méthode des moindres carré ?
du coup, je peux dire que le systèmes international c'est de la bidouille, les 4 interactions fondamentales aussi, et l'énergie massique aussi ?
Oui. Mais la plus grosse bidouille, ça reste l'énergie noire !
Et sinon, bravo, la pédagogie est magnifique, bien meilleure que dans le livre de Goodfellow sur ce point !
super vidéo mec, continue ce que tu fais !
Le deep n'automatise pas le bidouille non linéaire.... Il l'apprend 😀.
Est ce que tu pourrais nous parler un peu du test du khi 2 (Chi 2 X2 je ne suis pas sûr de comment ça s'écrit) dans une prochaine vidéo ?
TheCodingTrain qui sort une vidéo sur la résolution du xor presque en même temps! :o bien joué à vous
J'avais donc une partie de la réponse du XOR pour la dernière vidéo ! :D
Si y=C/x pourquoi ne pas utiliser y et f(x)=1/x ? Est ce qu'on s'attends à ce que ce soit plus générique comme relation par exemple?
... Mais est-ce que 2 bidouilles différentes n'obtiendraient pas deux classifications différentes faisant deux predictions différentes ? Comment savoir quelle bidouille est la meilleure ?
C'était très intéressant et enrichissant... 👍
Salut, quelqu'un sait ce que je dois chercher sur google pour trouver une justification rigoureuse de le bidouille a la physicienne ?
On ne dit pas "de de Borda" même s'il a une particule à son nom de famille. Je sais que tout le monde fait cette faute mais si l'on donne UNIQUEMENT le nom de famille de quelqu'un qui a une particule, il faut ne pas dire cette particule.
Dans tous les autres cas, il faut la mettre.
Bisous bisous et merci pour toutes tes superbes vidéos.
caragar Donc on ne dit pas non plus la règle de De L'hôpital ? Mon ancien prof de maths aurait été contrarié ;)
Ben non :(
Et puis la règle de l'Hôpital c'est une sous-application des développements limités quoi.
Bon en vrai je suis méchant là, je trouve que c'est une très bonne règle pour comprendre ce qui se passe dans les développements limités quand ils sont utiles. En tout cas moi j'ai bien compris les DL grâce à cette règle.
Donc on dit Artagnan ? ça m'a l'air louche cette affaire...
Pas con ta remarque sur d'Artagnan.
On dit bien Rastignac pour parler d'Eugène de Rastignac.
Il faudrait que je vérifie pour la particule et l'apostrophe. Par exemple on dit aussi d'Alembert.
il me semble qu'il y a aussi une exception lorsque le nom n'a qu'une syllabe (on ne dit jamais seulement "Gaulle" pour parler du général par exemple)
Quelqu'un saurait où est-ce qu'on pourrait trouver une version plus formalisée des théorèmes évoqués à 5:55 /6:00 ?
Même dans les maths dite "rigoureuse" il y a de la bidouille : Quand on parle on parle d'infinitésimal pour les notions de limite et de continuité en analyse "standard" on utilise des mathématiques non-standard.
Du coup, pour en revenir à la régression linéaire :
On fait tourner un algorithme qui minimise la somme de la puissance Alpha des erreurs et qui retourne la valeur des coefficients de la droite en fonction de Alpha.
Puis on intègre pour faire la moyenne de ces coefficients pour Alpha allant de 0 à l'infini. On prend ce résultat comme coefficients de la droite.
C'est une sorte de "mixte" .Ça peut marcher?Évidemment ça doit pas être top en temps de calcul.
J'aime bien ton idée mais j'ai un doute sur la pertinence d'un coefficient basé sur un grand Alpha.
Avec Alpha grand on donne de plus en plus d'importance aux points aberrants ce qui rend la méthode peu robuste.
Avec un Alpha trés grand, c'est carrément absurde, car des point pas si loin que ça de la droite vont la faire dévier énormément et les points proches n'auront plus aucun poids.
Et pour Alpha nul ... c'est juste pas pertinent non plus, on peut pas minimiser.
Par contre on pourrait faire ta méthode entre 1 et 2.
Ou alors mieux ! Trouver le plus grand Alpha pour lequel on a un R²
Oui, tu as raison sur la non pertinence de certains
Alpha (trop petit ou trop grand)
Il vaut mieux s'arrêter entre 1-1/n et 2 (voire plus restreint).
Par contre prendre Alpha inférieur à 1 n'est pas
forcément inutile ( on tient encore moins compte des grosses erreurs que pour 1, mais on donne plus d'importance aux petites erreurs ).
Mais du coup, la fin de ton commentaire est une
autre bonne idée ( prendre le meilleur Alpha).
Bonjour, je profite de cet espace de communication pour vous soumettre une question malheureusement hors sujet par rapport à cette vidéo et cependant raccord avec le thème de votre chaîne.
Peut-on dire ? "Un algorithme ne se résout pas !"
Merci par avance pour votre réponse et vos partages.
Pour moi un algorithme n'est pas un problème, on ne cherche pas la solution d'un algorithme. Donc oui je dirais qu'un algo ne se résout pas, c'est la résolution d'un problème, qui lui se résout (grâce à l'algo).
Rafael
Ok merci
plus que bidouille , on appelait ça changement de variables dans mes cours.
enfin ça me semble pas absurde que la science avance à tatons et qu'il y ai beaucoup de là ça marche pour faire qu'une courbe suive ce valeurs ^^
ben en fait c'est pas tellement un changement de variable, c'est la projection dans un autre espace ( appele feature space), et on fait ca avec des noyaux ( kernels).......pour les changements de variable purs, y a des methodes en econometrie et en stats ( c'est un peu long et ca depend de ce qu'on veut faire)
Ce que tu dis sur l'intérêt des modèles bayésiens, ça me rappelle ce que fait le GIEC pour ses modèles climatiques : ils donnent plusieurs modèles différents (genre pour la circulation atmosphérique, les courants océaniques, etc.) et regardent à l'arrivée combien de modèles donnent tel résultat ou tel autre.
J'avais vu un reportage sur Météo France, il me semble qu'ils utilisent cinq modèles prédictifs différents aussi.
Et ils ont tous sur estimé l'augmentation des températures.
Existe t'il des problème non résolus en informatique comme pour les math, par exemple le problème du voyageur de commerce ?
Je sais pas si on peut parler de problèmes non résolus en informatique, mais si on considère que c'est un problème auquel on a pas de solution proche d'être optimale (ou au moins calculable en un temps raisonnable), j'ai l'impression que les problèmes non résolus en maths sont les problèmes non résolus en informatique, ce sont deux domaines très proches je trouve. Le voyageur de commerce est un problème "non résolu" en informatique.
Mais ce n'est que mon point de vue pas du tout fiable.
L'informatique théorique est un océan de problèmes non-résolus. Vraiment. On n'y connaît en fait presque rien (surtout en "théorie de la complexité algorithmique").
Outch, j'avoue que depuis la précédente vidéo dans cette série je suis totalement largué... Vu que je suis nul en maths c'est peut-être pas un contenu pour moi. Je veux pas tirer la chaîne vers le bas (et d'ailleurs je peux comprendre aussi ceux qui regrettent quand c'est pas assez matheux) mais ça serait cool si les profanes pouvaient avoir un peu plus d'éléments auxquels se raccrocher. Moi j'ai un peu l'impression d'entendre ça : ua-cam.com/video/GTVUvXEOrsk/v-deo.html
Les prochaines vidéos seront beaucoup moins techniques :P
+Robin Genoux : Merci pour le lien :)
tu as dis que y=ax+b c'est une relation linéaire... mais c'n'est pas affine ça ?
abus de langage mais ca revient a la meme chose a b pret
Très bonne remarque. La propriété de linéarité n'est vérifiée que si b=0. Le terme "affine" est plus approprié.
Il faut s'accrocher quand même :/ j'ai du mal avec les sujets sur l'IA. C'est un sujet cool d'apparence mais hyper compliqué quand on rentre dans le concret. J'attends avec impatience la prochaine série. En attendant, je re(rerere)garde les séries sur l'infini et sur les lois de la physique. :)
Les prochaines vidéos sont plus simples. (encore une fois, n'essayez pas de TOUT comprendre...)
Il n'y a pas de souci. Ca reste un plaisir de voir une nouvelle vidéo de toi. 😊
Les moindres carrés pondérés sont mieux pour neutralier les outliers non ??
non
l'OMC (Organisation Mondiale du Commerce) a choisi l'indice de masse corporel ? Ce ne serait pas plutôt l'OMS (Organisation Mondiale de la Santé) ?
Mais si la mesure "erronnee" est en fait une donnée très importante "à creuser "
Pas mal la bidouille non-linéaire!!! c'est cette bidouille qui a permis d'atteindre des niveaux jamais atteints en Intelligence. Par exemple, les résultats d'Alphazero a fait dire à un spécialiste des échecs: "je me suis toujours demandé ce que cela ferait si une espèce supérieure atterrissait sur Terre et nous expliquait comment jouer aux échecs... après Alphazero, je sais maintenant..." Sans aucune connaissance au départ, il a fallu 3000ans à l'humanité et quelques jours à Alphazero...
Et le terme "sur-apprentissage" existe dans la littérature scientifique francophone. Il me semble plus courant que sur-interpretation...
Je me faisais la même réflexion. C'est tiquant quand tu as l'habitude d'écouter des conférences qui parlent de sur-apprentissage et qu'on te sors sur-interpretation.
Mais sur-interpretation semble mieux adapté finalement.
cause/consequence non?
Oui j'ai peur qu'il y en ait qui fassent des contre-sens et concluent que pour bien prédire, il vaut mieux ne pas aller à l'école ^^
j'adore tes vidéos mais les quelques dernières je les trouve un peu longue
Merci pour cette vidéo :)
si t'es bayesien frappe dans tes mains....pour faire pousser ta foret d'arbres de décisions (les totoristes comprendront)
Pour la popularité de la méthode des moindres carrés c'est peut être du au théorème de Gauss-Markov
et en francais ca veux dire quoi ?
Utiliser le terme bidouille (bien français celui-là) est inutilement négatif, il faut en parler comme ce que c'est vraiment : un changement de point de vue d'un même ensemble de données. Point de vue qui fait mieux comprendre (la machine dirait qui permet enfin de séparer les caractéristiques/features). Un peu comme un scientifique qui prend un microscope pour mieux voir ce qui se passe dans une cellule, ou un astrophysicien qui utilise un télescope pour obtenir un point de vue plus efficace sur les caractéristiques de son objet d'étude.
Like si tu t'es marré avec l'hooliganisme laplacien
A liké ;)
Pour ceux qui veulent aller plus loin dans l'IA:
ua-cam.com/video/PgHzgJ4hpTM/v-deo.html
"La bidouille, c'est pas beau mais ça marche": Ahhh! Les mathématiciens... Les pauvres... ils ne savent pas apprécier la beauté d'une bonne vieille bidouille empirique de physicien :D
La bidouille c'est MAL !!!
Vous etes tous chinois ou japonais?xD
???
voilà, aujourd'hui seulement je comprends l'ironie du nom de ta chaîne.
Mais c'est bien, vous avez l'air d'avoir des discussions super pasionnantes avec les 5-6 francophones qui comprennent qlq choses à tout ça ^^
Et pratiquement, dans quoi est ce que c'est utilisé tout ça ?
A peu près partout, quand tu utilise facebook par exemple, si tu n'as pas une bonne connexion tu as peut-être déjà remarqué qu'à la place de la photo, avant qu'elle ne s'affiche, un petit texte est écrit décrivant le contenu de la photo.
C'est de l'I.A.
Ou alors les suggestions d'amis ... I.A.
Ou le tag automatique des photos facebook (actif uniquement aux U.S.A.) ... I.A.
Ou les recherches que tu fais sur google ... I.A.
Ou la reconnaissance vocale de ton téléphone ... I.A.
Ou les voitures qui conduisent seules ... I.A.
Ou les suggestions youtube ... I.A.
Ou la spéculation boursière ... I.A.
Bref .. partout.
"La théorie des types | Infini 24"
ua-cam.com/video/ba4E6EMagj0/v-deo.html
sans commune mesure de difficulté avec cette vidéo :p
www.datasciencecentral.com/video/video/listFeatured
Faut s'accrocher !
J'y comprends rien en mathématiques mais en revisionnant plusieurs fois la suite des épisodes on commence à avoir l'intuition de ce vers quoi ça tend. Pour la pratique ça viendra bientôt : Lê nous explique les fondamentaux pour piger l'IA, je suis impatient de saisir le lien entre régression linéaire et deep learning !
koromon789 merci pour cette explication ! Je bosse dans un labo d'analyses microbiologiques. Perso j'ai du mal avec les stats et j'ai l l'impression que la moyenne, l'écart type et la variance suffisent. La loi de Poisson par exemple, utilisée dans nos incertitudes, me semble farfelue. Et mes résultats de contrôles internes par exemple sont quasi les mêmes si j'utilise Poisson ou pas. Pr ça que je me posais la question sur ces bidouilles qui se veulent prédictives jusqu'à en perdre la signification. (Suis sûr que je n'ai pas été complétement clair mais une IA devrait pouvoir tirer quelque chose de mon laïus ;). )
Tu veux donc dire que tout problème non linéaire d'une dimension n peut etre linéarisé dans une dimension n+k...
Je suis largué, mais c est top...
cool ta vidéo
Aie ! Encore une objection : quand on croit que les erreurs "aléatoires" sur des mesures donnent une loi normale, certes ça se démontre, et pourtant c'est ... FAUX ! Car ça ignore que dans presque tous les cas, la grandeur qu'on mesure possède une borne inférieure (souvent zéro : comme un nombre de dislike, une concentration en une substance, etc) alors que la grandeur ne possède pas de borne supérieure absolue. C'est quasiment toujours le cas, et dans ce cas la loi de distribution des mesures est FORCEMENT asymétrique vers la droite. Le fit gaussien n'est qu'une approximation (certes souvent très bonne quand l'erreur moyenne est faible face à la médiane : en gros quand le moment d'ordre 3 est faible), mais il faut en être conscient. Combien de scientifiques "appuient sur le bouton" de leur logiciel de traitement stat des données pour avoir l'intervalle de confiance à 95% sans savoir que, dessous, se cache la supposition gaussienne qui est en réalité ... une approximation ?... Bref : toujours vérifier la courbe de répartition. En effet, dans beaucoup de domaines, notamment les sciences de l'environnement, la répartition des données est très asymétrique (racine-normale, ou même log-normale), alors tous les "boutons" des logiciels de stat ne peuvent plus s'appliquer (la p-value, l'intervalle de confiance, etc...) !!!
Très bonne remarque !
Du coups en pratique dans ces cas là on fait comment ?
Si on agglomère plusieurs mesures entres elles, par exemple on fait 20 mesures pour chaque valeurs et on moyenne. Alors là le théorème centrale limite nous assure que l'on aura une erreur qui suit plus ou moins une loi normal non ?
Il existe une généralisation de la régression linéaire qui peut "fitter" des distributions non-normale: la régression linéaire généralisée (dont la régression logistique est un exemple d'application). Pour des données asymétriques, la distribution Gamma donne de bon résultats.
Voilà un exemple d'application: la modélisation des durées de séjour à l'hôpital. La variable dépendante "durée de séjour" est forcément positive (il n'y a pas de durée négative).
www.ncbi.nlm.nih.gov/pubmed/16157254
Ma réponse à Bacrima : Presque toujours : oui. Mais en fait ce n'est qu'une approximation, et cela vient aussi du fait que les erreurs sont souvent suffisamment "resserrées" autour de la moyenne, de sorte que l'asymétrie soit indétectable. Mais parfois, ce n'est pas du tout le cas. Ce que je veux dire, c'est que c'est souvent OK, mais il faut juste être conscient de l'approximation que cela implique : trop de scientifiques "cliquent" sur leur bouton de logiciel de traitement statistique des données parce qu'on leur a "toujours dit que ça marche comme ça" sans même regarder la courbe de distribution de leurs données. Et un jour, ils tomberont sur une distribution très asymétrique et le l'auront même pas vue... Et appliqueront alors des méthodes qui ne s'appliquent pas à leurs données car nécessitant la loi normale. Bon OK, il faut également bien savoir de quoi on parle : ici notre youtuber scientifique préféré parle de la distribution des résultats répétés de la mesure d'une seule chose (distribution des "erreurs"). Moi je parle de cela, mais je souhaite aussi aborder dans la présente discussion les distributions de mesures d'une grandeur sur plusieurs choses ou individus (exemple : la distribution des salaires des français). Et là, alors là, c'est presque JAMAIS NORMAL. Prenons l'exemple des mesures dans les sciences de l'environnement (domaine que je connais) : elles sont souvent très dispersées, et leur distribution très asymétrique (sauf : le pH ! Mais tout simplement parce que le pH est en fait -log(H+), donc déjà "log-transformé"). Quand j'étais dans la recherche dans ce domaine, je conseillais souvent à mes étudiants de d'abord regarder leur distribution de données, puis faire une transformation racine ou plus souvent même log. Et seulement avec les données log-transformées donc devenues "normales", y appliquer les traitements statistiques habituels : intervalle de confiance à 95%, tests en tous genres. Et d'après les résultats de ces tests ou calculs : "dé-transformer" (faire un 10-puissance si on avait log-transformé, par exemple) les valeurs obtenues pour revenir à la grandeur de départ. Eh ben dans plein de domaines des sciences, j'ai pu constater que ... presque PERSONNE NE LE FAIT OU MEME N'Y PENSE. Et je n'ai jamais compris pourquoi. Autre problème : contrairement aux big data du numérique dont on parle ici, les données d'une expérience dans beaucoup de domaines sont souvent peu nombreuses. C'est le cas en biologie, en sciences de l'environnement (partout où la mesure coûte cher). Or quand on a peu de données, on ne peut pas vraiment bien connaitre leur loi de distribution. QUAND ON N'A PAS ACCES A LA LOI DE DISTRIBUTION, PEUT-ON SUPPOSER PAR DEFAUT QU'ELLE EST NORMALE ? J'Y METS UNE GROSSE OBJECTION. Car les rares expérimentations dans ces domaines qui ont pu collecter beaucoup de données, DEMONTRENT LE CONTRAIRE. Pourtant, vous verrez tous les articles scientifiques supposer implicitement (sans même le dire...) une distribution normale. C'est un gros problème, à mes yeux, de la science expérimentale et du traitement statistique. Et un vrai champ de recherche en soi. Pas du tout suffisamment connu.
Bonjour,
Quelqu'un pourrait-il m'expliquer comment lire un texte (typiquement un commentaire) placé en bas de vidéo lorsque je mets pause ? #teubé
L'episode suivant sent le rasoir d'occame =)
Et peut être le no free lunch .. ?
Alors comme ça "utiliser le maximum de vraisemblance est un peu une hérésie pour un bayésien comme toi"??
Je suis étonné, il me semblait au contraire que l'approche bayésienne était la meilleure justification à l'utilisation du maximum de vraisemblance!
En effet, si tu pars d'une probabilité "a priori" uniforme sur un paramètre inconnu à estimer, ta probabilité "a posteriori" (ou sa densité) sera maximisée... en le paramètre du maximum de vraisemblance! Alors oui, ce paradigme a ses limites (en particulier, pourquoi partir d'une probabilité "a priori" uniforme? Ce n'est d'ailleurs pas possible si ton espace de paramètres est un ensemble non compact, comme la droite réelle par exemple, et que tu veux travailler avec des mesures de probabilité... de masse 1!), mais il me semble tout de même bien expliquer en quoi l'estimateur du maximum de vraisemblance est souvent un bon estimateur.
Je ne connais pas d'aussi bonne justification à l'utilisation du max de vraisemblance dans un cadre de statistique mathématique non-bayésienne...
Oui, le bayésianisme est peut-être la meilleure justification possible du maximum de vraisemblance... Mais ça ne veut pas dire que le maximum de vraisemblance est la meilleure approche selon le bayésiannisme !
Ok, même si j'aurais tendance à penser qu'alors le bayésianisme devrait juger le maximum de vraisemblance plus favorablement que le non-bayésianisme...
Mais bon, tu as promis que tu reparlerais de cela plus tard, j'attends donc avec impatience! :)
Allez, tu me donnes envie de troller un peu ^^
Perso, je vois pas trop ce qu'est le non-bayésiannisme, à part peut-être le "bidouillisme".
Or, je pense que le bidouilliste est très fier de son maximum de vraisemblance ^^
2:43 : Tain, la première fois j'ai entendu "Les biologistes ont déterminé la loi de Kepler" et j'ai eu un moment de Oo.
"La bidouille c'est pas beau mais ça marche" => Mais moi je trouve ça beau la bidouille ! C'est grave docteur ?
Si on appelle la loi normale la gaussienne, ce ne serait pas parce que gauss à trouver le A dans Ae^(-bx^2)? Ou alors sa aussi c'était Laplace?
On dirait que tu fais exprès pour de me troller... Mais je cède volontiers encore à mon hooliganisme laplacien :
C'EST QUAND MÊME ABSOLUMENT SCANDALEUX QUE LA VALEUR DE A CORRESPONDE À CE QUE L'ON APPELLE L'INTÉGRALE DE GAUSS, ALORS QUE, BORDEL DE MERDE, C'ÉTAIT LAPLACE QUI L'AVAIT CALCULÉ BIEN AVANT GAUSS !! ADMETTEZ-LE, LAPLACE >> GAUSS !
Non c'était une vraie question, merci pour ta réponse^^
ça va ce niveau je comprends , mais pour réussir à faire les abstractions et bidouillages... xD
Lê, dis nous ce que tu penses de la prostitution.
Les biologistes, les économistes et l'omc en alibi. Et pourquoi pas les géologue et les astrologues ?
Le verbe bidouiller est utilisé trop de fois xD.
Sinon ce lien est bien aussi :
www.nzini.com/lessons/Exposing+The+Hidden+Layer.html
La surinterprétation conduit au complotisme, à terme, non ? Avec d'autres facteurs bien sur ...
Bhin oui, plus le costume est cher, plus l'habit...douille .
J'ai ri ^^
La bidouille ou bien Comment science4all a totalement trollé science étonnante
Hey, c'est Alexandre et Robin de la playazur ! Belle vidéo et bonne continuation :)
Ravi de vous avoir rencontré !
T'étais à la Playazur Lê ? Mais alors tu as peut-être croisé Lola ! (j'imagine mes deux interviewés qui se parlent, je me sens tout chose)
Et dire que j'ai quitté mozart pour ça... dire que la bidouille marche mieux que de trouver une logique... no comment
moi j'aime bien la bidouille
J'ai l'impression que ca ressemble a l'économétrie
+1
j'aime bien ne pas comprendre avec tes vidéos
3030 :
de de
de de de de
de ;)
de de
J'ai mal au crâne violent
Tu considère ta chaîne comme une chaine de vulgarisation pour tous, ou plus pour une petite niche de personne avec des connaissances déjà assez poussées en sciences ? Parce que franchement, je vois que tu fais du bon travail, mais même moi (qui ai de bonnes bases en sciences ) la plupart du temps je comprends rien à tes vidéos ! Tu fais souvent appel à des théorèmes,théories,et autre notions que je ne connais pas sans les expliquer (alors que par contre tu explique le théorème central limite qui pour moi est basique !). Je trouve cela dommage, je pense que tu as du potentiel pour mieux expliquer les choses en traitant de sujet toujours aussi poussés ! Et puis en voyant les commentaires, clairement, les gens qui regardent tes vidéos ont tous l'air de déjà s'y connaitre en intelligence artificielle et autres manipulations mathématiques complexes 😅 ça m'énerve parce que j'ai envie de comprendre ce dont tu parles, je trouve cela extrêmement intéressant (enfin de ce que j'arrive à comprendre) mais pour prendre l'exemple de cette vidéo précisément, je ne vois pas ce que cette linéarisation et cette bidouille à a faire avec le thème de l'IA... J'me suis sûrement perdue en chemin, mais peut-être que lancer une série plus simple et plus vulgarisée pourrait être une bonne idée ! Enfin bon ton travail reste de qualité quoi que tu fasse !
Tu fais un super taff , mais essaye d'etre homogène sur le lexique, si ta video est en francais, evite d'utiliser les termes Labels et Features.... par exemple.... je comprend bien que probablement te schema sont reutilisé mais ca rendrais ta video plus soigné... (et le monde academique aime ca ^^)
Il a dit au début de la série (pratiquement) qu'il utiliserait ces termes et les a définit, je pense que c'est assez rigoureux ( et puis là on est pas vraiment dans le monde académique).
nullissime. le gars se prend pour un normalien niveau 5eme, geniale la regression lineaire et celle du cerveau. Je regrette pas mes profs de math sup/spe apres cette video a 2 balles, c etait autre chose que 2+2=5. Public passez a autre chose serieux,....
Tes yeux ils sont linéaires par contre xD
Arrêt avec les AI ça commence à être chiant, pourtant tu peux me surpandre fait le
surpandez cet homme par pitié
Prêt lui ta plume aussi ça peut aider