Toujours un plaisir de voir ces topics d'une grande compléxité traité avec de beaux schemas et le bon discours qui les rendent plus abordables. J'aurai pour ma part noté la sensibilité des algorithmes de regression linéaires aux outliers et les approches de type RANSAC ou basé médiane qui apportent plus de robustesse. Mais pour cela, comme tu le dis, il faudrait bien plus d'un seul épisode :-D
Deux remarques d’un vieil expérimentaliste qui a travaillé avant les ordinateurs et même les calculatrices ( ou tout au moins leur arrivée dans les laboratoires). 1) D’un point de vue calcul, en ces temps préhistoriques ( il y a 40 ans) on pouvait très facilement et très rapidement, avec une simple règle à calcul ( cf Wikipédia pour les plus jeunes) puis avec les premières calculatrices avec quelques mémoires, obtenir a, b et r pour la méthode des moindres carrés en calculant tout simplement les sommes des x, y, x2, y2 et xy. C'était totalement impossible pour la méthode de Laplace. Cette facilité des calculs a grandement contribué à son succès. 2 ) D’un point de vue expérimental ces méthodes ont beaucoup d’aspects discutables. On cherche la droite qui va minimiser la somme des erreurs ou des carrés des erreurs sur Y. On fait l’hypothèse que ces erreurs sur Y sont de type aléatoire et suivent une loi normale. Alors juste quelques questions que l’on se posait souvent : - comment faire si il y a aussi une erreur sur X ? - comment faire si l’erreur est proportionnelle à Y ?( on aimerait alors que la droite soit plus proche des points à faible valeur pour Y que des points à forte valeur) - comment éliminer l’influence d’un outlier ? ( point aberrant en français ou plus explicitement point pour lequel l’erreur est de type différent des autres points). Comme souligné dans un autre commentaire , un tel point à une influence énorme dans cette méthode des moindres carrés et peut totalement fausser le résultat. Toutes ces questions ont reçu des réponses ; les logiciels sont devenus de plus en plus sophistiqués et donc de plus en plus difficiles à utiliser. On cherche effectivement à automatiser complètement la chaîne. Faire des calculs sur des milliers ou des millions de points est devenu très simple ; choisir la bonne méthode et les bons réglages reste un challenge.
Je me suis toujours demandé pour les moindres carrés, ça fait sens quand il s'agit de tension électrique car un point éloigné compte au carré de sa distance à la droite en terme de puissance, mais dans le cas général... J'attends impatiemment ton explication ^^
Tout comme le magnétisme et son rapport de force au carré de sa distance. La bonne question serait alors de se demander si la somme des carrés des forces dans toutes les directions ne résulterait pas en un vecteur complètement nul en son centre ?
Super vidéo! Surtout le petit côté historique avec les personnages clés et la présentation de l'alternative entre distance absolue et Euclidienne (suspens!). Petit bémol peut-être pour le manque de distinction entre régression et classification (labels continues vs discrets).
En statistique, c'est la méthode du maximum de vraisemblance qui est la méthode d'estimation "reine". Dans le cas de la régression linéaire où X et Y sont gaussiennes, les méthodes des moindres carrés (norme L2) et du maximum de vraisemblance sont équivalentes. Il me semble que c'est pour cela que la régression en norme L1 n'est que peu enseignée et que les moindres carrés l'est beaucoup.
en l'espace d'une remarque, tu viens de m'aider à comprendre quelque chose à quoi je n'avais jamais réussi à trouver une réponse satisfaisante : pourquoi les carrés? (plutôt que les valeurs absolues ou autre...). Je m'étais bien fait la réflexion que la distance d'un point à une droite se base sur les carrés de delta_x et delta_y (par Pythagore, mais le delta_y n'est alors pas le même que celui de l'incertitude) , que les carrés sont plus sympas à manipuler que les valeurs absolues, et qu'en tant que physicien j'adore additionner des carrés (parce que les grandeurs énergétiques varient presque toujours comme les carrés des phénomènes en cause) etc, etc. Mais rien de tout ça ne répondait vraiment à la question. Et là, à 3:03 , tu nous lâches les mots clés qui permettent de savoir quelle piste suivre : "Bayesien", "central limite"... Donc pour une valeur théorique donnée, la probabilité d'obtenir une valeur expérimentale qui s'en écarte d'une distance "E" varie comme exp(-E²)... donc pour plusieurs points, maximiser les produits de probabilités (pour maximiser la "crédibilité" qu'on accorde à la droite) revient à maximiser exp(-[somme des E_k]).... Mais oui !!!! J'ai pas perdu ma journée : j'ai compris quelque chose !! merci Lê :-D
Tout a fait, ça s'appuie sur la théorie de Vapnik-Chervonenkis si je ne m'abuse :)
6 років тому+1
Hey, c'est pas les chercheurs en IA qui ont inventé la régression linéaire, c'est les statisticiens ! Je sais bien que les informaticiens sont spécialistes de ré-inventer des trucs qui existent déjà et de leur donner un nouveau nom, mais tout de même, rendons a Césars ce qui lui appartient : une bonne partie du machine learning (dont la régression) existe depuis très longtemps et on trouve la majorité des méthodes "révolutionnaires" dans des bouquins de stat vieux de plus de 50 ans !
Tout juste les cours que j'ai reçu ce dernier mois à l'école Centrale de Lyon! r² est-il vraiment significatif de la vraisemblance d'un modèle linéaire, sachant qu'il peut être très grand quand on peut voir que les points suivent à vue d'oeil une autre loi?
Il y a une corrélation très forte au dessus de 0,8; mais le modèle linéaire n'est accepté que pour r^2>0.98; c'est ce que j'ai appris en IUT Mesures Physiques. Typiquement les lois physiques dont on connait la formule et dont on fait varier les bons paramètres de manière précise, c'est assez robuste et on est rarement avec r^2
Super vidéo, merci ! Pour ceux qui recherchent davantage d'explications, Guillaume de la chaîne Machine Learnia (ua-cam.com/channels/mpptkXu8iIFe6kfDK5o7VQ.html) fait des supers tutoriels dont plusieurs expliquent comment faire des régressions linéaires et polynomiales dans Python ! Ça m'a en tout cas beaucoup aidé, je recommande :)
Bonne vidéo ! En effet allez faire un tour sur sa chaîne, ça vaut le coup pour une compréhension globale ou avancée des sujets qui vous intéressent plus particulièrement dans le machine learning, and in French please ! P.S : sur le site machinelearnia.com vous avez aussi un super ebook pour enrichir votre bibliothèque numérique 👍
OK, je crois que je dois réviser le précédent épisode. Par contre je ne connaissais pas le "la causalité n'implique pas la corrélation", je vais creuser le sujet ! EDIT : c'est une référence au problème d'inférence causale ?
j'ai plutôt compris ça comme étant : "la causalité n'entraine pas la corrélation *linéaire*" c'est à dire que y ne varie pas linéairement selon x, comme avec l'exemple de y=e^x...mais on a bien causalité, et on a bien corrélation "exponentielle", c'est à dire que y est corrélé "linéairement" avec e^x (De même, si y=sin(x), il y a relation causale, et si tu trace y en fonction non pas de x mais de sin(x), tu as une belle droite) C'est comme ça que je l'ai compris et c'est l’expérience pratique que j'ai de la régression linéaire, aussi je m'excuse si j'ai mal interprété et je tiens à le savoir si c'est le cas ^^
la causalite est inferee, mais c'est une correlation qu'on mesure.......... on a meme des variantes! dans les series temporelles, on peut avoir de la sims ou de la granger causalite..... on dira ' X ' granger cause' Y)
Utiliser deux droites de séparations plutôt qu'une seule pour le cas XOR ? Ce qui est amusant c'est que le cas XOR était déjà le cas problématique pour les réseaux de neurones artificiels basiques d'il y a 25 ans.
ça l'était pour les perceptrons, c'est-à-dire les réseaux à une seule couche. On savait déjà que c'était faisable avec une couche supplémentaire, mais on ne savait pas comment entraîner un tel réseau. Maintenant on sait ^^.
Au sujet des méthodes des moindres déviations et des moindres carrés, selon moi comparer ces deux méthodes revient à comparer les façons de mesurer les "erreurs totales" (avec la norme 1 pour la méthode des moindres dérivations ou avec la norme euclidienne pour la méthode des moindres carrés). La norme euclidienne étant la façon la plus naturelle de mesurer les distances il me semble que la méthode des moindres carrés est également la plus naturelle.
Y-a-t-il un rapport entre la préférence pour la méthode des moindres carrés et l'utilisation de l'écart-type ( racine carrée de la variance, la moyenne des écarts à la moyenne au carré) plutôt qu'une moyenne des "distances" à la moyenne ? (C'est peut-être pas très clair...)
Dommage que tu ne soit pas rentré plus en détail sur les svm car ces dernières projettes les données dans un nouvel espace muni de d'un produit scalaire ce qui lui permet (en fonction de l'utilisation des fonction noyaux utilisée pour cette projection) de linéariser certains problèmes
Bonjour Lê, Dans le cadre de ta série de vidéo sur l'Intelligence Artificielle, penses-tu qu'il te serait possible de faire une vidéo sur l'apprentissage par renforcement, qui constitue l'une des bases des réseaux de neurones ? (Ou tout simplement une vidéo sur les réseaux de neurones). C'est un secteur de recherche en plein essor, aussi cela pourrait sans doute intéresser.
Cette représentation de XOR m'intrigue ... j'aurai inversé les pouces haut/bas. Puis-ce que techniquement on peut dire que le point d'origine jusqu'à la première moitié abscisse & ordonnée symbolise un couple (0,0) donc ça vaut 0 = pouce vers le bas. C'est un détail ... merci pour cette vidéo. Je suis en train d'implémenter en Tensorflow en JS et effectivement c'est bien la galère quand tu ne connais pas la régression linéaire ; c'est la dernière pierre à l'édifice et très certainement la plus importante.
pour le xor : on peut se contenter de mettre seulement l'une de 4 région de coté. ça ferait une grosse approximation, avec un coté valide à seulement 2/3 et l'autre valide à 100%, mais avec seulement la moitié des donné qui pourraient allez dedans.
Salut Lê et la communauté de S4A, je suis en L1 de maths et je sors d'un semestre de prépa MPSI. J'ai une question qui n'a rien à voir avec les sujets actuels de vidéos. En physique, les profs utilisent très souvent les notations "df", "dx" toutes seules, c'est-à-dire sans que l'on parle de dérivée ; pourtant, on associe très souvent à ces notations les propriétés de la dérivation (exemple : df/dx = (df/da)*(da/dx), et après on dit que df/da est la dérivée de x par rapport à a, etc). et j'ai l'impression en demandant aux profs et aux gens autour de moi que personne ne comprend vraiment cette notation mais "qu'elle marche bien". Typiquement, mon prof de physique de prépa m'avait dit "tu prends la relation df/dx = f'(x), et tu multiplies des 2 côtés par dx " . Cela ne m'a absolument pas convaincu puisque la dérivation est plus qu'un simple quotient ! J'en viens parfois à me demander s'il existe une théorie rigoureuse à ce sujet .. Enfin voilà, dans l'ensemble je suis assez confus, si quelqu'un pouvait éclairer ma lanterne ou me renseigner sur la documentation à ce sujet ! Merci
Bonjour, Est ce que le machine learning utilise les statistiques et notamment les plans d'expériences définis par Fisher et Taguchi pour évaluer, la force de l'influence des facteurs sur les réponses. Je pense a cela car c'est une méthode utilisé en conception dans l'industrie pour savoir quels sont les paramètres que l'on doit surveiller et ceux qui sont moins prépondérants dans le but d'optimiser les coûts de fabrication, augmenter la fiabilité etc...
Si j'ai bien compris, la différence entre la méthode des moindres variations et moindres carrés est : - Pour les moindres variations, l'objectif est de minimiser l'écart entre la droite et les points. Si on divise ça par le nombre de points, on peut dire que l'objectif de la méthode est de minimiser la moyenne des écarts - Pour les moindres carrées, l'objectif est de minimiser les écarts au carré entre la droite et les points.Si on divise ça par le nombre de points, on peut alors dire que l'objectif de la méthode est de minimiser la variance des écarts (ou l'écart-type). La question est donc : Dans ce cas là, est-ce plus pertinent de minimiser la moyenne ou l'écart type ?? Nos points sont issus de mesures, et j'ai l'impression que souvent c'est 1 ou 2 points qui dérangent particulièrement. Du coup, pour minimiser leur influence sur la courbe, je pense que c'est mieux la méthode des moindres variations. (Mais en vrai je doute vu qu'à l'école on nous apprend la méthode des moindres carrés, pk nous apprendre celle-là si c'est la moins pertinente ? ^^) Je viens de penser aussi, on pourrait dire que sur nos mesures, on fait tout d'abord la technique des moindres variations et on supprime par exemple 10 % des mesures les plus éloignées ; puis avec les mesures restantes, on fait la technique des moindres carrés. Pck quand il n'y a pas de points particulièrement dérangeant, j'ai l'impression que minimiser l'écart-type est un peu plus intéressant que la moyenne, vu qu'on cherche une droite qui limite la disparition des points à celle-ci.
Je voudrais juste signaler qu'on appliquant l'ACP on effectue un changement de base, donc les dimensions qu'on garde à la fin n'ont rien à voir avec la base initiale, donc il faudrait trouver un sens aux nouvelles dimensions obtenues.
concernant correlation et causalite..... y a des debuts d'approches pas ininteressants, que l'on trouve par exemple chez gourieroux et monfort ( statistiques et modeles econometriques, tome 1)
En minimisant les carrés, j'ai l'impression qu'on accorde beaucoup plus d'importances aux points loin de la droite de régression que l'on cherche à obtenir (si d, la distance du point à la droite, augmente, alors d² accélère) Or, c'est justement ces points là les moins pertinents non? J'ai alors l'impression que minimiser les carrés n'est juste qu'une astuce permettant de simplifier les calculs
justement parce qu'ils sont moins probables. Pour une valeur théorique Y_th (obtenue par corrélation) , la probabilité que la valeur expérimentale Y_exp soit loin est faible, ce qui tend à signifier que la droite théorique ne peut pas s'éloigner bcp de ce point. (ouh là je suis pas sûr d'être clair là)
D'où ma question ^^, pourquoi donner plus d'importance à certains points plutôt qu'à d'autre, en particulier ici à ceux que tu dis être les "moins probables" ?
Assurons nous déjà de parler de la même chose : nous ne parlons pas ici des points qui sont aberrants. Ces derniers, trop éloignés de ce qui est crédible, ne sont pas pris en compte du tout. Nous parlons des points qui sont "vrais", mais qui s'éloignent de la tendance dessinée par les autres. On est d'accord jusque là? Du coup : on n'a pas une droite qui est "posée a priori", et des points qui en sont plus ou moins loin. Au contraire : on a des points, et on cherche à faire en sorte que la droite passe "au plus près". Donc si on envisage une droite arbitraire, et qu'un point est "loin", c'est improbable. C'est donc que la meilleure droite doit en fait être "moins loin" dudit point (mais bien-entendu, chaque autre point "tire" la droite à lui même, aussi). Au final, avec la droite optimale, - si tous les points sont proches, on a bonne confiance dans la représentativité de la droite : tous les écarts observés sont probablement dus à l'incertitude de mesure - s'il reste des points relativement loin, ces derniers font baisser le coefficient de corrélation r² : cela indique que l'on a "peu confiance" dans cette droite (même optimale), car elle laisse derrière elle des valeurs qui n'ont que peu de chances d'être dues au hasard/ à l'incertitude de mesure. (Cette réponse est encore moins claire que la précédente, j'ai l'impression #) )
alex rvolt Ça y est je crois que j'ai l'idée ;-) par contre ce que je demandais par "donner plus d'importance" c'était plutôt pourquoi x^2 plutôt que x...et pourquoi pas x^3/2 dans ce cas ? Pourquoi moindre carré plutôt que moindre déviation et c'est un peu la question ouverte que Lê posait...et pourquoi les moindres carrees est plus appliqué en science ( c'est celle que j'applique) ? Voilà c'est peut-être plus clair comme ça ^^
Ce n'est pas une solution linéaire, mais pour le XOR avec des features de dim2, en prenant le graphe de x ---> y0 + 1/(x-x0) où (x0,y0) serait les coordonnées de l'isobarycentre des features (À définir proprement quand on est pas dans IR²), on obtiendrait le graphe de la fonction inverse, centré en (x0,y0). Et normalement ça devrait plutôt séparer les données en deux régions distinctes. Mais c'est quand même moins régulier qu'avec une droite...
Pour le problème xor est-ce qu'on peut s'en sortir en inversant simplement l'axe d'une des features? Il me semble même que les features concernées doivent êtres liées donc la solution serait peut-être de les analyser à part et de les "fusionner" en une seule feature.
Salut ! Dans cet épisode tu fait ressortir la liaison entre l'algèbre linéaire et le deep learning que je veux étudier pour mon projet (tipe) de prépa. Aurais tu des sites ou explication pour me guider dans les études mathématiques ?
Pour choisir entre l’approximation par moindre carré ou linéaire, il faudrait calculé avec quoi on fait la meilleur approximation d'une gaussienne. (Actuellement, j'ai la flème de réfléchir à quelle méthode utilisé pour faire l’approximation dans les 2 cas; définir "meilleur", et faire les calcules. Je reviendrait.)
Dis donc, un usage des statistiques serait assez pertinant ici, je penses notamment au test du Chi2, qui est un excellent indicateur pour savoir si un jeu de donnée (ici el famoso nuage de points) suit une certaine loi de probabilité :). Sinon, mon prof de calculabilité en école d'ingé t'as diffusé en classe pour expliquer le problème de l'arrêt donc GG à toi ^^
J'ai une question, est ce qu'il y a l'idée de famille libre, famille génératrice ou base lorsque l'on parle de classification lineaire de dimension d s'il te plait?
4:03 "...la corrélation est égale à -1 lorsqu'elle descend et contient les données...". Il me semble qu'une corrélation négative exprime des tendances opposées, et non pas la pente d'une tendance commune. Que ce soit entre deux jeux de données ou un modèle et un jeu de données. Pour illustrer: i.postimg.cc/G2mkFnsL/correlations.png (Oui je sais, un peu tard pour commenter)
Une petite coquille s'est glissée à 6:52. Vous avez dit qu'un hyperplan de dimension d est représenté par d+1 nombres (alors que vous avez écris qu'un hyperplan de dimension d+1 est représenté par d+1 nombres, ce qui est juste) Comme toujours une excellente vidéo !
Pourquoi causalité n implique pas correlation ? Je suis d'accord avec les correlations linéaires mais si y=sinx ne peut on pas dire que y est corrélé a x?
Salut Lê ! Je me posais une question : en école d'ingé, tout ce que j'ai retenu c'est que pour une régression linéaire, lorsque R² > 0.8 on peut valider la corrélation et faire confiance au modèle. Saurais-tu (ou quelque mathématicien avisé) pourquoi on valide cela sachant que corrélation n'implique pas causalité ? Et au passage merci pour tes vidéos, grâce à toi je découvre les mathématiques par le prisme historique et cela m'a fait comprendre énormément ! Et puis pour ton challenge du XOR, un simple perceptron à 2 couches le fait non ? Genre deux droites peuvent classifier les données à 100% de précision easy il me semble ?
E t grâce à la corrélation r de la relation linéaire y a il moyen d'appréhender une corrélation non linaire type exponentiel, inverse, puissance, racine ... ? voir même définir la non-linéariter grâce a la relation entre la méthode des moindre déviation et des moindre carrés?
Super vidéo. Merci. Il y a cependant une petite erreur. Le portrait de Legendre qui apparaît à 2:21 est celui de Louis Legendre, un politicien français. On ne connaît qu'une caricature d'Adrien-Marie Legendre, visible sur Wikipédia : fr.wikipedia.org/wiki/Adrien-Marie_Legendre
C’est super comme explications, par contre sur les « Lei balls », c’est indécent le nombre de fois que celles ci ont été citées, ça me surprend que UA-cam n’ait pas démonétisé cette vidéo.
Sachant que Xor(x,y) = Or(And(Not(x),y),And(x,Not(y))) il est peut-être possible de le décomposer en plusieurs (six) étapes solvables individuellement par des méthodes de classification linéaires... me trompe-je ?..
Si j'ai bien compris et que je poursuis plus loin le raisonnement sur la complexité en l'appliquant au système le plus grand possible c'est à dire l'univers : toute la complexité de l'univers à un jour été comprise dans la tête d'épingle que celui-ci était ? Et ça ne serait qu'une portion de cette complexité qui nous a été transmise dans le développement de l'homme, de la vie ? Et que la complexité de l'univers est constante et ne peut augmenter ?
Pour la question de la complexité du cerveau enfant, peut on vraiment considérer qu'elle est de l'ordre de la quantité d'informations de l'ADN, étant donné que les lois de la chimie/biologie sont beaucoup plus compliqué que celle d'une machine de Turing ? L'adn ne serait-il plutôt quelque chose comme la graine d'un automate cellulaire incroyablement complexe ; ou ne s'agirait-il pas d'un cas similaire à celui de Alpha-0 ?
Notre ADN contient énormément d'informations "inutiles". Plus de 80% (on avance souvent le chiffre de 98%) de notre ADN ne code aucune pour aucune protéines. Par exemple, on a des télomères à l'extrémité de nos chromosomes; Grosso modo, c'est de l'ADN ne contenant aucune information utile. Sa présence s'explique juste de par le fait qu'avec le temps les chromosomes prennent des dégâts, surtout aux extrémités, sans les télomères, ce serait des parties codantes importantes qui se retrouverait endommagés (Le raccourcissement des télomères avec le temps explique notamment une partie des problèmes du vieillissement) Et de plus, comme je crois que tu le souligne, l'ADN ne fait que coder des protéines, qui sont un peu les outils multi-fonctions du corps humain. On a des protéines pour un peu tout et n'importe quoi (structures, enzymes, transports, signalisation et cetera). Néanmoins, notre corps et son fonctionnement, ce n'est pas que des protéines. Si l'on s’intéresse à l'activité biologique d'un être vivant, on voit bien d'autres choses que des protéines, il y a minéraux, sucres, gras, tout un tas de chose qui ne sont absolument pas codé par l'ADN Imagine Bernard. Bernard est un ermite qui vie dans la foret. Bernard possède un livre énorme dont 80% des pages ne contient pas d'informations utiles, et le reste, des plans pour faire tout un tas d'outil à partir de matériaux de bases. Bernard va construire des outils, et Bernard va se faire une maison, un champ, bref, Bernard va faire tout un tas de choses. Résumer l'information de la vie par l'ADN (ou tout autre forme d'information génétique) , ce serait résumer l'information de ce que fait Bernard au livre des outils L'information génétique est essentiel aux processus biologiques, mais les processus biologiques ne sont pas réductibles à l'information génétique
Merci pour ta réponse, tu vulgarises/expliques vraiment bien. À vrai dire je ne pensais pas que l'information de l'ADN pourrais être compressée autant, mais idem quand informatique, la fiabilité du stockage de l'information est aussi importante que la quantité où l'optimisation (sur les stockages informatique de données aussi on enregistre des données redondantes pour contrer les problèmes d'usure).
[INTROSPECTION] J'ai l'impression que l'IA peut être approché par le néophyte qui n'a pas de base solide en mathématique. (Il n'y a qu'a voir tout les framework relativement accessible). Ma question: d'après votre expérience, à quel niveau en IA pensez vous qu'un tel profil non mathématicien pourrait-il prétendre aujourd'hui ?
La complexité du programme comme A0 qui apprend en jouant contre lui-même est faible au sens de Solomonoff/Kolmogorov/Chaitin, mais on peut la capturer par la "profondeur de Bennett" qui prend en compte le temps d'exécution du programme minimal.
Je super frustré de ne pas tout comprendre. Sinon, à 6:51 tu dis représenter "un espace de dimension D par D+1 nombre" déjà je comprends pas pourquoi D+1 alors que espace de dimension 1-> 1 nombres, dimension 2->2nb, dimension 3->3 nb ... donc dimension d d nombres non ? En plus il y a marqué Dimension d+1 --> d+1 ... Qu'en est-il ?
Bas non, la régression linéaire c'est pour les relations affines ^^ (les relations linéaires passent forcément par 0) Sinon pour le ou exclusif, ne suffirait-il pas d'utiliser deux droites de rupture au lieu d'une?
Dragon Rock je crois que tu as compris mon commentaire à l'envers :) je disait justement que que la régression linéaire s'appliquaient aussi bien au relation affines que linéaire alors que Lê a sous-entendu qu'elle s'appliquait uniquement au relation affines (7:20)
Bravo pour vos vidéos toutes très intéressantes!! Pour info, Alpha zero a battu aussi la machine spécialiste du Shogi. Je me demande si alpha zero ne deviendrait pas une machine universelle, bien entendu limité aux jeux... Une deuxième remarque: Yan Lecun fait remarquer que c'est facile de réaliser une machine spécialiste en jeux, plus difficile de réaliser une voiture autonome: par exemple la faire s'éclater contre un arbre autant qu'elle le veut pour qu'enfin elle comprenne que ce n'est pas bien (coût).... fin de remarque de Yann. En fait , je ne vois pas de différence entre le jeu et la vraie vie. Dans les deux cas, il y a de la localisation et des objets en déplacement, un système physique en qq sorte. Il suffit dans les deux cas de trouver des règles et faire tourner la machine pour qu'elle apprenne. L'environnement se limite aux règles, c'est pauvre mais pourquoi pas. (apprendre de l'humain n'a aucun intérêt) C'est donc du machine learning. En attendant, pour éviter les accidents répétitifs, les machines apprennent sur de la vidéo enregistrée et de la vidéo créée de toute pièce grâce au GAN. (nous faisons la même chose nous nous appuyons sur ce que nous connaissons et nous essayons d'imaginer des cas plus complexe pour anticiper notre façon de procéder). L'objectif de deepmind est 1- comprendre ce qu'est l'intelligence 2- tout faire avec! Je pense que l'on peut faire confiance à Hassabis pdg de deepmind pour créer la vrai machine universelle.
Bonjour, Une remarque concernant la phrase à 17:01, tu dis en parlant de alphazero que "pour passer de l'état initial à l'état où elle est aujourd'hui en fait le temps de calcul est absolument énorme". Cela m'étonne car j'ai lu que l'IA n’avait joué "que" 44 millions de parties et 4h d''"entrainement" contre elle-même. Je n'ai peut-être pas bien compris ta phrase ou bien les explications de l'apprentissage d'Alphazero mais je trouve au contraire le temps de calcul absolument ridicule pour construire une IA quasi imbattable aux échecs.
Après, il me semble qu'il ne faut pas confondre entraînement et prédiction. En prédiction l'algorithme est "rapide". En entraînement il est plus lent. Mais d'un autre côté, je ne connais pas d'humain, qui parte de 0 connaissance à maître des échecs en 4h, donc finalement ça me semble rapide ?
Est ce qu'une machine peut gagner en complexité de Solomonove (déso pour l'orthographe) à partir du hasard ? Je pense à ton exemple de l IA alphazero qui a appris tout seul à jouer contre lui même. Ne peut on pas dire que cette machine a tiré de la complexité de Solomonove du hasard ? (si il y a du hasard dans l'algorithme, je sais pas).
La réponse est oui. J'en ai parlé dans les commentaires de la vidéo précédente. Le hasard a une grande complexité de Solomonoff. Le problème, c'est aussi que c'est de la complexité de Solomonoff "inutile". En général, ça n'aide pas à résoudre des problèmes.
cela dit, tres bonne video comme d'hab mais le travail de vulgairsation diminu, ou c'est le level qui monte je ne sais pas... ca manque d'exemple plus concret je pense Le
Science4All Hum, j'ai essayé d'y réfléchir...il y a dans les deux notions celle de décrire un système mais alors que l'entropie se contente d'une description présente, fixée dans temps, la complexité se ramène à une description la plus fondamental possible, indépendamment du temps...ça expliquerait peut être pourquoi l'entropie d'un système fermé ne peut qu'augmenter alors que la complexité de celui ci ne peut que rester constante...c'est très pauvre comme réflexion je l'admets, j'espère secrètement (oups plus maintenant) que tu vas apporter qqreponses la dessous mais quoi qu'il arrive je vais continuer d'y réfléchir ;-)
Heureusement qu il y a les schémas pour concrétiser le discours, sinon j étais plus que largué 😛 ... Sinon pour le petit clin d œil à la fin ,la complexité de Solomonov dépends effectivement du temps, l univers tel que nous connaissons en est un excellent exemple je crois ...
Pour cet épisode j'ai lâché, désolé :( J'ai commencé à avoir su mal à partir du moment où tu parles de la corrélation. Et complètement lâché à partir des variations, et donc pour le reste de l'épisode j'ai rien compris. Je n'ai même pas compris d'où on sortait ces "variations", c'est qui au juste ? De plus cette variable r qui correspond au "taux de corrélation" me paraît beaucoup trop abstraite pour moi. Et puis au juste, qu'est-ce que c'est exactement une "corrélation" ? (même si je vois un peu près c'est quoi) Bon je dois être un peu idiot au fond :( Mais du-coup, je suis triste :'(
Pareil pour moi. C'est raide là. J'ai pas fait de prépa, juste un DUT multimédia... dans lequel on faisait pas de maths. En gros, j'ai arrêté les maths au bac. Là, j'étais largué. Mais bon, j'ai compris certaines philosophies générales de la vidéo.
La corrélation, en gros, c'est une tendance à 2 choses d’arrivé en même temps, plus souvent que si ses choses étaient tiré indépendamment. Il a directement balancer la formule général, donc c'est pas évidant de visualiser, mais ça n'est pas nécessaire de comprendre totalement pour comprendre se que l'on cherche à faire. Exemple de choses corrélé : habiter en France, et avoir le français comme langue maternel. Il y a plein d’exception dans les 2 sens, mais quand quelqu'un a l'un, il a plus de chance d'avoir l'autre que quelqu'un tiré aléatoirement dans la population mondial. Ici, il y a des exemple dans des cas continue : fr.wikipedia.org/wiki/Corr%C3%A9lation_(statistiques)#D%C3%A9pendance Dans se cas, on ne se constante pas de dire "ça correspond" ou "ça correspond pas", mais on regarde si c'est plus ou moins proche. La façon de calculé "plus ou moins proche" est arbitraire, et c'est se dont il parlait pour les 2 méthode pour trouver la "meilleur" droite.
Oui il y a pas mal de détails techniques que je n'ai pas explicités (notamment les définitions formelles de la corrélation et de la variation). Il est plus que normal de ne pas tout comprendre en regardant cette vidéo. Mais ce n'est pas le but de la vidéo. Le but est de travailler l'intuition de ce que signifie les objets. La corrélation, c'est à quel point la régression linéaire colle aux données. Et la variation, c'est à quel point les labels varient (notamment si on oublie les features).
Est-ce qu'il ne faudrait pas créer une notion de complexité plus générale, qui prend en compte la complexité de Solomonov mais aussi la quantité de calcul qui a été nécéssaire pour atteindre un code capable de tourner à partir du code initial ? Aprés tout, si l'univers a commencé par un big bang et une grande soupe de matière, alors la complexité de Solomonov de l'univers est très faible, et on pourrait peut-être décrire toutes les informations nécéssaire pour atteindre l'univers aujourd'hui avec très peu d'informations initiales. Ce qui nous sépare du ~code~de l'univers tel qu'il est aujourd'hui, c'est la quantité cosmique de ~calculs~ qui ont été effectués en 13 milliards d'années depuis le big bang.
Je pense que oui ! Je pense aussi que trouver une jolie définition qui formalise tout ça, et une théorie qui permet de bien comprendre tout ça, c'est un prix Turing :P
J'arrive un peu milles ans après la guerre mais bon... A la fin, tu parles de régressions logistiques, comme étant des courbes en "S". De ce que j'ai pu voir en fait, la différence entre la régression linéaire et logistique n'est que le fait que la régression logistique va tracer une droite servant à séparer 2 catégories (e.g., chiens et chats pour la reconnaissance d'image), seulement, la régression logistique est aussi linéaire, d'où le problème du machine learning dit basique, auquel on a dû ajouter une voir, plusieurs couches cachées pour pallier à ces problèmes et faire du Deep Learning.
Salut, je suis juste passé vérifier que c'est toujours "la complexité de Solomonoff" après le dérapage de la vidéo 7. twitter.com/L_badikho/status/920298023346896898
ca y est tu m as perdu depuis l episode 8.... domage l'IA est un sujet pasionant, mais la ca devient des math, c'est plus de la vulgarisation comme ton episode 1 qui etait genial...
Je comprends plus rien à cause des anglissicismes à la con style "labels" et cie. J'ai pas envie de retourner voir à chaque épisode les vieiles vidéos pour avoir les définitions en tête donc je vais m'arrêter là. Bonne continuation!
je vais un peu cracher dans la soupe du deeplearning et des reseaux convolutifs............ vu ton age tu n'a s pas connu...... y a 20 ans est ne un truc qui mettait les statistiques au rencard, ca s'appelait datamining......... ( bon saporta a quand meme ecrit un article ' le datamining, une autre facon de faire des statistiques?', mais ca c'est pour les vieux qui n'ont rien compris) a la poubelle, la theorie des sondages, les probabilites, le modele lineaire, gourierous et monfort, makidakis, saporta, maddala et tous ces trucs de vieux cons!!!!!!! on a l'algorithme miracle qui calcule toutes les correlations sur tout dans les bases de donnees, sait tout, et decouvre tout............ ' find a needle in a haystack', c'etait le leitmotiv................ on a vu comme ca a ete utilise, et ce que ca a donne je rigole! 20 ans plus tard, je remplace ' reseau de neurones' par ' deeplearning ( dont personne ne sait que c'est des ann), et le discours n'a pas bouge d'un iota j'attend patiemment 5 ans, parce que autant ca peut etre utile, autant certains qui ont rate des marches dans la montee vont vite redescendre lors d'utilisations a mauvais escient! je suis pret a lever les paris ;-) il suffit de lire certains sites/blogs et autres fait par des phd en deeplearning pour se dire que mine de rien, y a des trucs qui manquent!............ wait and see, l'experience forme la jeunesse bonne soiree
Cedric Villani veut réconcilier les français avec les mathématiques. J'espère que tu fais partie de sa solution !
Toujours un plaisir de voir ces topics d'une grande compléxité traité avec de beaux schemas et le bon discours qui les rendent plus abordables. J'aurai pour ma part noté la sensibilité des algorithmes de regression linéaires aux outliers et les approches de type RANSAC ou basé médiane qui apportent plus de robustesse. Mais pour cela, comme tu le dis, il faudrait bien plus d'un seul épisode :-D
Tellement de complicité avec M. Phi que vous sortez une vidéo le même jour!
Deux remarques d’un vieil expérimentaliste qui a travaillé avant les ordinateurs et même les calculatrices ( ou tout au moins leur arrivée dans les laboratoires).
1) D’un point de vue calcul, en ces temps préhistoriques ( il y a 40 ans) on pouvait très facilement et très rapidement, avec une simple règle à calcul ( cf Wikipédia pour les plus jeunes) puis avec les premières calculatrices avec quelques mémoires, obtenir a, b et r pour la méthode des moindres carrés en calculant tout simplement les sommes des x, y, x2, y2 et xy. C'était totalement impossible pour la méthode de Laplace. Cette facilité des calculs a grandement contribué à son succès.
2 ) D’un point de vue expérimental ces méthodes ont beaucoup d’aspects discutables. On cherche la droite qui va minimiser la somme des erreurs ou des carrés des erreurs sur Y. On fait l’hypothèse que ces erreurs sur Y sont de type aléatoire et suivent une loi normale. Alors juste quelques questions que l’on se posait souvent :
- comment faire si il y a aussi une erreur sur X ?
- comment faire si l’erreur est proportionnelle à Y ?( on aimerait alors que la droite soit plus proche des points à faible valeur pour Y que des points à forte valeur)
- comment éliminer l’influence d’un outlier ? ( point aberrant en français ou plus explicitement point pour lequel l’erreur est de type différent des autres points). Comme souligné dans un autre commentaire , un tel point à une influence énorme dans cette méthode des moindres carrés et peut totalement fausser le résultat.
Toutes ces questions ont reçu des réponses ; les logiciels sont devenus de plus en plus sophistiqués et donc de plus en plus difficiles à utiliser. On cherche effectivement à automatiser complètement la chaîne. Faire des calculs sur des milliers ou des millions de points est devenu très simple ; choisir la bonne méthode et les bons réglages reste un challenge.
Je me suis toujours demandé pour les moindres carrés, ça fait sens quand il s'agit de tension électrique car un point éloigné compte au carré de sa distance à la droite en terme de puissance, mais dans le cas général... J'attends impatiemment ton explication ^^
Tout comme le magnétisme et son rapport de force au carré de sa distance. La bonne question serait alors de se demander si la somme des carrés des forces dans toutes les directions ne résulterait pas en un vecteur complètement nul en son centre ?
Incroyables Expériences je t'aime passionnément
Ca a un rapport avec le théorème de Gauss-Markov il me semble, mais je veux pas dire de conneries ^^
Martin à ton avis mon martin ?
Ne pourrait-on pas aussi y voir une similitude avec la norme 2 que nous utilisons pour la distance minimale dans le plan ou l'espace ?
On m'enlèvera pas de l'idée que Gauss a la tête du mec qui déclenche une bataille de bouffe à la cantine.
tu m'as achevé
C'est un sale Gauss?
Ouah!!!!! L'explication de départ est tout simplement lumineuse ....
Super vidéo! Surtout le petit côté historique avec les personnages clés et la présentation de l'alternative entre distance absolue et Euclidienne (suspens!).
Petit bémol peut-être pour le manque de distinction entre régression et classification (labels continues vs discrets).
En statistique, c'est la méthode du maximum de vraisemblance qui est la méthode d'estimation "reine". Dans le cas de la régression linéaire où X et Y sont gaussiennes, les méthodes des moindres carrés (norme L2) et du maximum de vraisemblance sont équivalentes. Il me semble que c'est pour cela que la régression en norme L1 n'est que peu enseignée et que les moindres carrés l'est beaucoup.
en l'espace d'une remarque, tu viens de m'aider à comprendre quelque chose à quoi je n'avais jamais réussi à trouver une réponse satisfaisante : pourquoi les carrés? (plutôt que les valeurs absolues ou autre...).
Je m'étais bien fait la réflexion que la distance d'un point à une droite se base sur les carrés de delta_x et delta_y (par Pythagore, mais le delta_y n'est alors pas le même que celui de l'incertitude) , que les carrés sont plus sympas à manipuler que les valeurs absolues, et qu'en tant que physicien j'adore additionner des carrés (parce que les grandeurs énergétiques varient presque toujours comme les carrés des phénomènes en cause) etc, etc.
Mais rien de tout ça ne répondait vraiment à la question.
Et là, à 3:03 , tu nous lâches les mots clés qui permettent de savoir quelle piste suivre : "Bayesien", "central limite"...
Donc pour une valeur théorique donnée, la probabilité d'obtenir une valeur expérimentale qui s'en écarte d'une distance "E" varie comme exp(-E²)... donc pour plusieurs points, maximiser les produits de probabilités (pour maximiser la "crédibilité" qu'on accorde à la droite) revient à maximiser exp(-[somme des E_k])....
Mais oui !!!!
J'ai pas perdu ma journée : j'ai compris quelque chose !!
merci Lê :-D
Pour le problème XOR, il me semble que l'approche en SVM en changeant la dimension (en augmentant en général) résout le problème.
Tout a fait, ça s'appuie sur la théorie de Vapnik-Chervonenkis si je ne m'abuse :)
Hey, c'est pas les chercheurs en IA qui ont inventé la régression linéaire, c'est les statisticiens ! Je sais bien que les informaticiens sont spécialistes de ré-inventer des trucs qui existent déjà et de leur donner un nouveau nom, mais tout de même, rendons a Césars ce qui lui appartient : une bonne partie du machine learning (dont la régression) existe depuis très longtemps et on trouve la majorité des méthodes "révolutionnaires" dans des bouquins de stat vieux de plus de 50 ans !
Ah ! Enfin des mathématiques que j'ai déjà étudié !!
VRAIMENT vraiment tes le boss
Tout juste les cours que j'ai reçu ce dernier mois à l'école Centrale de Lyon!
r² est-il vraiment significatif de la vraisemblance d'un modèle linéaire, sachant qu'il peut être très grand quand on peut voir que les points suivent à vue d'oeil une autre loi?
Il y a une corrélation très forte au dessus de 0,8; mais le modèle linéaire n'est accepté que pour r^2>0.98; c'est ce que j'ai appris en IUT Mesures Physiques. Typiquement les lois physiques dont on connait la formule et dont on fait varier les bons paramètres de manière précise, c'est assez robuste et on est rarement avec r^2
Super vidéo, merci ! Pour ceux qui recherchent davantage d'explications, Guillaume de la chaîne Machine Learnia (ua-cam.com/channels/mpptkXu8iIFe6kfDK5o7VQ.html) fait des supers tutoriels dont plusieurs expliquent comment faire des régressions linéaires et polynomiales dans Python ! Ça m'a en tout cas beaucoup aidé, je recommande :)
Bonne vidéo ! En effet allez faire un tour sur sa chaîne, ça vaut le coup pour une compréhension globale ou avancée des sujets qui vous intéressent plus particulièrement dans le machine learning, and in French please !
P.S : sur le site machinelearnia.com vous avez aussi un super ebook pour enrichir votre bibliothèque numérique 👍
OK, je crois que je dois réviser le précédent épisode. Par contre je ne connaissais pas le "la causalité n'implique pas la corrélation", je vais creuser le sujet ! EDIT : c'est une référence au problème d'inférence causale ?
j'ai plutôt compris ça comme étant : "la causalité n'entraine pas la corrélation *linéaire*" c'est à dire que y ne varie pas linéairement selon x, comme avec l'exemple de y=e^x...mais on a bien causalité, et on a bien corrélation "exponentielle", c'est à dire que y est corrélé "linéairement" avec e^x
(De même, si y=sin(x), il y a relation causale, et si tu trace y en fonction non pas de x mais de sin(x), tu as une belle droite)
C'est comme ça que je l'ai compris et c'est l’expérience pratique que j'ai de la régression linéaire, aussi je m'excuse si j'ai mal interprété et je tiens à le savoir si c'est le cas ^^
Ah oui, je ne l'avais pas envisagé comme ça, merci !
la causalite est inferee, mais c'est une correlation qu'on mesure.......... on a meme des variantes! dans les series temporelles, on peut avoir de la sims ou de la granger causalite..... on dira ' X ' granger cause' Y)
Utiliser deux droites de séparations plutôt qu'une seule pour le cas XOR ?
Ce qui est amusant c'est que le cas XOR était déjà le cas problématique pour les réseaux de neurones artificiels basiques d'il y a 25 ans.
Je crois que c'est pour ça que Lê en parle :)
ça l'était pour les perceptrons, c'est-à-dire les réseaux à une seule couche. On savait déjà que c'était faisable avec une couche supplémentaire, mais on ne savait pas comment entraîner un tel réseau. Maintenant on sait ^^.
Au sujet des méthodes des moindres déviations et des moindres carrés, selon moi comparer ces deux méthodes revient à comparer les façons de mesurer les "erreurs totales" (avec la norme 1 pour la méthode des moindres dérivations ou avec la norme euclidienne pour la méthode des moindres carrés). La norme euclidienne étant la façon la plus naturelle de mesurer les distances il me semble que la méthode des moindres carrés est également la plus naturelle.
Y-a-t-il un rapport entre la préférence pour la méthode des moindres carrés et l'utilisation de l'écart-type ( racine carrée de la variance, la moyenne des écarts à la moyenne au carré) plutôt qu'une moyenne des "distances" à la moyenne ?
(C'est peut-être pas très clair...)
Dommage que tu ne soit pas rentré plus en détail sur les svm car ces dernières projettes les données dans un nouvel espace muni de d'un produit scalaire ce qui lui permet (en fonction de l'utilisation des fonction noyaux utilisée pour cette projection) de linéariser certains problèmes
Bonjour Lê,
Dans le cadre de ta série de vidéo sur l'Intelligence Artificielle, penses-tu qu'il te serait possible de faire une vidéo sur l'apprentissage par renforcement, qui constitue l'une des bases des réseaux de neurones ? (Ou tout simplement une vidéo sur les réseaux de neurones). C'est un secteur de recherche en plein essor, aussi cela pourrait sans doute intéresser.
Cette représentation de XOR m'intrigue ... j'aurai inversé les pouces haut/bas. Puis-ce que techniquement on peut dire que le point d'origine jusqu'à la première moitié abscisse & ordonnée symbolise un couple (0,0) donc ça vaut 0 = pouce vers le bas. C'est un détail ... merci pour cette vidéo. Je suis en train d'implémenter en Tensorflow en JS et effectivement c'est bien la galère quand tu ne connais pas la régression linéaire ; c'est la dernière pierre à l'édifice et très certainement la plus importante.
Est ce que tu compte parler des polynômes de Lagrange dans un prochain épisodes de ia ?
pour le xor :
on peut se contenter de mettre seulement l'une de 4 région de coté.
ça ferait une grosse approximation, avec un coté valide à seulement 2/3 et l'autre valide à 100%, mais avec seulement la moitié des donné qui pourraient allez dedans.
Bon ça y est, je suis largué. Hop, reprise des épisodes précédents !
Salut Lê et la communauté de S4A, je suis en L1 de maths et je sors d'un semestre de prépa MPSI. J'ai une question qui n'a rien à voir avec les sujets actuels de vidéos.
En physique, les profs utilisent très souvent les notations "df", "dx" toutes seules, c'est-à-dire sans que l'on parle de dérivée ; pourtant, on associe très souvent à ces notations les propriétés de la dérivation (exemple : df/dx = (df/da)*(da/dx), et après on dit que df/da est la dérivée de x par rapport à a, etc).
et j'ai l'impression en demandant aux profs et aux gens autour de moi que personne ne comprend vraiment cette notation mais "qu'elle marche bien". Typiquement, mon prof de physique de prépa m'avait dit "tu prends la relation df/dx = f'(x), et tu multiplies des 2 côtés par dx " . Cela ne m'a absolument pas convaincu puisque la dérivation est plus qu'un simple quotient ! J'en viens parfois à me demander s'il existe une théorie rigoureuse à ce sujet ..
Enfin voilà, dans l'ensemble je suis assez confus, si quelqu'un pouvait éclairer ma lanterne ou me renseigner sur la documentation à ce sujet ! Merci
Tu tombes bien, je sors d'une formation data scientist / machine learning
Bonjour,
Est ce que le machine learning utilise les statistiques et notamment les plans d'expériences définis par Fisher et Taguchi pour évaluer, la force de l'influence des facteurs sur les réponses. Je pense a cela car c'est une méthode utilisé en conception dans l'industrie pour savoir quels sont les paramètres que l'on doit surveiller et ceux qui sont moins prépondérants dans le but d'optimiser les coûts de fabrication, augmenter la fiabilité etc...
Si j'ai bien compris, la différence entre la méthode des moindres variations et moindres carrés est :
- Pour les moindres variations, l'objectif est de minimiser l'écart entre la droite et les points. Si on divise ça par le nombre de points, on peut dire que l'objectif de la méthode est de minimiser la moyenne des écarts
- Pour les moindres carrées, l'objectif est de minimiser les écarts au carré entre la droite et les points.Si on divise ça par le nombre de points, on peut alors dire que l'objectif de la méthode est de minimiser la variance des écarts (ou l'écart-type).
La question est donc : Dans ce cas là, est-ce plus pertinent de minimiser la moyenne ou l'écart type ??
Nos points sont issus de mesures, et j'ai l'impression que souvent c'est 1 ou 2 points qui dérangent particulièrement. Du coup, pour minimiser leur influence sur la courbe, je pense que c'est mieux la méthode des moindres variations.
(Mais en vrai je doute vu qu'à l'école on nous apprend la méthode des moindres carrés, pk nous apprendre celle-là si c'est la moins pertinente ? ^^)
Je viens de penser aussi, on pourrait dire que sur nos mesures, on fait tout d'abord la technique des moindres variations et on supprime par exemple 10 % des mesures les plus éloignées ; puis avec les mesures restantes, on fait la technique des moindres carrés.
Pck quand il n'y a pas de points particulièrement dérangeant, j'ai l'impression que minimiser l'écart-type est un peu plus intéressant que la moyenne, vu qu'on cherche une droite qui limite la disparition des points à celle-ci.
Je voudrais juste signaler qu'on appliquant l'ACP on effectue un changement de base, donc les dimensions qu'on garde à la fin n'ont rien à voir avec la base initiale, donc il faudrait trouver un sens aux nouvelles dimensions obtenues.
Pourrais-tu faire une vidéo H.S sur les prix Turing ?
Y en a beaucoup des prix Turing ^^
très bonne présentation, bravo !
concernant correlation et causalite..... y a des debuts d'approches pas ininteressants, que l'on trouve par exemple chez gourieroux et monfort ( statistiques et modeles econometriques, tome 1)
En minimisant les carrés, j'ai l'impression qu'on accorde beaucoup plus d'importances aux points loin de la droite de régression que l'on cherche à obtenir (si d, la distance du point à la droite, augmente, alors d² accélère)
Or, c'est justement ces points là les moins pertinents non?
J'ai alors l'impression que minimiser les carrés n'est juste qu'une astuce permettant de simplifier les calculs
C'est la question que je me pose également, pourquoi accorder plus "d'importance" à ces points ?
justement parce qu'ils sont moins probables. Pour une valeur théorique Y_th (obtenue par corrélation) , la probabilité que la valeur expérimentale Y_exp soit loin est faible, ce qui tend à signifier que la droite théorique ne peut pas s'éloigner bcp de ce point. (ouh là je suis pas sûr d'être clair là)
D'où ma question ^^, pourquoi donner plus d'importance à certains points plutôt qu'à d'autre, en particulier ici à ceux que tu dis être les "moins probables" ?
Assurons nous déjà de parler de la même chose : nous ne parlons pas ici des points qui sont aberrants. Ces derniers, trop éloignés de ce qui est crédible, ne sont pas pris en compte du tout. Nous parlons des points qui sont "vrais", mais qui s'éloignent de la tendance dessinée par les autres. On est d'accord jusque là?
Du coup :
on n'a pas une droite qui est "posée a priori", et des points qui en sont plus ou moins loin. Au contraire : on a des points, et on cherche à faire en sorte que la droite passe "au plus près".
Donc si on envisage une droite arbitraire, et qu'un point est "loin", c'est improbable. C'est donc que la meilleure droite doit en fait être "moins loin" dudit point (mais bien-entendu, chaque autre point "tire" la droite à lui même, aussi).
Au final, avec la droite optimale,
- si tous les points sont proches, on a bonne confiance dans la représentativité de la droite : tous les écarts observés sont probablement dus à l'incertitude de mesure
- s'il reste des points relativement loin, ces derniers font baisser le coefficient de corrélation r² : cela indique que l'on a "peu confiance" dans cette droite (même optimale), car elle laisse derrière elle des valeurs qui n'ont que peu de chances d'être dues au hasard/ à l'incertitude de mesure.
(Cette réponse est encore moins claire que la précédente, j'ai l'impression #) )
alex rvolt Ça y est je crois que j'ai l'idée ;-) par contre ce que je demandais par "donner plus d'importance" c'était plutôt pourquoi x^2 plutôt que x...et pourquoi pas x^3/2 dans ce cas ? Pourquoi moindre carré plutôt que moindre déviation et c'est un peu la question ouverte que Lê posait...et pourquoi les moindres carrees est plus appliqué en science ( c'est celle que j'applique) ? Voilà c'est peut-être plus clair comme ça ^^
Ce n'est pas une solution linéaire, mais pour le XOR avec des features de dim2, en prenant le graphe de x ---> y0 + 1/(x-x0)
où (x0,y0) serait les coordonnées de l'isobarycentre des features (À définir proprement quand on est pas dans IR²), on obtiendrait le graphe de la fonction inverse, centré en (x0,y0). Et normalement ça devrait plutôt séparer les données en deux régions distinctes. Mais c'est quand même moins régulier qu'avec une droite...
Pour le problème xor est-ce qu'on peut s'en sortir en inversant simplement l'axe d'une des features? Il me semble même que les features concernées doivent êtres liées donc la solution serait peut-être de les analyser à part et de les "fusionner" en une seule feature.
Salut ! Dans cet épisode tu fait ressortir la liaison entre l'algèbre linéaire et le deep learning que je veux étudier pour mon projet (tipe) de prépa. Aurais tu des sites ou explication pour me guider dans les études mathématiques ?
Pour choisir entre l’approximation par moindre carré ou linéaire, il faudrait calculé avec quoi on fait la meilleur approximation d'une gaussienne.
(Actuellement, j'ai la flème de réfléchir à quelle méthode utilisé pour faire l’approximation dans les 2 cas; définir "meilleur", et faire les calcules. Je reviendrait.)
Dis donc, un usage des statistiques serait assez pertinant ici, je penses notamment au test du Chi2, qui est un excellent indicateur pour savoir si un jeu de donnée (ici el famoso nuage de points) suit une certaine loi de probabilité :). Sinon, mon prof de calculabilité en école d'ingé t'as diffusé en classe pour expliquer le problème de l'arrêt donc GG à toi ^^
Pour le problème XOR ça ressemble à f(n) = 1/x. Faut-il évoluer la droite en courbe ?
Je me posait la même question... Mais on perdrait la linéarité...
charles gislard j
J'ai une question, est ce qu'il y a l'idée de famille libre, famille génératrice ou base lorsque l'on parle de classification lineaire de dimension d s'il te plait?
4:03 "...la corrélation est égale à -1 lorsqu'elle descend et contient les données...". Il me semble qu'une corrélation négative exprime des tendances opposées, et non pas la pente d'une tendance commune. Que ce soit entre deux jeux de données ou un modèle et un jeu de données.
Pour illustrer: i.postimg.cc/G2mkFnsL/correlations.png
(Oui je sais, un peu tard pour commenter)
Une petite coquille s'est glissée à 6:52. Vous avez dit qu'un hyperplan de dimension d est représenté par d+1 nombres (alors que vous avez écris qu'un hyperplan de dimension d+1 est représenté par d+1 nombres, ce qui est juste)
Comme toujours une excellente vidéo !
J'ai de plus en plus envie de faire mon TIPE sur ce sujet ^^
Fonces! C'est totalement faisable (c'est un ancien PSI qui a fait son TIPE sur les réseaux de neurones qui te parle ;) )
La Transformée de Fourier me semble pouvoir être utile dans le problème XoR mais je ne saurais pas le formaliser ^^'
Merci pour cette vidéo!
Pour le XOR, c'est une hyperbole qui sépare les données, non ?
Est-ce qu'il possible pour réduire le nombre de dimension sans perdre trop d'informations de combiner plusieurs dimensions en une seule ?
Pourquoi causalité n implique pas correlation ? Je suis d'accord avec les correlations linéaires mais si y=sinx ne peut on pas dire que y est corrélé a x?
Salut Lê !
Je me posais une question : en école d'ingé, tout ce que j'ai retenu c'est que pour une régression linéaire, lorsque R² > 0.8 on peut valider la corrélation et faire confiance au modèle. Saurais-tu (ou quelque mathématicien avisé) pourquoi on valide cela sachant que corrélation n'implique pas causalité ?
Et au passage merci pour tes vidéos, grâce à toi je découvre les mathématiques par le prisme historique et cela m'a fait comprendre énormément !
Et puis pour ton challenge du XOR, un simple perceptron à 2 couches le fait non ? Genre deux droites peuvent classifier les données à 100% de précision easy il me semble ?
E t grâce à la corrélation r de la relation linéaire y a il moyen d'appréhender une corrélation non linaire type exponentiel, inverse, puissance, racine ... ?
voir même définir la non-linéariter grâce a la relation entre la méthode des moindre déviation et des moindre carrés?
Super vidéo. Merci. Il y a cependant une petite erreur. Le portrait de Legendre qui apparaît à 2:21 est celui de Louis Legendre, un politicien français. On ne connaît qu'une caricature d'Adrien-Marie Legendre, visible sur Wikipédia : fr.wikipedia.org/wiki/Adrien-Marie_Legendre
Ah merde ! En même temps la caricature du pauvre Legendre est tellement peu flatteuse ^^
Cette vidéo c'est un chapitre de mon cours de stats...
Sans les formules et les théorèmes de partout.
9:26, comme ça je dirai : kernel tricks ;) Il y a d'ailleurs des choses très sympas à voir du coté des locally linear svm.
Héhé ^^
Super vidéo ! Comme d'hab' quoi :p
C’est super comme explications, par contre sur les « Lei balls », c’est indécent le nombre de fois que celles ci ont été citées, ça me surprend que UA-cam n’ait pas démonétisé cette vidéo.
Sachant que
Xor(x,y) = Or(And(Not(x),y),And(x,Not(y)))
il est peut-être possible de le décomposer en plusieurs (six) étapes solvables individuellement par des méthodes de classification linéaires...
me trompe-je ?..
Si j'ai bien compris et que je poursuis plus loin le raisonnement sur la complexité en l'appliquant au système le plus grand possible c'est à dire l'univers : toute la complexité de l'univers à un jour été comprise dans la tête d'épingle que celui-ci était ? Et ça ne serait qu'une portion de cette complexité qui nous a été transmise dans le développement de l'homme, de la vie ? Et que la complexité de l'univers est constante et ne peut augmenter ?
Pour la question de la complexité du cerveau enfant, peut on vraiment considérer qu'elle est de l'ordre de la quantité d'informations de l'ADN, étant donné que les lois de la chimie/biologie sont beaucoup plus compliqué que celle d'une machine de Turing ? L'adn ne serait-il plutôt quelque chose comme la graine d'un automate cellulaire incroyablement complexe ; ou ne s'agirait-il pas d'un cas similaire à celui de Alpha-0 ?
Notre ADN contient énormément d'informations "inutiles". Plus de 80% (on avance souvent le chiffre de 98%) de notre ADN ne code aucune pour aucune protéines. Par exemple, on a des télomères à l'extrémité de nos chromosomes; Grosso modo, c'est de l'ADN ne contenant aucune information utile. Sa présence s'explique juste de par le fait qu'avec le temps les chromosomes prennent des dégâts, surtout aux extrémités, sans les télomères, ce serait des parties codantes importantes qui se retrouverait endommagés (Le raccourcissement des télomères avec le temps explique notamment une partie des problèmes du vieillissement)
Et de plus, comme je crois que tu le souligne, l'ADN ne fait que coder des protéines, qui sont un peu les outils multi-fonctions du corps humain. On a des protéines pour un peu tout et n'importe quoi (structures, enzymes, transports, signalisation et cetera). Néanmoins, notre corps et son fonctionnement, ce n'est pas que des protéines. Si l'on s’intéresse à l'activité biologique d'un être vivant, on voit bien d'autres choses que des protéines, il y a minéraux, sucres, gras, tout un tas de chose qui ne sont absolument pas codé par l'ADN
Imagine Bernard. Bernard est un ermite qui vie dans la foret. Bernard possède un livre énorme dont 80% des pages ne contient pas d'informations utiles, et le reste, des plans pour faire tout un tas d'outil à partir de matériaux de bases. Bernard va construire des outils, et Bernard va se faire une maison, un champ, bref, Bernard va faire tout un tas de choses.
Résumer l'information de la vie par l'ADN (ou tout autre forme d'information génétique) , ce serait résumer l'information de ce que fait Bernard au livre des outils
L'information génétique est essentiel aux processus biologiques, mais les processus biologiques ne sont pas réductibles à l'information génétique
Merci pour ta réponse, tu vulgarises/expliques vraiment bien.
À vrai dire je ne pensais pas que l'information de l'ADN pourrais être compressée autant, mais idem quand informatique, la fiabilité du stockage de l'information est aussi importante que la quantité où l'optimisation (sur les stockages informatique de données aussi on enregistre des données redondantes pour contrer les problèmes d'usure).
[INTROSPECTION]
J'ai l'impression que l'IA peut être approché par le néophyte qui n'a pas de base solide en mathématique. (Il n'y a qu'a voir tout les framework relativement accessible).
Ma question: d'après votre expérience, à quel niveau en IA pensez vous qu'un tel profil non mathématicien pourrait-il prétendre aujourd'hui ?
Cest quoi la différence alors avec le lissage exponentiel
4:23, "Pour x entre 0 et 100, la corrélation est inférieur à 30%"
Corrélation entre quoi et quoi ?
La complexité du programme comme A0 qui apprend en jouant contre lui-même est faible au sens de Solomonoff/Kolmogorov/Chaitin, mais on peut la capturer par la "profondeur de Bennett" qui prend en compte le temps d'exécution du programme minimal.
Je super frustré de ne pas tout comprendre. Sinon, à 6:51 tu dis représenter "un espace de dimension D par D+1 nombre" déjà je comprends pas pourquoi D+1 alors que espace de dimension 1-> 1 nombres, dimension 2->2nb, dimension 3->3 nb ... donc dimension d d nombres non ? En plus il y a marqué Dimension d+1 --> d+1 ... Qu'en est-il ?
peut on dire que au final la régression linéaire est une interpolation ?
Merci Lê !
Bas non, la régression linéaire c'est pour les relations affines ^^
(les relations linéaires passent forcément par 0)
Sinon pour le ou exclusif, ne suffirait-il pas d'utiliser deux droites de rupture au lieu d'une?
Dragon Rock je crois que tu as compris mon commentaire à l'envers :) je disait justement que que la régression linéaire s'appliquaient aussi bien au relation affines que linéaire alors que Lê a sous-entendu qu'elle s'appliquait uniquement au relation affines (7:20)
De rien :)
Le graphe que tu montres pour le XOR ne serait-il pas plutôt un XNOR ? En considérant que le "thumb up" vaut 1, et le "thumb down" vaut 0, évidemment.
Bravo pour vos vidéos toutes très intéressantes!! Pour info, Alpha zero a battu aussi la machine spécialiste du Shogi. Je me demande si alpha zero ne deviendrait pas une machine universelle, bien entendu limité aux jeux... Une deuxième remarque: Yan Lecun fait remarquer que c'est facile de réaliser une machine spécialiste en jeux, plus difficile de réaliser une voiture autonome: par exemple la faire s'éclater contre un arbre autant qu'elle le veut pour qu'enfin elle comprenne que ce n'est pas bien (coût).... fin de remarque de Yann. En fait , je ne vois pas de différence entre le jeu et la vraie vie. Dans les deux cas, il y a de la localisation et des objets en déplacement, un système physique en qq sorte. Il suffit dans les deux cas de trouver des règles et faire tourner la machine pour qu'elle apprenne. L'environnement se limite aux règles, c'est pauvre mais pourquoi pas. (apprendre de l'humain n'a aucun intérêt) C'est donc du machine learning. En attendant, pour éviter les accidents répétitifs, les machines apprennent sur de la vidéo enregistrée et de la vidéo créée de toute pièce grâce au GAN. (nous faisons la même chose nous nous appuyons sur ce que nous connaissons et nous essayons d'imaginer des cas plus complexe pour anticiper notre façon de procéder). L'objectif de deepmind est 1- comprendre ce qu'est l'intelligence 2- tout faire avec! Je pense que l'on peut faire confiance à Hassabis pdg de deepmind pour créer la vrai machine universelle.
Bonjour,
Une remarque concernant la phrase à 17:01, tu dis en parlant de alphazero que "pour passer de l'état initial à l'état où elle est aujourd'hui en fait le temps de calcul est absolument énorme".
Cela m'étonne car j'ai lu que l'IA n’avait joué "que" 44 millions de parties et 4h d''"entrainement" contre elle-même.
Je n'ai peut-être pas bien compris ta phrase ou bien les explications de l'apprentissage d'Alphazero mais je trouve au contraire le temps de calcul absolument ridicule pour construire une IA quasi imbattable aux échecs.
Oui je considère que 4h d'entraînement c'est beaucoup. T'as pas trop envie que ton adversaire aux échecs mette 4h pour jouer un coup...
Après, il me semble qu'il ne faut pas confondre entraînement et prédiction. En prédiction l'algorithme est "rapide". En entraînement il est plus lent. Mais d'un autre côté, je ne connais pas d'humain, qui parte de 0 connaissance à maître des échecs en 4h, donc finalement ça me semble rapide ?
Est ce qu'une machine peut gagner en complexité de Solomonove (déso pour l'orthographe) à partir du hasard ? Je pense à ton exemple de l IA alphazero qui a appris tout seul à jouer contre lui même. Ne peut on pas dire que cette machine a tiré de la complexité de Solomonove du hasard ? (si il y a du hasard dans l'algorithme, je sais pas).
La réponse est oui. J'en ai parlé dans les commentaires de la vidéo précédente. Le hasard a une grande complexité de Solomonoff.
Le problème, c'est aussi que c'est de la complexité de Solomonoff "inutile". En général, ça n'aide pas à résoudre des problèmes.
cela dit, tres bonne video comme d'hab mais le travail de vulgairsation diminu, ou c'est le level qui monte je ne sais pas... ca manque d'exemple plus concret je pense Le
Je perçois une grande corrélation sémantique entre complexité et entropie...on m'explique ? ^^
Les deux sont très liés ;)
Science4All Hum, j'ai essayé d'y réfléchir...il y a dans les deux notions celle de décrire un système mais alors que l'entropie se contente d'une description présente, fixée dans temps, la complexité se ramène à une description la plus fondamental possible, indépendamment du temps...ça expliquerait peut être pourquoi l'entropie d'un système fermé ne peut qu'augmenter alors que la complexité de celui ci ne peut que rester constante...c'est très pauvre comme réflexion je l'admets, j'espère secrètement (oups plus maintenant) que tu vas apporter qqreponses la dessous mais quoi qu'il arrive je vais continuer d'y réfléchir ;-)
Heureusement qu il y a les schémas pour concrétiser le discours, sinon j étais plus que largué 😛 ...
Sinon pour le petit clin d œil à la fin ,la complexité de Solomonov dépends effectivement du temps, l univers tel que nous connaissons en est un excellent exemple je crois ...
Pour cet épisode j'ai lâché, désolé :(
J'ai commencé à avoir su mal à partir du moment où tu parles de la corrélation.
Et complètement lâché à partir des variations, et donc pour le reste de l'épisode j'ai rien compris.
Je n'ai même pas compris d'où on sortait ces "variations", c'est qui au juste ?
De plus cette variable r qui correspond au "taux de corrélation" me paraît beaucoup trop abstraite pour moi. Et puis au juste, qu'est-ce que c'est exactement une "corrélation" ? (même si je vois un peu près c'est quoi)
Bon je dois être un peu idiot au fond :(
Mais du-coup, je suis triste :'(
Pareil pour moi. C'est raide là. J'ai pas fait de prépa, juste un DUT multimédia... dans lequel on faisait pas de maths. En gros, j'ai arrêté les maths au bac.
Là, j'étais largué.
Mais bon, j'ai compris certaines philosophies générales de la vidéo.
La corrélation, en gros, c'est une tendance à 2 choses d’arrivé en même temps, plus souvent que si ses choses étaient tiré indépendamment.
Il a directement balancer la formule général, donc c'est pas évidant de visualiser, mais ça n'est pas nécessaire de comprendre totalement pour comprendre se que l'on cherche à faire.
Exemple de choses corrélé : habiter en France, et avoir le français comme langue maternel.
Il y a plein d’exception dans les 2 sens, mais quand quelqu'un a l'un, il a plus de chance d'avoir l'autre que quelqu'un tiré aléatoirement dans la population mondial.
Ici, il y a des exemple dans des cas continue : fr.wikipedia.org/wiki/Corr%C3%A9lation_(statistiques)#D%C3%A9pendance
Dans se cas, on ne se constante pas de dire "ça correspond" ou "ça correspond pas", mais on regarde si c'est plus ou moins proche.
La façon de calculé "plus ou moins proche" est arbitraire, et c'est se dont il parlait pour les 2 méthode pour trouver la "meilleur" droite.
En plus des réponses précédentes, cette vidéo vulgarise très bien la notion de corrélation : ua-cam.com/video/aOX0pIwBCvw/v-deo.html
Merci pour toutes vos réponses, je vais m'y pencher ^^
Oui il y a pas mal de détails techniques que je n'ai pas explicités (notamment les définitions formelles de la corrélation et de la variation).
Il est plus que normal de ne pas tout comprendre en regardant cette vidéo.
Mais ce n'est pas le but de la vidéo. Le but est de travailler l'intuition de ce que signifie les objets.
La corrélation, c'est à quel point la régression linéaire colle aux données. Et la variation, c'est à quel point les labels varient (notamment si on oublie les features).
Est-ce qu'il ne faudrait pas créer une notion de complexité plus générale, qui prend en compte la complexité de Solomonov mais aussi la quantité de calcul qui a été nécéssaire pour atteindre un code capable de tourner à partir du code initial ? Aprés tout, si l'univers a commencé par un big bang et une grande soupe de matière, alors la complexité de Solomonov de l'univers est très faible, et on pourrait peut-être décrire toutes les informations nécéssaire pour atteindre l'univers aujourd'hui avec très peu d'informations initiales. Ce qui nous sépare du ~code~de l'univers tel qu'il est aujourd'hui, c'est la quantité cosmique de ~calculs~ qui ont été effectués en 13 milliards d'années depuis le big bang.
Je pense que oui ! Je pense aussi que trouver une jolie définition qui formalise tout ça, et une théorie qui permet de bien comprendre tout ça, c'est un prix Turing :P
Je m'y met tout de suite.
À 6:53, Lê dit dimension d au lieu de d+1. Sinon bonne vidéo ! :)
merci, ca m'avais fait buger et j'etais pas content
J’avais remarqué aussi. Lê doit maintenant faire pénitence.
Un hyperplan d'un espace de dimension d+1 est de dimension d et se représente par d+1 nombre.
J'arrive un peu milles ans après la guerre mais bon...
A la fin, tu parles de régressions logistiques, comme étant des courbes en "S". De ce que j'ai pu voir en fait, la différence entre la régression linéaire et logistique n'est que le fait que la régression logistique va tracer une droite servant à séparer 2 catégories (e.g., chiens et chats pour la reconnaissance d'image), seulement, la régression logistique est aussi linéaire, d'où le problème du machine learning dit basique, auquel on a dû ajouter une voir, plusieurs couches cachées pour pallier à ces problèmes et faire du Deep Learning.
J'ai pas compris ton "je pense que la bonne réponse est Parisienne..."
je dois avoir mal compris
Haha ! Pas "parisienne" mais "bayésienne" ;)
Salut, je suis juste passé vérifier que c'est toujours "la complexité de Solomonoff" après le dérapage de la vidéo 7.
twitter.com/L_badikho/status/920298023346896898
7:15 équations normales ?
sérieux les gars !
imgur.com/wkWuywo
Désolé mais je me sentais obligé d'en faire un gif.
Théorème Central Limite RPZ
Merci pour les vidéos vraiment c'est super ☺️ mais tu parles trop trop trop vite ... Pour comprendre il faut écouter encore et encore ...
j'ai rien compris mais c'est interessant
L'industrie à choisi les moindres carré pour calculer les élément de géométrie idéal associé à une surface réel et moi ça me va
c'est parceque X-OR c'est le cherif de l'espace... ^^ ok je xor....
Supervvideo
Un truc XOR ? C'est corrigé avec un réseau de neurones : playground.tensorflow.org
J'ai tué XOR ! XD
La bonne réponse est l'inaction, selon toi, et non la oindre action selon les physiciens classiques...
Aaaah ce Pierre Simon Laplace, décidément...
Features... Labels... Raah ça me perd continuellement dans l'épisode xD
ca y est tu m as perdu depuis l episode 8.... domage l'IA est un sujet pasionant, mais la ca devient des math, c'est plus de la vulgarisation comme ton episode 1 qui etait genial...
Lol commentaire 2 alors qu'en faite y'en a 4
Je comprends plus rien à cause des anglissicismes à la con style "labels" et cie.
J'ai pas envie de retourner voir à chaque épisode les vieiles vidéos pour avoir les définitions en tête donc je vais m'arrêter là.
Bonne continuation!
je vais un peu cracher dans la soupe du deeplearning et des reseaux convolutifs............ vu ton age tu n'a s pas connu......
y a 20 ans est ne un truc qui mettait les statistiques au rencard, ca s'appelait datamining.........
( bon saporta a quand meme ecrit un article ' le datamining, une autre facon de faire des statistiques?', mais ca c'est pour les vieux qui n'ont rien compris)
a la poubelle, la theorie des sondages, les probabilites, le modele lineaire, gourierous et monfort, makidakis, saporta, maddala et tous ces trucs de vieux cons!!!!!!! on a l'algorithme miracle qui calcule toutes les correlations sur tout dans les bases de donnees, sait tout, et decouvre tout............
' find a needle in a haystack', c'etait le leitmotiv................
on a vu comme ca a ete utilise, et ce que ca a donne
je rigole! 20 ans plus tard, je remplace ' reseau de neurones' par ' deeplearning ( dont personne ne sait que c'est des ann), et le discours n'a pas bouge d'un iota
j'attend patiemment 5 ans, parce que autant ca peut etre utile, autant certains qui ont rate des marches dans la montee vont vite redescendre lors d'utilisations a mauvais escient! je suis pret a lever les paris ;-)
il suffit de lire certains sites/blogs et autres fait par des phd en deeplearning pour se dire que mine de rien, y a des trucs qui manquent!............ wait and see, l'experience forme la jeunesse
bonne soiree
first !
First
desolé mais c'etait moi ;)