Les réseaux de convolution (CNN) | Intelligence artificielle 47

Поділитися
Вставка
  • Опубліковано 26 січ 2025

КОМЕНТАРІ • 88

  • @nicholasbodart9979
    @nicholasbodart9979 4 роки тому +9

    Merci pour cette vidéo.
    Je découvre votre chaine, par hasard, en faisant un état de l'art. Et je trouve vos explications extrêmement clairs et fluides (et denses également).
    Merci encore une fois

  • @VeganCookies
    @VeganCookies 6 років тому +3

    Je viens de finir le livre de Stanislas Dehaene "La bosse des maths" et je confirme, ce que raconte cet homme est passionnant !

  • @wellan4072
    @wellan4072 6 років тому +1

    Oui oui et oui merci Lê pour ton travail, cette série est vraiment trop bien.

  • @dappermink
    @dappermink 6 років тому +1

    Combien de vidéos durera encore la série ? (si tu le sais seulement ^^) et referas-tu un vote (scrutin de condorcet) pour le sujet de la prochaine série ? :)

    • @Phantoharibo
      @Phantoharibo 6 років тому

      Pas de vote svp, les casuals qui ont voté en masse pour l'IA ne regardent même pas.

    • @dappermink
      @dappermink 6 років тому

      @@Phantoharibo C'est bien dommage en effet :c Je parle de vote uniquement parce que les autres sujets du votes me fascinent et que j'espère qu'il les fera aussi

  • @Lunard8128
    @Lunard8128 6 років тому +2

    6:56 Il me semble que prendre le maximum se comporte mieux par translation que la moyenne. C'est peut être ça qui fait mieux marcher les choses?

  • @hlb4590
    @hlb4590 6 років тому +2

    Sur le supériorité de max pooling sur average, c'était déjà le cas en pratique "avant", avec les sacs de mots visuels et les Fisher Vector. Les raisons n'en sont pas toujours claires mais il y a des indices dans certains cas. Basiquement, une statistique d'ordre telle que max peut être plus robustes à des bruits et ainsi mieux représenter certains invariants désirables par exemple. Ça doit être expliqué dans le chapitre 6 du livre de Goodfelow, dans la partie concernant le pooling.

  • @quarkneutre2890
    @quarkneutre2890 6 років тому +20

    J'ai crut que le chien crachait du feu.

    • @Yarflam
      @Yarflam 6 років тому +7

      Non ce n'est pas un chien, il ne faut pas mélanger identité de race et identité de créature ... c'est un dragon (enfin je crois) !! :D

  • @obchardon
    @obchardon 6 років тому +2

    Hello, merci beaucoup pour cette série de vidéo, géniale ! Intuitivement je dirais qu'un "max pooling" aurait plus tendance à conserver les éléments très distinctif de l'image et donc à être plus discriminent.

  • @PatriceFERLET
    @PatriceFERLET 6 років тому +1

    Faut vraiment que tu parles des autoencodeurs. C'est très utile, notamment dans les techniques d'OCR.

  • @TheNightsWatchHels
    @TheNightsWatchHels 6 років тому +5

    - Mais Lê pourquoi tu pars avec une cuillère ?
    - t'inquiètes pas j'ai une idée !

  • @baruchGuido
    @baruchGuido 4 роки тому +1

    Bonjour, j'ai du mal à comprendre concrètement comment se traduit "l'architecture pré-programmée pour l'invariance par translation des images". Est-ce que par exemple cela veut dire qu'en présentant au réseau une image A de face et une image B légèrement de côté du même objet, un CNN n'aura aucune difficulté à "voir" que les objets sont les même?

  • @antaresd1
    @antaresd1 4 роки тому +1

    Man what an amazing video, you solved all my doubts thank you very much! Luckily I speak french, but I think you should put some english subtitles, that can help a lot des personnes non francophones

  • @thth1236
    @thth1236 4 роки тому

    5:46 De mon avis, le cerveau humain ne traite pas toutes les zones de la rétine de la même manière, l'image au sens où on l'entend est au centre sur une toute petite zone, et autour où l'on voit moins bien il se passe d'autres sortes de traitement de l'image, pour pallier à ça l’œil suit presque automatiquement un objet pour le replacer au centre alors que l'intelligence artificielle à l'air de couvrir toute l'image de la même manière

  • @castoramanwab2723
    @castoramanwab2723 6 років тому

    Tu tombe pile sur le contenu de mon cours, j'ai un CNN à implémenter avec tensorflow pour demain en Computer Vision!

  • @robotronik2371
    @robotronik2371 2 роки тому

    Bonjour Mr s'il vous plaît je voudrais comprendre concrètement comment model de réseau de neurones apprend ou quoi l'apprentissage pour un model consiste?

  • @noezufferey5782
    @noezufferey5782 6 років тому

    Ce qui m'impressionne le plus c'est à quel point le chat c'est imposé comme exemple type d'image à reconnaître. On le retrouve dans tous les cours à l'université, dans toutes les chroniques de vulgarisations sur internet. Je crois vraiment que les informaticiens vouent un culte énorme à cet animal.

    • @cedricholocher7570
      @cedricholocher7570 6 років тому

      Rejoint l'église de la Sainte felinite sacrée

    • @noezufferey5782
      @noezufferey5782 6 років тому

      C'est ce que j'ai du faire le jour où je me suis inscrit en computer science à l'université. Personne ne m'aurait accepté dans le cas contraire.

  • @dad-d
    @dad-d 6 років тому +2

    Merci pour la vidéo ! Petite question, Est-ce-que les réseaux de neurones sont sensibles aux illusions d'optique. (je pense notamment au célèbre lapin canard).

  • @anubis00210
    @anubis00210 6 років тому +1

    Ça me fait penser, le nombre de neurones permettant d'analyser une image dépend du nombre de données (que ça soit un nombre de pixels pour des intelligences artificielles ou un nombre de points discernables d'images dépendant de l'acuité visuelle d'un organisme voyant). Donc si, par un moyen transhumaniste, on arrivait à augmenter notre acuité visuelle, on aurait plus de données à traiter, et du coup potentiellement on n'arriverait pas à traiter toutes ces données. En fait, chercher à avoir 100 ou 1000 dixièmes d'acuité visuelle par exemple pourrait être inutile, voire même dangereux, car on ne saurait pas comment le cerveau s'y adapterait.

    • @cedricholocher7570
      @cedricholocher7570 6 років тому

      Étant donné le cerveau humain il est très probable qu'il se contenterais de rajouter une couche sus-mentionnée simple voire stupide : rien qu'un "flou" de l'image permettrait de reobtenir une image de taille raisonnable
      Le cortex visuel doit être l'un des meilleurs pour compresser l'information vu son travail

  • @tens8534
    @tens8534 6 років тому

    Pour calculer la matrice de convolution, on sélectionne le premier neurone aléatoirement ? ou y'a t-il un facteur dans le choix de ce neurone (hétérogénéité des données issues des neurones d’observation) pour déterminer la matrice de convolution qu'ensuite on appliquera comme poids à chaque neurone de la même couche ?

  • @sibamarcel9428
    @sibamarcel9428 6 років тому

    Je voulais acheter votre livre. Mais je n´en trouve pas en Allemagne. Pouvez vous me guider s´il vous plait

  • @martineclerc7501
    @martineclerc7501 6 років тому +5

    Super video juste une question la serie ira jusqu a combien de video ?

  • @stephanevernede8107
    @stephanevernede8107 6 років тому

    Si les réseaux récurent sont adaptés au problèmes avec une symétrie de translation temporelle et les réseaux convolutif sont adapté au problèmes avec un symétrie de translation spatiale quelle est l'architecture adaptée pour les problèmes avec des invariance d'échelle (par exemple reconnaitre des formes géométrique quelque soit leur taille ) ?

  • @theoi3921
    @theoi3921 6 років тому

    Est-ce qu'on peut estimer la quantité de calcul qu'exige une image d'une autre?
    Savoir quelle puissance de calcul il faut pour l'analyser?

  • @ivanchosse7707
    @ivanchosse7707 5 років тому

    bonjour! avez vous un lien de famille avec Eric Nguyen?

  • @choupinette841
    @choupinette841 5 років тому

    Super comme vidéo, merci beaucoup.

  • @NEBREUELPHFTARRRR
    @NEBREUELPHFTARRRR 6 років тому

    je me demande si lorsque les ia auront une conscience certaines d'entre elles auront des personnalités multiples et est-ce souhaitable ?

  • @fringzproduction4802
    @fringzproduction4802 4 роки тому

    Excellente vidéo, merci !

  • @thomaslabro9418
    @thomaslabro9418 6 років тому

    Salut, je me demandais si ton site en français était encore accessible car j'ai un message d'erreur " error establishing a data base connection" lorsque j'essaye d'y aller. D'ailleurs si n'importe qui a une réponse je suis preneur. Merci d'avance.

  • @meerkatj9363
    @meerkatj9363 6 років тому

    Je pense qu'il y a une erreur sur le pooling (ou j'ai peut-être mal compris) j'ai compris que tu disais que le pooling se fait en faisant la moyenne ou le max sur les filtres pour chaque pixel de sortie de la convolution alors que le pooling est fait sur des pixels proches dans l'image, pas sur les différents filtres. Du coup si on a une image 28x28 qu'on passe avec 8 filtres de convolutions 4x4 on obtient 8 images 24x24 is en suite on fait un pooling 2x2 on obtient 8 images de 12x12.

  • @NRichard
    @NRichard 6 років тому +4

    Quand est-ce que tu fais une petite réduc sur ton livre ?! :D

  • @thomasbrisson2085
    @thomasbrisson2085 6 років тому

    Salut ! Quelque chose m’intrigue : j’ai l’impression que l’apprentissage de ce réseau sera impossible... comment faire apprendre au réseau à la fois les filtres à utiliser (matrices de convolutions) et les poids synaptiques du réseau de neurone qui analyse les données en sortie des filtres ?
    J’ai l’intuition qu’il y a « trop de degrés de liberté » (2 au lieu d’un en gros) pour faire un apprentissage efficace.
    Si je n’ai pas été assez clair, c’est comme s’il y avait deux fonctions dans un réseau à convolution :
    - L’une est de savoir de quelle manière filtrer les images
    - l’autre de quelle manière analyser la sortie de ces filtres pour en déduire une structure.
    Mais j’ai l’impression qu’un apprentissage efficace de l’une de ces fonctions nécessite que l’autre fonction soit déjà performante !
    Si quelqu’un voit ce que je veux dire et est capable de m’éclairer j’en serai ravi merci !

    • @cedricholocher7570
      @cedricholocher7570 6 років тому

      Vu que c'est moins libre qu'un réseau de neurones "normal" ça doit pas être si énorme
      Bref a relativiser

  • @maximed9957
    @maximed9957 6 років тому

    Sinon ça revient à un traitement en parallèle de chaque partie de l’image ?
    Pourtant il me semble qu’il y a plusieurs étapes lors de la visualisation d’une image : une vision globale de l’image où très rapidement l’œil est « attiré » successivement par plusieurs sous parties de l’image (fonctions de l’éclairage, contrastes...) pour ensuite reconsidérer l’image dans son ensemble avec reconstruction par le cerveau avec les détails précédemment analysés.. existe-t-il un fonctionnement similaire en IA ? Gain de temps avec une plus faible quantité de données à traiter ?

    • @optizognons802
      @optizognons802 6 років тому +1

      Certaines personnes fonctionnent dans l'autre sens : elles voient les détails avant d'avoir une vision globale (Comme beaucoup d'animaux). Je ne retrouve plus le terme associé, si quelqu'un le connait ou peut le retrouver je suis preneur. ;-)

    • @maximed9957
      @maximed9957 6 років тому

      R VE je suis d’accord avec toi je me suis mal exprimé. Je crois qu’en analysant la direction du regard de personnes regardant un tableau montrait que les gens regardaient la plupart du temps le tableau de la même manière : en regardant très rapidement de manière une zone précise pendant une fraction de seconde puis une autre ainsi de suite puis seulement regarder le tableau dans son ensemble.
      Je parlais de vision globale en premier parce qu’il faut bien voir l’ensemble avant que le regard s’accroche sur une zone précise.... je sais pas si je me fais bien comprendre... 🙄

    • @ApiolJoe
      @ApiolJoe 6 років тому +1

      Cela me fait penser aux "attention mechanisms" en IA. Cela permet à l'IA de toujours voir l'image globable, mais de porter son attention sur différentes zones de l'image en priorité puis en séquence pour en extraire les données.
      Il va peut-être en parler plus tard, cela semble être un des derniers "hot topics" dans le domaine à ma connaissance. Je ne suis pas expert du domaine, loin de là, et je ne crois pas trop à ces systèmes sur le long terme (apparemment ça aurait commencé à donner de meilleurs résultats que le LSTM pour l'analyse du language. Mais d'après ma maigre compréhension j'ai l'impression que "l'attention learning" demande beaucoup plus de calculs que LSTM. LSTM est tellement élégant d'ailleurs, j'ai beaucoup de mal à croire que ça ne reviendra pas sur le devant de la scène après une ou deux innovations bien senties :D)

    • @hlb4590
      @hlb4590 6 років тому

      Dans les années 90, il a été montré (Simon Thorpe...) qu'il une partie de la sémantique d'une image est déterminée en moins de temps que ce qui est nécessaire pour effectuer le moindre saccade visuelle. Par exemple, sur s'il y a un animal dans deux images simultanément en moins de 30ms. Ou dire du une image est un paysage naturel ou construit par les hommes (ville...). Donc, non, explorer les détails n'est pas forcément nécessaire pour comprendre une image dans une certaine mesure.

    • @Yarflam
      @Yarflam 6 років тому +1

      ​@@ApiolJoe Ça n'a pas l'air d'être incompatible : ua-cam.com/video/QuvRWevJMZ4/v-deo.html :) après tout, ce qu'un animal réalise le mieux c'est la détection de mouvement, c'est ce qui déclenche l'attention, une activation intense des neurones et parfois même ça provoque un réflexe physionomique. Il passe d'une phase détection, analyse de la provenance, mise en exergue des éléments, calcul de corrélations, applications d'une procédure d'urgence si l'élément n'est pas correctement identifié / trouble etc. C'est fascinant comme fonctionnalité. :)

  • @bosonde-geek5297
    @bosonde-geek5297 6 років тому

    hey merci de m'avoir répondu ;)

  • @jeanpeuplu3862
    @jeanpeuplu3862 3 роки тому

    Merci beaucoup !

  • @ominium8386
    @ominium8386 6 років тому

    Quand on est un dirigeant, la tendance est de ne pas se préoccuper du niveau "moyen" de ceux qu'on dirige mais des meilleurs. On a là le même schéma que préférer pondérer une zone avec la valeur max qu'avec la moyenne. L'angleterre n'avait qu'une poignée de talents artistiques et scientifiques alors que la france en avait 10, 20 fois plus, mais c'est shakespeare qu'on retient au niveau du monde. Un pays avec 10000 poètes est considéré ne rien connaitre à la poésie, un pays avec 2 poètes très célèbres est considéré comme très bon. Là la nature humaine nous montre ses failles et à quel point on se méprend sur le monde; on trouve des tombes riches et des archéologues en déduisent que la civilisation( donc tout le monde) était riche.
    On est attiré par le brillant ou le très sombre, le commun est jeté.
    Le classique Qualité vs Quantité, mais c'est aussi la rareté qui fait le danger; un lien avec l'évolution ?

    • @cedricholocher7570
      @cedricholocher7570 6 років тому

      Certainement très beau et philosophique... Juste pour les poètes Shakespeare est juste plus connu parce qu'il y a plus d'anglophones je pense.
      De même on peut dire l'inverse : Shakespeare est le seul poète potable anglais et tout le monde le connaît, alors que des poètes de même niveau en français sont moins connus car plus nombreux...
      Bref les extrêmes ne sont pas représentatifs de la société, mais ils le sont pour les images

  • @ade8803
    @ade8803 6 років тому

    Héhé 🤖
    Quel beau cadeau

  • @thomasbrisson2085
    @thomasbrisson2085 6 років тому

    Pour la question du max pooling, je pense qu’une moyenne glissante brouille une image :
    La moyenne glissante de :
    [8 8 8 8 0 0 0]
    sur une période de 3 est (arrondie à l’unité) :
    [8 8 5 3 0]
    la transition qui était brutale dans la liste d’origine est douce une fois moyennée
    En revanche avec Max pooling on obtient :
    [8 8 8 8 0]
    Ici la transition est plus nette. Donc plus facile à remarquer pour une IA (plus discriminante).

    • @cedricholocher7570
      @cedricholocher7570 6 років тому +1

      Faudrait tenter avec le 90-99e centile ça éviterait, par exemple qu'un pixel mort change complètement le résultat

    • @thomasbrisson2085
      @thomasbrisson2085 6 років тому

      @@cedricholocher7570 Ah oui bien vu !! Mais alors il faut vraiment que l'image soit de bonne qualité (beaucoup de pixels) pour éviter que ce qui se trouve être un caractère distinctif important de l'image soit alors considéré comme un pixel mort.
      C'est génial parce qu'hier j'avais l'impression que nos IA n'aimaient pas les images de bonne qualité : pour l'homme, plus une image de chat est de bonne qualité, plus l lui est facile de le reconnaître alors que pour la machine j'avais l'impression que plus l'image était de bonne qualité et plus elle galérait (ce qui semble contre-intuitif et remet en cause les techniques que nous utilisons). Mais là grâce à cette méthode, la pratique rejoint l'intuition : je suis content.

  • @Palslayers
    @Palslayers 6 років тому

    Au delà de l'aspect "invariance par translation", partager les mêmes poids pour chaque couche synaptique permet de faciliter grandement le calcul parallèle sur GPU lors de la phase d'apprentissage du CNN ! Je suis d'ailleurs un peu déçu que tu ne parles pas de la phase d'apprentissage pour les CNN ou des différents types d'algorithmes de vision par ordinateur qu'on peut faire avec (classifier, détecteur, segmentation...) !

    • @sebydocky5080
      @sebydocky5080 6 років тому

      Dans des prochains épisodes surement ....

  • @SaRa-vq7mk
    @SaRa-vq7mk 3 роки тому

    merci

  • @dirackiumtai3999
    @dirackiumtai3999 6 років тому

    Super comme toujours ! J'ai lancé ma chaîne sur la physique et les math qu'en penses tu

  • @StfStar
    @StfStar 6 років тому

    Grandiose!

  • @SofiaBOUIZZOUL
    @SofiaBOUIZZOUL 23 дні тому

    C'est quoi ces explication sommaire ? on est supposé savoir ce qu'est un synapse ou champ récepteur etc ? ça n'explique rien ...

  • @valentinschmitt1434
    @valentinschmitt1434 6 років тому +1

    Arthur Cuillère

  •  Рік тому

    ❤❤❤❤❤

  • @Pradowpradow
    @Pradowpradow 6 років тому +1

    LeCun a la même tête que le mechant dans l'épisode de black mirror avec l'USS Calister :o hasard? Coincidence? je ne pense pas ...

  • @Nibirux974
    @Nibirux974 6 років тому +2

    prout out de riz de chinois mixé au soja

  • @bhromur
    @bhromur 6 років тому +2

    La cuillère n'existe pas !

    • @naonedtroll9144
      @naonedtroll9144 6 років тому

      c'est du Décartisme primaire! "Cogito ergo sum" : c'est juste par qu'on considère dans notre Matrix de pensé que la cuillère ne pence pas qu'elle n'existe pas. Mais on peux ce posé la question: est-ce que ce n'est pas parce que on pence qu'elle ne pence pas qu'on ne sait pas l'écouter? ... la cuillère?

  • @leonel-thierrykst3051
    @leonel-thierrykst3051 6 років тому

    cool

  • @jercki72
    @jercki72 6 років тому

    wait for it

  • @Raysenel
    @Raysenel 6 років тому

    C'est pas complètement con ce lien entre neurones artificiels et biologiques... Pas particulièrement parce que le cerveau ne serait qu'une machine à calculer, mais parce que l'Homme en vient souvent à "copier" ce qui se fait déjà dans la nature.

    • @ApiolJoe
      @ApiolJoe 6 років тому +2

      Est-ce vraiment une copie, ou est-ce que les propriétés émergentes des systèmes qui fonctionnent sont simplement proches des propriétés émergentes des systèmes naturels?
      En posant la question autrement: est-ce qu'à force d'améliorer nos systèmes fonctionnels, on ne serait pas tout simplement forcé de retrouver des mimiques de plus en plus proches des systèmes naturels? Car la meilleure manière de résoudre un problème est dictée par le problème non par la personne qui souhaite le résoudre, on serait voué à retrouver les systèmes naturels, adaptés à nos limitations technologiques.
      Tout ça pour dire qu'effectivement, je suis d'accord avec toi, ce parallèle n'est pas si con, car étudier des systèmes dont les propriétés émergentes permettent de résoudre des problèmes que la nature sait résoudre, cela peut nous donner des idées de ces propriétés émergentes dont les systèmes naturels profitent justement.

    • @Raysenel
      @Raysenel 6 років тому +1

      @@ApiolJoe
      C'est exactement ça et c'est la raison pour laquelle j'ai mis des guillemets à mon "copier". Rien qu'en robotique, filière très proche des IAs, il me semble qu'on retrouve des schémas similaires aux corps de nos espèces animales, squelettes, tendons, muscles en particulier. Pareil pour les avions qui sont, au final, très similaires à des oiseaux sur bien des points avec des gouvernails, ossature creuse.... (Bon, là il y a aussi pas mal d'inspiration qui joue sans doute).
      Au final, on voit régulièrement des sortes de convergences évolutives quand on créer quelque chose, la différence majeure étant qu'on parle de convergence quand la solution aux problèmes est amenée par des processus évolutifs, alors que dans le cas d'une IA, il s'agirait plutôt d'une création humaine.

    • @cedricholocher7570
      @cedricholocher7570 6 років тому

      La nature n'est pas si bonne que ça a créer des systèmes efficaces pour nous autres humains.
      Elle est par contre une bonne inspiratrice vague (avions, hydrophobie, RN...)

  • @antoninperonnet6138
    @antoninperonnet6138 6 років тому

    👍👍👍

  • @shelivsbaxters
    @shelivsbaxters 6 років тому

    La cuillere n existe pas ...

  • @vinyard13
    @vinyard13 6 років тому

    rien compris.

  • @maximed9957
    @maximed9957 6 років тому +1

    Après V1 V2 V3 V4 je m’attendais à ...
    V5.... toi aussi ?! :)

    • @Raysenel
      @Raysenel 6 років тому +5

      Non, je m'attendais à V = -1/12 :

    • @maximed9957
      @maximed9957 6 років тому +2

      Nevenoe infiniment d’accord 😉

    • @Palslayers
      @Palslayers 6 років тому

      @@maximed9957 Non, pas d'accord ! La supersommation linéaire, régulière et stable des entiers naturels est interdite, cf sa vidéo hardcore #3 :) (bon ok je suis pointilleux là...)

  • @zrmsraggot
    @zrmsraggot 6 років тому

    Hotdog no Hotdog