Génial, jolie conclusion en espérant que ça intéresse aussi des gens qui ne sont pas fan de kaamelott, je dois avouer que c’est uniquement pour ça que je l’ai regardé au départ.
Merci pour cette vidéo, ou comment apprendre des choses très sérieuses avec beaucoup de pédagogie au point que ce qui pouvait paraître rébarbatif pour des néophytes devient passionnant. Et bravo pour le gros travail derrière.
T’es incroyable BRAVO 💪🏻 j’t’ai découvert hier dans un épisode de stardust les states ça m’a jamais intéressé et j’découvre qu’en faite c’est hyper intéressant même si j’ pige pas tout mais statistiquement parlant y a peu de chance que tu connaisse farine de blé ( j’dirais ton opposé ) et pourtant j’trouve qu’il y a presque un liens voir plusieurs 🤣 la musique et la qualité des vidéos ça c’est sûr en tout cas super job que tu fais ça embellit encore le UA-cam français que je trouve de très bonne facture du haut de mon petit esprit de mécano auto 🙏🏻😘
@@Lebiostatisticien Je vais tester alors :D Pour les graphes à la fin, existe-il un algorithme de "fusion", ou unes sorte de moyenne glissante, pour qu'il y ai moins de cassure entre les graphes temporelles (i.e. intensifier / atténuer la couleur des liens au fur et a mesure que le temps avance selon les interactions des personnages) ?
Génial. Je comprends rien au stats (niveau bac S, pas fort en maths). Mais j'ai perçu le principe (J'ose pas dire que j'ai compris). Ca peut même être un outil de travail pour l'écriture : quelles interactions sont peu travaillées etc... génial !
@@adrienfaure784 oui on peut tout à fait le faire. Là d'ailleurs j'ai déjà pas mal lissé. J'en ai pas parlé dans la vidéo parce que ça alourdissait pas mal alors que la vidéo est déjà suffisamment compliquée
Pourriez vous donner des liens vers l'algorithme d'alignement de séquences ? Je m'étais cassé la tête sans succès pour chercher des noms dans une base de données, le soundex était trop grossier tandis que les comparaisons étaient difficiles. Par exemple Arthur en 1 et Artur en 2 va bien avec 1 comme référence mais pas l'inverse : d'une chaîne à l'autre on a un ajout ou un retrait ou les deux, et c'est là que je ne m'y retrouvais plus ne sachant plus comment faire évoluer les pointeurs sur les éléments de chaînes.. Merci pour la vidéo.
Bonjour, J'ai utilisé la fonction smith_waterman du package text.alignment cran.r-project.org/web/packages/text.alignment/vignettes/textalignment.html Pa page wikipedia explique bien comment l'algo fonctionne fr.wikipedia.org/wiki/Algorithme_de_Smith-Waterman
@@Lebiostatisticien Merci beaucoup. Je regardais Wiki et du coup BLAST annoncé comme ne menant pas à l'optimum mais plus rapide. C'est vrai que le problème des bases de données est trivial mais laisse songeur avec le nombre de comparaisons : j'ai environ 150,000 patients ce qui donne ces n patients x (n-1)/2 Si on a dans le fichier identité SCHMIDT, SCHMITT, SCHMITR, CHMITT etc, il faut repérer les doublons possibles, puis avec les prénoms, date de naissance, .. on peut extraire les cas suspects. Mais de tête, ça donne 11 milliards de comparaisons. Des programmes SGBD vont vite pour repérer ces doublons éventuels, tellement vite que même écrits en assembleur ça ne semble pas possible d'avoir un résultat en quelques dizaines de secondes. Maintenant évidemment ils peuvent aussi être très imparfaits.. Auriez vous une idée de l'algorithme qui serait utilisé ? Merci beaucoup pour le temps que vous prenez à répondre.
@@MBJanus JE ne comprends pas bien le problème que vous essayez de résoudre. Pour Blast, il est écrit pour gérer les séquences de nucléotide ou de protéines, et je crois qu'il ne marche pas sur du texte. Sinon niveau base de données c'est pas déconnant,. Nous au labo travail avec des trucs plus gros que ça. Après les programmes sont souvent écrit en C/C++ et optimisés pour tourner en parallèle. Mais ça va super vite, surtout si les séquences sont courtes. Parce que dans smith waterman on doit remplir une matrice aux dimensions sequences 1 sequences 2. donc si on a des petites séquences la matrice va super vite à remplir.
@@Lebiostatisticien Bien sûr ça n'a rien à voir avec des stats sauf un peu sur l'extraction de résultats, je suis psy mais mettons plutôt une base de données MCO qui va se remplir davantage. Un nommé Schmitt arrive aux urgences, il existe déjà dans la base sous Schmidt. Un programme bien fait va avant de créer Schmitt demander s'il n'y a pas confusion avec des quasi homonymes en les affichant avec leur prénom, etc.. presque toujours les données sont dans des bases SQL et je crois que le langage inclut un 'like' pour extraire ces patients qu'il ne faut pas doublonner. En pratique la recherche prend un temps infime. Aussi en routine les programmes DIM vont chercher les doublons par exemple annuellement. Il peut souvent manquer des valeurs décisives comme le numéro INSEE et sa clé aux urgences, ce qui va augmenter ce risque lors d'une création de patient. Ma question était donc plutôt si vous avez une idée du fonctionnement de ces 'like' ou apparentés dans les SGBD courants ?
Énorme cette vidéo! Elle comble la fan de Kaamelott que je suis et la curieuse de science. Je me suis régalée !
Très bonne vidéo. Merci pour ce compliment du début !
C'était gratos, ça m'a fait plaisir :D
(Et aussi parce que clairement les vidéos que tu fais sont chiadées de ouf)
Génial, jolie conclusion en espérant que ça intéresse aussi des gens qui ne sont pas fan de kaamelott, je dois avouer que c’est uniquement pour ça que je l’ai regardé au départ.
Avec une telle didactique, on espère voir un jour les formations de ta part (; Super vidéo
Merci pour cette vidéo, ou comment apprendre des choses très sérieuses avec beaucoup de pédagogie au point que ce qui pouvait paraître rébarbatif pour des néophytes devient passionnant. Et bravo pour le gros travail derrière.
Très agréable à vous suivre, merci
Félicitations pour le gros boulot de recueil de données derrière!👋
Ton métier est fou! Merci pour cette vidéo, et l'intro est cool même si tu as pas les moyens de Clement 😊. Le final est exceptionnel!
très très intelligent comme vidéo, sa sort du lot. Merci pour ce taf ^^
T’es incroyable BRAVO 💪🏻 j’t’ai découvert hier dans un épisode de stardust les states ça m’a jamais intéressé et j’découvre qu’en faite c’est hyper intéressant même si j’ pige pas tout mais statistiquement parlant y a peu de chance que tu connaisse farine de blé ( j’dirais ton opposé ) et pourtant j’trouve qu’il y a presque un liens voir plusieurs 🤣 la musique et la qualité des vidéos ça c’est sûr en tout cas super job que tu fais ça embellit encore le UA-cam français que je trouve de très bonne facture du haut de mon petit esprit de mécano auto 🙏🏻😘
Tu maîtrises tellement bien tes outils d'analyse que tu peux projeter ça dans d'autres domaines.
Palpitant.
Intéressant !
C'est excellent, vraiment très très intéressant !! Merci pour ce travail ! A montrer à Alexandre Astier ça !
C’est pas faux ! 😜
Merci Mathias pour m'avoir partagé cette vidéo ;)
Extrêmement intéressant, vraiment
T'as bien bossé, et t'as bien réussis :-)
Merci beaucoup 😁
Excellent épisode !
Super l’intro
J'adore !
Tres interressant, merci
Super vidéo :D Ca marche aussi pour Game of Thrones ?
absolument !
@@Lebiostatisticien Je vais tester alors :D
Pour les graphes à la fin, existe-il un algorithme de "fusion", ou unes sorte de moyenne glissante, pour qu'il y ai moins de cassure entre les graphes temporelles (i.e. intensifier / atténuer la couleur des liens au fur et a mesure que le temps avance selon les interactions des personnages) ?
Génial. Je comprends rien au stats (niveau bac S, pas fort en maths). Mais j'ai perçu le principe (J'ose pas dire que j'ai compris).
Ca peut même être un outil de travail pour l'écriture : quelles interactions sont peu travaillées etc... génial !
@@adrienfaure784 oui on peut tout à fait le faire. Là d'ailleurs j'ai déjà pas mal lissé. J'en ai pas parlé dans la vidéo parce que ça alourdissait pas mal alors que la vidéo est déjà suffisamment compliquée
@@Aucunlien Merci, ça fait infiniment plaisir comme commentaire :)
Mais c'est génial.
super vidéo bien explicative, de la bonne vulga
Pourriez vous donner des liens vers l'algorithme d'alignement de séquences ? Je m'étais cassé la tête sans succès pour chercher des noms dans une base de données, le soundex était trop grossier tandis que les comparaisons étaient difficiles. Par exemple Arthur en 1 et Artur en 2 va bien avec 1 comme référence mais pas l'inverse : d'une chaîne à l'autre on a un ajout ou un retrait ou les deux, et c'est là que je ne m'y retrouvais plus ne sachant plus comment faire évoluer les pointeurs sur les éléments de chaînes.. Merci pour la vidéo.
Bonjour,
J'ai utilisé la fonction smith_waterman du package text.alignment cran.r-project.org/web/packages/text.alignment/vignettes/textalignment.html
Pa page wikipedia explique bien comment l'algo fonctionne fr.wikipedia.org/wiki/Algorithme_de_Smith-Waterman
@@Lebiostatisticien Merci beaucoup. Je regardais Wiki et du coup BLAST annoncé comme ne menant pas à l'optimum mais plus rapide. C'est vrai que le problème des bases de données est trivial mais laisse songeur avec le nombre de comparaisons : j'ai environ 150,000 patients ce qui donne ces n patients x (n-1)/2
Si on a dans le fichier identité SCHMIDT, SCHMITT, SCHMITR, CHMITT etc, il faut repérer les doublons possibles, puis avec les prénoms, date de naissance, .. on peut extraire les cas suspects. Mais de tête, ça donne 11 milliards de comparaisons. Des programmes SGBD vont vite pour repérer ces doublons éventuels, tellement vite que même écrits en assembleur ça ne semble pas possible d'avoir un résultat en quelques dizaines de secondes.
Maintenant évidemment ils peuvent aussi être très imparfaits..
Auriez vous une idée de l'algorithme qui serait utilisé ?
Merci beaucoup pour le temps que vous prenez à répondre.
@@MBJanus JE ne comprends pas bien le problème que vous essayez de résoudre.
Pour Blast, il est écrit pour gérer les séquences de nucléotide ou de protéines, et je crois qu'il ne marche pas sur du texte.
Sinon niveau base de données c'est pas déconnant,. Nous au labo travail avec des trucs plus gros que ça. Après les programmes sont souvent écrit en C/C++ et optimisés pour tourner en parallèle. Mais ça va super vite, surtout si les séquences sont courtes. Parce que dans smith waterman on doit remplir une matrice aux dimensions sequences 1 sequences 2. donc si on a des petites séquences la matrice va super vite à remplir.
@@Lebiostatisticien Bien sûr ça n'a rien à voir avec des stats sauf un peu sur l'extraction de résultats, je suis psy mais mettons plutôt une base de données MCO qui va se remplir davantage. Un nommé Schmitt arrive aux urgences, il existe déjà dans la base sous Schmidt. Un programme bien fait va avant de créer Schmitt demander s'il n'y a pas confusion avec des quasi homonymes en les affichant avec leur prénom, etc.. presque toujours les données sont dans des bases SQL et je crois que le langage inclut un 'like' pour extraire ces patients qu'il ne faut pas doublonner. En pratique la recherche prend un temps infime. Aussi en routine les programmes DIM vont chercher les doublons par exemple annuellement. Il peut souvent manquer des valeurs décisives comme le numéro INSEE et sa clé aux urgences, ce qui va augmenter ce risque lors d'une création de patient. Ma question était donc plutôt si vous avez une idée du fonctionnement de ces 'like' ou apparentés dans les SGBD courants ?
Merci !
Non mais Biostatisticien, faut pas prendre ce qu’on dit au sérieux. Vous savez bien qu’on est des cons, nous. 😉
Magique
Génie ❤️
Cette conclusion !!
💚💚
Sinon la vidéo est bien, je crains qu'elle fasse parfois penser à l'épisode où on explique les règles d'un jeu..🙂
oh cette fin !
vous avez fait du théâtre ,non ?!
C'est possible. Et avec des gens très bien en plus ^^
Quel dommage, on ne peux appuyer qu une seule fois sur le pouce bleu!
ha ok, c'est des vidéos pour les biologistes, c'est pour ça que j'ai juste envie de répondre : "ouais c'est pas faux"