Merci pour la vidéo. Très bonne explication du DDPM. Par contre il manque une explication sur le conditionnement: classifier (free) guidance et cross attention entre autre pour expliquer un algo comme stable diffusion (je crois que midjourney est similaire).
C'est un avis purement personnel mais la diffusion ne parait pas satisfaisante comme solution pour échantillonner. Je trouve ça pas très intuitif que ajouter un type précis de bruit (gaussien en l’occurrence) puisse produire des échantillons de la vraie distribution. A priori n'importe quel type de distribution pourrait fonctionner et même certainement certaines seraient bien plus adaptées pour les images par exemple. Par contre j'ai bien compris que la raison pour laquelle on utilise une gaussienne est que ça à de belles propriétés mathématiques et permet une optimization de l'entraînement. Pour ces raisons les GANs me paraissent plus généraux et satisfaisant, à part pour leur côté difficile à entraîner.
Je crois que tu as une erreur vers 13:47. Tu dis que pour optimiser Lsimple, le réseau prédit le bruit pour passer de t-1 à t. C'est plus le bruit rajouté pour passer de x0 à xt (donc de 0 à t). Tu le vois peut être mieux dans l'ago d'entrainement, quand tu samples expsilon, tu l'appliques bien sur x0 et pas sur x_{t-1}.
C'est une bonne remarque, les deux sont correcte sans préciser mathématique de quoi on parle exactement. Dans l'algo d'entrainement le bruit prédit est en effet celui samplé pour passer de 0 a t mais il est en revanche utilisé pour calculer x_t-1 sachant x_t
Merci, très clair !
Trop bien, de la vulga mais un peu dans les maths quand même, j'adore.
Merci
Est ce qu'il a un lien avec les modèles de prédictions de séries temporelles ? Et si non quels sont les meilleurs modèles pour cela ?
Pas directement non, voir mes videos sur les LSTM/RNN
@@ThibaultNeveu D'accord merci pour la réponse
✊🏴☠
Merci pour la vidéo. Très bonne explication du DDPM. Par contre il manque une explication sur le conditionnement: classifier (free) guidance et cross attention entre autre pour expliquer un algo comme stable diffusion (je crois que midjourney est similaire).
La suite est dans ma longue liste de TODO haha !
Merci !
Très intéressant. Par contre à quel moment et de quelle manière le prompt est il utilisé pour guider le processus de debruitage ?
Ce sera le sujet d'une prochaine vidéo ☺️
C'est un avis purement personnel mais la diffusion ne parait pas satisfaisante comme solution pour échantillonner. Je trouve ça pas très intuitif que ajouter un type précis de bruit (gaussien en l’occurrence) puisse produire des échantillons de la vraie distribution. A priori n'importe quel type de distribution pourrait fonctionner et même certainement certaines seraient bien plus adaptées pour les images par exemple. Par contre j'ai bien compris que la raison pour laquelle on utilise une gaussienne est que ça à de belles propriétés mathématiques et permet une optimization de l'entraînement. Pour ces raisons les GANs me paraissent plus généraux et satisfaisant, à part pour leur côté difficile à entraîner.
J'adorees ces videos de vulgarisation de modeles connus et poussés ! J'espere en voir davantage :)
Merci a toi !
Merci beaucoup pour ta vidéo. Merci aussi pour les sources. STP continue à nous régaler ⚡👌👍👍
Je crois que tu as une erreur vers 13:47. Tu dis que pour optimiser Lsimple, le réseau prédit le bruit pour passer de t-1 à t.
C'est plus le bruit rajouté pour passer de x0 à xt (donc de 0 à t).
Tu le vois peut être mieux dans l'ago d'entrainement, quand tu samples expsilon, tu l'appliques bien sur x0 et pas sur x_{t-1}.
C'est une bonne remarque, les deux sont correcte sans préciser mathématique de quoi on parle exactement. Dans l'algo d'entrainement le bruit prédit est en effet celui samplé pour passer de 0 a t mais il est en revanche utilisé pour calculer x_t-1 sachant x_t
Superbe vidéo félicitation pour le travail de vulgarisation
Merci à toi 👍
Très clair , merci !