Bonjour question qui na rien avoir avec la video , mais je n’arrive a trouver personne qui arrive me repondre …. Est ce que la dimension des vecteur q,v,k (dans le modele transformer) doit etre la meme que la dimesion du vecteur d’incorporation?
Bonjour! Non, les vecteurs q,k,v n'ont pas forcément la même dimension que le vecteur d'embedding/incorporation. Ce qui est vrai par contre, c'est que le vecteur en sortie de chaque couche du Transformer a lui la même dimension que le vecteur d'embedding (d_model dans le papier) Dans le papier original du Transformer, la dimension de q,k,v est notée d_k, et vaut d_k = d_model/8. (donc pas égal). La dimension est ramenée à d_model via une couche standard fully connected.
@@alexandretl merci beacoup pour cette precision ,je profite du fait que tu es mentionné les 8 têtes d’attention pour rebondir sur un truc que j’ai vraiment du mal à cerné. C’est le fait de diviser la matrice Q en plusieurs sous ensembles pour chaque tête. Deja on ne divise pas l’embeding , mais uniquement les vecteurs q,k ?
Ensuite par exemple pour Q si par exemple ma phrase d’entrée est « binjour le monde » Et que la matrice Q serait [ 1 0 1 0] [ 1 0 1 0] [ 1 1 0 0] Dans le cas ou jai 2 tête Est ce que. Q1 =[ 1 0 ] [ 1 0 ] [ 1 1] Et Q2=[ 1 0] [1 0] [ 0 0]. ?
Je sais c’est pas tres clair c’est unpeu difficile d’ecpliquer mon problème sur dans un espace commentaire, mais c’est juste pour savoir si mon intuition est bonne
Bonjour question qui na rien avoir avec la video , mais je n’arrive a trouver personne qui arrive me repondre ….
Est ce que la dimension des vecteur q,v,k (dans le modele transformer) doit etre la meme que la dimesion du vecteur d’incorporation?
Bonjour!
Non, les vecteurs q,k,v n'ont pas forcément la même dimension que le vecteur d'embedding/incorporation.
Ce qui est vrai par contre, c'est que le vecteur en sortie de chaque couche du Transformer a lui la même dimension que le vecteur d'embedding (d_model dans le papier)
Dans le papier original du Transformer, la dimension de q,k,v est notée d_k, et vaut d_k = d_model/8. (donc pas égal).
La dimension est ramenée à d_model via une couche standard fully connected.
@@alexandretl merci beacoup pour cette precision ,je profite du fait que tu es mentionné les 8 têtes d’attention pour rebondir sur un truc que j’ai vraiment du mal à cerné.
C’est le fait de diviser la matrice Q en plusieurs sous ensembles pour chaque tête.
Deja on ne divise pas l’embeding , mais uniquement les vecteurs q,k ?
Ensuite par exemple pour Q si par exemple ma phrase d’entrée est « binjour le monde »
Et que la matrice Q serait [ 1 0 1 0]
[ 1 0 1 0]
[ 1 1 0 0]
Dans le cas ou jai 2 tête
Est ce que. Q1 =[ 1 0 ]
[ 1 0 ]
[ 1 1]
Et Q2=[ 1 0]
[1 0]
[ 0 0]. ?
Je sais c’est pas tres clair c’est unpeu difficile d’ecpliquer mon problème sur dans un espace commentaire, mais c’est juste pour savoir si mon intuition est bonne
@@redone7696je penses que l’exemple que y’a donner avec les matrices est juste .mais Alexandre tl te le confirmera