Comment entraîner un modèle avec la descente de gradient ? | Réseaux de neurones 8

Поділитися
Вставка
  • Опубліковано 20 гру 2024

КОМЕНТАРІ • 9

  • @redone7696
    @redone7696 Рік тому

    Bonjour question qui na rien avoir avec la video , mais je n’arrive a trouver personne qui arrive me repondre ….
    Est ce que la dimension des vecteur q,v,k (dans le modele transformer) doit etre la meme que la dimesion du vecteur d’incorporation?

    • @alexandretl
      @alexandretl  Рік тому

      Bonjour!
      Non, les vecteurs q,k,v n'ont pas forcément la même dimension que le vecteur d'embedding/incorporation.
      Ce qui est vrai par contre, c'est que le vecteur en sortie de chaque couche du Transformer a lui la même dimension que le vecteur d'embedding (d_model dans le papier)
      Dans le papier original du Transformer, la dimension de q,k,v est notée d_k, et vaut d_k = d_model/8. (donc pas égal).
      La dimension est ramenée à d_model via une couche standard fully connected.

    • @redone7696
      @redone7696 Рік тому

      @@alexandretl merci beacoup pour cette precision ,je profite du fait que tu es mentionné les 8 têtes d’attention pour rebondir sur un truc que j’ai vraiment du mal à cerné.
      C’est le fait de diviser la matrice Q en plusieurs sous ensembles pour chaque tête.
      Deja on ne divise pas l’embeding , mais uniquement les vecteurs q,k ?

    • @redone7696
      @redone7696 Рік тому

      Ensuite par exemple pour Q si par exemple ma phrase d’entrée est « binjour le monde »
      Et que la matrice Q serait [ 1 0 1 0]
      [ 1 0 1 0]
      [ 1 1 0 0]
      Dans le cas ou jai 2 tête
      Est ce que. Q1 =[ 1 0 ]
      [ 1 0 ]
      [ 1 1]
      Et Q2=[ 1 0]
      [1 0]
      [ 0 0]. ?

    • @redone7696
      @redone7696 Рік тому

      Je sais c’est pas tres clair c’est unpeu difficile d’ecpliquer mon problème sur dans un espace commentaire, mais c’est juste pour savoir si mon intuition est bonne

    • @linaben2617
      @linaben2617 Рік тому

      @@redone7696je penses que l’exemple que y’a donner avec les matrices est juste .mais Alexandre tl te le confirmera