Enfin une mémoire à long terme pour l’IA : MAMBA, SSM, S4, S6 & Transformers
Вставка
- Опубліковано 30 чер 2024
- #mamba #transformer #rnnewsgujarat
Patreon : / membership
Dans cette vidéo j'explore le fonctionnement de Mamba et des SSM (S4, S6) et ce que cela signifie sur l'évolution des architectures et particulièrement de la mémorisation des informations comparé à un Transformers.
00:00 Introduction
01:00 Transformer
03:00 RNN
04:40 Transformer, RNN & CNN
08:30 SSM State Space Model, S4
21:15 Mamba, S6
31:06 Réflexions
Sources
- Mamba implementation github.com/state-spaces/mamba...
- Mamba: Linear-Time Sequence Modeling with Selective State Spaces arxiv.org/abs/2312.00752
- Efficiently Modeling Long Sequences with Structured State Spaces (S4) arxiv.org/pdf/2111.00396.pdf
- FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness arxiv.org/pdf/2205.14135.pdf
- Long range arena : arxiv.org/pdf/2011.04006.pdf
- Repeat After Me: Transformers are Better than State Space Models at Copying Transformers are Better than State Space Models at Copying arxiv.org/pdf/2402.01032.pdf
- Ring Attention with Blockwise Transformers for Near-Infinite Context arxiv.org/pdf/2310.01889.pdf
- RWKV: Reinventing RNNs for the Transformer Era arxiv.org/abs/2305.13048
[Chronique d'une IA]
Spotify : open.spotify.com/show/5yTTTKf...
Amazon music : music.amazon.fr/podcasts/5097...
Apple Podcasts: podcasts.apple.com/us/podcast...
[About me]
Visual Behavior : visualbehavior.ai
Perso : www.thibaultneveu.ai/
Github : github.com/thibo73800
Linkedin : / thibaultneveu
Twitter : / thiboneveu - Наука та технологія
Super vidéo, merci pour le travail fait pour l'IA dans le monde francophone. Finalement peut être que Attention Isn’t All You Need :-P
Merci de cette nouvelle vidéo. Les entreprises en sont toujours à découvrir et établir comment l'IA peut les aider à proposer de nouveaux services. On commence à avoir des propositions intéressantes. Cependant, toutes les entreprises n'ont pas besoin d'avoir la meilleure précision possible. Il y a plusieurs domaines d'applicabilités où le tradeoff coût - exactitude serait probablement acceptable (assurance, comptabilité, ....).
Bravo! Jamais vu des vidéo rentrant autant dans les détails, merci beaucoup ! C'est une bonne entrée en matière pour lire l'article !
Excellent.
Merci beaucoup pour cette vidéo, justement le sujet me travaille en ce moment.
Si on fait une analogie, quand on reçoit une question et un contexte d’où tirer notre information. On va commencer par lire le contexte, se faire une représentation du contenu, ça c'est la partie que Mamba fait extrêmement bien, mais par contre par la suite je vais aller rechercher l'information par ce que je sais à quel endroit j'ai lu et ajouté en mémoire une information pertinente, et là je vais aller chercher localement l'information.
Il me semble manquer donc une dimension de time-awereness à ce modèle, l'ajout de cette dimension aurait aussi pour bénéfice de permettre l'implémentation d'une mémoire sur laquelle on aurait le controle de manière similaire aux modèles Larimar (papier : Larimar: Large Language Models with Episodic Memory Control), idéalement il faudrait qu'il choisissent lui même de mettre en mémoire un de ses états car pertinent vis à vis de ce qui est attendu de lui pour répondre à une question, et je pense qu'à ce moment là on obtiendrait un modèle vraiment incroyable.
Donc je pense qu'une évolution pertinente de Mamba serait de pouvoir revoir les parties les plus pertinentes de la séquence d'après lui, comme le ferait un humain et même si cela réduirait les performances légèrement ce n'est rien comparé aux gains apportés
Je pense faire quelques expériences sur ça cette semaine, si jamais tu as des idées je suis preneur
Yes, exactement, la combinatoire des deux approches va ouvrir un champ des possibles fascinant !
Heuresement qu'il existe thibault. Merci pour tes contenus
Super video, merci Thibault
Excellente vidéo encore une fois, tout est très clair, sauf peut être la partie sur le delta où j'ai un peu de mal à comprendre (la discrétisation des matrices A et B).
Corrigez moi si je me trompe mais il me semble qu'une propriété assez importante des Transformers et qui n'existe pas avec les autres architectures, c'est la capacité de "revenir en arrière" connaissant une nouvelle information. Si je comprends bien, il me semble que même Mamba nécessite que le modèle ait retenu toute l'information dans son state space pour être capable de sélectionner une information demandée par la suite. Avec la couche d'attention d'un transformer classique, les nouveaux tokens qui arrivent permettent en quelques sorte au modèle d'aller interroger les tokens précédents directement.
Après je ne pense pas que ça soit une si grande limitation, et il est plus important d'avoir un algorithme de complexité linéaire ou inférieure. Je verrais bien la réinterprétation de ces modèles LLMs en modèles agents pour résoudre ce problème avec les architectures autre que Transformer: on donnerait simplement au modèle la capacité de choisir si il faut ou non aller relire des passage précédents.
Oui ce point que tu cites " il me semble que même Mamba nécessite que le modèle ait retenu toute l'information dans son state space pour être capable de sélectionner une information [....] les tokens précédents directement." est reflété dans le tableau lorsque je dis que Mamba peut faire du raisonnement sélectif mais en théorie pas avec autant de précision qu'un Transformer, par contre avec un plus grand contexte et/ou une plus haute fréquence !
très intéressant
Merci pour la vidéo, vous avez des infos sur les xLSTM allemands ? J'en ai pas mal entendu parler il y a quelques mois mais les infos se font rares depuis
les videos plus longues stp les prochaines fois.
Intéressant ....mais faut vraiment arrêter avec le passage a l'échelle ! 😂
très brouillon, unplan au départ serait plutot pas mal. trop d'abréviations et une prononciation supre franglish ... à refaire car c'est domage avec le travail fait en amont;